Économisez du temps et de l'argent en choisissant les VM N2 de la plateforme Google Cloud équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération et d'un moteur de requête Photon Databricks

Databricks

  • Les VM N2 avec Photon activé ont exécuté les requêtes de base de données d'aide à la décision jusqu'à 3,6 fois plus rapidement que les instances N2 sans Photon.

  • L'exécution de bases de données d'aide à la décision sur des instances de VM N2 sans Photon coûte jusqu'à 2,3 fois plus cher que sur des VM N2 avec Photon.

author-image

Par

Utilisez Photon pour maximiser les performances des bases de données d'aide à la décision sur les VM N2-Highmem-8 équipées de processeurs Intel® Xeon® Scalable

Pour les organisations qui stockent, accèdent à et analysent de grandes quantités de données structurées et non structurées, la plateforme Lakehouse de Databricks offre une combinaison unique de fonctionnalités d'entreposage de données et de lacs de données. La plateforme comprend également Photon, un moteur de requête vectorisé conçu pour accélérer les performances des requêtes SQL. D'après un résumé de Databricks, les avantages de Photon comprennent :

  • « Prend en charge les opérations SQL et DataFrame équivalentes aux tables Delta et Parquet.
  • Devrait accélérer les requêtes qui traitent une quantité importante de données (plus de 100 Go) et comprend des agrégations et des jonctions.
  • Meilleures performances lors d'un accès répété aux données depuis le cache Delta.
  • Performances d'analyse plus robustes sur les tables qui contiennent de nombreuses colonnes et sur de nombreux fichiers de petite taille.
  • Écriture Delta et Parquet plus rapide à l'aide d'instructions UPDATE, DELETE, MERGE INTO, INSERT et CREATE TABLE AS SELECT, notamment sur les tables larges (de centaines ou de milliers de colonnes).
  • Remplace les jonctions sort-merge par des hash-joins1. »

Les requêtes plus rapides se traduisent par de moindres délais d'obtention des informations commerciales et par une durée de disponibilité moins élevée des VM à payer. Pour tester Photon sur les VM N2 de la plateforme Google Cloud (GCP), nous avons utilisé un banc d'essai d'aide à la décision, qui a mesuré les performances d'entreposage des données en exécutant un nombre défini de requêtes et en enregistrant la durée nécessaire à leur exécution. Lorsque nous avons comparé les performances des VM n2-highmem-8 avec Photon équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération à celles des mêmes VM sans Photon, nous avons constaté que les VM N2 avec Photon exécutaient les requêtes en moins de temps sur les ensembles de données de 1 To et 10 To, tout en réduisant les coûts dans les deux cas.

Accélérer les délais d'obtention d'informations avec Photon

Pour déterminer comment Photon pouvait améliorer les performances des requêtes, nous avons testé des VM n2-highmem-8 à huit vCPU avec et sans Photon. La Figure 1 montre comment le cluster N2 avec Photon a exécuté un ensemble de données de 1 To 3,3 fois plus vite que le même cluster sans Photon, et a exécuté un ensemble de données de 10 To 3,6 fois plus vite.

Figure 1. Durée de traitement relative pour exécuter les requêtes du banc d'essai d'aide à la décision avec et sans Photon sur des VM GCP n2-highmem-8 et sur des ensembles de données de 1 To et 10 To.

Activez Photon pour bénéficier d'une meilleure valeur

Alors que l'amélioration des performances se traduit parfois par un prix plus élevé, nous avons constaté que les durées de traitement plus rapides qu'offre Photon se traduisent par de moindres coûts de disponibilité des VM. La Figure 2 montre que, par rapport au cluster de VM N2 avec Photon, le cluster sans Photon coûte 2,1 fois plus cher lors de l'analyse d'un ensemble de données de 1 To et 2,3 fois plus cher lors de l'analyse d'un ensemble de données de 10 To.

Figure 2. Prix/performances normalisés pour exécuter une charge de travail d'aide à la décision par rapport à un environnement Databricks sur des VM GCP n2-highmem-8 et sur des ensembles de données de 1 To et de 10 To.

Conclusion

Si votre organisation prend en charge des bases de données de prise de décision avec Databricks, le moteur de requête Photon sur les VM GCP n2-highmem-8 peut réduire les délais d'exécution des requêtes et offrir une meilleure valeur. Avec Photon, ces VM à huit vCPU ont exécuté une charge de travail de bases de données d'aide à la décision jusqu'à 3,6 fois plus vite que celles sans Photon. Ces améliorations de performances ont permis d'obtenir une meilleure valeur, les VM N2 sans Photon coûtant jusqu'à 2,3 fois plus cher que leurs homologues équipées de Photon. Pour bénéficier de meilleures performances et d'économies de coûts, choisissez des VM GCP N2 équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération avec Photon.

Plus d'infos

Pour commencer à exécuter vos clusters Databricks avec Photon sur des VM GCP N2 équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération, consultez https://cloud.google.com/compute/docs/general-purpose-machines.

Tests effectués par Intel en mars 2021 sur GCP us-central1 (Iowa). Toutes les configurations : 21 instances (20 travailleurs + 1 maître), instances N2-highmem-8 avec CPU Intel Cascade Lake, 08 vCPU, 128 Go de RAM, 25 Gbit/s, unité SSD distante de 500 Go + unité SSD locale de 0,75 To, 240-1200/240-1200 (L/E de l'unité SSD distante) 9360/4680 (L/E de l'unité SSD locale) Ubuntu 20.04.3 LTS kernel 5.4.170+, Databricks 10.3. Configuration Spark : spark.databricks.passthrough.enabled vrai, spark.databricks.adaptive.autoOptimizeShuffle.enabled vrai, spark.databricks.io.cache.maxMetaDataCache 10 g, spark.databricks.io.cache.maxDiskUsage 100 g, spark.databricks.delta.preview.enabled vrai. Coût total des clusters par exécution en mars 2022 : 1 To avec Photon : 6,44 USD ; 10 To avec Photon : 33,11 USD, 1 To sans Photon : 13,95 USD, 10 To sans Photon : 78,10 USD.