Effectuez des requêtes Databricks en moins de temps et bénéficiez d'une meilleure valeur avec les VM Google Cloud Platform n2-highmem-8 équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération

Databricks

  • Réduisez jusqu'à 3,3 fois la durée d'exécution des charges de travail d'aide à la décision avec des VM Photon et N2 équipées de processeurs Intel par rapport aux VM N2D équipées de processeurs AMD.

  • L'exécution de bases de données d'aide à la décision sur des VM N2D équipées de processeurs AMD coûte jusqu'à 80 % plus que celle d'instances de VM N2 équipées de processeurs Intel avec Photon activé.

author-image

Par

Avec le moteur de requête Photon activé, ces VM équipées de processeurs Intel® Xeon® Scalable ont surpassé les VM n2d-highmem-8 équipées de processeurs AMD EPYC™

Plus les requêtes d'analyse de données sont traitées rapidement, plus vite vous pouvez obtenir des données pertinentes pour prendre des décisions essentielles à l'entreprise. En combinant des fonctionnalités d'entreposage de données et de lac de données, la plateforme Lakehouse de Databricks permet aux entreprises de stocker et d'analyser des données structurées et non structurées. Photon, une fonctionnalité de la plateforme Lakehouse, est un moteur de requête vectorisé qui peut accélérer les performances des requêtes SQL. D'après un résumé de Databricks, les autres avantages de Photon comprennent :

  • « Prend en charge les opérations SQL et DataFrame équivalentes aux tables Delta et Parquet.
  • Devrait accélérer les requêtes qui traitent une quantité importante de données (plus de 100 Go) et comprend des agrégations et des jonctions.
  • Meilleures performances lors d'un accès répété aux données depuis le cache Delta.
  • Performances d'analyse plus robustes sur les tables qui contiennent de nombreuses colonnes et sur de nombreux fichiers de petite taille.
  • Écriture Delta et Parquet plus rapide à l'aide d'instructions UPDATE, DELETE, MERGE INTO, INSERT et CREATE TABLE AS SELECT, notamment sur les tables larges (de centaines ou de milliers de colonnes).
  • Remplace les jonctions sort-merge par des hash-joins1. »

Nous avons testé deux types de VM Google Cloud Platform (GCP) : des VM n2-highmem-8 équipées de processeurs Intel Xeon de 2e génération avec Photon activé, et des VM n2d-highmem-8 équipées de processeurs AMD EPYC de 2e génération. Photon n'était pas disponible pour les VM N2D. Pour mesurer les performances d'entreposage de données, nous avons exécuté un banc d'essai d'aide à la décision qui enregistrait la durée nécessaire pour traiter un nombre déterminé de requêtes. Les résultats ont indiqué que les VM N2 avec Photon réduisaient la durée d'exécution d'ensembles de données de 1 To et de 10 To, ce qui signifie également que les VM N2 offraient une meilleure valeur.

Requêtes traitées plus rapidement = accès plus rapide aux informations

Nous avons exécuté le banc d'essai d'aide à la décision sur huit vCPU n2-highmem-8 avec Photon, avec un ensemble de données de 1 To et un ensemble de données de 10 To, et nous avons suivi la même procédure avec des VM de huit vCPU n2d-highmem-8. Comme le montre la Figure 1, le cluster de VM N2 équipées de processeurs Intel® Xeon® Scalable et de Photon a traité les requêtes 3,1 fois plus rapidement que le cluster N2D sur un ensemble de données de 1 To; sur un ensemble de données de 10 To, il a traité les requêtes 3,3 fois plus rapidement que le cluster N2D.

Figure 1. Durée de traitement relative de l'exécution des requêtes de banc d'essai d'aide à la décision sur les VM n2-highmem-8 GCP et les VM n2d-highmem-8 sur des ensembles de données de 1 To et de 10 To.

Moins de temps d'activité nécessaire aux VM = plus d'économies de coûts

Votre entreprise peut bénéficier de l'amélioration des performances des charges de travail d'aide à la décision, mais la valeur est une autre considération importante. En utilisant le prix horaire des VM au moment des tests et la durée d'exécution de chaque ensemble de données, nous avons calculé le prix par To de chaque cluster sur les deux ensembles de données. La Figure 2 montre que l'exécution des charges de travail Databricks sur des VM N2 a offert une meilleure valeur que sur les VM N2D avec les deux tailles d'ensembles de données. Pour l'ensemble de données de 1 To, les VM n2d-highmem-8 équipées de processeurs AMD EPYC coûtent 70 % de plus que les VM n2-highmem-8 équipées de processeurs Intel® Xeon® Scalable. De même, le traitement d'un ensemble de données de 10 To coûte 80 % de plus sur les VM n2d-highmem-8 que sur les VM n2-highmem-8.

Figure 2 Prix/performance normalisés pour exécuter une charge de travail d'aide à la décision par rapport à un environnement Databricks sur des VM n2-highmem-8 GCP et des VM n2d-highmem-8 sur des ensembles de données de 1 To et de 10 To.

Conclusion

Soutenues par des processeurs Intel Xeon de 2e génération, les VM n2-highmem-8 GCP équipées du moteur de requête Photon ont traité les charges de travail d'aide à la décision jusqu'à 3,3 fois plus rapidement que les VM n2d-highmem-8. Elles obtenaient non seulement de meilleures performances, mais offraient également une meilleure valeur, car le traitement des requêtes d'ensembles de données coûte jusqu'à 80 % plus cher sur les VM n2d-highmem-8. Pour permettre à votre entreprise de réaliser des économies et d'obtenir rapidement les informations dont vous avez besoin pour prendre des décisions éclairées, choisissez des VM n2-highmem-8 équipées de processeurs Intel® Xeon® Scalable de 2e génération et de Photon.

En savoir plus

Pour commencer à exécuter vos clusters Databricks avec Photon sur des VM N2 GCP équipées de processeurs Intel® Xeon® Scalable de 2e génération, consultez https://cloud.google.com/compute/docs/general-purpose-machines.

Tests réalisés par Intel en mars 2021 sur les VM Intel et en mars 2022 sur les VM AMD; tous les deux sur GCP us-central1 (Iowa). Toutes les configurations : 21 instances (20 travailleurs + 1 maître), 8 vCPU, 128 Go
de RAM, 25 Gbit/s, unité SSD distante de 500 Go + unité SSD locale de 0,75 To, 240-1200/240-1200 (L/É de l'unité SSD distante) 9360/4680 (L/É de l'unité SSD locale), Ubuntu 20.04.3, noyau LTS 5.4.170+, Databricks 10.3. Configuration Spark :
spark.databricks.passthrough.enabled vrai, spark.databricks. adaptive.autoOptimizeShuffle.enabled vrai, spark.databricks.io.cache.maxMetaDataCache 10 g, spark.databricks.io.cache.maxDiskUsage 100 g, spark.databricks.delta.preview.enabled vrai. N2-highmem-8 : processeur Intel Cascade Lake. N2d-highmem-8 : processeur AMD Rome. Coût total des clusters par exécution en mars 2022 : avec Photon 1 To
Intel : 6,44 USD; avec Photon 10 To: 33,11 USD; sans Photon 1 To AMD : 11,17 USD; sans Photon 10 To AMD : 61,53 USD.

Infos sur le produit et ses performances

1Databricks, « Photon », consulté le 12 avril 2022, https://docs.databricks.com/runtime/photon.html.