Exécutez vos requêtes Databricks dans un délai jusqu'à 71 % plus court et réduisez vos coûts : Sélectionnez les instances Amazon® R5d équipées de processeurs évolutifs Intel® Xeon® de 2e génération.

Databricks :

  • Exécutez des requêtes d'aide à la décision jusqu'à 71 % plus rapidement avec les instances r5d.2xlarge dotées de processeurs évolutifs Intel Xeon de 2e génération avec Photon activé.

  • Dépensez jusqu'à 33 % de moins pour exécuter des requêtes d'aide à la décision avec les instances r5d.2xlarge dotées de processeurs évolutifs Intel Xeon de 2e génération avec Photon activé.

author-image

Par

Avec l'Activation du Moteur de Requête Vectoriel Photon de Databricks, ces Instances ont Fourni des Performances Plus Rapides et une Meilleure Valeur que les Instances R6gd Potées de processeurs Amazon Graviton2 sur les Charges de Travail d'Aide à la Décision

L'architecture Lakehouse de Databrick permet aux organisations de stocker et d'analyser de grands volumes de données structurées et non structurées. Pour prendre de meilleures décisions plus tôt, il est judicieux de sélectionner des instances cloud capables de répondre rapidement aux requêtes, ce qui améliore la productivité et favorise une meilleure collaboration entre les ingénieurs de données, les analystes commerciaux et les scientifiques des données. Mais comment pouvez-vous savoir quelles instances peuvent vous donner cet avantage ?

Nous avons effectué une série de tests pour répondre à cette question. Pour les entreprises qui recherchent des instances cloud sur lesquelles exécuter leurs charges de travail d'entreposage de données/d'aide à la décision, nous avons testé deux séries d'instances AWS : les instances R5d activées par les processeurs évolutifs Intel® Xeon® de 2e génération et les instances R6gd activées par les processeurs Amazon Graviton2. Nous avons exécuté une charge de travail d'aide à la décision sur des clusters de ces deux types d'instance avec Databricks Runtime 9.0. Sur le cluster R5d, nous avons activé le moteur Photon de Databricks, conçu pour accélérer les performances des requêtes SQL. Au moment de ces tests, le moteur Photon de Databricks n'est pas pris en charge sur les instances R6gd.

Les instances R5d avec processeurs Intel® Xeon® de 2e génération et Photon activé ont terminé les requêtes en moins de temps que les instances R6gd. La sélection de ces instances peut fournir plus tôt des informations exploitables aux décideurs et réduire les coûts d'infrastructure.

Les Instances R5d Ont Eu Besoin d'une Fraction du Temps pour Exécuter les Requêtes

Pour comparer les performances des deux séries d'instances AWS, nous avons utilisé un banc d'essai qui mesure le temps nécessaire à chacune pour exécuter un ensemble de requêtes de base de données. Comme le montre la figure 1, les instances r5d.2xlarge avec les processeurs évolutifs Intel® Xeon® de 2e génération et Photon ont permis de terminer les requêtes sur un ensemble de données de 1 To en 71 % moins de temps que les instances r6gd.2xlarge avec les processeurs Amazon Graviton2 nécessaires. Avec un ensemble de données de 10 To, le temps d'exécution des requêtes du cluster r5d.2xlarge était 66 % plus court.

Cela signifie que les organisations qui cherchent à obtenir rapidement des informations à partir des données peuvent atteindre cet objectif en sélectionnant des instances Amazon R5d dotées de processeurs évolutifs Intel® Xeon® de 2e génération mis à jour.

Figure 1. Temps de traitement relatif pour effectuer un ensemble de requêtes de référence sur un cluster d'instances r5d.2xlarge compatible Photon avec des processeurs évolutifs Intel® Xeon® de 2e génération et un cluster r6gd.2xlarge avec des processeurs Amazon Graviton2 sur des ensembles de données de 1 To et 10 To.

Des Instances Plus Rapides Peuvent Faire Économiser de l'Argent à Votre Entreprise

Pour comprendre comment les différences de performances entre ces deux séries d'instances AWS influencent vos résultats, nous avons calculé le coût par téraoctet pour réaliser nos scénarios de test sur chacune. Nous avons utilisé les temps d'exécution relatifs des requêtes dans la figure 1 ainsi que le prix par heure pour chaque instance, stockage et DBU Databricks au moment du test. Comme le montre la figure 2, une entreprise peut exécuter des charges de travail d'aide à la décision sur des instances r5d.2xlarge compatibles Photon pour un coût considérablement inférieur. Pour l'ensemble de données de 1 To, une entreprise pourrait dépenser 23 % de moins pour un niveau de performances donné avec le cluster r5d.2xlarge compatible Photon activé par les processeurs évolutifs Intel® Xeon® de 2e génération qu'elle ne le ferait pour le cluster r6gd.2xlarge avec les processeurs Amazon Graviton2 Pour l'ensemble de données de 10 To, les réductions de coûts seraient de 33 %.

Figure 2 Prix/performances normalisés pour exécuter une charge de travail d'aide à la décision dans un environnement Databricks sur des instances Amazon r5d.2xlarge compatibles Photon par rapport aux instances r6gd.2xlarge sur des ensembles de données de 1 To et 10 To.

Conclusion

Nous avons effectué un ensemble de requêtes Databricks sur deux ensembles de données de tailles différentes sur deux instances AWS : les instances AWS r5d.2xlarge compatibles Photon avec des processeurs évolutifs Intel® Xeon® de 2e génération et les instances r6gd.2xlarge avec des processeurs Amazon Graviton2. Le r5d.2xlarge a nécessité jusqu'à 71 % moins de temps pour effectuer les charges de travail. En combinant ces temps avec la tarification horaire des deux instances, nous avons découvert que les instances r6gd.2xlarge coûtent jusqu'à 33 % de moins pour effectuer une quantité de travail fixe. En optant pour des instances r5d.2xlarge compatibles Photon dotées de processeurs évolutifs Intel® Xeon® de 2e génération, votre organisation peut obtenir des informations vitales plus rapidement tout en dépensant moins.

En savoir plus

Pour commencer à exécuter vos clusters Databricks sur des instances Amazon R5d compatibles Photon avec des processeurs évolutifs Intel Xeon de 2e génération, visitez https://aws.amazon.com/quickstart/architecture/databricks/. Pour en savoir plus sur le moteur de requête vectoriel photon de Databricks, visitez https://databricks.com/product/photon et https://docs.databricks.com/runtime/photon.html.

Pour tous les résultats de ce rapport, nous avons utilisé une charge de travail d'aide à la décision dérivée de TPC-DS. Tous les tests ont été effectués en décembre 2021 sur la région AWS us-east-1. Tous les tests ont utilisé des clusters de 20 nœuds avec Ubuntu 18.04.1, noyau version 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Les deux types d'instance avaient 8 vCPU et 64 Go de RAM. Le r5d.2xlarge Avait un SSD NVMe de 300 Go, un Réseau BW de 10 Gbps et un Stockage BW de 4 750 Mbps. Les instances r6gd.2xlarge disposaient d'un SSD NVMe de 474 Go, d'un débit réseau de 10 Gbps et d'un débit de stockage de 4 750.