Exécutez des requêtes Databricks jusqu'à 76 % en moins de temps et réduisez les coûts avec les instances Amazon® R5d dotées de processeurs évolutifs Intel® Xeon® de 2e génération

Databricks :

  • Exécutez des requêtes d'aide à la décision jusqu'à 76 % de temps en moins avec les instances r5d.2xlarge dotées de processeurs évolutifs Intel Xeon de 2e génération avec Photon activé.

  • Dépensez jusqu'à 51 % de moins pour exécuter des requêtes d'aide à la décision avec les instances r5d.2xlarge dotées de processeurs évolutifs Intel Xeon de 2e génération avec Photon activé.

author-image

Par

Avec l'activation du moteur de requête vectoriel Photon, ces instances ont considérablement surpassé les instances r5a.2xlarge dotées de processeurs AMD EPYC™ sur les charges de travail d'aide à la décision et ont fourni une meilleure valeur

De nombreuses organisations s'appuient sur la plateforme Lakehouse de Databricks pour stocker et analyser des données, structurées et non structurées. Pour exécuter rapidement vos requêtes d'aide à la décision, il est important de sélectionner des instances cloud soutenues par un matériel puissant. Mais déterminer quelles instances répondent à ce critère peut-être un défi.

Nous avons effectué des tests pour aider les entreprises qui recherchent des instances cloud pour leurs charges de travail d'aide à la décision. Plus précisément, nous avons examiné la série d'instances AWS : les instances R5d activées par les processeurs évolutifs Intel® Xeon® de 2e génération et les instances R5a avec les processeurs AMD EPYC. Nous avons créé des clusters Databricks Runtime 9.0 de ces deux types d'instances pour exécuter une charge de travail d'aide à la décision. Sur le cluster R5d, nous avons utilisé des machines virtuelles qui activaient un moteur de requête vectorisé appelé Photon conçu pour améliorer les performances des requêtes SQL. Au moment de ce test, le moteur Photon de Databricks n'est pas compatible avec les instances R5a.

Les instances R5d ont terminé les charges de travail d'aide à la décision en moins de temps

Nous avons testé les deux instances AWS avec un banc d'essai d'aide à la décision qui génère un score inférieur est meilleur qui reflète le temps nécessaire pour exécuter un ensemble donné de requêtes. La sélection d'une instance qui prend moins de temps peut aider votre entreprise de deux manières : premièrement, en obtenant des informations précieuses plus tôt et deuxièmement, en réduisant la disponibilité de l'instance et les coûts associés, ce qui peut vous aider à dépenser moins. Comme le montre la figure 1, les instances r5d.2xlarge avec des processeurs évolutifs Intel Xeon de 2e génération et Photon ont permis de terminer les requêtes sur un ensemble de données de 1 To en 74 % moins de temps que les instances r5a.2xlarge avec des processeurs AMD EPYC. Avec un ensemble de données de 10 To, le temps d'exécution des requêtes du cluster r5d.2xlarge était 76 % plus court que celui du cluster r5a.2xlarge.

Figure 1. Temps de traitement relatif pour terminer un ensemble de requêtes de référence sur un cluster d'instances r5d.2xlarge compatible Photon avec des processeurs évolutifs Intel Xeon de 2e génération et un cluster r5a.2xlarge avec des processeurs AMD EPYC sur des ensembles de données de 1 To et 10 To.

Comment des délais de requête plus courts peuvent contribuer à votre rentabilité.

Comme c'est le cas pour toute ressource dans laquelle votre entreprise investit, l'obtention d'un bon rapport qualité-prix est une priorité. Nous avons calculé combien il en coûterait à une entreprise pour réaliser les scénarios de test dont nous avons parlé à la page précédente. Nous avons utilisé le prix par heure pour chaque instance, stockage et DBU Databricks au moment des tests ainsi que les heures de la figure 1 pour déterminer le prix par To pour les quatre scénarios. Comme montre la figure 2, une entreprise dépenserait beaucoup moins si elle exécutait des charges de travail d'aide à la décision sur des instances r5d.2xlarge compatibles Photon. Pour l'ensemble de données de 1 To, le cluster r5d.2xlarge activé par les processeurs évolutifs Intel® Xeon® de 2e génération pourrait offrir un rapport prix/performances inférieur de 46 % à celui du cluster r5a.2xlarge avec les processeurs AMD EPYC. Pour l'ensemble de données de 10 To, le cluster r5d.2xlarge compatible Photon réduirait les coûts prix/performances de 51 %.

Figure 2 Prix/performances normalisés pour exécuter une charge de travail d'aide à la décision dans un environnement Databricks sur des instances Amazon r5d.2xlarge compatibles Photon par rapport aux instances r5a.2xlarge sur des ensembles de données de 1 To et 10 To.

Conclusion

Nous avons mesuré le temps nécessaire pour effectuer un ensemble de requêtes Databricks pour deux tailles d'ensemble de données différentes sur des instances AWS r5d.2xlarge compatibles Photon avec des processeurs évolutifs Intel Xeon de 2e génération et des instances r5a.2xlarge avec des processeurs AMD EPYC. Les instances r5d.2xlarge ont complété des ensembles de requêtes en un temps jusqu'à 76 % inférieur. Lorsque nous avons combiné ces temps avec la tarification horaire des deux instances, nous avons constaté que les instances r5d.2xlarge coûtaient considérablement moins cher pour exécuter la même quantité de travail, soit une économie pouvant atteindre 51 %. Si votre entreprise souhaite obtenir des informations exploitables plus tôt et réduire les dépenses sur les instances AWS, choisissez les instances r5d.2xlarge compatibles Photon dotées de processeurs évolutifs Intel Xeon de 2e génération.

En savoir plus

Pour commencer à exécuter vos clusters Databricks sur des instances Amazon R5d compatibles Photon avec des processeurs évolutifs Intel Xeon de 2e génération, visitez https://aws.amazon.com/quickstart/architecture/databricks/.

Pour en savoir plus sur le moteur de requête vectoriel photon de Databricks, visitez https://databricks.com/product/photon et https://docs.databricks.com/runtime/photon.html.

Pour tous les résultats de ce rapport, nous avons utilisé une charge de travail d'aide à la décision dérivée de TPC-DS. Tous les tests ont été effectués en décembre 2021 sur la région AWS us-east-1. Tous les tests ont utilisé des clusters de 20 nœuds avec Ubuntu 18.04.1, noyau version 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Les deux types d'instance avaient 8 vCPU et 64 Go de RAM. Le r5d.2xlarge avait un SSD NVMe de 300 Go, un réseau BW de 10 Gbps et un stockage BW de 4 750 Mbps. Les instances r5a.2xlarge avaient un volume EBS de 250 Go, 10 Gbps Network BW et 2 880 Mbps Storage BW.