Exécutez vos requêtes Databricks en 38 % moins de temps et réduisez vos coûts jusqu'à 30 % en choisissant des VM Microsoft® Azure® Edsv4 équipées de processeurs évolutifs Intel® Xeon® de 2e génération

Databricks :

  • Exécutez des requêtes d'aide à la décision jusqu'à 38 % de temps en moins avec les machines virtuelles E8ds_v4 activées par les processeurs évolutifs Intel Xeon de 2e génération par rapport aux machines virtuelles L8s_v2 avec les processeurs AMD EPYC.

  • Dépensez jusqu'à 30 % de moins pour exécuter des requêtes d'aide à la décision avec les machines virtuelles E8ds_v4 activées par les processeurs évolutifs Intel Xeon de 2e génération par rapport aux machines virtuelles L8s_v2 avec les processeurs AMD EPYC.

author-image

Par

Avec le moteur de requête vectorisé de Photon activé, ces VM ont fourni des performances de charge de travail d'aide à la décision supérieures à celles des VM L8s_v2 optimisées pour le stockage et équipées de processeurs AMD EPYC™

Databricks et la plateforme Lakehouse de Databricks stockent et analysent les grands volumes de données structurées et non structurées que les organisations rassemblent. Si vous exécutez ces charges de travail dans le nuage, vous pouvez accélérer le temps nécessaire pour effectuer des requêtes en sélectionnant des instances basées sur du matériel performant. Des requêtes plus rapides signifient une mise en œuvre plus rapide des informations fournies.

Pour aider les entreprises à choisir des VM en nuage pour l'entreposage de données et l'aide à la décision, nous avons testé deux séries de VM Microsoft Azure bien adaptées à ce type de charges de travail : Les VM Edsv4 activées par les processeurs Intel® Xeon® Scalable de 2e génération et les VM Lsv2 optimisées pour le stockage avec les processeurs AMD EPYC. Nous avons testé une charge de travail d'aide à la décision sur des grappes de ces deux séries de VM activées par Databricks Runtime 9.0. Nous avons activé Photon, un moteur de requête vectorisé conçu pour améliorer les performances des requêtes SQL, sur les deux.

Les machines virtuelles Edsv4 équipées de processeurs Intel Xeon de 2e génération ont surpassé les machines virtuelles Lsv2 optimisées pour le stockage en complétant les requêtes plus rapidement. En outre, lorsque nous avons calculé le rapport prix/performance des deux séries sur cette charge de travail, nous avons constaté que les VM Edsv4 offraient également une meilleure valeur.

Profitez d'une performance plus rapide de l'entrepôt de données avec les VM Edsv4

Nos tests ont utilisé un benchmark d'aide à la décision basé sur TPC-DS, qui fournit une métrique "lower-is-better" qui reflète le temps nécessaire pour effectuer un ensemble donné de requêtes. Des délais plus courts permettent non seulement de mettre plus rapidement à la disposition des décideurs des informations exploitables, mais aussi de réaliser des économies en réduisant le temps de fonctionnement de la VM et les coûts associés. Comme le montre la figure 1, les VM E8ds_v4 équipées de processeurs Intel Xeon Scalable de 2e génération ont effectué des requêtes sur un ensemble de données de 1 To en 38 % moins de temps que les VM L8s_v2 équipées de processeurs AMD EPYC. Avec un ensemble de données de 10 To, le temps d'exécution des requêtes du cluster E8ds_v4 était 36 % plus court que celui du cluster L8s_v2.

Figure 1. Temps de traitement relatif pour effectuer un ensemble de requêtes de référence sur un cluster VM E8ds_v4 avec Photon et des processeurs évolutifs Intel Xeon de 2e génération et un cluster L8s_v2 avec des processeurs AMD EPYC sur des ensembles de données de 1 To et 10 To.

Un temps de recherche plus rapide se traduit par une meilleure valeur ajoutée

Lorsque vous recherchez les VM adaptées à vos charges de travail Databricks, le prix peut être un facteur important. Pour calculer le prix de la réalisation des scénarios de test que nous décrivons à la page précédente, nous avons commencé par le prix par heure pour chaque VM au moment du test. Nous avons utilisé ce taux et les temps de la figure 1 pour déterminer le prix par cycle de TB pour les quatre scénarios. Comme le montre la figure 2, nous pourrions exécuter des charges de travail d'aide à la décision sur les VM Edsv4, à un coût moindre pour une performance donnée. Pour l'ensemble de données de 1 To, le cluster E8ds_v4 activé par les processeurs évolutifs Intel® Xeon® de 2e génération offrait un rapport prix/performances 30 % inférieur à celui du cluster L8s_v2 optimisé pour le stockage avec les processeurs AMD EPYC. Pour le jeu de données de 10 To, le cluster E8ds_v4 a permis de réaliser des économies de 22 % en termes de prix et de performances.

Figure 2 Prix/performances normalisés pour l'exécution d'une charge de travail d'aide à la décision dans un environnement Databricks sur des VM Azure E8ds_v4 compatibles avec Photon par rapport à des VM L8s_v2 sur des ensembles de données de 1 et 10 To.

Conclusion

Nous avons étudié deux métriques - le temps nécessaire pour effectuer un ensemble de requêtes Databricks et le rapport prix/performances - pour deux tailles d'ensemble de données différentes sur des machines virtuelles Microsoft Azure E8ds_v4 dotées de processeurs évolutifs Intel Xeon de 2e génération et de machines virtuelles L8s_ v2 optimisées pour le stockage avec des processeurs AMD EPYC. Les VMs E8ds_v4 ont complété des ensembles de requêtes en un temps jusqu'à 38 % inférieur. Combinées à une tarification horaire, ces VM ont permis de réaliser des économies de l'ordre de 30 %. En sélectionnant des VM E8ds_v4 équipées de processeurs évolutifs Intel Xeon de 2e génération, votre organisation pourrait obtenir des informations plus tôt tout en dépensant moins

En savoir plus

Pour commencer à faire fonctionner vos clusters Databricks sur des VM Microsoft Azure Edsv4 compatibles avec Photon et dotées de processeurs évolutifs Intel Xeon de 2e génération, visitez le site https://docs.microsoft.com/en-us/azure/virtual-machines/edv4-edsv4-series.

Pour obtenir des détails complets sur les tests et les résultats montrant comment ces machines virtuelles équipées de processeurs évolutifs Intel Xeon de 2e génération se sont comportées par rapport aux machines virtuelles équipées de processeurs de génération précédente, lisez le rapport sur https://www.intel.com/content/www/us/en/partner /workload/microsoft/enhance-databricks-azure-vms-benchmark.html.