Multipliez jusqu'à 4,96 fois le travail d'inférence de BERT-Large en choisissant des instances AWS M6i équipées de processeurs Intel® Xeon® Scalable de 3ᵉ génération.

BERT-Large :

  • Obtenez jusqu'à 4,96 fois plus de travail d'inférence BERT-Large (précision INT8) avec les instances 32-vCPU m6i.8xlarge dotées de processeurs Intel® Xeon® Scalable de 3ᵉ génération par rapport à la précision FP32 avec les instances m6g.8xlarge.

  • Obtenez jusqu'à 3,07 fois plus de travail d'inférence BERT-Large (précision INT8) avec les instances 64-vCPU m6i.16xlarge dotées de processeurs Intel® Xeon® Scalable de 3ᵉ génération par rapport à la précision FP32 avec les instances m6g.16xlarge.

author-image

Par

Les instances M6i ont effectué plus de travail d'inférence que les instances M6g équipées de processeurs AWS Graviton2

Les charges de travail d'inférence de machine learning en langage naturel sont à la base des chatbots et d'autres applications commerciales. Ces charges de travail analysant le texte saisi par les clients et d'autres utilisateurs, elles peuvent solliciter fortement les ressources informatiques. Il est donc important de choisir des instances Cloud qui offrent des performances élevées.

BERT-Large est un modèle de traitement du langage naturel (NLP, Natural Language Processing) à usage général que nous avons choisi pour mesurer les performances de deux types d'instances Cloud Amazon Web Services (AWS) EC2. Nous avons testé deux tailles d'instances M6i avec des processeurs Intel® Xeon® Scalable de 3e génération et des instances M6g avec des processeurs AWS Graviton2. Nous avons constaté que les instances M6i 32-vCPU et 64-vCPU équipées de processeurs Intel Xeon Scalable de 3e génération ont obtenu de meilleurs résultats que leurs homologues M6g. Nos résultats montrent que les entreprises peuvent offrir une expérience plus rapide à leurs utilisateurs en optant pour des instances M6i. En outre, au moment de la publication, alors que les machines virtuelles série M6i coûtent 24,6 % de plus que les machines virtuelles série M6g, les instances M6i, dont le débit est jusqu'à 4,96 fois plus élevé, offrent des performances nettement supérieures par dollar.

Instances M6i avec 32 vCPU

Pour comparer les performances d'inférence BERT-Large sur les deux séries d'instances AWS, nous avons utilisé la structure TensorFlow. Nous avons testé deux niveaux de précision : FP32, que les deux séries de VM prennent en charge, et INT8, que seule la série M6i prend en charge avec les modèles que nous avons utilisés1,2. Comme le montre la Figure 1, les instances m6i.8xlarge de 32-vCPU utilisant la précision INT8 ont fourni des performances 4,96 fois supérieures à celles des instances m6g.8xlarge utilisant la précision FP32.

Figure 1. Les performances d'inférence de BERT-Large sont obtenues par un cluster d'instances m6i.8xlarge avec des processeurs Intel Xeon Scalable de 3e génération et par un cluster d'instances m6g.8xlarge avec des processeurs AWS Graviton2. Le plus haut est le mieux.

Instances M6i avec 64 vCPU

Comme le montre la Figure 2, les instances m6i.16xlarge 64-vCPU avec processeurs Intel Xeon Scalable de 3e génération utilisant la précision INT8 ont fourni des performances 3,07 fois supérieures à celles des instances m6g.16xlarge avec des processeurs AWS Graviton2 utilisant la précision FP32. Remarque : le modèle BERT-Large que nous avons utilisé pour les processeurs AWS Graviton2 ne prend pas en charge INT8 sur TensorFlow.

Figure 2. Les performances d'inférence de BERT-Large sont obtenues par un cluster d'instances m6i.16xlarge avec processeurs Intel Xeon Scalable de 3e génération et par un cluster d'instances m6g.16xlarge avec des processeurs AWS Graviton2. Le plus haut est le mieux.

Conclusion

Nous avons testé les performances d'inférence NLP BERT-Large de deux séries d'instances AWS : des instances M6i équipées de processeurs Intel Xeon Scalable de 3e génération et des instances M6g équipées de processeurs AWS Graviton2. À deux tailles différentes, les instances M6i ont surpassé les instances M6g, réalisant jusqu'à 4,96 fois plus de travail d'inférence. Pour offrir une expérience plus rapide à vos clients et à d'autres utilisateurs, exécutez vos charges de travail d'inférence NLP sur des instances AWS M6i équipées de processeurs Intel Xeon Scalable de 3e génération.

Plus d'infos

Pour commencer à exécuter vos charges de travail d'inférence NLP sur des instances AWS M6i équipées de processeurs Intel Xeon Scalable de 3e génération, visitez https://aws.amazon.com/ec2/instance-types/m6i/.

Tests de machines virtuelles uniques par Intel le 10/11/2021 et le 01/12/2021. Toutes les VM configurées avec Ubuntu 20.04 LTS, 5.11.0-1022-aws, stockage EBS, GCC = 8.4.0, Python = 3.6.9, tensorflow = 2.5.0, Docker = 20.10.7, containerd = 1.5.5, modèle BERT, taille de lot 1, longueur de séquence 384, FP32 et précision INT8. Détails des instances : m6i.8xlarge, 32-vCPU, processeur Intel® Xeon® Platinum 8375C à 2,90 GHz, 128 Go de mémoire DDR4 totale ; m6g.8xlarge, 32-vCPU, ARM Neovers N1, Arm v8.2 à 2,5 GHz, 128 Go de mémoire DDR4 totale ; m6i.16xlarge, 64-vCPU, processeur Intel® Xeon® Platinum 8375C à 2,90 GHz, 256 Go de mémoire DDR4 totale ; m6g.16xlarge, 64-vCPU, ARM Neovers N1, Arm v8.2 à 2,5 GHz, 256 Go de mémoire DDR4 totale.