TACC : recherche en ingénierie dans le domaine du calcul intensif

Les processeurs Intel® Xeon® Scalable de 2ᵉ génération et la mémoire persistante Intel® Optane™ DC accélèrent le traitement et la capacité de la mémoire.

En bref :

  • Le Texas Advanced Computing Center (TACC) conçoit et exploite certaines des ressources informatiques les plus puissantes du monde.

  • Le nouveau supercalculateur Frontera est équipé de processeurs Intel® Xeon® Scalable de 2ᵉ génération avec Intel® Deep Learning Boost (Intel® DL Boost) et la mémoire persistante Intel® Optane™ DC pour prendre en charge les applications TACC pilotées par les données et à forte intensité de données, ainsi que le machine learning et le deep learning.

author-image

Par

Synthèse

Le Texas Advanced Computing Center (TACC) réinvente en permanence les supercalculateurs à une échelle de plus en plus grande pour permettre des recherches de pointe et fournir les ressources dont les scientifiques ont besoin. Frontera, une grappe de 38,75 pétaFLOPS, qui a obtenu la cinquième place du Top500 de juin 2019,1 est son dernier système de calcul intensif comprenant près d'un demi-million de cœurs de processeurs Intel® Xeon® Scalable de deuxième génération à l'intérieur de serveurs Dell EMC PowerEdge*.

Défi

Le Texas Advanced Computing Center (TACC) est un établissement de renommée mondiale pour le calcul intensif, permettant de nouvelles découvertes dans toute une série de disciplines scientifiques et industrielles.

« Notre mission ici au Texas Advanced Computing Cente est de fournir de nouvelles capacités de calcul révolutionnaires pour permettre de nouveaux types de découvertes scientifiques et de nouveaux types de recherche en ingénierie », a déclaré le directeur exécutif du TACC, le Dr Dan Stanzione.

Déployé en 2017, le supercalculateur Stampede2 de TACC, intégrait les derniers processeurs Intel® Xeon® Scalable dans des serveurs Dell EMC PowerEdge. Conçu comme une machine polyvalente, Stampede2 soutiendra trois à quatre mille projets au cours de sa durée de vie. Cependant, tous les deux ou trois ans, le TACC examine les types de problèmes auxquels les chercheurs s'attaquent et les types d'architecture qui offriront le meilleur soutien à cette science. Certains de ces problèmes répondent aux "grands défis" de notre époque et nécessitent des calculs à grande échelle.

"Nous examinons les problèmes de contrôle des réacteurs à fusion", a commenté M. Stanzione en donnant un exemple du type de recherche à grande échelle qui nécessitera de nouveaux niveaux de performance en matière de calcul intensif. "Nous considérons la convection du manteau comme un problème global de la Terre, où vous voyez des simulations uniques sur toute la planète."

Une telle ampleur de problèmes nécessite une échelle de super calculateur différente de celle de Stampede2.

Vue d'ensemble du système matériel et logiciel Frontera.

Solution

Frontera est le tout nouveau supercalculateur du TACC, soutenu par une subvention de 60 millions de dollars de la Fondation nationale des sciences des États-Unis. Il contient un grand système principal qui fournira une performance de pointe de 38,71 pétaFLOPS, selon Stanzione. Le système principal est construit sur le processeur Intel® Xeon® Platinum de 2e génération avec 8 008 nœuds à double socket de 56 cœurs par nœud, interconnectés par l'architecture InfiniBand* à 100 Gbps. Ses 448 448 cœurs donnent au TACC plus de capacité de calcul et de mémoire que le centre n'en avait dans le passé.

En choisissant le dernier processeur de serveur Intel, Frontera offre :

  • Une fréquence d'horloge plus élevée que les systèmes précédents, permettant d'obtenir de meilleures performances monothread.
  • Plus de cœurs de processeur pour faire fonctionner un plus grand nombre de threads en même temps.
  • Une plus grande largeur de bande passante mémoire pouvant alimenter tous ces cœurs en données.

"Frontera aura une mission plus étroite que Stampede2", a expliqué Stanzione. "Au lieu de soutenir des milliers de projets, nous en aurons quelques centaines qui ont un besoin de calcul extraordinaire et une échelle de calcul massive. Cela permettra de résoudre les plus grands défis de l'écosystème scientifique. Nous effectuerons des calculs à une vitesse et à une échelle jamais atteintes auparavant ».

Frontera prendra également en charge de nouvelles technologies qui n'étaient pas disponibles auparavant, notamment Intel® Deep Learning Boost (Intel® DL Boost) ciblé pour les charges de travail de l'intelligence artificielle. Ces nouvelles technologies aideront les concepteurs de supercalculateurs TACC à mieux comprendre lesquels sont utiles aux chercheurs, de sorte que ces technologies pourront être intégrées dans la prochaine génération de machines TACC prévue pour 2025. L'une de ces technologies est la mémoire persistante Intel® Optane™ DC.

"La mémoire persistante Intel® Optane™ DC présente pour nous plusieurs caractéristiques uniques qui offrent des avantages par rapport à la mémoire traditionnelle et des avantages par rapport au stockage traditionnel", a commenté M. Stanzione. Il existe de nombreux cas d'utilisation potentiels intéressants, tels que les très, très grands nœuds de mémoire - plusieurs téraoctets par nœud - ou la simple tolérance aux pannes. Lorsqu'un serveur tombe en panne, nous pouvons conserver l'état de la mémoire et permettre au calcul de continuer à fonctionner, au lieu de devoir le redémarrer sur l'ensemble des 8 008 nœuds qui composent la machine ».

La mémoire persistante Intel® Optane™ DC présente pour nous plusieurs caractéristiques uniques qui sont avantageuses par rapport à la mémoire traditionnelle et par rapport au stockage traditionnel ».

— Le directeur exécutif du TACC, le Dr Dan Stanzione

Résultat

Les problèmes liés aux grands défis nécessitent une capacité de calcul massive.

"Ce sera un système remarquablement productif", a déclaré M. Stanzione. "Nous pensons qu'en termes de débit scientifique réel, nous obtiendrons trois ou quatre fois les performances de son prédécesseur."

Au-delà du modèle standard

Grâce à la découverte du boson de Higgs à l'aide du Grand collisionneur de hadrons (LHC) au CERN à Genève, en Suisse, la dernière pièce du modèle standard de physique a été mise en place. Aujourd'hui, les scientifiques du monde entier cherchent à dépasser le modèle standard pour mieux comprendre ce qui constitue la physique des particules de haute énergie. Le LHC, avec un de ses détecteurs appelé ATLAS (A Toroidal LHC ApparatuS), sera à nouveau au centre de leurs recherches. Le CERN prévoit de multiplier par dix le nombre de collisions du LHC dans les années à venir.

Le LHC nécessite une énorme capacité de calcul pour interpréter ses collisions. Les scientifiques du CERN ont effectué des travaux sur Stampede2. Maintenant que Frontera est opérationnel, le CERN aura un système beaucoup plus vaste à utiliser pour comprendre ce qui se passe à ces échelles subatomiques.

"Nous simulons la réponse du détecteur à un modèle physique donné", a déclaré Robert Gardner, professeur de recherche à l'Institut Enrico Fermi de l'Université de Chicago, qui co-dirige le groupe des installations de calcul distribué pour la collaboration américaine ATLAS.

Lorsque nous faisons l'analyse des données réelles, nous pouvons tracer certaines distributions telles que la masse des particules, le moment transversal ou l'"énergie manquante" dans la collision. Vous obtenez ainsi le nombre de candidats que nous avons pour les données brutes qui sortent du détecteur. Ensuite, nous les comparons à différents types de modèles et voyons si nous pouvons faire correspondre les distributions. Cela fournit des indices sur ce qui pourrait réellement se passer lors des collisions .»

De la fission nucléaire à l'énergie de fusion

Un autre domaine impliquant une collaboration scientifique mondiale est l'innovation de nouvelles ressources pour répondre aux besoins en énergie du monde. De la production d'énergie éolienne plus efficace à la recherche sur les batteries et à l'extraction d'hydrogène à partir de l'eau, la science tente de trouver des alternatives propres aux combustibles fossiles.

La fusion nucléaire - la fusion de noyaux pour libérer d’énormes quantités d’énergie, comme le fait le Soleil de la Terre - est considérée comme le Saint Graal de la production d’énergie, sans les inconvénients des réacteurs à fission d’aujourd’hui. En France, un tel réacteur - le réacteur thermonucléaire expérimental international (ITER) - est en cours de construction par un consortium de sept gouvernements. Prévu pour une date d'achèvement en 2025, il est conçu pour produire 20 à 25 fois plus d'énergie qu'il n'en utilise.

Un problème urgent pour les concepteurs est de pouvoir prévoir avec précision et fiabilité - et éviter - les perturbations à grande échelle. Mais pendant des années, les scientifiques se sont efforcés de faire correspondre les modèles et les simulations physiques avec la dynamique d'un vrai réacteur.

"Si vous essayez d'utiliser des méthodes théoriques conventionnelles, renforcées par le calcul haute performance, vous ne pourrez toujours pas faire de prédictions", a déclaré William Tang, physicien chercheur principal au Princeton Plasma Physics Laboratory, le laboratoire national du DOE américain pour les études sur la fusion. "Vous aviez besoin de l'impact des grandes analyses de données qui peuvent traiter beaucoup de données pertinentes pour les perturbations."

Tang et son équipe se sont tournés vers l'intelligence artificielle pour aider à résoudre le problème. L'équipe a développé le code FRNN (Fusion Recurrent Neural Net), déployant un deep learning pour de meilleures prédictions. Leur code peut prédire les événements de perturbation avec une précision de plus de 90 %, plus de 30 millisecondes avant l'événement déclencheur de la perturbation. Tang profitera des nouvelles ressources de deep learning Frontera pour poursuivre ses recherches avec le code FRNN et développer un système de contrôle qui puisse éviter les perturbations d'ITER.

Calcul pour les problèmes mondiaux

Parmi les autres défis nécessitant une échelle de calcul massive, citons l’utilisation de l’agriculture de précision et de la génomique pour nourrir la population mondiale croissante et l’innovation dans la combustion de charbon plus propre, qui reste une source d’énergie de premier plan.

"Nous avons besoin de systèmes comme Frontera pour répondre aux grandes questions de notre temps, telles que la durabilité de l'environnement et les énergies renouvelables", a déclaré le professeur Gardner. « Nous devons continuer à travailler sur la science des frontières et tout ce qui vient après, et nous ne pouvons pas le faire sans le calcul ».

Une vue entre deux rangées de serveurs Frontera dans le centre de données du TACC.

Synthèse de la solution

Frontera a été construit pour soutenir un nouveau calcul scientifique à une échelle bien plus grande que ce que le TACC pouvait faire auparavant. Construit sur des processeurs Intel® Xeon® Platinum de deuxième génération à l'intérieur de serveurs Dell EMC PowerEdge*, avec près d'un demi-million de cœurs, Frontera offrira une performance de pointe de 38,7 pétaFLOPS, selon le directeur exécutif du TACC, Dan Stanzione. Le nouveau supercalculateur permettra également aux scientifiques de tester de nouvelles technologies, notamment la mémoire persistante Intel® Optane ™ DC, pour évaluer comment le centre de supercalculs pourrait mettre en œuvre ces technologies sur son prochain supercalculateur de prochaine génération.

Gros plan sur Frontera

  • 8 008 serveurs Dell PowerEdge* C6420 à double socket avec processeurs Intel® Xeon® Scalable de 2e génération (448 448 cœurs au total)
  • Performances de pointe de 38,7 petaFLOPS
  • 50 nœuds avec la mémoire persistante
  • Numéro 5 parmi les supercalculateurs les plus puissants du monde et le plus rapide de toutes les universités

Composants de la solution

  • 8 008 nœuds de calcul Dell EMC PowerEdge C6420, composés de processeurs Intel® Xeon® Platinum de 2e génération, 56 cœurs par nœud
  • Mémoire persistante Intel® Optane™ DC

Télécharger le PDF ›