Le CHPC d'Afrique du Sud permet la recherche sur la COVID-19

Le cluster de Cloud privé du CHPC, conçu sur la technologie Intel®, fait converger le calcul intensif avec l'analytique, l'IA et le machine learning.

En bref :

  • Le Center for High Performance Computing (CHPC) d'Afrique du Sud fournit des services de calcul et de stockage de données à grande échelle pour la recherche depuis plus de dix ans. En tant que centre clé pour le calcul à grande échelle en Afrique, le CHPC d'Afrique du Sud soutient la recherche universitaire et industrielle.

  • Les architectes du CHPC ont développé un Cloud privé basé sur OpenStack en utilisant des serveurs Supermicro TwinPro équipés de processeurs Intel® Xeon® Scalable de 2ᵉ génération. Trois jours après la mise en service du Cloud de production OpenStack du CCHP, le pays s'est confiné en raison de la COVID-19, et le Cloud de production OpenStack a été submergé par les besoins des nombreuses agences publiques. Le CHPC s'est tourné vers Intel et Dell pour répondre à ce besoin croissant de ressources en utilisant des serveurs conçus sur des processeurs Intel® Xeon® Scalable de 2ᵉ génération.

author-image

Par

Synthèse

Le Center for High Performance Computing (CHPC) d'Afrique du Sud fournit des services de calcul et de stockage de données à grande échelle pour la recherche depuis plus de dix ans. Le supercalculateur Lengau du CHPC est le plus rapide du continent1. Depuis son installation en 2016, les utilisateurs du CHPC n'ont cessé de croître à mesure que le centre étendait ses offres à d'autres chercheurs et industries dans toute l'Afrique. En 2017, le CHPC a rejoint le projet Square Kilometer Array (SKA) afin de fournir une capacité de calcul pour le processeur de données scientifiques (SDP, Science Data Processor) du SKA. Une partie du SKA est en cours de construction en Afrique du Sud.

Au fil des ans, un nombre croissant de chercheurs et d'utilisateurs industriels du CHPC ont eu besoin de services de calcul non intensif et de stockage. La combinaison d'un besoin croissant de ressources de calcul non intensif et du SDP du SKA a conduit les architectes du CHPC à développer un Cloud privé. Le Cloud a été conçu sur la base des logiciels de stockage OpenStack et OpenStack CEPH, avec des serveurs Supermicro TwinPro basés sur des processeurs Intel® Xeon® Scalable de 2ᵉ génération et des unités de stockage SSD Intel®. Trois jours après la mise en service du Cloud de production OpenStack du CHPC, le pays s'est confiné en raison de la COVID-19. Le nouveau Cloud privé a été dépassé par les besoins de nombreuses agences publiques en matière de recherche et de prise en charge de leurs activités. Le CHPC s'est tourné vers Intel et Dell pour mettre à niveau son tout nouveau système de Cloud. Grâce à des serveurs conçus à partir de processeurs Intel® Xeon® Scalable de 2ᵉ génération et d'unités de stockage SSD Intel®, le CHPC a répondu au besoin croissant de ressources et a satisfait aux exigences de la pandémie.

Défi

En tant que centre clé pour le calcul à grande échelle en Afrique, le CHPC d'Afrique du Sud soutient la recherche universitaire et industrielle. Le cluster Lengau de 1,3 pétaFLOPS du CHPC et son cluster de systèmes de fichiers parallèles Lustre ont été utilisés pour plusieurs projets phares avec des ressources de niveau supercalculateur. Il s'agit notamment de la modélisation régionale couplée océan-atmosphère à haute résolution, des matériaux de stockage de l'énergie et du réseau MeerKAT, entre autres. Elle a également apporté des ressources à des projets commerciaux pour soutenir les efforts déployés par la South Africa Development Co-Operative (SADC) et dans d'autres pays d'Afrique, notamment le Ghana et le Kenya.

Au cours des dernières années, la demande des utilisateurs du CHPC en matière de ressources informatiques et de données s'est accélérée, mais dans des directions différentes.

Après avoir pris en charge le supercalculateur avec le cluster Lengau et des utilisateurs plus généralistes avec des machines virtuelles individuelles, le CHPC a déployé un Cloud privé OpenStack construit sur des serveurs Supermicro pour remplacer son environnement virtuel. (Crédit photo : CHPC)

« Outre le supercalculateur, les chercheurs avaient également besoin d'une prise en charge du calcul général (non intensif). Ils voulaient stocker leurs données à distance et avaient donc besoin d'un environnement de traitement et de stockage plus typique que Lengau et le système de fichiers parallèles Lustre », a déclaré Dora Thobye, responsable technique des ressources de calcul intensif.

Le CHPC a créé un environnement basé sur VMware dans un cluster appelé IT-Shop pour déployer des machines virtuelles individuelles. Le stockage était toujours assuré par le système de fichiers parallèle Lustre. La prise en charge des machines virtuelles est devenue de plus en plus complexe à mesure que les charges de travail non liées au calcul intensif se développaient. La demande de stockage a surchargé le système de stockage Lustre, dégradant de 30 à 40 % les performances de stockage pour les supercalculateurs, selon le CHPC.

Puis, en 2017, MeerKat a été associé au projet Square Kilometer Array (SKA), et le CHPC a rejoint le SKA pour fournir des ressources de calcul et de stockage pour son processeur de données scientifiques (SDP). La demande croissante de services de calcul et de stockage à usage général, et la nécessité de soutenir le SKA avec un environnement Cloud, ont conduit le CHPC à prendre une nouvelle direction. Le centre a entamé des recherches sur une infrastructure de centre de données convergente pour le Cloud et le calcul intensif qui prendrait en charge l'orchestration automatisée du calcul et du stockage ainsi que le supercalculateur.

Un nombre croissant de centres de calcul intensif dans le monde créent des infrastructures hybrides. Les clusters à performances parallèles et à forte intensité de calcul convergent avec les architectures d'analytique de données, d'intelligence artificielle/machine learning (IA/ML) et de Cloud privé pour répondre à un large éventail de besoins des utilisateurs dans le cadre d'une infrastructure unique. Le UK Science Cloud de l'Université de Cambridge, construit sur OpenStack, en est un exemple. Le CHPC a fait référence à la solution OpenStack de l'Université de Cambridge dans sa mise en œuvre.

« Tout comme les données du détecteur Atlas du Grand collisionneur de hadrons, le calcul des données SDP sera partagé entre de nombreux pays et utilisateurs », a expliqué le Dr Happy Sithole, directeur du CHPC. « OpenStack fournit un environnement transparent permettant aux utilisateurs du monde entier d'analyser les données SDP. Et OpenStack offre une base pour nos besoins actuels et pour notre future infrastructure convergée. »

Le CHPC a travaillé avec StackHPC et Linomtha ICT pour concevoir le Cloud de production OpenStack du CHPC afin de remplacer l'environnement VMware existant. Le nouveau Cloud privé a été conçu sur des serveurs Supermicro TwinPro équipés de processeurs Intel® Xeon® Scalable de 2ᵉ génération et de 3 To de mémoire par châssis. 1,5 pétaoctet de disques mécaniques et plus de 220 To d'unités de stockage SSD Intel® ont créé un cluster de stockage CEPH avec une architecture de stockage hiérarchique pour le stockage à court et à long terme.

« Le nouveau système de Cloud a été conçu pour prendre en charge de nombreux travaux virtuels liés à la recherche en cours, tels que des flux de travail personnalisés, des charges de travail agréablement parallèles et l'hébergement web », a commenté M. Thobye.

Le service informatique a commencé à migrer les utilisateurs existants vers le Cloud de production OpenStack le 23 mars 2020. Trois jours plus tard, tout a changé, et le nouveau Cloud de production a été rapidement submergé.

Solution

Le 26 mars 2020, l'Afrique du Sud s'est confinée en raison de l'impact de la pandémie de COVID-19 dans le pays. Alors que le CHPC commençait à migrer les utilisateurs hors de l'environnement de machines virtuelles précédent, la pandémie de COVID a entraîné un besoin supplémentaire d'informatique et de stockage dans le Cloud. Le gouvernement s'est tourné vers le CHPC pour obtenir une assistance. Les programmes gouvernementaux lancés par le ministère de la Santé ont nécessité d'énormes ressources informatiques et de stockage pour le traitement des données de suivi et de localisation de la population et d'autres données. La demande de ressources pour prendre en charge l'enseignement à distance, l'intelligence artificielle et d'autres services émergents liés au virus a également augmenté. Le séquençage de l'ADN du virus a nécessité un stockage massif de données.

« En raison de la pandémie et de tous les nouveaux utilisateurs qu'elle nous a amenés, nous étions à court de ressources de calcul et de stockage », a expliqué M. Thobye.

Grâce au soutien de deux grandes universités du pays, ainsi qu'à l'initiative technologique d'intervention en cas de pandémie de Dell EMC et Intel, le CHPC a pu développer le Cloud de production OpenStack. Les deux universités concernées étaient l'Université du Cap et l'Université du Nord-Ouest (Potchefstroom).

L'extension du Cloud de production OpenStack comprend les éléments suivants :

  • 15 nouveaux nœuds de calcul utilisant des serveurs Dell PowerEdge R640 dotés de doubles processeurs Intel® Xeon® Gold 6230R pour un total de 780 cœurs offrant des performances de 33,285 TFlops
  • 3 nouveaux nœuds de stockage utilisant des serveurs Dell PowerEdge R740XD2 avec deux processeurs Intel® Xeon® Gold 6226
  • 80 To de stockage de données chaudes grâce aux unités de stockage SSD Intel® DC
  • 480 To de stockage sur disque dur (3 x 160 To de copies)

L'extension a été achevée à la mi-2020 et est entrée en production avec une capacité totale de 780 cœurs de calcul, 480 To de stockage froid et 60 To de stockage chaud (unités de stockage SSD Intel®). Grâce à une capacité de stockage et de calcul accrue, les utilisateurs bénéficient d'un système beaucoup plus performant.

« Au lieu d'être largement surprovisionnées avec une utilisation continue de 100 % », a commenté le Dr Sithole, « les charges de travail consomment désormais de 60 à 100 % de la capacité de calcul, en fonction des activités. »

Résultat

« OpenStack propose une offre différente pour les utilisateurs du centre de données », a déclaré M. Sithole. « Cette mise en œuvre est un pas dans la bonne direction pour révolutionner notre centre de données en tant qu'environnement convergent. Nous voyons cela comme un continuum entre le calcul intensif et le calcul intensif de données. Cela nous permet de prendre facilement en charge la recherche en matière de calcul intensif et l'informatique en nuage à usage général dans la même infrastructure. »

Avec le cluster Supermicro d'origine et l'extension Dell EMC, le Cloud étendu peut désormais prendre en charge les activités liées à la pandémie menées par le ministère de l'Enseignement supérieur et de la Formation, le ministère de la Santé, la recherche universitaire et d'autres projets publics et privés visant à répondre aux besoins liés à la pandémie. Les projets à forte intensité de calcul et de données comprennent le séquençage et la recherche sur les virus, l'enseignement à distance et l'apprentissage en ligne, l'analyse de la bande passante des communautés éloignées qui ont besoin d'un enseignement à distance, l'analytique de l'espace blanc de la télévision, l'épidémiologie analytique (y compris le suivi et le traçage), etc. La découverte du variant sud-africain de la COVID-19 a été accomplie grâce aux ressources du CHPC.

Cette mise en œuvre est une étape dans la bonne direction pour révolutionner notre centre de données en tant qu'environnement convergent. Nous voyons cela comme un continuum entre le calcul intensif et le calcul intensif de données. Cela nous permet de prendre facilement en charge la recherche en matière de calcul intensif et l'informatique en nuage à usage général dans la même infrastructure. » - Dr Happy Sithole, directeur du CHPC

Selon le Dr Sithole, le Cloud élargi apporte également de nombreux nouveaux outils qui permettront aux utilisateurs de tirer parti de ce nouvel environnement. Les technologies Intel® AI, les bibliothèques de machine learning (ML), la conteneurisation et d'autres ressources aideront les utilisateurs qui souhaitent mettre en œuvre l'intelligence artificielle (IA) et explorer de nouvelles approches pour leurs problèmes scientifiques.

« La plateforme Cloud permet en outre au CHPC de réunir l'expertise technique et opérationnelle nécessaire pour développer, fournir et exploiter une plateforme OpenStack fédérée nationale », a déclaré M. Thobye. « Cela permettra une connectivité mondiale dans un environnement virtuel pour les mégaprojets, comme le Square Kilometer Array et d'autres projets de même envergure. »

Avant que la pandémie ne frappe l'Afrique du Sud, le CHPC pilotait d'autres technologies de calcul intensif Intel®, comme la mémoire persistante et le stockage Intel® Optane™. Le CHPC s'attend à ce que ces technologies puissent améliorer les performances et l'efficacité du traitement à grande mémoire en gardant davantage de données plus près de la plateforme de traitement. Cette proximité est importante pour les charges de travail qui interagissent avec d'énormes quantités de données, comme le SKA. Ces technologies peuvent également accélérer le séquençage et l'assemblage des génomes.

Une fois la population vaccinée et le virus maîtrisé, le Cloud de production OpenStack du CHPC pourra prendre en charge de nombreuses autres activités. Un plus grand nombre de membres de la SADC peuvent profiter d'un accès facile aux ressources de calcul et de stockage. De nouveaux modèles météorologiques sont à l'étude pour aider l'Afrique à comprendre et à gérer ses événements météorologiques uniques et les effets du changement climatique.

Trois jours après sa mise en service, le nouveau système du CHPC a été submergé par la pandémie. Dell EMC et Intel ont aidé le CHPC à étendre son Cloud de production OpenStack pour répondre aux nouveaux besoins. (Crédit photo : CHPC)

« Une fois que la COVID sera derrière nous », a conclu le Dr Sithole, « nous avons d'autres défis à relever en Afrique. La plateforme OpenStack nous offre l'IA et d'autres outils qui nous aideront à trouver des solutions aux problèmes uniques de l'Afrique. L'un de ces défis est la question des maladies transmissibles. Ebola, par exemple, mais Ebola n'est pas la pire maladie à laquelle les Africains sont confrontés. Et ce que nous avons appris avec la COVID, c'est que vous ne pouvez pas résoudre de tels problèmes seuls. Il faut un effort concerté de tous pour trouver des remèdes aux problèmes que nous rencontrons. Espérons que cela accélérera l'adoption de la plateforme CHPC afin que nous puissions également trouver des solutions à ces problèmes africains uniques. »

Synthèse de la solution

Avec une base d'utilisateurs croissante et un rôle qui s'étend au-delà des ressources traditionnelles de supercalculateurs en Afrique, le CHPC devait faire évoluer son environnement informatique. Après avoir pris en charge le supercalculateur avec le cluster Lengau et des utilisateurs plus généralistes avec des machines virtuelles individuelles, le CHPC a déployé un Cloud privé OpenStack construit sur des serveurs Supermicro pour remplacer son environnement virtuel. Trois jours après sa mise en service, le nouveau système a été submergé par la pandémie. Dell EMC et Intel ont aidé le CHPC à étendre son Cloud de production OpenStack pour répondre aux nouveaux besoins. Le nouvel environnement Cloud étendu permet au pays de s'attaquer à la maladie et à ses conséquences en accédant facilement à des ressources de traitement et de stockage à forte intensité de calcul et de données. Le Cloud de production OpenStack est la prochaine étape de l'évolution du CHPC vers un centre de données convergent pour le calcul intensif et le Cloud.

Composants de la solution

  • Serveurs Supermicro TwinPro (phase 1)
  • Serveurs Dell R640 PowerEdge (phase 2)
  • Processeurs Intel® Xeon® Scalable de 2ᵉ génération
  • Unités de stockage SSD Intel®

Télécharger le PDF ›