Gestion thermique des processeurs Intel® Xeon® Scalable

Documentation

Maintenance et performances

000006710

10/05/2023

Cliquez sur sur la rubrique pour plus d’informations :

Présentation de la gestion thermique

Pour les processeurs en boîte ou en plateau, veuillez consulter : Quelle est la différence entre les processeurs Intel® en boîte et en plateau ?

Quelle est la solution de gestion thermique ?

La solution de gestion thermique des processeurs Intel® Xeon® Scalable, destinée au multiprocessage 4 ou 8 voies, est spécifique au fabricant de la carte mère et du châssis. Tous les processeurs Intel® Xeon® Scalable en boîte sont vendus sous forme de kit composé d’un processeur configuré :

  • Solution thermique
  • Motherboard
  • Châssis
  • Alimentation

Pour obtenir les spécifications de la gestion thermique, consultez le fabricant du système ou Intel Xeon fiche technique du processeur. La soufflerie du processeur (PWT) n’est destinée qu’au serveur à usage général (2U et plus) Intel® Xeon® processeur évolutif, pas au processeur MP Intel Xeon ou au processeur Intel Xeon pour les serveurs à montage en rack 1U.

Pouvez-vous me fournir quelques notions de base sur la gestion thermique ?

Les systèmes utilisant des processeurs Intel® Xeon® Scalable nécessitent une gestion thermique. Ce document suppose une connaissance générale et une expérience en matière de fonctionnement, d’intégration et de gestion thermique du système. Les intégrateurs qui suivent les recommandations présentées peuvent fournir à leurs clients des systèmes plus fiables et voir moins de clients revenir avec des problèmes de gestion thermique. (Le terme « processeurs en boîte Intel® Xeon® évolutifs » fait référence aux processeurs emballés pour être utilisés par les intégrateurs de systèmes.)

La gestion thermique des systèmes équipés de processeurs Intel® Xeon® Scalable peut affecter à la fois les performances et le niveau de bruit du système. Les processeurs Intel® Xeon® Scalable utilisent la fonction de moniteur thermique pour protéger le processeur pendant les périodes où le silicium fonctionnerait autrement au-delà des spécifications. Dans un système correctement conçu, la fonctionnalité du moniteur thermique ne doit jamais être active. Cette fonction vise à fournir une protection contre des circonstances inhabituelles telles que des températures d’air ambiantes supérieures à la normale ou une défaillance d’un composant de gestion thermique du système (tel qu’un ventilateur système). Alors que la fonctionnalité du moniteur thermique est active, les performances du système peuvent tomber en dessous de son niveau de performance de pointe normal. Il est essentiel que les systèmes soient conçus pour maintenir des températures ambiantes internes suffisamment basses pour empêcher les processeurs Intel® Xeon® Scalable d’entrer dans un état d’activité du moniteur thermique. Vous trouverez des informations sur la fonctionnalité de moniteur thermique dans la fiche technique des processeurs Intel® Xeon® Scalable.

De plus, le dissipateur thermique Intel® Xeon® Scalable utilise une solution de conduit actif appelée PWT (Processor Wind Tunnel), qui comprend un ventilateur de haute qualité. Ce ventilateur de processeur fonctionne à une vitesse constante. Ce conduit fournit une circulation d’air adéquate à travers le dissipateur thermique du processeur tant que la température ambiante est maintenue sous la spécification maximale.

Permettre aux processeurs de fonctionner à des températures supérieures à la température de fonctionnement maximale spécifiée peut réduire la durée de vie du processeur et entraîner un fonctionnement irrégulier. Le respect des spécifications de température du processeur relève en fin de compte de la responsabilité de l’intégrateur de systèmes. Lors de la construction de systèmes de qualité à l’aide du processeur Intel Xeon, il est impératif d’examiner attentivement la gestion thermique du système et de vérifier la conception du système avec des tests thermiques. Ce document détaille les exigences thermiques spécifiques du processeur Intel Xeon. Les intégrateurs de systèmes utilisant le processeur Intel Xeon doivent vous familiariser avec ce document.

Qu’est-ce qu’une gestion thermique appropriée ?

Une gestion thermique appropriée dépend de deux éléments principaux : un dissipateur thermique correctement monté sur le processeur et une circulation efficace de l’air dans le châssis du système. L’objectif ultime de la gestion thermique est de maintenir le processeur à sa température de fonctionnement maximale ou en-deçà de celle-ci.

Une gestion thermique appropriée est réalisée lorsque la chaleur est transférée du processeur à l’air du système, qui est ensuite ventilée du système. Les processeurs en boîte Intel® Xeon® Scalable sont expédiés avec un dissipateur thermique et le PWT, qui peut transférer efficacement la chaleur du processeur dans l’air du système. Il incombe à l’intégrateur de systèmes d’assurer une circulation d’air appropriée du système. Les processeurs en plateau Intel® Xeon® Scalable ne sont pas expédiés avec un dissipateur thermique et LE PWT, il est de la responsabilité de l’intégrateur de système de veiller à ce que la circulation d’air du système soit adéquate.

Opérations de gestion thermique

Comment installer le dissipateur thermique ? Vous devez fixer en toute sécurité le dissipateur thermique (inclus avec le processeur en boîte Intel® Xeon® Scalable) au processeur. Le matériau d’interface thermique (appliqué pendant l’intégration du système) permet un transfert de chaleur efficace du processeur vers le dissipateur thermique du ventilateur.

Critique: L’utilisation du processeur en boîte sans appliquer correctement le matériau d’interface thermique inclus annule la garantie du processeur en boîte et peut entraîner des dommages au processeur. Veillez à respecter les procédures d’installation documentées dans le manuel du processeur en boîte et la présentation de l’intégration.

Le ventilateur du tunnel à vent du processeur est un ventilateur à billes de haute qualité qui fournit un bon flux d’air local. Ce flux d’air transfère la chaleur du dissipateur thermique vers l’air intérieur du système. Cependant, déplacer la chaleur vers l’air du système ne représente que la moitié de la tâche. Une circulation d’air système suffisante est également nécessaire pour épuiser l’air. Sans un flux d’air stable dans le système, le radiateur à ventilateur réinsère l’air chaud et risque donc de ne pas refroidir le processeur de manière adéquate.

Comment gérer le flux d’air du système ?

Voici les facteurs qui déterminent la circulation de l’air dans le système :

  • Conception du châssis
  • Taille du châssis
  • Emplacement de l’entrée d’air et des orifices d’évacuation du châssis
  • Capacité et ventilation du ventilateur d’alimentation
  • Emplacement(s) du processeur(s)
  • Placement des cartes et câbles d’extension

Les intégrateurs de systèmes doivent veiller à ce que la circulation d’air soit adéquate dans le système pour permettre au dissipateur thermique de fonctionner efficacement. Une attention appropriée à la circulation de l’air lors de la sélection de sous-assemblis et de systèmes de construction est importante pour une bonne gestion thermique et un fonctionnement fiable du système.

Les intégrateurs utilisent deux formats de base pour les serveurs et les stations de travail : les variantes ATX et l’ancien format AT du serveur. Pour des raisons de refroidissement et de tension, Intel recommande d’utiliser des cartes mères et des châssis ATX aux formats INTEL® XEON® Scalable en boîte.

Les cartes mères au format AT pour serveurs ne sont pas recommandées car ces conceptions ne sont pas standardisées pour une gestion thermique efficace. Cependant, certains châssis conçus exclusivement pour les cartes mères au format AT pour serveurs peuvent offrir un refroidissement efficace.

Vous trouverez ci-dessous une liste de directives à utiliser lors de l’intégration d’un système :

  • Les ouvertures du châssis doivent être fonctionnelles et ne pas être excessives en nombre : Les intégrateurs doivent faire attention à ne pas sélectionner les châssis qui contiennent uniquement des orifices cosmétiques. Les orifices cosmétiques sont conçus pour donner l’impression d’autoriser le flux d’air, mais il n’existe pas ou peu d’air. Il convient également d’éviter les châssis avec orifices d’air excessifs. Dans ce cas, le débit d’air sur le processeur et d’autres composants est très faible. Dans le châssis ATX, les écrans d’E/S doivent être présents. Sinon, l’ouverture des E/S peut prévoir une ventilation excessive.
  • Les orifices d’aération doivent être correctement situés : Les systèmes doivent avoir une ouverture d’entrée et d’évacuation correctement située. Les meilleurs emplacements d’entrée d’air permettent à l’air d’entrer dans le châssis et de passer directement par le processeur. Les orifices d’extraction doivent être extentrants de sorte que l’air s’égoutte sur un chemin passant par le système, sur divers composants, avant de quitter. L’emplacement spécifique des ouvertures dépend du châssis. Pour les systèmes ATX, les orifices d’évacuation doivent être situés à la fois à l’avant inférieur et à l’arrière inférieur du châssis. De plus, pour les systèmes ATX, les écrans d’E/S doivent être présents pour permettre au châssis de ventiler l’air tel que conçu. L’absence d’un panneau d’E/S peut perturber la circulation de l’air ou la circulation dans le châssis.
  • Direction de la circulation de l’air de l’alimentation électrique : Il est important de choisir un bloc d’alimentation doté d’un ventilateur qui vide l’air dans la bonne direction. Certaines alimentations ont des marquages notant la direction du flux d’air.
  • Puissance du ventilateur de l’alimentation : Les blocs d’alimentation du PC contiennent un ventilateur. Dans certains châssis où le processeur fonctionne trop chaud, passer à un bloc d’alimentation doté d’un ventilateur plus robuste peut améliorer considérablement la circulation de l’air.
  • Ventilation de l’alimentation électrique : Beaucoup d’air passe par l’unité de bloc d’alimentation, ce qui peut constituer une restriction importante si elle n’est pas bien ventilée. Choisissez une unité d’alimentation avec de grandes ouvertures. Les protections par fils de doigts du ventilateur d’alimentation offrent une résistance à la circulation de l’air beaucoup moins importante que les ouvertures estampillées dans le boîtier en tôle de l’unité d’alimentation électrique.
  • System Fan — Ventilateur de système . Doit-il être utilisé ? Certains châssis peuvent contenir un ventilateur système (en plus du ventilateur de bloc d’alimentation) pour faciliter la circulation de l’air. Un ventilateur système est habituellement utilisé avec des dissipateurs thermiques passifs. Dans certains cas, un ventilateur système améliore le refroidissement du système. Les tests thermiques réalisés à la fois avec un ventilateur système et sans ventilateur révéleront quelle configuration est la meilleure pour un châssis spécifique.
  • Direction du flux d’air du ventilateur système : Lorsque vous utilisez un ventilateur système, assurez-vous qu’il produit une aération de l’air dans la même direction que la circulation de l’air dans l’ensemble du système. Par exemple, un ventilateur système d’un système ATX doit agir comme un ventilateur d’extraction, tirant l’air de l’intérieur du système par les orifices du châssis arrière ou avant.
  • Protégez-vous contre la chaleur d’Ahst: Un système peut avoir une forte circulation d’air, mais il contient toujours un ense' ment chaud. Les zones à chaud du châssis sont considérablement plus chaudes que le reste de l’air du châssis. Un positionnement inapproprié du ventilateur d’évacuation, des cartes d’adaptateur, des câbles ou des supports de châssis et des sous-montages bloquant la circulation de l’air dans le système, peut créer de telles zones. Pour éviter le clignement à chaud, placez les ventilateurs d’extraction en cas de besoin, repositionnez les cartes de longueur standard ou utilisez des cartes demi-longueurs, rouvrez et attachez les câbles, et assurez-vous que de l’espace est fourni autour et sur le processeur.
Comment effectuer des tests thermiques ?

Les différences entre les cartes mères, les blocs d’alimentation, les périphériques d’extension et les châssis affectent tous la température de fonctionnement des systèmes et des processeurs qui les exécutent. Les tests thermiques sont fortement recommandés lors du choix d’un nouveau fournisseur de cartes mères ou de châssis, ou lors de l’utilisation de nouveaux produits. Les tests thermiques peuvent déterminer si une configuration spécifique de carte mère-bloc d’alimentation du châssis fournit une circulation d’air adéquate pour les processeurs Intel® Xeon® scalables en boîte. Pour commencer à déterminer la meilleure solution thermique pour votre Intel® Xeon® systèmes basés sur les processeurs évolutifs, contactez le fournisseur de votre carte mère pour obtenir des recommandations de configuration du châssis et du ventilateur.

Capteur thermique et octet de référence thermique
Les processeurs Intel® Xeon® Scalable offrent des capacités de gestion système uniques. L’un d’entre eux est la capacité de surveiller la température du cœur du processeur par rapport à un paramètre maximal connu. Le capteur thermique du processeur produit la température actuelle du processeur et peut être résolu via le bus de gestion système (SMBus). Un octet thermique (8 bits) d’informations peut être lu depuis le capteur thermique à tout moment. La granularité du octet thermique est de 1 °C. La mesure réalisée à partir du capteur thermique est ensuite comparée au octet de référence thermique.

Le octet de référence thermique est également disponible dans le ROM Informations sur le processeur sur le SMBus. Ce numéro 8 bits est indiqué lors de la fabrication du processeur. Le octet de référence thermique contient une valeur préprogrammée qui correspond à la mesure du capteur thermique lorsque le processeur est stressé dans ses spécifications thermiques maximales. Par conséquent, si la mesure des octets thermiques du capteur thermique dépasse jamais le octet de référence thermique, le processeur fonctionne plus chaud que la spécification le permet.

Stressant chacun des processeurs d’un système entièrement configuré, en lisant le capteur thermique de chaque processeur et en le comparant au octet de référence thermique de chaque processeur pour déterminer s’il fonctionne selon les spécifications thermiques, il est possible de réaliser des tests thermiques. Un logiciel capable de lire des informations sur le SMBus est nécessaire pour lire à la fois le capteur thermique et le byte de référence thermique.

Procédure de test thermique
La procédure pour les tests thermiques est la suivante :

Note Si vous testez un système doté d’un ventilateur de système à vitesse variable, vous devez exécuter le test à la température maximale de la salle d’exploitation que vous avez spécifiée pour le système.
  1. Pour garantir une consommation électrique maximale pendant le test, vous devez désactiver les modes de mise hors tension automatique du système ou les fonctionnalités vertes. Ces fonctionnalités sont contrôlées soit par le BIOS système, soit par les pilotes du système d’exploitation.
  2. Configurez une méthode permettant d’enregistrer la température de la pièce, soit à l’aide d’une combinaison précise de dissociateur, soit de thermocouple et de compteur thermique.
  3. Mettez le poste de travail ou le serveur en marche. Si le système a été correctement assemblé et que le processeur est correctement installé et inséré, le système démarre dans le système d’exploitation (SE) prévu.
  4. Invoquez l’application de protection thermique.
  5. Laissez le programme fonctionner pendant 40 minutes. Cela permet à l’ensemble du système de se réchauffer et de se stabiliser. Enregistrez la mesure du capteur thermique pour chaque processeur une fois toutes les 5 minutes pendant les 20 minutes suivantes. Enregistrez la température de la pièce à la fin de la période de 1 heure.
Après avoir enregistré la température de la pièce, mettez le système hors tension. Retirez le couvercle du châssis. Laissez le système refroidir au moins 15 minutes.

À l’aide des quatre mesures les plus élevées réalisées à partir du capteur thermique, suivez la procédure dans la section suivante pour vérifier la gestion thermique des systèmes.

Calcul pour vérifier la solution de gestion thermique d’un système
Cette section explique comment déterminer si un système peut fonctionner à la température de fonctionnement maximale tout en maintenant le processeur dans sa plage de fonctionnement maximale. Le résultat de ce processus montre si la circulation de l’air doit être améliorée ou si la température de fonctionnement maximale du système doit être modifiée afin de produire un système plus fiable.

La première étape consiste à sélectionner une température de salle d’exploitation maximale pour le système. Une valeur commune des systèmes où la climatisation n’est pas disponible est de 40 °C. Cette température dépasse la température externe maximale recommandée pour les plateformes basées sur les processeurs Intel® Xeon® scalable, mais elle peut être utilisée si le châssis utilisé ne dépasse pas la température d’entrée du ventilateur de 45 °C. Une valeur courante des systèmes de climatisation est de 35 °C. Choisissez une valeur adaptée à votre client. Écrivez cette valeur sur la ligne A ci-dessous.

Écrivez la température de la pièce enregistrée après les tests sur la ligne B ci-dessous. Soustrayez la ligne B de la ligne A et écrivez le résultat sur la ligne C. Cette différence compense le fait que le test a probablement été effectué dans une pièce qui est plus froide que la température de fonctionnement maximale du système.

R. _________ (Température de fonctionnement maximale, généralement 35° C ou 40° C)

B. - _______ Température de la pièce ° C à la fin du test

C._________

Écrivez la température la plus élevée enregistrée à partir du compteur thermique de la ligne D ci-dessous. Copiez le numéro de la ligne C à la ligne E ci-dessous. Ajoutez la ligne D et la ligne E et écrivez la somme sur la ligne F. Ce numéro représente la mesure la plus élevée du cœur du processeur lorsque le système est utilisé à la température maximale spécifiée dans la salle d’exploitation pour une application de très forte température. Cette valeur doit rester inférieure à la valeur du octet de référence thermique. Écrivez la mesure du octet de référence thermique sur la ligne G.

D. ________ Mesure maximale du capteur thermique

E. + _______ Max. réglage de la température de fonctionnement à partir de la ligne C ci-dessus

F. ________ Max. mesure du capteur thermique dans le pire des cas, de l’environnement

Byte de référence thermique G. _______

Les processeurs ne doivent pas fonctionner à des températures supérieures à la température maximale spécifiée, ou des pannes peuvent survenir. Les processeurs en boîte resteront conformes aux spécifications thermiques si la mesure du capteur thermique est inférieure au byte de référence thermique à tout moment.

Si la ligne F révèle que le cœur du processeur a excédé sa température maximale, des mesures sont nécessaires. Il faut améliorer considérablement la circulation de l’air dans le système ou réduire la température maximale de la salle d’exploitation.

Si le numéro de la ligne F est inférieur ou égal au octet de référence thermique, le système maintient le processeur en boîte dans les spécifications dans des conditions de traitement thermique similaires, même si le système fonctionne dans son environnement le plus chaud.

En résumé :
Si la valeur de la ligne F est supérieure au octet de référence thermique, il existe deux options :

  1. Améliorez la circulation de l’air du système pour réduire la température d’entrée du ventilateur du processeur (suivez les recommandations faites précédemment). Ensuite, testez à nouveau le système.
  2. Choisissez une température maximale de salle d’exploitation inférieure pour le système. N’oubliez pas que le client et l’environnement typique du système.
Après l’implémentation de l’une des options, vous devez recalculer le calcul thermique pour vérifier la solution.

Astuces de test
Utilisez les astuces suivantes pour réduire le besoin de tests thermiques inutiles :

  1. Lorsque vous testez un système qui prend en charge plusieurs vitesses de processeur, testez en utilisant le ou les processeurs qui génèrent le plus d’énergie. Les processeurs qui dissipent le plus d’énergie génèrent le plus de chaleur. En testant le processeur le plus chaud pris en charge par la carte mère, vous pouvez éviter des tests supplémentaires avec des processeurs qui génèrent moins de chaleur avec la même configuration de carte mère et de châssis.

    La dissipation de la puissance varie en fonction de la vitesse du processeur et du progression du silicium. Pour vous assurer la sélection du processeur approprié pour les tests thermiques de votre système, reportez-vous au tableau 1 pour connaître les numéros de dissipation d’alimentation des processeurs Intel® Xeon® Scalable en boîte. Les processeurs en boîte Intel® Xeon® Scalable sont indiqués par un numéro de spécification du test à 5 chiffres, généralement à partir de la lettre S.
  2. La caisse thermique avec une nouvelle carte mère n’est pas nécessaire si toutes les conditions suivantes sont respectées :
    • La nouvelle carte mère est utilisée avec un châssis précédemment testé qui fonctionnait avec une carte mère similaire
    • Le test précédent a montré la configuration permettant d’assurer une circulation d’air adéquate
    • Le processeur se trouve à peu près au même endroit sur les deux cartes mères.
    • Un processeur dont la dissipation d’alimentation est identique ou inférieure sera utilisé sur la nouvelle carte mère.
  3. La plupart des systèmes sont mis à niveau (RAM supplémentaire, cartes d’adaptateur, lecteurs, etc.) au cours de leur vie. Les intégrateurs doivent tester des systèmes avec certaines cartes d’extension installées afin de simuler un système qui a été mis à niveau. Une solution de gestion thermique qui fonctionne bien dans un système lourdement chargé n’a pas besoin d’être testée à nouveau pour des configurations à faible charge.

Spécifications de gestion thermique

Quelles sont les spécifications thermiques des processeurs Intel® Xeon® scalables ?

La fiche technique des processeurs Intel® Xeon® Scalable (également répertoriée dans le Tableau 1) indique la dissipation de puissance des processeurs Intel® Xeon® Scalable à diverses fréquences de fonctionnement. Pour les processeurs Intel® Xeon® Scalable, le processeur à plus haute fréquence disponible dissipera plus de puissance que les fréquences inférieures. Lorsque vous construisez des systèmes qui comporteront de nombreuses fréquences de fonctionnement, les tests doivent être effectués en utilisant le processeur à plus haute fréquence pris en charge, car il dissipe le plus d’énergie. Les intégrateurs de systèmes peuvent réaliser des tests thermiques à l’aide de thermocouples pour déterminer la température du diffuseur de chaleur intégré du processeur (voir la fiche technique des processeurs Intel® Xeon® Scalable, pour plus de détails).

Note Comme la technologie PWT peut être configurée en mode de prétention ou en mode de pression, la température d’entrée du conduit doit être prise à partir de l’entrée dans le PWT, qui peut ne pas être du même côté que le ventilateur.

Une simple évaluation de la température de l’air qui entre dans le dissipateur thermique du ventilateur peut donner confiance dans la gestion thermique du système. Pour les processeurs Intel® Xeon® Scalable, le point de test se trouve au centre du concentrateur de ventilateur, à environ 10,3 pouces devant le ventilateur. L’évaluation des données du test permet de déterminer si un système possède une gestion thermique suffisante pour le processeur en boîte. Les systèmes doivent avoir une température maximale prévue de 45 °C dans les conditions ambiantes externes maximales prévues (qui est généralement de 35 °C).

Tableau 1 : spécifications thermiques Intel® Xeon® scalables 1,3

Fréquence du cœur du processeur (GHz) Température maximale du boîtier (°C) Température maximale recommandée pour l’entrée du ventilateur (°C) Puissance de dissu thermique du processeur (W)
1.40 69 45 56.0
1.50 70 45 59.2
1.70 73 45 65.8
1,802 69 45 55.8
2 78 45 77.2
22 70 45 58
2.202 (étape B0) 72 45 61
2.202 (étape C1) 75 45 61
2,402 (étape B0) 71 45 65
2,402 (étape C1) 74 45 65
2,402,4 (étape M0) 72 45 77
2,602 74 45 71
2,662 (étape C1) 74 45 71
2,662 (étape M0) 72 45 77
2,802 (étape C1) 75 45 74
2,802,4 (étape M0) 72 45 77
32 73 45 85
3.062 (étape C1) 73 45 85
3.062 (étape MO) 70 45 87
3,22,4 (étape M0) 71 45 92
Notes
  1. Ces spécifications proviennent de la fiche technique des processeurs Intel® Xeon® Scalable.
  2. Ce processeur est une matrice rétrécissant à la technologie de processus micron de 0,13.
  3. Le bus frontal 400 MHz et le bus frontal 533 MHz possèdent des caractéristiques thermiques identiques.
  4. Ces processeurs comprennent ceux dotés d’un cache iL3 à 1 Mo et de 2 Mo (processeur à 3,2 GHz uniquement).
Quelles sont les recommandations de châssis ?

Les intégrateurs de systèmes doivent utiliser un châssis ATX spécialement conçu pour prendre en charge les processeurs Intel® Xeon® Scalable. Châssis spécialement conçu pour prendre en charge les processeurs Intel® Xeon® Scalable seront expédiés avec une prise en charge mécanique et électrique appropriée pour le processeur en plus d’avoir des performances thermiques améliorées. Intel a testé des châssis en cours d’utilisation avec des processeurs Intel® Xeon® Scalable utilisant des cartes mères tierces activées. Le châssis qui passe ces tests thermiques offre aux intégrateurs de systèmes un point de départ permettant de déterminer quel châssis évaluer.

Note Pour les démos se trouvant sur le socket LGA3647, consultez :