Le supercalculateur Frontier alimenté par AMD a connu plusieurs pannes matérielles

Le supercalculateur Frontier alimenté par AMD a connu plusieurs pannes matérielles

Construire un supercalculateur demande toujours beaucoup d’efforts, mais créer le premier matériel de classe exaflopique pour le secteur est très difficile et nécessite le développement de beaucoup de matériel et de logiciels. Malheureusement, cela peut être le cas avec le supercalculateur Frontier du Laboratoire national d’Oak Ridge , qui peut à peine passer la journée sans une foule de problèmes matériels.

Avec les processeurs AMD EPYC Trento à 64 cœurs, les GPU de calcul Instinct MI250X et l’ interconnexion HPE Slingshot , le système Frontier d’ORNL est le premier système du secteur capable d’atteindre des performances de pointe allant jusqu’à 1 685 FP64 ExaFLOPS à une consommation électrique de 21 MW . Le système a été construit par HPE en utilisant l’ architecture Cray EX , conçue pour des applications évolutives, en particulier pour les supercalculateurs exceptionnellement rapides.

Bien que les composants matériels du supercalculateur Frontier aient été livrés et que sur le papier la machine semble avoir un potentiel remarquable, des problèmes matériels semblent l’empêcher d’être en ligne et d’être disponible pour les chercheurs qui ont besoin de performances d’environ 1 FP64 ExaFLOPS. .

Justin Witt , directeur de programme de l’Oak Ridge Leadership Computing Facility (OLCF), a commenté la situation en mentionnant :

Nous travaillons sur les problèmes matériels et nous nous assurons de comprendre (ce qu’ils sont). Vous aurez des échecs à cette échelle. Le temps moyen entre les pannes dans un système de cette taille est de quelques heures, pas de jours.

Pendant un certain temps, il y a eu des rumeurs sur d’éventuelles pannes matérielles de Frontier. Selon un autre article d’ InsideHPC , certains ont affirmé que le connecteur Slingshot causait des problèmes dans le système. Selon d’autres rapports, les GPU de calcul Instinct MI250X d’AMD n’ont pas été aussi fiables cette année. Il est important de garder à l’esprit que seul un nombre limité de consommateurs peut acheter la version X, qui dispose de plus de processeurs de flux et de vitesses plus rapides.

M. Witt a insisté sur le fait que l’ordinateur avait plusieurs problèmes matériels, mais il n’a pas indiqué que le système avait des problèmes spécifiques avec Instinct ou Slingshot.

De nombreux problèmes sont liés à ces [GPU], mais ce ne sont pas la majorité des problèmes que nous voyons. C’est une assez bonne répartition parmi les coupables habituels de défaillance de pièces qui en étaient une grande partie. Je ne pense pas que nous soyons trop inquiets pour les produits AMD pour le moment. »

Le supercalculateur Frontier du laboratoire national d’Oak Ridge n’est en aucun cas le seul à utiliser des processeurs AMD EPYC, des interconnexions Slingshot et l’architecture Cray EX de HPE. Par exemple, le supercalculateur Lumi de Finlande , officiellement reconnu comme le troisième supercalculateur le plus puissant au monde, a une performance maximale de 550 pétaflops lorsqu’il utilise des composants similaires. La taille de la machine, qui nécessite un total de 60 millions de pièces , peut rendre le problème viable.

Étant donné que le supercalculateur Frontier n’a pas encore été officiellement déployé, on ne sait toujours pas s’il sera disponible pour les scientifiques à partir de 2023 , comme prévu initialement, en 2022 .

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *