Les machines virtuelles A3 sont désormais en préversion privée sur Google Cloud, alimentées par les GPU NVIDIA H100
Lors de son événement d’E/S axé sur l’IA, Google a annoncé que les clients de Google Cloud pourraient commencer à utiliser des machines virtuelles A3 alimentées par des GPU NVIDIA H100 dans un aperçu privé. Le géant de la recherche a déclaré que ses nouveaux A3VM constituaient un « pas en avant » pour les clients développant des modèles avancés d’apprentissage automatique.
Les principales caractéristiques des machines virtuelles (VM) GPU A3 sont les suivantes :
- 8 GPU H100 utilisant l’architecture Hopper de NVIDIA, offrant un débit de calcul multiplié par 3
- Bande passante bisectionnelle de 3,6 To/s entre les 8 GPU d’A3 via NVIDIA NVSwitch et NVLink 4.0
- Processeurs Intel Xeon Scalable de nouvelle génération de 4e génération
- 2 To de mémoire hôte via des modules DIMM DDR5 à 4 800 MHz
- Bande passante réseau 10 fois supérieure grâce à nos IPU compatibles avec le matériel, une pile de communication GPU inter-serveurs spécialisée et des optimisations NCCL
Grâce à ces machines virtuelles, les entreprises qui ont besoin de former des modèles ML complexes peuvent le faire beaucoup plus rapidement. Ils sont construits avec des modèles d’IA exigeants à l’esprit qui sont responsables de l’IA générative d’aujourd’hui .
« Les machines virtuelles A3 de Google Cloud, alimentées par les GPU NVIDIA H100 de nouvelle génération, accéléreront la formation et le service des applications d’IA génératives », a déclaré Ian Buck, vice-président du calcul hyperscale et haute performance chez NVIDIA. « Dans la foulée des instances G2 récemment lancées par Google Cloud, nous sommes fiers de poursuivre notre travail avec Google Cloud pour aider à transformer les entreprises du monde entier avec une infrastructure d’IA spécialement conçue. »
Selon Google, ses nouveaux supercalculateurs A3 peuvent fournir jusqu’à 26 exaFlops de performances d’IA et sont la première instance GPU à utiliser des IPU 200 Gbps conçus sur mesure avec des transferts de données GPU à GPU qui peuvent contourner l’hôte CPU. Cela permet dix fois plus de bande passante réseau, ce qui accélère les choses.
Laisser un commentaire