Découvrez Biren BR100, le GPU le plus rapide de Chine, presque 3 fois plus rapide que NVIDIA A100
La Chine vise à entrer sur le marché des semi-conducteurs et cette année, elle a obtenu des résultats remarquables. Hot Chips 34 semble faire parler de lui alors que NVIDIA dévoile ses prochains GPU Hopper . Vous pouvez en savoir plus à ce sujet ici . Birentech de Chine a profité de l’occasion pour présenter son prochain GPU BR100, qui serait plus rapide que l’A100 basé sur Ampere de NVIDIA.
Spécifications BR100
Ce GPU est basé sur un nœud de processus de 7 nm avec 77 milliards de transistors (seulement 3 milliards de moins que le NVIDIA H100). La conception CoWoS TSMC 2.5D a été utilisée pour ce nœud de processus. En termes de mémoire, ce mastodonte est alimenté par 64 Go HBM2e avec une bande passante d’environ 2,3 To/s. La taille de la puce est d’environ 1074 mm².
Trémie H100 | Byren BR100 |
PCIe Gen5.0 | PCIe Gen5.0 |
Mémoire HBM3 | Mémoire HBM2e |
Bande passante mémoire 2,3 To/s | Bande passante mémoire 3 To/s |
TSMS 4n | CoWoS 2.5D de TSMC pour 7nm |
80 Go de mémoire | 64 Go de mémoire |
NVLink (Die-to-Die) 900 Go/s | Mémoire rapide 896 Go/s |
Conception monolithique | Conception MCM (module multipuce) |
700W | 550W |
aperçu architectural
Comme indiqué ci-dessus, le GPU a une conception MCM à 2 puces, où chaque puce est alimentée par 16 SPC (Stream Processing Clusters). Chaque SPC se compose de 16 EU (unités d’exécution) et 4 EU forment une unité de calcul (CU).
- Chiplets : 2
- CPS : 2 x 16 = 32
- UE = 32 × 16 = 512
- KU = 512/4 = 128
À l’intérieur du SPC, nous pouvons trouver 16 UE. Une meilleure compréhension révèle que chaque EU se compose de 16 cœurs de traitement de flux (V-core) et d’un T-core ou Tensor core. Les cœurs de traitement de flux x16 (ou 1 V-Core) fournissent des calculs FP32, FP16, INT32, INT16.
BR100 contre A100
Comparé à la dernière génération d’A100 à base d’ampères, le BR100 est environ 2,6 fois plus rapide dans certains tests. Cela montre à quelle vitesse la Chine accélère dans le département GPU. Cependant, désolé d’être ennuyeux, mais le H100 basé sur Hopper est environ 2 à 3 fois plus rapide dans les mêmes tests. Ces noyaux tenseurs peuvent augmenter cet avantage d’environ 30 fois dans divers benchmarks.
Usage général
Le GPU est dédié au département chinois de l’intelligence artificielle et est censé imiter le comportement humain en améliorant les performances de l’intelligence artificielle. Ceci est fait pour que la Chine puisse compter sur sa propre technologie.
Laisser un commentaire