Les GPU s’usent-ils avec une utilisation intensive ?

Les GPU s’usent-ils avec une utilisation intensive ?

Si vous prévoyez des jeux intensifs, du calcul GPU, du rendu graphique, du Folding@home ou de l’extraction de crypto sur votre GPU, vous craignez peut-être que votre GPU ne s’use en cas d’utilisation intensive. Mais le fera-t-il ? Nous allons enquêter.

Oui, mais c’est dur

La plupart des informations que vous trouvez sur Internet concernant la durée de vie des cartes graphiques sont anecdotiques et les chiffres peuvent varier considérablement en fonction de la personne à qui vous demandez. Avec des centaines de modèles de cartes graphiques différents sortis au cours de la dernière décennie, il est difficile de réduire les données sur des cartes aussi différentes à de simples généralisations.

Ce que nous savons jusqu’à présent, c’est ceci : selon le rapport 2020 du détaillant allemand , les cartes graphiques les plus récentes ont un taux d’échec global d’environ 2 à 5 % (mesuré en retours au détaillant). Et en 2021, Nvidia publiait toujours des mises à jour de pilotes pour des cartes qui avaient environ 9 à 10 ans (comme la série GTX 600), vous pouvez donc vous attendre à une décennie d’une carte GPU bien conçue, bien que celles-ci puissent être des valeurs aberrantes, comme nous Je verrai plus loin.

Indépendamment des chiffres, la physique lourde est à l’œuvre ici. Les matériaux et composants utilisés dans les cartes GPU ne sont pas magiques : plus vous les utilisez, plus ils s’usent rapidement et plus ils risquent de tomber complètement en panne. Une utilisation intensive affecte donc l’espérance de vie.

Que vous voyiez un problème dans votre carte GPU dépend de variables complètement différentes, y compris l’intensité de l’utilisation du GPU, la nature et l’étendue des fluctuations de température dans le circuit, le nombre de fois que la carte a été allumée et éteinte et la propreté. l’environnement d’exploitation est.

Étant donné que la carte GPU est un appareil complexe composé de nombreuses pièces, chacune peut tomber en panne ou se dégrader à sa manière. Nous allons examiner quelques parties principales d’une carte GPU et voir comment elles peuvent s’user en cas d’utilisation intensive au fil du temps.

Tout d’abord : les ventilateurs de refroidissement

De toutes les pièces d’une carte graphique qui peuvent tomber en panne en premier lieu, nous devons souligner les ventilateurs de refroidissement (ou ventilateurs) qui sont les pièces physiques mobiles. Les ventilateurs refroidissent votre GPU en éloignant l’air chaud de la puce GPU (avec dissipateur thermique) afin qu’il puisse continuer à fonctionner.

Pourquoi la chaleur est-elle mauvaise ? Avec suffisamment de chaleur, les transistors ne fonctionnent pas correctement , ce qui signifie que la carte GPU ne fonctionnera pas. Avec encore plus de chaleur, les transistors des microcircuits de la carte peuvent être irrémédiablement endommagés .

Au fil du temps, les ventilateurs de refroidissement se bouchent souvent avec de la poussière, ce qui réduit leur capacité à déplacer l’air efficacement. Ou les ventilateurs peuvent échouer complètement si la lubrification interne échoue. Tout script augmentera la température du GPU.

Chaque GPU se protège de la surchauffe grâce à la limitation thermique, qui ralentit le GPU pour abaisser sa température de fonctionnement. Cela limite considérablement les performances. Donc, si vous avez un GPU qui est soudainement plus bruyant que la normale (le ventilateur tourne plus vite) ou qui fonctionne moins bien, nettoyez soigneusement les ventilateurs de refroidissement et le dissipateur thermique de votre GPU avec de l’air comprimé.

Si le ventilateur de refroidissement du GPU est complètement tombé en panne, il peut généralement être remplacé si vous pouvez trouver un ventilateur similaire auprès de votre fournisseur de pièces d’ordinateur.

Autre suspect : pâte thermique défectueuse

Entre chaque dissipateur thermique et la puce GPU se trouve une couche de matériau thermoconducteur, tel que du mastic ou de la pâte, pour aider à transférer la chaleur de la puce GPU vers le dissipateur thermique.

Au fil du temps, la pâte thermique peut se fissurer ou perdre de son efficacité. Lorsque cela se produit, le dissipateur thermique n’est pas refroidi aussi efficacement et la température du GPU augmente. Comme nous l’avons vu dans la section des ventilateurs ci-dessus, les températures élevées du GPU entraînent une limitation thermique, ce qui ralentit votre GPU.

La meilleure solution dans ce cas est de remplacer vous-même la pâte thermique. Vous pouvez acheter de la pâte thermique auprès de fournisseurs de matériel informatique.

Défauts dans d’autres composants, soudure

En plus de la puce GPU, la carte graphique comprendra des dizaines d’autres composants électroniques tels que des condensateurs, des résistances, des puces mémoire, etc. N’importe lequel d’entre eux pourrait potentiellement échouer en raison d’une utilisation intensive ou d’une exposition à trop de chaleur. Certains sont plus susceptibles d’échouer que d’autres.

En particulier, les condensateurs échouent avec le temps . Ils sont sensibles aux fluctuations fréquentes de température et certains d’entre eux présentent des défauts dès la première production. Si vous êtes assez avisé pour résoudre les problèmes de condensateur, vous pouvez éventuellement remplacer les condensateurs défectueux sur une carte GPU si vous pouvez trouver des pièces de rechange équivalentes.

De plus, la soudure qui relie les puces et les composants à la carte de circuit imprimé de la carte GPU peut vieillir et se fissurer avec le temps en raison de changements de température fréquents, d’une manipulation brutale, d’un stockage inapproprié ou d’une surchauffe. Alors oui, une utilisation intensive du GPU peut augmenter le risque de défaillance du joint de soudure. Réparer les mauvais joints de soudure peut être techniquement difficile, mais pas impossible .

Défaillances dans la puce GPU elle-même

La question demeure donc : une puce GPU peut-elle s’user avec le temps en cas d’utilisation intensive ? La réponse est oui, en théorie, dans des circonstances extrêmes. Mais vous verrez très probablement un autre composant de la carte graphique tomber en panne bien avant cela.

La puce GPU de votre carte vidéo contient des millions ou des milliards de transistors gravés dans un morceau de silicium. Les transistors vieillissent avec le temps , ce qui affecte leurs performances. Quand suffisamment de transistors tournent mal, la puce tombe en panne.

Selon Semiconductor Engineering , il existe plusieurs raisons principales pour lesquelles les transistors échouent avec le temps en raison du vieillissement ( dont l’une est la chaleur ), et plus l’élément sur la puce est petit, plus les erreurs sont probables. Les experts soupçonnent que les puces informatiques fabriquées aujourd’hui ne dureront pas aussi longtemps que les puces fabriquées dans les années 1990, mais prédire la durée de vie exacte est encore une supposition car la technologie est si nouvelle.

NVIDIA ne publie pas actuellement les notes MTBF (Mean Time Between Failures) pour ses cartes graphiques grand public, mais la société  les publie pour certains de ses accélérateurs graphiques industriels et commerciaux. Par exemple, la fiche technique de l’accélérateur GPU Tesla K20X indique que le MTBF de la carte (à 35°C/95F) est de 14,7 ans pour un « environnement non contrôlé » et de 23,8 ans pour un « environnement contrôlé ». (Notez qu’en général, le matériel graphique industriel est considéré comme plus fiable et mieux à même de résister à une utilisation intensive que le matériel graphique grand public.)

Fait intéressant, nous pouvons comparer ce nombre théorique avec les données exactes obtenues sur le terrain. L’une des rares études empiriques sur la durée de vie du GPU provient d’un article de 2020 intitulé  » GPU Lifespan on the Titan Supercomputer: Survival and Reliability Analysis  » rédigé par Oak Ridge National Laboratory. L’article rapporte la fiabilité de 18 688 cartes GPU Nvidia K20X Kepler utilisées dans le supercalculateur Cray XK7 Titan, désormais à la retraite, pendant près de 7 ans (2012-2019).

Après quelques échecs initiaux dus à des problèmes de connectivité, ils ont constaté que les cartes graphiques XK7 étaient relativement très fiables jusqu’en 2016 (environ 3-4 ans), lorsque beaucoup d’entre elles ont commencé à tomber en panne. Mais tu sais quoi? Ils ont retracé la plupart des défaillances du premier lot de cartes (avant le remplacement) à une résistance défectueuse sur le PCB de la carte graphique, et non à la puce GPU elle-même. Dans l’ensemble, les auteurs de l’étude ont constaté que le MTBF des cartes graphiques K20X très utilisées est d’environ 3 ans (et non de 14 à 23 ans comme indiqué dans la fiche technique de Nvidia), certaines des cartes les plus chaudes du cœur étant les premières à échouer. Ils ont conclu que « la fiabilité du GPU dépend de la dissipation thermique ».

Il y a donc de fortes chances que si vous utilisez votre carte graphique aussi durement que l’un des plus grands supercalculateurs du monde (à l’époque), elle s’usera plus rapidement et d’autres composants comme les ventilateurs et les résistances tomberont en panne bien avant que la puce GPU elle-même ne tombe en panne. le temps que vous obtenez dépend de facteurs que nous ne pouvons pas prédire.

Après tout, la chaleur est l’ennemi

En fin de compte, d’après toutes les sources que nous avons lues, le facteur le plus important pour déterminer la durée de vie d’une carte GPU est sa température. Plus la carte est chaude, plus tous ses composants se dégradent rapidement. De plus, plus la carte est chaude, plus elle réduit les performances pour éviter une panne catastrophique. Un bon refroidissement prolonge la durée de vie de votre carte et améliore ses performances.

Donc, que vous aimiez les crypto-monnaies ou les jeux, tant que votre carte graphique est maintenue suffisamment froide avec des ventilateurs en fonctionnement propre et une pâte thermique efficace, vous aurez probablement une carte haute performance qui, si vous avez de la chance, peut durer aussi longtemps comme obsolète et vous mettez à jour.

Si vous envisagez d’acheter un GPU d’occasion, vous devez absolument prendre en compte son historique, y compris la façon dont son propriétaire l’a manipulé et utilisé. Les cartes les plus utilisées (celles qui fonctionnent actuellement) sont plus susceptibles de fonctionner correctement à court terme, mais sont plus sujettes à l’échec à long terme. Nous ne pouvons pas déterminer la durée de vie de la carte, mais une utilisation intensive use définitivement la carte graphique plus rapidement.

Bonne chance!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *