Envoyé par Chercheurs de l’université de Tsinghua
Le GPU NVIDIA A100 offre de très hautes performances en IA, analyse de données et HPC
Le GPU NVIDIA A100 offre des capacités d’accélération sans précédent à tous les niveaux afin d’alimenter les Data Centers élastiques les plus puissants au monde dans les domaines de l’IA, de l’analyse de données et du HPC. Basé sur l’architecture NVIDIA Ampere, l’A100 est le moteur de la nouvelle plateforme de NVIDIA pour les Data Centers. L’A100 offre des performances jusqu’à 20 fois plus élevées que celles de la génération précédente et peut être partitionné en sept instances de GPU pour s’adapter de manière dynamique à l’évolution des demandes.
Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. Leur entraînement requiert une puissance de calcul massive ainsi qu’une importante évolutivité. Les cœurs Tensor des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) vous offrent, sans changement du code-source, des performances jusqu’à 20 fois plus élevées par rapport aux GPU NVIDIA Volta et un rendement doublé grâce à la technologie NVIDIA de précision mixte automatique ainsi qu’à la prise en charge des calculs FP16. Mais ce n’est pas tout : l’association des technologies NVIDIA, NVLink et NVIDIA NVSwitch, de la norme PCI Gen4, de NVIDIA, Mellanox, InfiniBand et du kit de développement logiciel NVIDIA Magnum IO permet d’interconnecter plusieurs milliers de GPU A100 pour bénéficier d’une puissance de calcul phénoménale.
Benchmark d’analyse Big Data | 30 requêtes d’analyse commerciale avec des jeux de données ETL, ML et NLP à 10 To | CPU : Intel Xeon Gold 6252 à 2,10 GHz, Hadoop | V100 32 Go, RAPIDS/Dask | A100 40 Go et A100 80 Go, RAPIDS/Dask/BlazingSQL​
Sur un benchmark d’analyse Big Data, un GPU A100 à 80 Go est en mesure de fournir un rendement jusqu’à 83 fois plus élevé qu’avec le traitement CPU et jusqu’à 2 fois plus élevé qu’avec un GPU A100 à 40 Go, ce qui permet de traiter les charges de travail émergentes avec des volumes de données sans cesse plus conséquents. Cela signifie que des charges de travail d’entraînement basées sur des modèles de langage comme BERT peuvent être traitées en moins d'une minute sur un cluster composé de 2 048 GPU A100, vous offrant une réduction significative des délais d’exécution.
Avec des modèles complexes dotés de tables de données massives, tels que les modèles de recommandation pour le Deep Learning (DLRM), un GPU A100 à 80 Go peut mettre en œuvre jusqu’à 1,3 To de mémoire unifiée et fournir un rendement jusqu’à 3 fois plus élevé par rapport au GPU A100 à 40 Go.
Les chercheurs de l’université Tsinghua à Pékin affirment que la puce ACCEL est une avancée majeure en intelligence artificielle, surpassant la puce A100 de NVIDIA, reconnue pour ses hautes performances. Ils mettent en avant des usages concrets pour la puce ACCEL, tels que les appareils portatifs, les voitures autonomes et les contrôles industriels, où la rapidité et l’efficacité énergétique dans le traitement des images et vidéos sont primordiales.
Cependant, ils précisent que la puce ACCEL est optimisée pour le traitement visuel et n’est pas conçue pour des tâches diversifiées comme les puces informatiques traditionnelles. Enfin, ils mentionnent les tensions géopolitiques actuelles, soulignant que les restrictions américaines sur l’exportation de technologies de puces d’IA vers la Chine ont impacté des entreprises telles que NVIDIA, AMD et Intel.
Les tâches de vision sont souvent basées sur des dispositifs numériques, qui nécessitent de transformer les signaux optiques en signaux numériques, même après avoir fait du calcul optique. Pour cela, il faut utiliser des photodiodes et des convertisseurs analogiques/numériques qui consomment beaucoup d’énergie pour le traitement ultérieur.
Sinon, il faut recourir à une non-linéarité optique et à une mémoire très précises, mais qui augmentent la latence et la consommation d’énergie du système. Les chercheurs ont développé une architecture optoélectronique hybride entièrement analogique pour éviter les convertisseurs analogiques/numériques lourds et réaliser des tâches de vision rapides et économes en énergie avec des performances de haut niveau.
En éclairant les cibles avec une lumière cohérente ou incohérente, ils encodent l'information dans des champs lumineux. Avec un système d'imagerie commun, ACCEL est placé dans le plan de l'image pour un traitement direct de l'image tel que les classifications. La première partie de l'ACCEL qui interagit avec le champ lumineux est un module de calcul optique diffractif multicouche pour extraire les caractéristiques des images haute résolution à la vitesse de la lumière, appelé OAC, réduisant l'exigence de conversion optoélectronique par la réduction des dimensions de manière entièrement optique.
Les masques de phase de l'OAC sont formés pour traiter les données encodées dans les champs lumineux avec des opérations de produit de points et de diffraction de la lumière, équivalentes à des multiplications matricielles linéaires d'un champ lumineux complexe. Les caractéristiques extraites codées dans les champs lumineux après l'OAC sont connectées à l'EAC avec un réseau de photodiodes 32 × 32 pour convertir les signaux optiques en signaux électroniques analogiques sur la base de l'effet photoélectrique, qui sert d'activation non linéaire. Sans nécessiter de CAN, ces photodiodes sont connectées soit à la ligne positive V+, soit à la ligne négative V-, déterminées par les poids stockés dans la mémoire statique à accès aléatoire (SRAM).
Les photocourants générés sont d'abord additionnés sur les deux lignes sur la base de la loi de Kirchhoff. Ensuite, un soustracteur analogique calcule la tension différentielle des lignes de calcul V+ et V- en tant que nœud de sortie. En réinitialisant les lignes de calcul et en mettant à jour les poids avec la SRAM, ACCEL peut émettre une autre impulsion avec différentes connexions de photodiodes. Par conséquent, l'EAC est équivalent à un NN entièrement connecté à pondération binaire, correspondant à une matrice de calcul de 1 024 × Noutput (où Noutput est le nombre d'impulsions de sortie).
Les sorties peuvent être directement utilisées comme étiquettes prédites des catégories de classification ou comme entrées d'un autre NN numérique. Pour le calcul entièrement analogique, les chercheurs ont fixé Noutput à n pour une classification à n classes sans aucun NN numérique. Pour l'ACCEL avec un seul cœur EAC, il fonctionne de manière séquentielle en émettant plusieurs impulsions correspondant aux nœuds de sortie Noutput du NN binaire dans l'EAC. Toutes ces fonctions peuvent être intégrées sur une seule puce de manière entièrement analogique pour des applications générales et sont compatibles avec les NN numériques existants pour des tâches plus complexes.
Les chercheurs ont également mené des expériences pratiques au cours desquelles ACCEL a fait preuve d'une grande précision dans des tâches telles que la reconnaissance d'images et de vidéos. Concrètement, ACCEL surpasse largement les GPU traditionnels, en atteignant le même niveau de précision, mais plus rapidement et en consommant beaucoup moins d'énergie.
Les puces analogiques n'ont pas la polyvalence des puces informatiques générales. Bien que l'ACCEL, une puce analogique, soit spécialisée et conçue pour résoudre des types de problèmes spécifiques, elle ne peut pas exécuter un large éventail de fonctions différentes comme les puces informatiques à usage général que l'on trouve dans les smartphones ou les ordinateurs.
Dai Qionghai, l'un des codirecteurs de l'équipe de recherche, a déclaré : « Le développement d'une nouvelle architecture informatique pour l'ère de l'IA est une réussite exceptionnelle. Toutefois, le défi le plus important consiste à mettre en œuvre cette nouvelle architecture dans des applications pratiques, afin de répondre à des besoins nationaux et publics majeurs, ce qui relève de notre responsabilité. »
Il s'agit d'un développement important également parce que l'administration Biden a imposé de nouvelles restrictions strictes à l'accès de la Chine à la technologie de pointe des États-Unis en matière de puces d'intelligence artificielle. Des experts estiment que NVIDIA subit un revers majeur, car il devrait annuler des ventes de puces à la Chine d’un montant de 5 milliards de dollars pour respecter les règles du gouvernement américain. Ces règles pourraient aussi toucher les puces commercialisées par AMD et Intel.
Sources : Nature, Nvidia
Et vous ?
Quelle est la crédibilité de la revendication chinoise selon laquelle elle a développé une puce d’IA plus puissante que celle de Nvidia ?
Quels sont les avantages et les inconvénients de l’informatique tout-analogique par rapport à l’informatique numérique ?
Comment la puce ACCEL se compare-t-elle à la puce A100 de NVIDIA sur d’autres types de tâches que la vision, comme le traitement du langage naturel ou la génération de contenu ?
Quelles peuvent être les implications géopolitiques et économiques d’une innovation technologique majeure venant de Chine dans le domaine de l’intelligence artificielle ?
Voir aussi :
Nvidia dévoile GPU Ampere A100, une puce d'intelligence artificielle, avec 54 milliards de transistors et peut exécuter 5 pétaflops de performances
Les États-Unis songeraient à restreindre l'accès de la Chine aux services américains de cloud computing, pour l'empêcher de louer des GPU avancées afin de combler ses lacunes en matière de puces d'IA
Trump signe un décret pavant le chemin vers le blocage d'Huawei aux USA, la France assure qu'elle n'a pas l'intention de faire la même chose