

Le GPU NVIDIA A100 offre de très hautes performances en IA, analyse de données et HPC
Le GPU NVIDIA A100 offre des capacités d’accélération sans précédent à tous les niveaux afin d’alimenter les Data Centers élastiques les plus puissants au monde dans les domaines de l’IA, de l’analyse de données et du HPC. Basé sur l’architecture NVIDIA Ampere, l’A100 est le moteur de la nouvelle plateforme de NVIDIA pour les Data Centers. L’A100 offre des performances jusqu’à 20 fois plus élevées que celles de la génération précédente et peut être partitionné en sept instances de GPU pour s’adapter de manière dynamique à l’évolution des demandes.
Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. Leur entraînement requiert une puissance de calcul massive ainsi qu’une importante évolutivité. Les cœurs Tensor des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) vous offrent, sans changement du code-source, des performances jusqu’à 20 fois plus élevées par rapport aux GPU NVIDIA Volta et un rendement doublé grâce à la technologie NVIDIA de précision mixte automatique ainsi qu’à la prise en charge des calculs FP16. Mais ce n’est pas tout : l’association des technologies NVIDIA, NVLink et NVIDIA NVSwitch, de la norme PCI Gen4, de NVIDIA, Mellanox, InfiniBand et du kit de développement logiciel NVIDIA Magnum IO permet d’interconnecter plusieurs milliers de GPU A100 pour bénéficier d’une puissance de calcul phénoménale.
Benchmark d’analyse Big Data | 30 requêtes d’analyse commerciale avec des jeux de données ETL, ML et NLP à 10 To | CPU : Intel Xeon Gold 6252 à 2,10 GHz, Hadoop | V100 32 Go, RAPIDS/Dask | A100 40 Go et A100 80 Go, RAPIDS/Dask/BlazingSQL
Sur un benchmark d’analyse Big Data, un GPU A100 à 80 Go est en mesure de fournir un rendement jusqu’à 83 fois plus élevé qu’avec le traitement CPU et jusqu’à 2 fois plus élevé qu’avec un GPU A100 à 40 Go, ce qui permet de traiter les charges de travail émergentes avec des volumes de données sans cesse plus conséquents. Cela signifie que des charges de travail d’entraînement basées sur des modèles de langage comme BERT peuvent être traitées en moins d'une minute sur un cluster composé de 2 048 GPU A100, vous offrant une réduction significative des délais d’exécution.
Avec des modèles complexes dotés de tables de données massives, tels que les modèles de recommandation pour le Deep Learning (DLRM), un GPU A100 à 80 Go peut mettre en œuvre jusqu’à 1,3 To de mémoire unifiée et fournir un rendement jusqu’à 3 fois plus élevé par rapport au GPU A100 à 40 Go.
Les chercheurs de l’université Tsinghua à Pékin affirment que la puce ACCEL est une avancée majeure en intelligence artificielle, surpassant la puce A100 de NVIDIA, reconnue pour ses hautes performances. Ils mettent en avant des usages concrets pour la puce ACCEL, tels que les appareils portatifs, les voitures autonomes et les contrôles industriels, où la rapidité et l’efficacité énergétique dans le traitement des images et vidéos sont primordiales.
Cependant, ils précisent que la puce ACCEL est optimisée pour le traitement visuel et n’est pas conçue pour des tâches diversifiées comme les puces informatiques traditionnelles. Enfin, ils mentionnent les tensions géopolitiques actuelles, soulignant que les restrictions américaines sur l’exportation de technologies de puces d’IA vers la Chine ont impacté des entreprises telles que NVIDIA, AMD et Intel.
Les tâches de vision sont souvent basées sur des dispositifs numériques, qui nécessitent de transformer les signaux optiques en signaux numériques, même après avoir fait du calcul optique. Pour cela, il faut utiliser des photodiodes et des convertisseurs analogiques/numériques qui consomment beaucoup d’énergie pour le traitement ultérieur.
Sinon, il faut recourir à une non-linéarité optique et à une mémoire très précises, mais qui augmentent la latence et la consommation d’énergie du système. Les chercheurs ont développé une architecture optoélectronique hybride entièrement analogique pour éviter les convertisseurs analogiques/numériques lourds et réaliser des tâches de vision rapides et économes en énergie avec des performances de haut niveau.
En éclairant les cibles avec une lumière cohérente ou incohérente, ils encodent l'information dans des champs lumineux. Avec un système d'imagerie commun, ACCEL est placé dans le plan de l'image pour un traitement direct de l'image tel que les classifications. La première partie de l'ACCEL qui interagit avec le champ lumineux est un module de calcul optique diffractif multicouche pour extraire les caractéristiques des images haute résolution à la vitesse de la lumière, appelé OAC, réduisant l'exigence de conversion optoélectronique par la réduction des dimensions de manière entièrement optique.
Les masques de phase de l'OAC sont formés pour traiter les données encodées dans les champs lumineux avec des opérations de produit de points et de diffraction de la lumière, équivalentes à des multiplications matricielles linéaires d'un champ lumineux complexe. Les caractéristiques extraites codées dans les champs lumineux après l'OAC sont connectées à l'EAC avec un réseau de photodiodes 32 × 32 pour convertir les signaux optiques en signaux électroniques analogiques sur la base de l'effet photoélectrique, qui sert d'activation non linéaire. Sans nécessiter de CAN, ces photodiodes sont connectées soit à la ligne positive V+, soit à la ligne négative V-, déterminées par les poids stockés dans la mémoire statique à accès aléatoire (SRAM).
Les photocourants générés sont d'abord additionnés sur les deux lignes sur la base de la loi de Kirchhoff. Ensuite, un soustracteur analogique calcule la tension différentielle des lignes de calcul V+ et V- en tant que nœud de sortie. En réinitialisant les lignes de calcul et en mettant à jour les poids avec la SRAM, ACCEL peut émettre une autre impulsion avec différentes connexions de photodiodes. Par conséquent, l'EAC est équivalent à un NN entièrement connecté à pondération binaire, correspondant à une matrice de calcul de 1 024 × Noutput (où Noutput est le nombre d'impulsions de sortie).
Les sorties peuvent être directement utilisées comme étiquettes prédites des catégories de classification ou comme entrées d'un autre NN numérique. Pour le calcul entièrement analogique, les chercheurs ont fixé Noutput à n pour une classification à n classes sans aucun NN numérique. Pour l'ACCEL avec un seul cœur EAC, il fonctionne de manière séquentielle en émettant plusieurs impulsions correspondant aux nœuds de sortie Noutput du NN binaire dans l'EAC. Toutes ces...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.