FUJITSU continue ses développements pour les prochaines générations de superordinateurs. Après le remplacement de l’architecture SPARC64 par ARM, voici l’annonce de processeurs spécifiques pour l’apprentissage profond, des DLU (deep learning unit). L’objectif est de fournir des puces dix fois plus efficaces en termes de puissance de calcul par watt consommé que la concurrence. Ces processeurs sont en développements depuis 2015, mais la première annonce n’a eu lieu qu’à la conférence ISC 2017, centrée autour du calcul de haute performance.
Comme les autres fabricants, FUJITSU mise sur des calculs avec une faible précision pour augmenter la performance et diminuer la consommation d’énergie : en effet, pas besoin d’une très grande précision pour ces réseaux neuronaux (une trop grande précision favoriserait le surapprentissage : le réseau est capable de reproduire les données d’entrée, mais pas d’extrapoler sur de nouvelles données). Ainsi, les DLU ne pourraient gérer que quatre types de données : des nombres à virgule flottante sur trente-deux (précision simple) ou seize bits (demi-précision), ainsi que des entiers de même taille.
Vus de haut, ces processeurs sont constitués d’une série d’unités de calcul spécifiques, des DPU (deep learning processing unit), connectés par des liens à haute performance. Un cœur de calcul distinct gère l’exécution sur les DPU et négocie les accès en mémoire.
Chacun de ces DPU est constitué de seize DPE (deep learning processing element), qui effectuent les calculs. Plus en détail, chaque DPE comporte huit unités de calcul SIMD, avec une banque de registres assez grande : cette dernière n’est pas contrôlée par le matériel comme un cache classique, mais uniquement par du logiciel.
La mémoire est assurée par des puces HBM2, tandis qu’il est possible de rassembler une série de DPU (les processeurs) par une interface Tofu : FUJITSU envisage de créer des systèmes de très grande taille, modulable à l’infini.
Les premiers DLU devraient être disponibles en 2018 en tant que coprocesseurs de calcul : les machines devront disposer d’un autre processeur pour lancer l’apprentissage du réseau neuronal. Cependant, tout comme Intel avec ses Xeon Phi, la deuxième génération de DPU devrait être capable de s’affranchir de ce processeur principal. On ne peut que remarquer des similitudes avec l’approche d’Intel et ses Lake Crest, à venir également l’année prochaine. NVIDIA aurait-il du souci à se faire pour ses processeurs graphiques optimisés pour l’apprentissage profond ?
Source et images : Fujitsu Will Pursue AI with Custom-Built Processor.