Une exploration de la compagnie, menée avec des utilisateurs de ces accélérateurs (comme le BSC]) et des universitaires, tente de quantifier les gains en performance en divisant un GPU monolithique en plusieurs modules, intégrés dans le même boîtier. Par rapport à l’approche traditionnelle, qui est de mettre plusieurs cartes graphiques distinctes dans un même ordinateur, l’idée est de les intégrer au niveau de la puce, avec une structure d’interconnexion de type EMIB, pour former un boîtier MCM (multichip module).
Au contraire, la technique proposée fonctionne à un tout autre niveau : les différents modules auraient une taille nettement plus réduite et pourraient communiquer efficacement, étant présents physiquement dans le même boîtier. Chaque module serait nettement plus facile à produire que les GPU de taille déraisonnable comme le GV100 (ces modules auraient une taille réduite approximativement d’un facteur deux). Ainsi, le programmeur pourrait considérer le processeur comme une seule entité, sans devoir gérer des communications entre processeurs.
En termes de chiffres, une telle conception pourrait, d’après des simulations, être 45,5 % plus rapide que le GPU monolithique le plus gros que l’on pourrait envisager de fabriquer, mais aussi 10 % plus rapide qu’un GPU monolithique équivalent (en nombre de cœurs CUDA). Par rapport à une conception utilisant plusieurs processeurs distincts sur la même carte, hypothèse plus réaliste, les gains seraient de 26,8 %.
Les impacts industriels de cette recherche pourraient tomber en même temps que la prochaine feuille de route de NVIDIA (l’actuelle s’arrêtait à Volta), probablement à la prochaine conférence GTC.
NVIDIA n’est pas la seule firme à poursuivre cette direction. AMD a récemment annoncé ses processeurs EPYC, qui utilisent le même mécanisme pour monter en nombre de cœurs. Ils pourraient d’ailleurs l’exploiter également pour la prochaine génération de cartes graphiques, Navi.
Plus de détails : MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability.