Le futur de l'industrie semble, actuellement, se trouver dans la droite ligne de cette idée : fabriquer des pucettes, des petits bouts de processeur spécialisés (un cœur de calcul, un bus PCIe, un transformateur électrique, etc.), que l'on assemble ensuite Intel devrait lancer un premier produit de cette approche cette année. Ces derniers sont alors disposés dans un interposeur et communiquent entre eux — sauf que l'interconnexion consomme de l'énergie et limite la performance. On parle alors de module à plusieurs puces (MCM, en anglais : multi-chip module).
Dans les années 1980, certains chercheurs exploraient déjà d'autres solutions : construire une puce qui a la taille d'une galette (ou, au moins, d'une grande fraction d'une galette), en intégrant l'ensemble des composants (y compris la gestion de l'énergie). En utilisant le silicium comme interposeur (SiIF, silicon interconnect fabric), on peut espérer passer à une échelle plus grande en nombre de pucettes incluses. Les coûts pourraient s'en retrouver réduits : on utilise moins de silicium (Intel déclare qu'un quart de la surface de ses processeurs sert à de la communication entre puces), mais il n'y a plus d'interconnexion à réaliser.
Une équipe de chercheurs a récemment tenté une expérience : sur une galette de cent millimètres de diamètre (une installation de recherche plus que de production, donc), vaut-il mieux produire dix cœurs de GPU (de quatre millimètres carrés chacun) que l'on relie après coup à l'aide de dix mille connexions en cuivre ou bien une seule puce qui contient directement les dix cœurs et l'interconnexion ?
En théorie, la seconde option devrait être meilleure, que ce soit en bande passante, en latence ou en énergie, en ce qui concerne la communication entre cœurs. Sur chacun des trois critères, le GPU fabriqué d'un seul tenant était bien meilleur — et pas qu'un peu, comme le montre le graphique ci-dessous (en échelle logarithmique).
Que se passerait-il avec encore plus de cœurs ? Les chercheurs ont modélisé des situations avec vingt-quatre et quarante cœurs (en théorie, sur une galette de trois cents millimètres de diamètre, on pourrait monter à cent cœurs, mais cela ne semble pas réalisable en pratique). En lançant des tests de performance, ils ont trouvé que, pour vingt-quatre cœurs, une construction d'un seul tenant pourrait aller presque trois fois plus vite ; pour quarante, une interconnexion au niveau du silicium donnerait un facteur d'accélération de plus de cinq.
Cette technologie n'arrivera cependant pas de si vite dans nos ordinateurs de particuliers : un GPU aussi gros nécessiterait une alimentation démesurée (de plusieurs kilowatts, alors qu'une grosse machine de jeu a du mal à dépasser le kilowatt). On s'attend donc plutôt à voir des déploiements, si les fabricants de GPU se lancent, dans des centres informatiques.
Source : Building GPUs Out of Entire Wafers Could Turbocharge Performance, Efficiency.
Voir aussi : l'article.