Le traitement intensif de données devient une fonction majeure des systèmes numériques, que cela soit au sein d’un calculateur pour des applications d’IA ou sur une chaîne d’instrumentation. En intégrant des fonctions de calcul directement dans les mémoires et/ou dans les capteurs, les équipes du programme CAN parviennent à accélérer ce type d’opérations et à réduire leur consommation énergétique.
Les applications intensives en données, comme l’identification d’objets dans une image par un véhicule autonome, sont en plein essor. Mais leurs performances sont limitées par les transferts de données au sein du processeur, entre l’unité de calcul et les différentes mémoires qui l’entourent. Ces opérations ralentissent en effet grandement les traitements et comptent pour 90 % de la consommation électrique du composant.
Le CEA-List explore plusieurs voies d’architectures pour lever ces freins :
Le problème du transfert de données se pose également sur une chaîne d’instrumentation. Faute de bande passante suffisante, le délai de remontée des mesures depuis le capteur jusqu’au processeur à l’autre bout du réseau pénalise souvent les applications en temps contraint (applications critiques, industrielles, etc.).
Pour répondre à ce besoin, le CEA-List travaille sur de nouvelles générations de capteurs intelligents, intégrant des capacités de traitement du signal in situ.
C’est dans ce même esprit que les équipes ont développé Retine, un imageur pour système embarqué. Grâce à son architecture multicouche, le composant, très dense, reste peu encombrant et à faible consommation. Il est destiné à être embarqué dans des robots, des drones, des systèmes pour l’inspection visuelle, etc.
La SRAM computationnelle est une mémoire SRAM dotée de capacités de calcul lui permettant d’exécuter directement des opérations, sans passer par le processeur. Son utilisation multiplie par 30 la vitesse d’un calcul et diminue par 50 la consommation d’énergie.
La SRAM est une mémoire rapide et proche du processeur. L’étape suivante consistera à intégrer des capacités de calcul dans les mémoires non volatiles, plus lentes et plus éloignées (comme les mémoires Flash).
VXP est un accélérateur pour le calcul de très haute précision (jusqu’à 512 bits de mantisse). Il peut ainsi diviser par trois le temps d’exécution de programmes complexes tels que des solveurs pour applications scientifiques (simulation, dynamique des fluides, physique et chimie computationnelle) ou des applications d’IA. Sa capacité à régler finement et de manière dynamique la précision le rend en effet très adapté à la résolution de systèmes d’équations mal conditionnées de grande dimension. Le composant s’intègre naturellement dans les datacenters aux côtés d’unités centrales.
Un démonstrateur a été réalisé dans le cadre du programme européen EPI. Il consiste en un circuit en technologie 22 nm FDX de Global Foundry auquel est associée une pile logicielle, elle-même composée d’un compilateur et d’un assembleur C-like, d’une bibliothèque de sous-programmes mathématiques et d’un environnement d’exécution.
Pour en savoir plus :
Le processeur PNeuro :
PNeuro est un accélérateur matériel économe en énergie entièrement programmable pour les réseaux neuronaux profonds (DNN). Un transfert industriel a été réalisé dans le cadre du laboratoire commun entre le CEA-List et Dolphin Design. La collaboration a été fructueuse puisque le Tiny Raptor, la plateforme IP de traitement neuronal à haute efficacité énergétique de Dolphin Design qui intègre des PNeuros a remporté l’« Embedded Award 2022 » dans la catégorie startup.
L’architecture NeuroCorgi :
Le CEA-List a conçu une puce silicium (ASIC) dédiée à exécuter des tâches d’IA localement et de manière extrêmement efficace. Avec une consommation inférieure à 25 mW, elle apporte un gain en consommation d’un facteur 1000 par rapport à des circuits du commerce.
Pour en savoir plus :
Dans un système d’instrumentation classique, les calculs sont généralement centralisés et les capteurs déportés au plus proche de la mesure. Les contraintes de bande passante et de puissance de calcul nécessaires imposent de repenser l’architecture de la chaîne d’instrumentation en mixant des moyens de calculs proches capteur et/ou distribués afin de répartir les contraintes de débits de données à l’information pré-traitée la plus pertinente.
Plus nous équiperons de fonctions de calcul ces espaces de stockage de taille et de lenteur croissantes, plus le gain sera potentiellement important.