Un cadre de réseaux neuronaux accordables pour des modèles compacts

Les réseaux de neurones convolutifs (CNN) ont permis de nombreuses applications améliorées par l'IA, telles que la reconnaissance d'images. Cependant, la mise en œuvre de réseaux neuronaux de pointe sur des dispositifs périphériques à faible puissance des réseaux de l'Internet des objets (IoT) est difficile en raison des importantes ressources nécessaires. Des chercheurs de l'Institut de technologie de Tokyo ont résolu ce problème grâce à une architecture de processeur CNN clairsemée efficace et à des algorithmes de formation. Des algorithmes qui permettent une intégration transparente des modèles CNN sur les périphériques.

Avec la prolifération des dispositifs de calcul et de stockage, nous sommes entrés dans une ère centrée sur l'information où l'informatique est omniprésente. Une ère où les services de calcul migrant du nuage vers la « périphérie ». Ce qui permet de traiter les algorithmes localement sur le dispositif. Ces architectures permettent un certain nombre d'applications intelligentes de l'internet des objets (IoT) qui effectuent des tâches complexes.

Des CNN clairsemés et efficaces

Les réseaux neuronaux convolutifs (CNN) se sont fermement établis comme l'approche standard pour les problèmes de reconnaissance d'images. Les CNN les plus précis impliquent souvent des centaines de couches et des milliers de canaux. Ce qui entraîne par conséquent une augmentation du temps de calcul et de l'utilisation de la mémoire. Cependant, les réseaux CNN « clairsemés », obtenus par « élagage », ont considérablement réduit les coûts de calcul. Ils maintiennent toutefois la précision du modèle. De tels réseaux donnent lieu à des versions plus compactes, compatibles avec les périphériques. Ces avantages ont toutefois un coût : les techniques d'élagage limitent la réutilisation des poids. Elles donnent aussi lieu à des structures de données irrégulières. Ce qui les rend inefficaces dans le monde réel.

En réponse à ce problème, les professeurs Masato Motomura et Kota Ando de l'Institut technologique de Tokyo (Tokyo Tech), au Japon, et leurs collègues ont proposé une nouvelle puce CNN clairsemée de 40 nm. Une puce qui atteint à la fois une précision et une efficacité élevées. Ils ont utilisé un réseau MAC (multiplier et accumuler) de produit cartésien et des « aligneurs d'activation en pipeline » qui décalent spatialement les « activations » sur un réseau MAC cartésien régulier.

« Les calculs réguliers et denses sur un réseau de calcul parallèle sont plus efficaces que les calculs irréguliers ou épars. Grâce à notre nouvelle architecture utilisant un réseau MAC et des aligneurs d'activation, nous avons pu réaliser un calcul dense de convolution clairsemée », déclare le professeur Ando, chercheur principal, pour expliquer l'importance de cette étude. Il ajoute : « De plus, les poids nuls ont pu être éliminés à la fois du stockage et du calcul. Ce qui a permis une meilleure utilisation des ressources ». Les résultats seront présentés lors du 33e symposium annuel Hot Chips.

Une sparsité réglable

Un aspect important du mécanisme proposé est sa « sparsité réglable ». Bien que la sparsité puisse réduire la complexité du calcul et donc augmenter l'efficacité, son niveau a une influence sur la précision de la prédiction. Par conséquent, son ajustement en fonction de la précision et de l'efficacité souhaitées permet de démêler la relation entre la précision et la sparsité. Afin d'obtenir des modèles « clairsemés et quantifiés » hautement efficaces, les chercheurs ont appliqué des approches d'« élagage graduel » et de « quantification dynamique » (DQ) à des modèles CNN entraînés sur des ensembles de données d'images standard, tels que CIFAR100 et ImageNet.

L'élagage graduel consistait à élaguer par étapes incrémentielles. Elle supprime notamment le plus petit poids dans chaque canal. La quantification dynamique permettait de quantifier les poids des réseaux neuronaux en nombre de bits de faible longueur. Les activations étant quantifiées pendant l'inférence. En testant le modèle élagué et quantifié sur un prototype de puce CNN, les chercheurs ont mesuré 5,30 TOPS/W denses. Ce qui correspond à un taux d'élagage de 10 %.

« L'architecture proposée et son algorithme d'entraînement CNN clairsemé efficace permettent d'intégrer des modèles CNN avancés dans des dispositifs de périphérie à faible puissance. Cette étude pourrait ainsi ouvrir la voie à un changement de paradigme dans l'IA de périphérie.

Partager l'article :