Une avancée prometteuse pour des images IA plus réalistes

Les images générées par l'intelligence artificielle souffrent souvent de défauts notables, comme des doigts déformés ou des symétries faciales incorrectes. Les chercheurs de l'université Rice ont peut-être trouvé une solution à ces problèmes courants.

ElasticDiffusion révolutionne la génération d'images IA

Les modèles d'IA génératifs, tels que Stable Diffusion ou DALL-E, peinent à produire des images non carrées sans déformations. Les chercheurs de l'université Rice ont développé ElasticDiffusion, une nouvelle méthode pour créer des images plus cohérentes et réalistes. Selon Moayed Haji Ali, doctorant à l'université Rice, cette approche sépare les informations globales et locales des images, ce qui permet de corriger les défauts visuels courants.

New research could make weird AI images a thing of the past @RiceUniversity https://t.co/JYxAQiW7Eb
— TechXplore (@TechXplore_com) September 15, 2024

Traditionnellement, les modèles de diffusion génèrent des images en ajoutant puis supprimant du bruit aléatoire sur les images d'entraînement. Cependant, ces modèles peinent à gérer des formats différents de leur format d'entraînement initial. ElasticDiffusion propose une technique innovante en séparant les signaux locaux (détails fins) et globaux (composition générale) pour éviter les répétitions indésirables. Cette méthode assure des images plus nettes, quel que soit le format demandé.

Des modèles IA plus performants pour des images variées

Moayed Haji Ali et son équipe ont présenté leur travail à la conférence CVPR 2024. Ces derniers ont mis en lumière les avantages d'ElasticDiffusion. Contrairement aux approches classiques, ElasticDiffusion applique un modèle inconditionnel pour traiter les détails au niveau du pixel, tout en gardant séparées les informations globales. Cela empêche les IA de confondre les signaux, un problème fréquent qui génère des anomalies visuelles, comme des éléments dupliqués ou mal proportionnés.

Cette méthode permet aux modèles de diffusion de s'adapter à des rapports hauteur/largeur variés, ce qui représente une avancée majeure. Les images générées sont plus fidèles à la demande, sans nécessité d'entraînement supplémentaire pour chaque nouvelle dimension. Ce gain d'efficacité rend ElasticDiffusion particulièrement intéressant pour des applications nécessitant des formats diversifiés, comme sur des écrans de tailles variées.

Vers une adoption généralisée malgré les défis de temps

Malgré ses nombreux avantages, ElasticDiffusion présente encore quelques défis, notamment en termes de rapidité. Actuellement, cette méthode demande de 6 à 9 fois plus de temps pour générer une image par rapport aux modèles traditionnels. Moayed Haji Ali et ses collègues travaillent activement à réduire ce temps d'inférence, afin de rivaliser avec les performances des modèles existants comme Stable Diffusion ou DALL-E.

New research could make weird AI images a thing of the past

Rice University computer scientists' new method of generating images with pre-trained diffusion models ⎯ a class of generative AI models that "learn" by adding layer after layer of random noise to the images they are…
— Evan Kirstel #B2B #TechFluencer (@EvanKirstel) September 16, 2024

Cette approche représente néanmoins une étape importante vers des modèles d'IA plus flexibles et efficaces. L'objectif est de permettre aux modèles de diffusion de gérer des rapports hauteur/largeur variés sans compromis sur la qualité. Cela ouvre ainsi de nouvelles possibilités pour la création d'images IA.

Des perspectives prometteuses pour l'avenir de l'IA générative

Les travaux de Haji Ali et son équipe illustrent bien les défis et les opportunités dans le domaine de l'IA générative. En améliorant la cohérence des images produites, ElasticDiffusion pourrait redéfinir les standards de qualité des modèles d'IA actuels. Ces avancées permettent d'espérer une adoption plus large de ces technologies dans divers secteurs, de la création artistique à la publicité en passant par le divertissement.

Avec ElasticDiffusion, les chercheurs de l'université Rice offrent une solution potentielle aux défauts majeurs des modèles IA actuels. Ces suggestions promettent ainsi une nouvelle ère pour la génération d'images par l'intelligence artificielle. Leur travail démontre que les imperfections ne sont pas une fatalité, et que des améliorations significatives sont possibles grâce à l'innovation et à la recherche continue.

Partager l'article :