Adobe Research et l'Université nationale australienne (ANU) ont conjointement dévoilé un modèle d'IA capable de créer des images 3D à partir d'une simple image 2D : LRM.
Cette innovation promet de redéfinir la création de modèles 3D. Les chercheurs affirment que leur nouvel algorithme, formé sur d'énormes échantillons d'images, peut générer des images 3D en quelques secondes seulement. Yicong Hong, stagiaire chez Adobe et ancien étudiant diplômé du Collège d'ingénierie, d'informatique et de cybernétique de l'ANU, explique que leur grand modèle de reconstruction (LRM) repose sur un réseau neuronal évolutif. Celui-ci comprend d'ailleurs un million d'ensembles de données et 500 millions de paramètres. Autrement dit, un flux de données comprenant des images, des formes 3D et des vidéos.
Du 2D au 3D : l'IA d'Adobe Research propulse la reconstruction dans une ère inédite
Hong, auteur principal d'un rapport sur le projet, souligne que la combinaison d'un modèle de grande capacité et de données d'entraînement à grande échelle confère à leur modèle une haute généralisabilité. Cette approche permet en effet la production de reconstructions 3D de qualité à partir de diverses entrées de test. Mais jusqu'à ce jour, le LRM demeure le premier modèle de reconstruction 3D à grande échelle.
Pour le domaine de la génération d'images par intelligence artificielle, cette percée promet de révolutionner plusieurs secteurs. Dont la réalité augmentée, la réalité virtuelle, les jeux, l'animation cinématographique et le design industriel.
Les premiers logiciels d'imagerie 3D étaient limités aux formes prédéfinies. Mais aujourd'hui, des progrès ont été réalisés grâce à des programmes tels que DALL-E et Stable Diffusion. Or, ces derniers ont exploité la capacité de généralisation des modèles de diffusion 2D. Ces outils étaient alors restreints aux modèles génératifs 2D pré-entraînés.
LRM, plus performant que jamais : une version 3D en seulement 5 secondes
De nombreux systèmes ont déjà exploité l'optimisation par forme pour produire des résultats remarquables. Mais ils souffraient souvent de lenteurs et d'une praticité limitée. L'équipe dirigée par Hong a envisagé la possibilité d'acquérir une compréhension générique de la 3D avant de reconstruire un objet à partir d'une seule image. Grâce à cette IA qui a été déveoppé par l'ANU et Adobe Research, la réponse a été affirmative.
Hong explique alors que le LRM peut reconstruire des formes 3D haute fidélité. Cela à partir d'une large gamme d'images, qu'elles soient capturées dans le monde réel ou créées par des modèles génératifs. Il souligne également que le LRM est une solution pratique pour les applications en aval. Leur algorithme est d‘ailleurs capable de produire une forme 3D en seulement cinq secondes. Et cela sans nécessiter de post-optimisation.
Le succès de ce programme d'IA d'Adobe Research repose sur l'exploitation de sa grande base de données. Celle-ci comprend des millions de paramètres d'image. Et son but est de prédire un champ de radiance neuronal (NeRF). Cette approche permet de générer des images 3D réalistes à partir d'images 2D, même en basse résolution.
Il y a 60 ans, Ivan Sutherland a développé le premier programme informatique permettant de générer et de manipuler des formes 3D simples, baptisé Sketchpad. Cette création, réalisée dans le cadre de sa thèse de doctorat au MIT, ne disposait que de 64 Ko de mémoire.
Depuis lors, le domaine des programmes 3D a connu une croissance impressionnante. Aujourd'hui, on assiste à l'émergence des technologies de génération 3D. Notamment AutoCAD, 3D Studio, SoftImage 3D, RenderMan et Maya.
- Partager l'article :