Les chercheurs de l'Université de Californie à Berkeley, de l'Université de Stanford et de la CMU ont récemment présenté Octo, un modèle généraliste open source pour la manipulation robotique. Ce modèle pourrait transformer les capacités des systèmes robotiques en leur permettant de manipuler une grande variété d'objets.
Un nouveau paradigme inspiré par les LLM
Octo est comparable à ChatGPT dans le domaine de la manipulation robotique. Les chercheurs ont utilisé des ensembles de données vastes et diversifiés pour entraîner ce modèle, tout comme les grands modèles de langage utilisent d'immenses bases de données textuelles.
Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black et Oier Mees ont souligné l'importance des ensembles de données dans le développement de modèles IA avancés. L'ensemble de données Open X-Embodiment regroupe des données de manipulation robotique provenant de nombreux instituts. Cela offre une ressource inestimable pour la formation de modèles comme Octo.
Le projet Octo avait deux objectifs principaux. D'abord, créer un modèle robotique généraliste applicable à divers robots. Ensuite, développer un code open source permettant à d'autres chercheurs de créer des modèles similaires à l'avenir.
Un modèle généraliste
Octo est un réseau neuronal capable de contrôler différents types de robots et de répondre à diverses requêtes. Il peut exécuter des tâches simples comme « prendre la cuillère » ou « fermer le tiroir ». Cette polyvalence est essentielle pour son adoption dans différents laboratoires à travers le monde.
Ce nouveau modèle se distingue par sa capacité à traiter une large gamme d'entrées sensorielles. Cela inclut des images, des lectures conjointes de robots et des instructions linguistiques. Cette flexibilité le rend applicable à une variété de configurations robotiques.
Evaluation et performances
Les chercheurs ont testé Octo sur neuf systèmes robotiques différents. Le modèle a réussi à contrôler ces robots et à effectuer diverses tâches de manipulation, même avec des configurations qu'il n'avait pas rencontrées durant son entraînement.
Depuis la publication d'Octo, de nombreux chercheurs ont commencé à l'utiliser sur leurs propres robots. La base de code développée pour Octo sert déjà de fondement pour de futurs projets.
Malgré ses avancées, Octo nécessite encore des ajustements pour fonctionner parfaitement sur tous les robots. Les chercheurs travaillent à améliorer sa capacité de généralisation pour qu'il puisse exécuter des tâches variées sans nécessiter d'entraînement supplémentaire.
Vers une nouvelle génération de modèles
Les chercheurs de l'UC Berkeley, Stanford et CMU poursuivent leur quête pour créer un modèle de manipulation robotique entièrement généraliste. Leur vision est de développer des modèles capables de contrôler divers robots de manière fiable et efficace. Cet exploit ouvre la voie à de nouvelles applications robotiques.
En somme, Octo représente une avancée significative dans le domaine de la manipulation robotique. Sa flexibilité et son potentiel de généralisation promettent de révolutionner la manière dont les robots interagissent avec leur environnement. Le lancement de ce modèle marque le début d'une nouvelle ère pour la robotique.
- Partager l'article :