L’objectif de nos recherches est de concevoir une brique logicielle permettant à un robot de comprendre et d’exécuter des tâches spécifiées en langage naturel (ou indiquées par des images), transformant ainsi des interactions intuitives en actions physiques concrètes.
Nous avons intégré un modèle d’IA générique, ou modèle de fondation, basé sur une architecture Transformer pré-entraînée sur un large ensemble de trajectoires de robots. Ce modèle est ensuite affiné sur nos propres données afin d’optimiser ses performances pour nos applications spécifiques.
Le modèle sélectionné, Octo[1], est conçu pour s’adapter efficacement à diverses configurations robotiques tout en nécessitant un volume de données limité et des ressources de calcul modérées. Cette flexibilité repose sur sa structure modulaire d’attention, qui facilite son ajustement aux spécificités des tâches ciblées, améliorant la généralisation et les performances du modèle sur un large éventail d’applications robotiques.
Pour collecter des données spécifiques à notre problématique de saisie robotique, nous avons mis en place une fonctionnalité de télé-opération. Elle repose sur une plateforme robotique incluant un robot léger à 6 axes, contrôlé à distance par une manette de réalité virtuelle. Cette méthode de contrôle permet une manipulation précise et intuitive, essentielle à l’acquisition de données de bonne qualité. Pour produire ces données, plusieurs volontaires ont réalisé des saisies robotiques, parmi une dizaine d’objets différents, manipulés dans quatre configurations spatiales distinctes.
Cette diversité est cruciale pour assurer la diversité et la représentativité des données recueillies, permettant au robot de traiter une grande variété de scénarios de manipulation. Enfin, pour corriger d’éventuelles erreurs d’annotation, une étape essentielle de nettoyage des données acquises a été menée à l’aide du logiciel PIXANO, développé au CEA-List. Les données nettoyées ont été utilisées pour fine-tuner le modèle Octo. Ces données de laboratoire correspondent à un jeu de données d’entraînement de 678 trajectoires et un jeu de test de 70 trajectoires. Finalement, cet entraînement a abouti à la démonstration de la capacité du système à identifier et saisir un objet de la base d’apprentissage placé seul, ou au milieu de distracteurs, sans perception 3D dédiée. Les travaux se poursuivent et visent maintenant à réaliser des tâches plus complexes parmi lesquelles des saisies d’objet bimanuelles.
Ces développements s’inscrivent dans nos travaux sur la programmation intuitive, visant à rendre la robotique accessible aux opérateurs non experts.
Nos travaux visent à développer des systèmes robotiques robustes, accessibles et rapides à déployer, à destination de l’industrie, grâce à l’intelligence artificielle.
Ont contribué à l’écriture de cet article :