Analyse de scène 3D à partir de requêtes en langage naturel

#IA générative #Les technologies de l'intelligence artificielle #NLP #vision

DiSCO-3D unifie la segmentation sémantique 3D non supervisée et en vocabulaire ouvert afin de découvrir des sous-concepts sémantiques adaptés au contenu de la scène.

La méthode de segmentation sémantique DISCO-3D permet de découvrir, dans une scène 3D, les éléments correspondant à des sous-concepts sémantiques d’une requête utilisateur exprimée en langage naturel. Cette méthode offre, grâce à une approche basée NeRF*, une compréhension de haut niveau des scènes pour des applications de robotique ou de réalité augmentée par exemple.

Les méthodes de segmentation sémantique 3D actuelles proposent soit d’identifier les objets correspondant à un unique concept sémantique recherché par l’utilisateur (segmentation en vocabulaire ouvert ou OV-Seg), soit de s’adapter au contenu de la scène en découvrant plusieurs concepts sémantiques (segmentation sémantique non supervisée ou USS).

DiSCO-3D est la première méthode capable d’unifier les deux paradigmes, en abordant le problème plus large de la découverte de sous-concepts sémantiques en vocabulaire ouvert (OV-SD). L’approche proposée vise à découvrir les différents sous-concepts sémantiques de la scène 3D pertinents vis-à-vis d’une requête en langage naturel (figure 1).

Figure 1 : segmentation des sous-concepts découverts pour la requête « sleep » (image de gauche) et « furniture » (image de droite)

L’architecture de DiSCO-3D (figure 2) comporte deux modules. Le premier réalise la tâche d’OV-Seg pour identifier les zones de la scène ne correspondant pas à la requête de l’utilisateur (fond). Le second module réalise l’USS en forçant l’un des segments à se superposer au fond trouvé. Cette supervision assure ainsi que les autres segments découverts par l’USS correspondent à des sous-concepts sémantiques pertinents pour la requête.

Figure 2 : Présentation de DiSCO-3D pour un champ de caractéristiques (features) LeRF**

L’efficacité de la méthode est démontrée sur des scènes variées avec différentes requêtes utilisateur (figure 3).

Figure 3 : Évaluation qualitative de DiSCO-3D pour différentes requêtes.

Enfin, les requêtes étant définie en langage naturel, DiSCO-3D peut facilement être intégré comme outil d’une IA agentique, ouvrant les portes de l’analyse de scène 3D à l’aide d’un grand modèle de langage (LLM).

* NeRF : Les Neural Radiance Fields sont une technologie à l’état de l’art qui permet de reconstruire avec un réseau de neurones des scènes 3D à partir d’images 2D.
**LeRF : Les Langage Embedded Radiance Fields étendent les NeRF en associant une information sémantique à chaque point de l’espace.

En savoir plus

Domaines d’application

Reality Capture et robotique autonome

Brevet

« Méthode de découverte automatique de sous-concepts sémantiques dans
une scène », D. Petit, S. Bourgeois, V. Gay-Bellile, F. Chabot, numéro de dépôt FR2501675

Publication majeure

« DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF », Doriand Petit, Steve Bourgeois, Vincent Gay-Bellile, Florian Chabot, Loïc Barthe, The IEEE/CVF International Conference on Computer Vision (ICCV) 2025, Honolulu, Hawaii, USA, pp. 20043-20052
https://openaccess.thecvf.com/content/ICCV2025/html/Petit_DiSCO-3D__Discovering_and_Segmenting_Sub-Concepts_from_Openvocabulary_Queries_in_ICCV_2025_paper.html

Ce travail a été rendu possible grâce à l’utilisation du supercalculateur FactoryIA du CEA-List, soutenu par le Conseil régional d’Île-de-France.

Ont contribué à l’écriture de cet article

Doriand Petit, Doctorant, CEA-List
Steve Bourgeois, Ingénieur-chercheur, CEA-List

En savoir plus

Domaines d’application

Brevet

Publication majeure

Ont contribué à l’écriture de cet article

Le CEA-List, spécialiste des systèmes numériques intelligents

▼ Naviguer dans le portail ▼