Partager

DIOD (Self-Distillation Meets Object Discovery) booste la performance de la découverte d’objets non supervisée dans les vidéos

Comparaison de prédictions de la découverte d’objets de trois méthodes de l’état de l’art sur une image de TRI-PD dataset. © CEA
La localisation d’objets d’intérêt dans les vidéos est une tâche fondamentale dans les applications de vision par ordinateur. Pour entraîner des modèles d’IA à effectuer cette tâche avec de bonnes performances, il est nécessaire d’acquérir un grand volume de données annotées, ce qui peut constituer un frein à leur développement. La découverte d’objets a précisément pour but de localiser des objets sans annotation humaine. Elle permet également de gérer des classes d’objets inconnues, contrairement aux détecteurs d’objets classiques.

Quand la découverte d’objet rencontre l’auto-distillation

Pour découvrir des objets dans une image ou une vidéo, sans avoir à utiliser d’annotations manuelles, des signaux de bas niveau peuvent être utilisés, telle que l’information de mouvement ou de profondeur.

Dans nos travaux, nous nous focalisons sur les méthodes exploitant l’information de mouvement (Motion Guided Object Discovery). Ce choix présente plusieurs défis techniques. Premièrement, l’information de mouvement utilisée comme source de supervision ne cible pas -par définition- les objets statiques, d’où la difficulté à généraliser vers ce type d’objets. En outre, le mouvement de la caméra engendre un bruit empêchant la séparation entre les objets mobiles et les parties du fond ayant un mouvement apparent.

Pour relever ces défis, nous nous sommes intéressés à l’exploitation de l’auto-distillation pour la découverte d’objets, encore inexplorée à ce jour. Ce mécanisme repose sur un modèle « maître », utilisé pour étiqueter automatiquement des images non annotées, ainsi que sur un modèle « élève », qui apprend à résoudre la tâche principale avec les données annotées (soit manuellement, soit par le maître). Ce schéma maître-élève permet d’apprendre sur de nouvelles données non annotées, en améliorant progressivement la qualité des pseudo-étiquettes produites initialement par le modèle maitre.

DIOD est la première méthode qui combine la découverte d’objets et l’auto-distillation. Son architecture maître-élève permet de mettre à jour le maître en fonction de ce qu’apprend l’élève, qui découvre les objets à partir de deux sources : les cartes d’attention du maître avec un critère de confiance pour ne garder que les objets les plus sûrs, et les masques de mouvement dont les segments bruités sont retirés. L’amélioration progressive des pseudo-étiquettes conduit le modèle à augmenter ses performances au cours de l’apprentissage. Cela permet de traiter les différents enjeux techniques évoqués ci-dessus : apprendre à découvrir les objets statiques (par exemple, des voitures garées) que le maître a pu généraliser et réduire substantiellement le bruit engendré par le mouvement de la caméra grâce aux différents filtrages.

DIOD surpasse les autres méthodes de l’état de l’art avec une marge confortable (+18.8 points en fg-ARI, +43.8 points en all-ARI, +8.9 points en F1@score sur la base KITTI). Notre solution est capable de mieux découvrir à la fois les objets mobiles et statiques, d’éliminer le bruit présent sur le fond de l’image et de séparer les objets adjacents de même classe sémantique.

En conclusion, DIOD est une méthode de découverte d’objets performante, fonctionnant sans aucune annotation manuelle. Ses perspectives d’utilisation sont multiples : annotation automatique de données (pour supprimer ou réduire le coût d’annotation), extension aux nuages de points 3D (données LIDAR, très utiles par exemple, pour la conduite automatisée), ou découverte d’objets 2D/3D avec un modèle multimodal (pour bénéficier des avantages respectifs des images RGB 2D et des données LIDAR 3D).

 

DIOD surpasse les autres méthodes de l’état de l’art dans la découverte d’objets non supervisée. © CEA

 

Caractéristiques clés

  • Découvrir les objets mobiles sans aucune annotation humaine
  • Pré-annotation intelligente des objets mobiles

 

Brevet DD24102 CJ

Publication majeure

DIOD: Self-Distillation Meets Object Discovery.”
Kara, S., Ammar, H., Denize, J., Chabot, F., and Pham, Q. C. (2024).
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (rang A*).

 

A contribué à l’écriture de cet article :

  • Sandra Kara, doctorante au CEA-List

À lire également

Plateformes technologiques

Intelligence artificielle

La plateforme IA Responsable met à disposition des partenaires du CEA-List un ensemble de moyens pour concevoir et valider des intelligences artificielles performantes, de confiance et frugales et po...
Lire la suite
Programmes de recherche

IA Responsable

Le CEA-List a engagé un programme de recherche ambitieux pour soutenir le développement responsable de systèmes d’IA pour l’industrie et la société.
Lire la suite