Partager

Le traitement automatique des langues facilite le traitement administratif des accords d’entreprise

© ktsimage / Istock.com
Chaque année, près de 87 000 accords collectifs d’entreprise sont déposés au Ministère du Travail par l’intermédiaire de son service en ligne TéléAccords. Leur traitement administratif étant très lourd, les ministères sociaux souhaitent se doter d’outils permettant de réduire le temps passé par leurs agents dans le traitement de ces accords, tout en préservant la qualité du service rendu. Pour les bénéficier des technologies d’intelligence artificielle et de traitement automatique des langues développées au CEA-List, ils ont mené avec nos équipes un projet partenarial.
Résultat : la mise au point de trois prototypes visant à accélérer la publication des documents et à en extraire des informations clés.

Anonymiser les accords en vue de leur publication

Avant de diffuser ces accords sur Légifrance – en libre accès – les agents doivent s’assurer que les textes sont exempts de toute information nominative (confidentialité des données des parties prenantes oblige) et les corriger, le cas échéant.

Pour répondre à ce besoin, nos chercheurs ont adapté la fonctionnalité générique de détection de personnes disponible dans leur environnement logiciel  LIMA (outil d’analyse linguistique multilingue du List). Ils ont ainsi pu annoter les accords, là où des données personnelles auraient échappé à la vigilance des entreprises déposantes, fournissant une aide à la vérification finale conduite par les agents des Ministères. L’outil permet par exemple de distinguer les noms propres à supprimer d’autres noms propres pertinents (adresse(s) de l’entreprise par exemple).

La technologie développée a été jugé suffisamment performante par les Ministères Sociaux pour mettre notre outil à disposition de leurs agents et des déposants eux-mêmes. Elle a été intégrée par Sopra Steria en vue d’un futur accès sur le site TéléAccords.

Identifier les textes d’accord originaux

Les nombreux accords déposés par les entreprises au fil du temps sont stockés sans identification des liens juridiques entre les textes associés. Cette absence de liens rend particulièrement complexe la sélection du droit applicable à chaque accord, pour l’administration comme pour les partenaires sociaux et les salariés. Les Ministères Sociaux ont donc souhaité disposer d’un outil permettant de « construire » ces liens, travail extrêmement chronophage lorsqu’il est réalisé manuellement.

En se basant sur un échantillon d’un million et demi de documents (issus de la base des accords d’entreprise déposés), nos chercheurs ont mis au point un prototype de « chaînage » des accords d’entreprise : un dossier est lié à un autre sur une base juridique, en y associant un score de confiance.

Seize méthodes ont été implémentées pour établir un lien inter-documents, dont quatre basées sur la similarité sémantique exploitant les prolongements lexicaux (technologie de « word embedding »).

A partir de leur propre évaluation sur notre outil, les ministères sociaux ont estimé que la solution développée par le CEA identifie 83% des documents ayant un lien juridique avec un autre texte, ce qui est très satisfaisant car la tâche est difficile voire impossible en l’absence de certaines métadonnées ou d’erreurs en base de données.  Et 70% de ces liens pointent vers le document attendu. Au vu de ces résultats jugés très prometteurs, nos partenaires envisagent l’intégration de ce deuxième outil par Sopra Steria.

Rechercher des accords par thématique

Dernier défi à relever : assurer une classification hybride, s’appuyant à la fois sur un gestionnaire de règles et un classifieur statistique. Le gestionnaire de règles permet à l’utilisateur d’écrire des règles à partir de mots-clés et de les combiner. Et le classifieur statistique, entrainé sur le référentiel client, offre l’avantage d’apprendre automatiquement, à partir des observations faites sur les dossiers déjà annotés.

Avec une F-mesure à 84% pour le classifieur statistique (indicateur d’évaluation des algorithmes de classification, « traduisant » les prédictions correctes par rapport aux faux positifs ou négatifs), les performances mesurées sur le corpus d’évaluation sont très encourageantes.

Dernier développement en date, notre outil est aujourd’hui en cours d’évaluation par les ministères concernés.

 

Ces réussites ont fait l’objet de plusieurs communications de la part des ministères sociaux, en particulier lors du salon VivaTech de juin 2022 :