Dès lors qu’une requête écrite est formulée dans un moteur de recherche, le texte en est passé au crible : chaque mot, groupe de mots ou phrase est repéré et analysé par un logiciel dédié. Cette analyse est un préalable nécessaire pour les recherches, mais également pour d’autres applications comme les résumés automatiques et la traduction. LIMA, l’analyseur linguistique de l’institut Carnot CEA List, déjà largement utilisé, booste désormais ses performances grâce au Deep Learning.
Les dernières avancées en matière de réseaux de neurones ainsi que la mise à disposition d’ensembles de textes annotés dans différentes langues par l’association Universal Dependencies ont permis d’améliorer considérablement son efficacité ainsi que le nombre de langues traitées, mais également d’enrichir le logiciel de trois modules d’apprentissage. Le premier module permet de segmenter les textes en mots et phrases, un deuxième effectue l’analyse morphologique, lexicale et syntaxique, et le troisième l’annotation des entités nommées.[1]
Tandis que la version antérieure de LIMA est capable d’analyser 6 langues (anglais, français, allemand, espagnol, portugais, chinois et arabe), la nouvelle version Deep LIMA peut désormais analyser plus de 60 langues avec des performances à l’état de l’art.
[1]Projet coopératif international visant à créer des banques d’arborescences linguistiques dans un grand nombre de langues (https://universaldependencies.org/).
Retrouvez cette actualité sur http://www.cea-tech.fr/