Analyser et réduire les biais politiques dans les grands modèles de langue

Sentiment moyen par langue (à gauche) et modèle agrégé par tendance politique (à droite).

Cette contribution introduit une nouvelle manière de mesurer les biais politiques dans les grands modèles de langue. Les résultats mettent en lumière des préférences idéologiques inattendues, variables selon la langue et la taille du modèle. Les biais sont significativement réduits en anonymisant les noms des politiciens.

Le CEA-List propose une méthode inédite pour analyser les biais politiques présents dans les grands modèles de langage (LLMs). Plutôt que de leur faire répondre à des questionnaires politiques ou de générer des textes — des approches déjà connues mais limitées — les auteurs utilisent un angle simple et efficace : observer comment les modèles changent d’avis lorsque l’on remplace, dans une même phrase, le nom d’un responsable politique par un autre.

Le principe est transparent : une phrase politique issue de la presse est choisie, et le modèle doit indiquer si le ton employé est positif, négatif ou neutre envers la personne citée. En remplaçant cette personne par plus de 1 300 politiciens de différentes régions et familles politiques, puis en répétant l’exercice en six langues avec sept modèles, l’équipe obtient près de 25 millions de prédictions. Cette masse de données permet de repérer des variations systématiques dans les réponses, que les auteurs interprètent comme des formes de biais.

Les résultats révèlent plusieurs tendances nettes. D’abord, les modèles étudiés (ChatGPT, Qwen, Llama, Aya, Mistral) affichent globalement des préférences : ils associent plus facilement un ton positif aux responsables politiques de gauche ou du centre, et des évaluations plus négatives aux figures de droite et d’extrême droite. Ces biais apparaissent dans toutes les langues, mais sont plus marqués dans les idiomes occidentaux comme l’anglais, le français et l’espagnol.

Un autre enseignement important concerne la taille des modèles : les plus grands, plus performants en moyenne, expriment aussi des biais plus stables et plus intenses. Ce comportement est illustré par la comparaison des deux versions de Llama et Qwen dans la figure en entête. Cela suggère que l’augmentation des capacités favorise non seulement la cohérence des réponses, mais aussi l’amplification de tendances présentes dans leurs données d’entraînement.

Les auteurs montrent également que les modèles possèdent une représentation interne des personnalités politiques (Figure 1). En comparant les prédictions associées à différents responsables, ils mettent en évidence des similarités fortes entre certaines figures proches idéologiquement — par exemple entre dirigeants sociaux-démocrates européens — ce qui suggère que le modèle organise mentalement le paysage politique.

Figure 1. Similarité entre des entités politiques

Enfin, l’étude teste une piste de réduction des biais : remplacer les noms réels par des noms fictifs mais crédibles, tout en conservant certaines caractéristiques comme le pays d’origine ou le genre. Cette manipulation réduit nettement les variations injustifiées dans les prédictions, comme illustré dans la Figure 2, même si certains écarts subsistent.

En synthèse, cette contribution apporte une grille de lecture nouvelle, fondée sur un protocole simple et reproductible. Elle montre que les modèles de langage, même très puissants, restent sensibles aux associations politiques présentes dans leurs données. Et elle suggère que de légères adaptations dans la formulation des tâches peuvent déjà améliorer l’équité des analyses sentimentales dans les contextes sensibles.

Figure 2 : Score de sentiment moyen par langue pour les tendances
politiques étudiées après réduction du biais par anonymisation.

En savoir plus

Ce travail a été rendu possible grâce à l’utilisation du supercalculateur FactoryIA, soutenu financièrement par le Conseil Régional d’Ile-de-France.

Projets

Projets BOOM ANR- ANR-20-CE23-0024 et OpenLLM-France

Publication majeure

« Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification ». Akram Elbouanani, Evan Dufraisse, and Adrian Popescu. 2025. In Findings of the Association for Computational Linguistics: ACL 2025, pages 15476–15505, Vienna, Austria. Association for Computational Linguistics. https://arxiv.org/html/2505.19776v1 Cette contribution s’inscrit dans le cadre d’un travail à long terme sur l’équité algorithmique qui couvre l’intégralité des étapes de mise en place de systèmes d’IA, à partir de la constitution des corpus d’entraînement et jusqu’au suivi des biais en production. La contribution a été publiée à la conférence de référence ACL 2025.

Analyser et réduire les biais politiques dans les grands modèles de langue

Akram Elbouanani

Chiffre clé

En savoir plus

Projets

Publication majeure

Le CEA-List, spécialiste des systèmes numériques intelligents

▼ Naviguer dans le portail ▼