Partager

05 octobre 2021 | Protéger les données d’apprentissage des réseaux de neurones

05 octobre 2021 | Protéger les données d’apprentissage des réseaux de neurones
© Adobestock _Skórzewiak
L’apprentissage collaboratif, basé sur de nombreuses bases de données privées, permet d’entraîner très efficacement les intelligences artificielles… Mais comment partager de précieuses données en toute confidentialité ? Le CEA-List relève le défi avec une nouvelle méthode de construction collaborative de réseaux de neurones profonds sans divulgation des données d’apprentissage.

La phase d’apprentissage de réseaux de neurones nécessite de disposer de grandes quantités de données, parfois dispersées. Or, la confidentialité de ces informations, souvent sensibles (comme les données de santé), peut être menacée lors de la phase d’apprentissage et en phase d’exploitation du réseau (dite d’inférence).

Afin d’éviter ce double écueil, les chercheurs du CEA-List ont développé une méthode d’apprentissage avec confidentialité-par-construction, appelée SPEED (Secure, PrivatE, and Efficient Deep learning). Celle-ci repose sur trois principes :

« Partager le minimum de données ». Il s’agit ici de protéger les données durant l’apprentissage distribué entre les diverses entités contributrices. Avec SPEED, l’apprentissage distribué entre les entités se fait en échangeant uniquement des étiquettes chiffrées.

« Empêcher la rétro-ingénierie du réseau »
. Lorsque le réseau construit est mis à disposition des utilisateurs finaux, il faut garantir qu’ils ne peuvent pas reconstruire les données d’origines par rétro-ingénierie, en observant le réseau. SPEED intègre donc un procédé de confidentialité différentielle, qui minimise les risques d’identification des données pour un coût de calcul négligeable.

Enfin, « Se prémunir des menaces sur l’intégrité du serveur ». Pour minimiser l’exposition des données, il est important de réduire les risques au niveau du serveur, voire de se passer d’un tiers de confiance. Grâce au chiffrement homomorphe (HE), le serveur d’agrégation fonctionne « en aveugle », uniquement sur des étiquettes chiffrées.

Ce travail a donné lieu à une publication dans le prestigieux journal Machine Learning. Il a été également présenté lors de la conférence phare sur l’apprentissage machine « European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases » (ECML-PKDD’21).

 

Retrouvez cette actualité sur http://www.cea-tech.fr/