Tout fidèle qu’il est à ses grands principes quant à une IA « responsable », Google a versé en open source la libraire Python TensorFlow Privacy, permettant d’entraîner des modèles de machine learning en supprimant les données identifiantes contenues dans les ensembles.
L’an dernier, sous pression de ses salariés, Google publiait son Responsible AI Practices, une charte relative aux bonnes pratiques dans l’élaboration d’une intelligence artificielle. Y compris une partie concernant la protection des données dont un modèle de machine learning est nourri. Or en interne le géant utilise un outil, Tensorflow Privacy, afin de maintenir l’anonymat des données utilisées. Celui-ci est désormais passé en open source.
Tensorflow Privacy, c’est une bibliothèque Python « comprenant les implémentations des optimiseurs TensorFlow pour la formation de modèles d’apprentissage automatique avec confidentialité différentielle ». Qu’est-ce donc que la confidentialité différentielle ? Cette théorie consiste en des mécanismes mathématiques permettant de maximiser la pertinence d’une requête à une base de données tout en réduisant le risque d’identification desdites données*.
Très schématiquement, plutôt que de considérer la confidentialité d’une information de manière binaire (la donnée est-elle identifiante ou non), la « confidentialité différentielle » estime que la question procède d’un « risque accumulatif ». Plus une donnée personnelle est traitée, plus elle risque d’être identifiante, par exemple par recoupement avec d’autres bases de données.
Fédération et différentiel
« Lors de l’entraînement d’un modèle sur les données des utilisateurs, ces techniques offrent de fortes garanties mathématiques que les modèles n’apprennent ni ne se souviennent des détails d’un utilisateur spécifique » explique ainsi Google sur Medium. Et cela ne requiert que quelques lignes de code supplémentaires : « aucune expertise en confidentialité ou en mathématiques sous-jacentes n’est requise: ceux qui utilisent des mécanismes TensorFlow standard n’ont pas avoir à modifier leurs architectures modèles, leurs procédures d’apprentissage ou leurs processus ».
A cela s’ajoute le lancement au même moment de TensorFlow Federated. Cette déclinaison du framework doit permettre d’entraîner des modèles sans toutefois centraliser les données requises au machine learning, qui restent conservées localement. Google utilise la technologie d’apprentissage fédéré notamment pour les prédictions formées par son clavier virtuel G-Board. « Avec TensorFlow Federated, nous pouvons élaborer une architecture de modèle ML de notre choix, puis la former à travers les données fournies par toutes les sources, tout en maintenant les données de chaque source séparées et locales » souligne le géant.
*Le Privacy Tools Project de l’université d’Harvard fournit quelques explications relativement compréhensibles sur le sujet