IBM, comme bien d’autres, développe des modèles pour la reconnaissance faciale. Des modèles qui sont entraînés à partir de photos de visages, récupérées sur le Web et les réseaux sociaux dans le mépris le plus complet des droits des internautes.
Qu’il était fier, IBM, en présentant le jeu de données Diverty in Faces. Un million de clichés de visages, destinés à « faire progresser l'étude de l'équité et de la précision des technologies de reconnaissance faciale ». Cette décision répondait aux reproches faits quant aux biais sexistes et racistes de l’entraînement des modèles. Mais IBM ne se doutait pas que NBC irait mettre le nez dans cette base et en révèlerait les dessous.
Dans un article fleuve, notre consœur américaine établit que ce million de photographies a été exploité sans le consentement des personnes représentées, sans même qu’elles ou les photographes soient au courant du traitement de leurs images. « C'est le sale petit secret des ensembles d'entraînement pour l'IA. Les chercheurs se contentent souvent de récupérer les images disponibles dans la nature » explique Jason Schultz, professeur à la faculté de droit de l’Université de New York.
Scrapping photographique
Diversity in Faces est extrait d’une base de 100 millions d’images disponibles sous licence Creative Commons sur Flickr, que le propriétaire de la plateforme, Yahoo!, a gracieusement mise à disposition des chercheurs en 2014. « En utilisant des images disponibles publiquement à partir du jeu de données Creative Commons YFCC-100M, nous avons annoté les faces à l'aide de 10 systèmes de codage bien établis et indépendants extraits de la littérature scientifique » explique IBM dans un communiqué.
« Aucune des personnes que j'ai photographiées n'avait la moindre idée que leurs images étaient utilisées de cette manière », indique à NBC un photographe dont 700 clichés se sont retrouvés dans la base. Si IBM assure que les utilisateurs de Flickr (soit les titulaires du compte Flickr et non les personnes représentées sur les photographies) peuvent demander à ce que leurs clichés soient retirés de la base, NBC relève que la procédure est ardue et que Big Blue ne fait pas preuve de la meilleure volonté quand il s’agit de s’exécuter.
L’IA dans la tronche
Outre la question du traitement d’une donnée personnelle, cette pratique soulève une problématique en termes de licences. Si celle-ci tolère les usages non-commerciaux, IBM met en avant le fait que cette base ne sert que la recherche académique sur la reconnaissance faciale. Mais sachant qu’entre recherche et exploitation commerciale, la frontière est floue et que IBM commercialise des solutions de reconnaissance faciale, la question du respect de la licence se pose.
« À mesure que les médias sociaux et le contenu généré par les utilisateurs prenaient le relais, les photos de personnes ordinaires étaient de plus en plus disponibles. Les chercheurs ont considéré cela comme un jeu de données gratuit, récupérant des visages sur YouTube, Facebook, Google Images, Wikipedia, etc. » rappelle NBC. Aux dépens des droits des internautes, le plus souvent.