IBM, comme bien dâautres, dĂ©veloppe des modĂšles pour la reconnaissance faciale. Des modĂšles qui sont entraĂźnĂ©s Ă partir de photos de visages, rĂ©cupĂ©rĂ©es sur le Web et les rĂ©seaux sociaux dans le mĂ©pris le plus complet des droits des internautes.
Quâil Ă©tait fier, IBM, en prĂ©sentant le jeu de donnĂ©es Diverty in Faces. Un million de clichĂ©s de visages, destinĂ©s à « faire progresser l'Ă©tude de l'Ă©quitĂ© et de la prĂ©cision des technologies de reconnaissance faciale ». Cette dĂ©cision rĂ©pondait aux reproches faits quant aux biais sexistes et racistes de lâentraĂźnement des modĂšles. Mais IBM ne se doutait pas que NBC irait mettre le nez dans cette base et en rĂ©vĂšlerait les dessous.
Dans un article fleuve, notre consĆur amĂ©ricaine Ă©tablit que ce million de photographies a Ă©tĂ© exploitĂ© sans le consentement des personnes reprĂ©sentĂ©es, sans mĂȘme quâelles ou les photographes soient au courant du traitement de leurs images. « C'est le sale petit secret des ensembles d'entraĂźnement pour l'IA. Les chercheurs se contentent souvent de rĂ©cupĂ©rer les images disponibles dans la nature » explique Jason Schultz, professeur Ă la facultĂ© de droit de lâUniversitĂ© de New York.
Scrapping photographique
Diversity in Faces est extrait dâune base de 100 millions dâimages disponibles sous licence Creative Commons sur Flickr, que le propriĂ©taire de la plateforme, Yahoo!, a gracieusement mise Ă disposition des chercheurs en 2014. « En utilisant des images disponibles publiquement Ă partir du jeu de donnĂ©es Creative Commons YFCC-100M, nous avons annotĂ© les faces Ă l'aide de 10 systĂšmes de codage bien Ă©tablis et indĂ©pendants extraits de la littĂ©rature scientifique » explique IBM dans un communiquĂ©.
« Aucune des personnes que j'ai photographiĂ©es n'avait la moindre idĂ©e que leurs images Ă©taient utilisĂ©es de cette maniĂšre », indique Ă NBC un photographe dont 700 clichĂ©s se sont retrouvĂ©s dans la base. Si IBM assure que les utilisateurs de Flickr (soit les titulaires du compte Flickr et non les personnes reprĂ©sentĂ©es sur les photographies) peuvent demander Ă ce que leurs clichĂ©s soient retirĂ©s de la base, NBC relĂšve que la procĂ©dure est ardue et que Big Blue ne fait pas preuve de la meilleure volontĂ© quand il sâagit de sâexĂ©cuter.
LâIA dans la tronche
Outre la question du traitement dâune donnĂ©e personnelle, cette pratique soulĂšve une problĂ©matique en termes de licences. Si celle-ci tolĂšre les usages non-commerciaux, IBM met en avant le fait que cette base ne sert que la recherche acadĂ©mique sur la reconnaissance faciale. Mais sachant quâentre recherche et exploitation commerciale, la frontiĂšre est floue et que IBM commercialise des solutions de reconnaissance faciale, la question du respect de la licence se pose.
« à mesure que les médias sociaux et le contenu généré par les utilisateurs prenaient le relais, les photos de personnes ordinaires étaient de plus en plus disponibles. Les chercheurs ont considéré cela comme un jeu de données gratuit, récupérant des visages sur YouTube, Facebook, Google Images, Wikipedia, etc. » rappelle NBC. Aux dépens des droits des internautes, le plus souvent.