Le gazouilleur est devenu un canal privilégié des opérations d’influence et de manipulation de l’information. Twitter l’a bien compris, il s’efforce d’ailleurs de lutter contre la désinformation. Et afin de mieux comprendre ces campagnes, l’entreprise publie d’importants jeux de données afin que chercheurs et journalistes s’en emparent.
Au nom de la transparence et de la lutte contre la manipulation de l’information, Twitter a publié hier deux jeux de données fort conséquents contenant quelques 10 millions de tweets et 2 millions d’images, GIFs et autres médias, publiés depuis 2009. Soit 1,4 Go de tweets et plus de 350 Go de médias. Tous ces contenus sont issus de campagnes d’influence menées par l’Internet Research Agency, un organisme russe accusé d’avoir joué un rôle dans les interférences sur les élections américaines de 2016 et le référendum du Brexit, et par des comptes « potentiellement originaires d’Iran ».
« Nous publions les archives complètes des tweets et des médias liés à ces deux opérations [de manipulation] précédemment divulguées et potentiellement soutenues par des Etats » explique le gazouilleur dans une note de blog, recensant 3 841 comptes Twitter affiliés à l’Internet Research Agency et 770 autres liés à l’Iran. Ces jeux de données sont librement accessibles, afin d’encourager « la recherche et l’enquête » de chercheurs et d’universitaires sur ces campagnes.
Renforcer Twitter contre ces comportements
Notons que les informations permettant d’identifier certains comptes (ceux de moins de 5000 followers) ont été hashés dans la version publique de ces archives « pour réduire l'impact négatif potentiel sur les comptes réels ou compromis ». Si Twitter assure avoir fait la chasse aux faux-positifs, il n’exclut pas quelques erreurs. Les chercheurs souhaitant avoir accès à une version non-anonymisée de ces données devront en faire la demande à Twitter et accepter « un accord d'utilisation des données qui comprendra des dispositions garantissant que les données sont utilisées dans le respect des paramètres juridiques et éthiques appropriés ».
Ces bases de données déjà importantes pourraient encore s’enrichir dans le futur, l’oiseau bleu précisant qu’il publiera des jeux de données similaires si jamais il identifie de nouvelles opérations de manipulation de l’information. « Une analyse indépendante de cette activité par les chercheurs est une étape clé dans la promotion d’une compréhension partagée de ces menaces » explique l’entreprise. « En ce qui nous concerne, nous nous sommes engagés à comprendre comment des acteurs de mauvaise foi utilisent nos services ».