L’association des acteurs français de la « Voice Tech » se lance dans une campagne de crowdsourcing. Le Voice Lab entend collecter par cette opération quelque 2000 heures de voix, afin de fournir aux membres de l’association une base à partir de laquelle ils pourront chercher des poux aux géants américains du secteur.
En 2017, Mozilla lançait Common Voice, un projet de récolte de données vocales afin d’enrichir un projet de système de reconnaissance vocale. Objectif : collecter 10 000 heures de voix. L’initiative, après un départ sur les chapeaux de roue, est finalement passée sous les radars et a été quelque peu oubliée. Plus près de nous, le Voice Lab a récemment lancé un projet assez similaire.
L’idée consiste à collecter 2000 heures de voix, en français. Mais contrairement à Common Voice, ce « Data Funding » ne consiste pas à demander aux volontaires de lire quelques phrases dans leur micro, mais de faire jouer l’obligation de portabilité des données contenue dans le RGPD. De fait, les utilisateurs de Siri, Alexa ou tout autre service vocal peuvent demander à l’éditeur leurs archives, pour ensuite les fournir au Voice Lab.
Data Funding
L’association, qui réunit entreprises et institutions autour de la Voice Tech, est née d’un appel à manifestation d’intérêt de l’État. « L’écosystème français et extrêmement fragmenté avec des petites et moyennes structures, qui doivent faire face à des mastodontes américains » nous explique Karel Bourgois, président du Voice Lab et fondateur de Voxist. « Ce problème se retrouve dans le secteur de la recherche. Et du côté des grands groupes, on avait la problématique côté utilisateurs, à savoir qu’ils ne trouvent pas d’acteurs français avec les ressources suffisantes pour leurs projets ».
Une fois le Voice Lab fondé et soutenu par la BPI, l’association a voulu étendre cette proposition de mutualisation intrinsèque aux citoyens, « parce que les gens sont de plus en plus conscients des problématiques des données personnelles » signale Karel Bourgois. Ensemble, les membres de l’association comptabilisaient 2000 heures en langue française. « Notre objectif : doubler ce volume de données ». Et à terme atteindre les 100 000 heures.
Tiers de confiance
Dans les 2000 heures actuelles, on trouve aussi bien des cassettes audio enregistrées dans les années 70 que des livres audios, des conversations téléphoniques et surtout des enregistrements réalisés dans le cadre de programmes de recherche. Les 2000 heures supplémentaires recherchées proviendront quant à elles de commandes adressées à des assistants vocaux, des chatbots et autres services commandés à la voix, quoique l’association travaille également sur le sujet des enregistrements des appels aux services client/support, « car le Voice Lab veut se poser en tiers de confiance : on travaille sur le cloisonnement afin que ces données puissent être utilisées dans l’apprentissage ».
L’idée est en effet d’entraîner des modèles sur des données qui correspondent aux problématiques des utilisateurs, mais sans pour autant avoir accès à la donnée. Néanmoins, totalement anonymiser ces données est impossible. Les informations identifiantes seront bien entendu expurgées, mais demeurera inévitablement « une empreinte vocale qui est unique et l’enlever reviendra à supprimer ses propriétés » souligne Karel Bourgois.
La voix souveraine
Surtout, la voix dans sa dimension de nouvelle interface d'interaction avec un service est « un élément de souveraineté » dans le sens où les bases de reconnaissance vocale donnent accès à cette interface, et permettent aux acteurs œuvrant aussi bien dans le champ de la recherche que dans le champ commercial de s’imposer sur le marché en maîtrisant cette interaction vocale. On pourra notamment citer Djingo, l’enceinte intelligente d’Orange, qui utilisait pour sa reconnaissance vocale les services du géant américain Nuance.
« Se réunir ensemble pour avoir l'ensemble des acteurs qui contribuent nous permettra d’atteindre la masse critique, et pourquoi pas après de viser le niveau européen, ce qui fournirait un panel de langues assez unique » prévoit Karel Bourgois. Et les données ne seront que la première brique d’une place de marché qui comprendra également des moteurs de reconnaissance vocale et, enfin, une dernière couche de services à l’instar des assistants vocaux, des chatbots, de solutions de sous-titrage, etc.