Lâassociation des acteurs français de la « Voice Tech » se lance dans une campagne de crowdsourcing. Le Voice Lab entend collecter par cette opĂ©ration quelque 2000 heures de voix, afin de fournir aux membres de lâassociation une base Ă partir de laquelle ils pourront chercher des poux aux gĂ©ants amĂ©ricains du secteur.
En 2017, Mozilla lançait Common Voice, un projet de rĂ©colte de donnĂ©es vocales afin dâenrichir un projet de systĂšme de reconnaissance vocale. Objectif : collecter 10 000 heures de voix. Lâinitiative, aprĂšs un dĂ©part sur les chapeaux de roue, est finalement passĂ©e sous les radars et a Ă©tĂ© quelque peu oubliĂ©e. Plus prĂšs de nous, le Voice Lab a rĂ©cemment lancĂ© un projet assez similaire.
LâidĂ©e consiste Ă collecter 2000 heures de voix, en français. Mais contrairement Ă Common Voice, ce « Data Funding » ne consiste pas Ă demander aux volontaires de lire quelques phrases dans leur micro, mais de faire jouer lâobligation de portabilitĂ© des donnĂ©es contenue dans le RGPD. De fait, les utilisateurs de Siri, Alexa ou tout autre service vocal peuvent demander Ă lâĂ©diteur leurs archives, pour ensuite les fournir au Voice Lab.
Data Funding
Lâassociation, qui rĂ©unit entreprises et institutions autour de la Voice Tech, est nĂ©e dâun appel Ă manifestation dâintĂ©rĂȘt de lâĂtat. « LâĂ©cosystĂšme français et extrĂȘmement fragmentĂ© avec des petites et moyennes structures, qui doivent faire face Ă des mastodontes amĂ©ricains » nous explique Karel Bourgois, prĂ©sident du Voice Lab et fondateur de Voxist. « Ce problĂšme se retrouve dans le secteur de la recherche. Et du cĂŽtĂ© des grands groupes, on avait la problĂ©matique cĂŽtĂ© utilisateurs, Ă savoir quâils ne trouvent pas dâacteurs français avec les ressources suffisantes pour leurs projets ».
Une fois le Voice Lab fondĂ© et soutenu par la BPI, lâassociation a voulu Ă©tendre cette proposition de mutualisation intrinsĂšque aux citoyens, « parce que les gens sont de plus en plus conscients des problĂ©matiques des donnĂ©es personnelles » signale Karel Bourgois. Ensemble, les membres de lâassociation comptabilisaient 2000 heures en langue française. « Notre objectif : doubler ce volume de donnĂ©es ». Et Ă terme atteindre les 100 000 heures.
Tiers de confiance
Dans les 2000 heures actuelles, on trouve aussi bien des cassettes audio enregistrĂ©es dans les annĂ©es 70 que des livres audios, des conversations tĂ©lĂ©phoniques et surtout des enregistrements rĂ©alisĂ©s dans le cadre de programmes de recherche. Les 2000 heures supplĂ©mentaires recherchĂ©es proviendront quant Ă elles de commandes adressĂ©es Ă des assistants vocaux, des chatbots et autres services commandĂ©s Ă la voix, quoique lâassociation travaille Ă©galement sur le sujet des enregistrements des appels aux services client/support, « car le Voice Lab veut se poser en tiers de confiance : on travaille sur le cloisonnement afin que ces donnĂ©es puissent ĂȘtre utilisĂ©es dans lâapprentissage ».
LâidĂ©e est en effet dâentraĂźner des modĂšles sur des donnĂ©es qui correspondent aux problĂ©matiques des utilisateurs, mais sans pour autant avoir accĂšs Ă la donnĂ©e. NĂ©anmoins, totalement anonymiser ces donnĂ©es est impossible. Les informations identifiantes seront bien entendu expurgĂ©es, mais demeurera inĂ©vitablement « une empreinte vocale qui est unique et lâenlever reviendra Ă supprimer ses propriĂ©tĂ©s » souligne Karel Bourgois.
La voix souveraine
Surtout, la voix dans sa dimension de nouvelle interface d'interaction avec un service est « un Ă©lĂ©ment de souverainetĂ© » dans le sens oĂč les bases de reconnaissance vocale donnent accĂšs Ă cette interface, et permettent aux acteurs Ćuvrant aussi bien dans le champ de la recherche que dans le champ commercial de sâimposer sur le marchĂ© en maĂźtrisant cette interaction vocale. On pourra notamment citer Djingo, lâenceinte intelligente dâOrange, qui utilisait pour sa reconnaissance vocale les services du gĂ©ant amĂ©ricain Nuance.
« Se rĂ©unir ensemble pour avoir l'ensemble des acteurs qui contribuent nous permettra dâatteindre la masse critique, et pourquoi pas aprĂšs de viser le niveau europĂ©en, ce qui fournirait un panel de langues assez unique » prĂ©voit Karel Bourgois. Et les donnĂ©es ne seront que la premiĂšre brique dâune place de marchĂ© qui comprendra Ă©galement des moteurs de reconnaissance vocale et, enfin, une derniĂšre couche de services Ă lâinstar des assistants vocaux, des chatbots, de solutions de sous-titrage, etc.