Common Voice : donnez votre voix à Mozilla

La fondation a lancé en juin un projet de système de reconnaissance vocale. Celui-ci vient d’entrer dans une phase de test, Mozilla cherchant à enregistrer quelques 10 000 heures de voix. Et tout le monde peut participer.

Mozilla se lance dans la grande aventure des assistants vocaux. Son projet Common Voice doit, à terme, devenir un outil de reconnaissance vocale, utilisable par exemple dans le cas d’un assistant personnel à la Siri ou à l’Alexa. Le projet a été lancé en juin et entre désormais dans une phase de test. Pour l’heure, il s’agit d’entraîner des algorithmes de machine learning. Mais, contrairement aux initiatives de Google, Apple ou Facebook dans ce domaine, Mozilla lui donne un tour particulier, plus collaboratif.

En effet, pour entraîner son système Speech To Text, la fondation recourt aux internautes, afin qu’ils et elles contribuent à la constitution d’une base de données de phrases parlées. Et ce de deux manières. On peut soit donner de la voix, en récitant une phrase écrite à l’écran pour enregistrement, soit écouter les extraits enregistrés et valider ou non la prononciation de la phrase.

« Nous voulons de la variété » prévient Mozilla dans une FAQ. « Il s’agit d’entraîner le moteur STT à gérer différentes situations [des bruits de fond par exemple] sans erreur ». La fondation compte sur 10 000 heures d’enregistrement audio avant de passer à l’étape supérieure. A plus long terme, le système sera probablement intégré aux produits de l’écosystème Mozilla, Firefox compris.

Pour l’instant, uniquement des phrases en anglais

La démarche est originale en ce qu’elle se veut open source. « Les périphériques basés sur la voix représentent la prochaine innovation majeure, mais l'accès aux bases de données est coûteux et ne comprend pas un ensemble diversifié d'accents et de langues » écrivait Mozilla en juin. Il est vrai que la plupart des bases sont propriétaires et qu’elles se concentrent sur un panel relativement restreint d’idiomes, surtout l’anglais et le mandarin. Et pour cause, leur but est avant tout commercial.

Pas de ça chez Mozilla, qui vient titiller un secteur tenu par une poignée de géants. « Cela signifie donner aux créateurs l'accès aux données vocales afin qu'ils puissent créer de nouveaux projets extraordinaires. Common Voice sera une ressource publique qui aidera les équipes Mozilla et les développeurs à travers le monde ». Il est possible de contribuer sur le site https://voice.mozilla.org/.