La fondation a lancé en juillet une initiative consistant à collecter les voix d’internautes volontaires. Ce projet, Common Voice, vise à entraîner des algorithmes de reconnaissance vocale et, accessoirement, à constituer une base d’enregistrements vocaux libre. Mozilla livre les premiers résultats de son projet : une base, un programme et des taux de participation.
Fin juillet, Mozilla déclenchait une vaste opération de collectes d’échantillons de voix dans le cadre de son projet Common Voice. L’objectif de la fondation est d’entraîner son système Speech to Text à l’aide d’une base de données constituées d’enregistrements audio de phrases parlées par les internautes de bonne volonté. Le projet vient de franchir une étape supplémentaire, indique Mozilla sur son blog.
La fondation livre les premiers résultats de sa collecte. On apprend ainsi que 20 000 personnes ont participé à l’initiative, permettant d’obtenir 400 000 extraits vocaux, soit 500 heures d’enregistrements. Mozilla est heureux d’annoncer avoir ce faisant constitué la deuxième plus importante base d’enregistrements audio libre, derrière Librispeech. A l’instar de celle-ci, n’importe qui peut télécharger cette base de données à cette adresse.
Reconnaissance vocale open source
Notons que cette base est pour l’heure uniquement dans la langue de Shakespeare. Mozilla tenait à ce que son futur outil de reconnaissance vocale prenne en compte les différents accents. « Nous avons vu des contributions de plus de 20 000 personnes, reflétant une diversité de voix à l'échelle mondiale » écrit la fondation. L’an prochain, Common Voice devrait s’ouvrir à un plus grand nombre d’idiomes, sans que Mozilla ne précise lesquels.
Outre la base de données, Mozilla publie le code source de DeepSpeech, son moteur de reconnaissance vocale open source. Basé sur des techniques de machine learning issues d’un livre blanc de Baidu, l’outil utilise le projet TensorFlow de Google. Sur Github, les développeurs trouveront des paquets pré-compilés pour Python, NodeJS et un binaire de ligne de commande « que les développeurs peuvent utiliser immédiatement pour expérimenter la reconnaissance vocale ».