Le projet de Mozilla reçoit le soutien du géant des GPU, qui a décidé d’y investir 1,5 million de dollars. Nvidia compte bien profiter des jeux de données vocales de Common Voice pour développer ses modèles et les proposer gracieusement à la communauté.
Common Voice s’est fait discret depuis 2017. Ce projet consistant à collecter des enregistrements vocaux, dans toutes les langues, a abouti en novembre 2017 à la mise en ligne d’une première base de données de 500 heures d’enregistrements, grâce à la participation de 20 000 personnes. Ce qui faisait de Common Voice la deuxième plus importante base d’enregistrements audio libre, derrière Librispeech.
Mais, depuis, l’initiative est quelque peu tombée dans l’oubli. Et ce malgré 9000 heures d’enregistrements supplémentaires publiées entre fin 2017 et aujourd’hui. D’autant que le secteur de la “Voice Tech” n’est pas moribond. Et si la majorité des bases de données appartiennent à des géants du secteur, dont un certain Nuance (qui vient d'être racheté par Microsoft), de nouveaux projets naissent à l’instar de Voice Lab en France.
Tel a sans doute été le constat de Nvidia. Le géant des GPU n’est pas en reste pour tout ce qui touche à l’IA : il travaille autour de ses cartes graphiques avec une grande variété d’acteurs, de Baidu à TomTom. Alors que Microsoft dépense des milliards de dollars pour s’offrir Nuance, Nvidia a décidé pour sa part de placer ses billes dans Common Voice. Mozilla annonce en effet que le projet a reçu un investissement de 1,5 million de dollars de la part du fabricant de GPU.
Plus d’heures, plus de langues
Cet investissement permettra à Common Voice de croître en impliquant davantage de communautés et de bénévoles dans le projet et facilitera le recrutement de nouveaux employés. Et, pour marquer le coup, la structure de l’initiative change et la voici désormais intégrée à la fondation Mozilla, au sein de sa branche consacrée à l’IA.
“La demande d'IA conversationnelle augmente, les chatbots et les assistants virtuels ayant un impact sur presque tous les secteurs” explique de son côté Kari Briski, directrice Accelerated Computing Software and AI Product chez Nvidia. "Grâce aux ensembles de données ouverts de Common Voice, nous sommes en mesure de développer des modèles pré-entraînés et de les proposer gratuitement à la communauté. Ensemble, nous travaillons à un objectif commun de soutien et de création de communautés, en particulier pour les langues sous-financées et mal desservies”.