L’équipe de recherche sur le deep learning chez Mozilla continue ses travaux et présente une nouvelle fonctionnalité de « voice to text ».
Pour l’instant les services de reconnaissance vocale de haute qualité sont rares et chers. Dans son projet Deep Speech, Mozilla veut changer la donne avec un moteur open source capable de correspondre aux besoins des utilisateurs, en particulier les développeurs.
Le lancement prochain de la version 0.2.0 embarquera la fonction de conversion de la voix vers le texte. La solution va ouvrir de nombreuses possibilités de nouveaux services que ce soient dans les médias, les télécommunications ou l’événementiel.
Un réseau qui se souvient
La solution s’appuie sur un réseau neuronal "récurrent" : un réseau de neurones qui a la capacité de se souvenir. Celui-ci ne prend pas seulement en compte les données mais son évolution dans le temps et utilise ces différents états pour construire des modèles dans le temps.
La version actuelle de Deep Speech utilise deux réseaux sur la librairie TensorFlow. La prochaine version n’utilisera plus qu’un seul réseau avec une couche unidirectionnelle permettant de réaliser le traitement sans attendre les prochaines étapes dans le modèle. Ce point permet d’améliorer de manière importante la solution en réduisant la taille du modèle nécessaire, le temps de transcription tout en augmentant la performance.
La solution est actuellement sous Python et C++ et les responsables du projet souhaitent développer les fonctions sous iOS et Windows.