La startup de reconnaissance vocale Gladia lève 14,5 millions d’euros

La startup a révélé, en parallèle de sa levée de fonds, son nouveau produit Gladia RealTime. Avec une latence inférieure à 300 ms et disponible dans plus de 100 langues, ce produit repose sur une API indépendante, facilitant son déploiement chez les clients.

Concurrente d’Otter.ai et d’Assembly AI, la startup française d’IA de transcription audio multilingue Gladia a bouclé un tour de table de 14,5 millions d’euros en Série A, dirigé par XAnge, avec la participation d'Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures et Soma Capital.

Cofondée par Jean-Louis Quéguiner et Jonathan Soto en 2022, la jeune pousse propose une API de transcription audio multilingue à quelque 600 clients dans le monde, dans des environnements variés tels que les centres d'appels ou la gestion de réunions virtuelles. Gladia s’est fixé l’objectif ambitieux de réunir les trois qualités essentielles des API de conversion de la parole en texte : rapidité, précision et accessibilité pour les entreprises. Elle a commencé avec Whisper-Zero, une IA presque exempte d’hallucinations, selon ses dires. « Le modèle a depuis été adopté par des milliers de nouveaux clients et utilisateurs, dont VEED, Livestorm, Method, Recall et Circleback, signalant une performance de pointe avec 99,9 % d'hallucinations en moins », peut-on lire dans un communiqué. Cependant, le compromis entre vitesse et précision reste un défi pour la transcription en temps réel. Les entreprises doivent souvent choisir entre des résultats précis mais plus longs à générer, ou plus rapides mais de moindre qualité.

Résoudre le compromis rapidité-précision

La prochaine étape pour Gladia est d’affiner ses produits afin de surmonter ces limites. L’entreprise a d’ailleurs dévoilé un nouveau produit : Gladia RealTime. « Notre nouveau moteur en temps réel est conçu pour aider les plateformes orientées voix à passer sans heurts d'un traitement manuel après appel à des flux de travail proactifs à faible latence, comme l'enrichissement automatique de CRM ou l'assistance en temps réel pour les agents de support. Le tout sans sacrifier qualité ou rapidité. »

Ce nouvel outil présente une latence inférieure à 300 ms, est disponible dans plus de 100 langues et offre un support amélioré pour les accents et dialectes, y compris dans des environnements bruyants. En plus de la transcription vocale en direct, Gladia RealTime propose des modules complémentaires, tels que l’analyse des émotions, la reconnaissance des entités nommées dans les conversations et la synthèse des éléments clés. Une fonction de code-switching permet par ailleurs de passer facilement d’une langue à l’autre, par exemple dans un contexte de réunion multilingue.

L’API indépendante de Gladia RealTime est compatible avec tous les systèmes technologiques existants, ainsi qu’avec les protocoles de téléphonie tels que SIP, VoIP, FreeSwitch et Asterisk, facilitant ainsi son intégration dans les infrastructures d’entreprise.