De plus en plus concurrencé, OpenAI a présenté une nouvelle version de son LLM. Baptisé GPT-4o, il est capable d’interagir avec de l’audio, de la vidéo et du texte. Si certaines fonctionnalités de texte et d’image sont déjà disponibles, il faudra attendre un peu pour le son et l’audio.
OpenAI revient à la charge avec son nouveau bébé, GPT-4o, capable de raisonner en temps réel sur l’audio, la vidéo ou le texte. « GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle : il accepte en entrée n'importe quelle combinaison de texte, d'audio, d'image et de vidéo et génère n'importe quelle combinaison de texte, d'audio et d'image en sorties. », décrit l’entreprise sur une page dédiée. Temps de réponse ? 232 millisecondes, avec une moyenne de 320 millisecondes, soit peu ou prou, similaire au temps de réponse d’un humain dans une conversation.
Dans le détail, le modèle repose sur les performances de GPT-4 Turbo, la dernière génération de modèle d’OpenAI, sur le texte en anglais et le code, mais a de meilleures capacités multilingues et en termes de compréhension audio et visuelle. GPT-4o est un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio. Toutes ses entrées et sorties sont traitées par le même réseau neuronal, ce qui améliore son efficacité et notamment son temps de latence.
Un déploiement progressif
Côté sécurité, le modèle filtre les données d’entraînement et intègre de nouveaux garde-fous pour les sorties vocales. Le modèle a été testé par une red team composée de 70 experts sur différents domaines tels que la psychologie sociale, les préjugés, l'équité et la désinformation afin d’identifier les risques introduits ou amplifiés. « Nous avons utilisé ces apprentissages pour développer nos interventions de sécurité afin d'améliorer la sécurité de l'interaction avec GPT-4o. Nous continuerons d’atténuer les nouveaux risques à mesure qu’ils seront découverts. », assure l’entreprise dans son billet de blog.
C’est pourquoi les capacités de GPT-4o seront déployées progressivement. Les fonctionnalités de texte et d’image sont déjà en cours de déploiement dans ChatGPT, et l’offre gratuite est disponible pour tous les utilisateurs. Une nouvelle version du modèle vocal en alpha est attendue dans les prochaines semaines. Les développeurs, de leur côté, peuvent accéder dans l’API au modèle de texte et de vision, à un coût deux fois moins élevé que GPT-4 Turbo. L’API est deux fois plus rapide et 50 % moins chère et les limitations sont cinq fois plus élevées que celles de GPT-4 Turbo. Les fonctionnalités audio et vidéo seront déployées dans l’API auprès d’un groupe de partenaires de confiance d’OpenAI, dans les prochaines semaines également.