Le modèle de langage bilingue et open source, Croissant LLM, développé par des chercheurs de Centrale Supélec, a été entraîné sur le supercalculateur Jean Zay en utilisant des milliards de tokens en anglais et en français.
Des chercheurs de Centrale Supélec et d'Illuin Technology ont présenté le Croissant LLM, un modèle de langage comptant 1,3 milliard de paramètres, entièrement développé en France et entraîné sur le supercalculateur Jean Zay. Croissant LLM ne se limite pas à la seule langue française, car il a été pré-entraîné sur 3000 milliards de tokens en anglais et en français. « Nous sommes des pionniers dans l'approche de la formation d'un modèle intrinsèquement bilingue avec un ensemble de données de pré-formation comprenant à la fois l'anglais et le français », ont déclaré les chercheurs de l'équipe de recherche du laboratoire MICS de CentraleSupélec dans leur article.
Entièrement open source, Croissant LLM ce modèle se destine principalement aux domaines de la recherche et à l'industrie. Bien que moins imposant que ChatGPT, qui compte plus de 170 milliards de paramètres, Croissant LLM peut être exécuté localement sur du matériel grand public, y compris sur des CPU et des téléphones. Pour évaluer ses performances en français, les chercheurs ont lancé un benchmark appelé FrenchBench.