Basé sur une approche MoE, il rassemble 132 milliards de paramètres et aurait été plus performant que Llama 2 70B, Mistral-8x7B et GPT-3.5 sur les tests de compréhension du langage, de programmation, de mathématique et de logique.
Databricks entre dans la danse des LLM Open Source. Le spécialiste de la gestion des données dans le cloud vient de lancer DBRX, un grand modèle de langage à usage général qui, d’après ses dires, surpasse tous les modèles open-source existants et certains modèles propriétaires sur des benchmarks.
DBRX utilise une architecture dite, “mixture-of-experts”, qui divise le processus d'apprentissage entre plusieurs sous-réseaux spécialisés appelés "experts". Chaque expert est compétent dans un aspect spécifique de la tâche désignée. Un réseau de contrôle décide quant à lui de la répartition optimale des données. L'architecture MoE repose sur le projet open source MegaBlocks qui, selon son développeur, peut plus que doubler la vitesse d'apprentissage par rapport aux autres architectures et est jusqu'à deux fois plus efficace en termes de calcul.
Avec ses 132 milliards de paramètres que DBRX a, d’après Databricks, surpassé les LLM open-source existants Llama 2 70B et Mixtral-8x7B ainsi que le modèle propriétaire GPT-3.5 (mais pas GPT-4) dans les tests de compréhension du langage, de programmation, de mathématique et de logique. L'entraînement du modèle sur des sources de données publiques et sous licence a coûté 10 millions de dollars sur une période de deux mois, en utilisant 3 000 unités de traitement graphique H100 de Nvidia Corp. H100.