AlphaGo Zero : plus fort, plus rapide, plus malin et plus autonome

La filiale DeepMind de Google a mis au point une nouvelle version de son programme informatique. Baptisée AlphaGo Zero, elle est désormais capable d’apprendre d’elle-même, en totale autonomie, sans l’aide de données humaines. 

AlphaGo a déjà battu les meilleurs joueurs de Go du monde. Mais cette intelligence artificielle a désormais un rival encore plus redoutable : AlphaGo Zero. C’est le nom donné par les ingénieurs de Google DeepMind à ce nouveau programme informatique, capable d’apprendre de lui-même. Là où AlphaGo se basait sur des milliers de parties de Go pour apprendre, AlphaGo Zero peut apprendre sans rien savoir de ce jeu, uniquement en se basant sur les règles et la position des pierres blanches et noires sur le plateau. 

Son système, qui est un réseau neuronal artificiel, est auto-apprenant : il apprend en jouant contre lui-même et n’a donc plus besoin de données extérieures. En 40 jours d’entraînement, AlphaGo Zero a joué 30 millions de parties ; suffisant pour battre le tenant du titre, son petit frère AlphaGo Master. La technique employée par la nouvelle IA de DeepMind est appelée « apprentissage renforcé », lit-on dans la revue Nature. Son mode opératoire : tenter des coups, apprendre, comprendre, et affiner la stratégie au fil du temps. « Nous l’avons vu redécouvrir des milliers d’années de la connaissance humaine », s’émeut Demis Hassabis, directeur de DeepMind. Mieux : en 40 jours, il a découvert des coups inconnus. 

Au-delà du jeu de Go

Les ingénieurs expliquent qu’AlphaGo utilisait en fait deux réseaux neuronaux : un pour prédire le meilleur coup probable, le second pour évaluer les coups. AlphaGo Zero fusionne ces deux réseaux pour n’en créer qu’un, ce qui rend l’algorithme plus fort et efficace, selon David Silver, ingénieur de DeepMind. Mais tout cela demande aussi une puissance de calcul énorme. Pour AlphaGo Zero, les ingénieurs utilisent 4 TPU, les Tensor Power Unit. Le système en lui-même coûterait environ 25 millions de dollars actuellement. 

Le jeu de Go n’est qu’une application. Les chercheurs de DeepMind espèrent bien entendu pouvoir appliquer ces recherches à d’autres environnements de travail, plus « utiles » cette fois-ci. Pour Demis Hassabis, une application potentielle est la compréhension du « repli des protéines », une donnée importante pour la création de nouveaux médicaments. Dans ce domaine, nous ne disposons que de peu de données et les solutions potentielles sont très nombreuses pour prédire les structures à partir de séquences d'acides aminés. Le principe du brute-force n’est pas viable, et une IA similaire à AlphaGo Zero, capable d’apprendre par elle-même, pourrait donc solutionner ce problème.