Auteur : Joffrey Marrot.

1. La news

– Je regarde en direct le stream de la nouvelle IA de DeepMind sur Starcarft 2 (Voir lien).

– L’IA a battu 5-0 TLO, un des meilleurs joueurs Zerg du monde, ainsi que Mana 5-0 également, un des meilleurs joueurs Protoss !

– Ce qui est remarquable et totalement nouveau, c’est que Starcraft 2 est un jeu à information imparfaite : il y a un brouillard de guerre, on ne sait pas où sont les forces de l’ennemi, quelles unités il est en train de produire, ou quelle technologie il recherche. Toutes ces données incomplètes et fluctuantes sont très complexes à gérer pour une IA.

– C’est à opposer aux jeux à information parfaite, comme les échecs ou le jeu de go. Et c’est la première fois qu’une IA bat un humain dans un jeu aussi complexe à information imparfaite !

2. Comment cette IA a t-elle été entraînée ?

– J’ai joué à Starcraft 2 par le passé. C’est un jeu de stratégie temps réel très nerveux où la moindre erreur peut vous faire perdre la partie. Il y a énormément de facteurs à considérer, en particulier la micro-gestion : Il faut savoir comment contrecarrer certains types d’unités avec d’autres. Il faut savoir combiner certains types d’unités pour les rendre efficaces. Etc.

– AlphaStar, le petit nom de cette IA, a subit un entrainement par imitation pendant une période donnée (je rédige l’article en même temps que j’écoute la vidéo, je ferai sûrement des erreurs). Un entrainement par imitation, c’est le fait qu’on a fait visionné à l’IA des dizaines de milliers de parties produites par les meilleurs joueurs du monde. L’IA les a analysé pour comprendre les bases du jeu et les stratégies plus avancées.

– AlphaStar a ensuite joué contre lui-même pendant deux semaines temps réel, 24 heure sur 24. Sauf qu’en fait, étant donné la puissance de calcul des ordinateurs utilisés pendant ces deux semaines, cela a représenté 200 ans de parties H24 ! Soit 24 heures multipliées par 365 jours multipliés par 200 ans soit si mon calcul est correct : 1 752 000 heures d’expériences de jeu !

– Pour le moment, AlphaStar, ne sait jouer que les Protoss (une des trois races du jeu) et que sur une seule map.

3. Plus de détails

– AlphaStar a une très bonne micro-gestion. Il est du niveau d’un joueur international. Et Il arrive a anticiper ce que le joueur va faire.

– Je ne sais pas à quel point cette anticipation, cette projection des probabilités futures, est réelle ou non. Peut-être AlphaStar s’adapte t-il simplement très vite en temps réel aux situations qu’il voit.

– De plus, l’IA a un score d’APM (Action Par Minute) équivalent à celui d’un joueur humain. Pas plus. Cela veut dire que sa fréquence de clics et de pressage de touches de clavier par minute n’est pas plus élevé que celui d’un joueur humain de niveau professionnel. Et pourtant, elle fait mieux.

Cela signifie que l’IA ne peut pas, par exemple, cliquer sur 50 unités en même temps, et donner 50 ordres différents. Si elle pouvait le faire, cela lui donnerai un avantage écrasant pendant les batailles (un espèce de super dopage opératif).

– L’IA fait tout de même des choses absurdes. Par exemple on la voit utiliser 5 Observateurs groupes au même endroit, alors que ce sont des unités non-combattantes qu’il est inutile d’utiliser plus d’une à la fois. On la voit aussi utiliser en grande concentration des Disrupteurs, des unités destructrices mais fragiles, qui ne sont jamais utilisées dans une telle concentration par des joueurs humains.

– L’IA a également semblé montrer une difficulté à gérer le multi-front, c’est à dire la gestion de plusieurs batailles en même temps. Elle semble ne pas savoir bien répartir ses forces.

 

– Toutefois, ces bizarreries ont peut-être été sub-optimum dans certaines batailles, mais cela n’a pas empêché AlphaStar de gagné TOUS SES MATCHS contre deux joueurs professionnels.

– Pour les ingénieurs de DeepMind, le niveau supérieur serait de se confronter à la crème des joueurs de Starcraft 2 : les Coréens. Ils dominent toutes les compétitions internationales. Leur vitesse d’exécution moyenne est supérieure aux autres joueurs.

Demis Hassabis, le boss de DeepMind
David Silver, le chef de projet d’AlphaStar

4. Quel intérêt de faire mumuse avec des jeux vidéos ?

– Au-delà de la performance, il faut comprendre que c’est un moyen d’entrainement pour les programmeurs. Ils s’entraînent à programmer une IA dans des environnements de plus en plus complexes : les échecs ou les dames, puis le jeu de go, et d’autres jeux vidéos simples (comme Space Invader).

Puis, des jeux à information imparfaite, comme Starcraft 2. Une fois qu’AlphaStar maîtrisera ce jeu, on peut supposer que les programmeurs pourront généraliser son utilisation à n’importe quel jeu vidéo de stratégie temps réel, voir à n’importe quel jeu vidéo.

Et ainsi, de cercle en cercle, ils pourront envisager d’utiliser leur IA sur la résolution de problèmes de plus en plus complexes, au-delà du jeu vidéo, tels que l’analyse des données médicales pour faire un diagnostique, la conduite automobile autonome ou pourquoi pas, la résolution de problèmes mathématiques.

 

Auteur : Joffrey Marrot.