En pensant à chaque action incorrecte dans une tâche comme un moyen de faire une partie d’une autre, nous pouvons donner à l’IA le don du recul.

Lorsque les humains se trompent, ils peuvent apprendre plusieurs choses: qu’une approche d’une tâche n’a pas fonctionné, mais aussi que la méthode qu’ils ont essayée pourrait être utile pour un autre travail. Mais lorsque les robots essaient de maîtriser les tâches par eux-mêmes, ils n’apprennent généralement qu’en obtenant une récompense pour chaque étape d’un travail qu’ils effectuent correctement.

Les erreurs utiles: IEEE Spectrum rapporte que OpenAI, une société de recherche à but non lucratif, a publié un logiciel gratuit appelé Hindsight Experience Replay (HER) qui permet aux échecs d’une IA de devenir des succès. Il le fait en examinant comment chaque tentative d’une tâche peut être appliquée aux autres. (Le logiciel inclut également des environnements virtuels où les IA peuvent s’entraîner à ramasser des objets ou à tenir un stylo.)

Un robot-training plus réaliste: HER ne donne pas de récompense aux robots pour faire un pas dans la bonne direction – il ne les distribue que si tout est fait correctement. C’est plus proche de la façon dont les robots apprendront dans la vraie vie, mais cela ralentit généralement l’entraînement. Cependant, comme chaque tentative avortée peut aussi être utilisée pour un autre travail, c’est moins un problème dans le système d’OpenAI.

Laisser un commentaire