Google a récemment formé un nouveau modèle de langage avec 1,6 trillion de paramètres

Plus il y a de paramètres, plus le modèle peut être sophistiqué. Le GPT-3 d’OpenAI avait 175 milliards de paramètres et de bons résultats techniques impressionnants. Maintenant que les entreprises ont compris que l’augmentation de la complexité de ces modèles fait tomber les barrières, il est évident qu’il y a une certaine concurrence.

Microsoft (qui a sorti l’année dernière un modèle de 17 milliards d’euros qui était brièvement le plus gros du monde) est également en lice. Tant que les droits de vantardise comptent, et compte tenu des puissances de dix, cela signifie que nous ne devrions pas être surpris de voir un modèle de 10 milliards de paramètres en un an, en supposant que les équipes puissent trouver un corpus de formation suffisamment important. Bien sûr, rien de tout cela ne permet de contourner les limites d’une telle approche. En effet, l’article « Stochastic Parrots » de Gebru, Bender, et al souligne de nombreux risques de ces grands modèles, en particulier la manière dont ils coderont rigoureusement tout matériel problématique qui leur est introduit et dont ils deviennent plutôt compliqués à analyser, à déboguer et à éliminer la source de ces problèmes.

Les paramètres sont la clé des algorithmes d’apprentissage de la machine. Ils sont la partie du modèle qui est apprise à partir des données historiques de formation. D’une manière générale, dans le domaine linguistique, la corrélation entre le nombre de paramètres et la sophistication a remarquablement bien résisté. Par exemple, le GPT-3 d’OpenAI – l’un des plus grands modèles de langage jamais formés, avec 175 milliards de paramètres – peut faire des analogies primitives, générer des recettes et même compléter le code de base.

Dans ce qui pourrait être l’un des tests les plus complets de cette corrélation à ce jour, les chercheurs de Google ont développé et évalué des techniques qui, selon eux, leur ont permis de former un modèle de langage contenant plus d’un trillion de paramètres. Ils affirment que leur modèle de 1,6 trillion de paramètres, qui semble être le plus grand de sa taille à ce jour, a atteint une vitesse jusqu’à 4 fois supérieure à celle du plus grand modèle de langage développé par Google (T5-XXL).

Lire sur Venturebeat

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.