Open Sourcing BERT : Préformation à la pointe de la technologie pour le traitement des langues naturelles

L’un des plus grands défis du traitement du langage naturel (PNL) est le manque de données sur la formation. Parce que la PNL est un domaine diversifié avec de nombreuses tâches distinctes, la plupart des ensembles de données spécifiques à une tâche ne contiennent que quelques milliers ou quelques centaines de milliers d’exemples de formation marqués par l’homme. Cependant, les modèles modernes de PNL basés sur l’apprentissage profond voient les avantages d’une plus grande quantité de données, s’améliorant lorsqu’ils sont formés sur des millions, voire des milliards, d’exemples de formation annotés. Pour aider à combler cette lacune dans les données, les chercheurs ont mis au point diverses techniques pour former des modèles de représentation linguistique générale en utilisant l’énorme quantité de texte non annoté sur le Web (connu sous le nom de préformation). Le modèle préformé peut ensuite être affiné sur des tâches de PNL à petites données comme les réponses aux questions et l’analyse des sentiments, ce qui permet d’améliorer considérablement la précision par rapport à la formation sur ces ensembles de données à partir de zéro.

Google a mis au point, il y a déjà un an, une nouvelle technique de pré-entraînement à la PNL appelée BERT (Bidirectional Encoder Representations from Transformers). Avec cette version, n’importe qui dans le monde peut former son propre système de réponse aux questions (ou une variété d’autres modèles) en environ 30 minutes sur un seul TPU Cloud, ou en quelques heures en utilisant un seul GPU. La version inclut le code source construit sur TensorFlow et un certain nombre de modèles de représentation linguistique préformés. Dans un document connexe, sont présentés des résultats à la fine pointe de la technologie pour 11 tâches de PNL, y compris l’ensemble de données très compétitif Stanford Question Answering Dataset (SQuAD v1.1).

En quoi BERT est-il différent ?

BERT s’appuie sur des travaux récents dans le domaine des représentations contextuelles préformation – y compris l’apprentissage séquentiel semi-supervisé, la préformation générative, ELMo et ULMFit. Cependant, à la différence de ces modèles précédents, BERT est la première représentation linguistique profondément bidirectionnelle et non supervisée, préformé en utilisant uniquement un corpus de texte brut (dans ce cas, Wikipedia).

En quoi cela est-il important ? Les représentations préformées peuvent être sans contexte ou contextuelles, et les représentations contextuelles peuvent être unidirectionnelles ou bidirectionnelles. Les modèles sans contexte tels que word2vec ou GloVe génèrent une représentation unique de chaque mot du vocabulaire. Par exemple, le mot « bank » aurait la même représentation sans contexte dans « bank account » et « bank of the river ». Les modèles contextuels génèrent plutôt une représentation de chaque mot basée sur les autres mots de la phrase. Par exemple, dans la phrase « j’ai accédé au compte bancaire » (I accessed the bank account), un modèle contextuel unidirectionnel représenterait « bank » basé sur « j’ai accédé au » mais pas à « account ». Cependant, BERT représente la « banque » en utilisant à la fois son contexte précédent et son contexte suivant – « J’ai accédé au compte … » – à partir du bas d’un réseau neuronal profond, le rendant profondément bidirectionnel.

Une visualisation de l’architecture du réseau neuronal de BERT par rapport aux méthodes de préformation contextuelle de pointe antérieures est présentée ci-dessous. Les flèches indiquent le flux d’information d’une couche à l’autre. Les cases vertes en haut indiquent la représentation contextualisée finale de chaque mot entré :

Ce diaporama nécessite JavaScript.

Quel impact sur le ranking pour mes mots-clés ?

Vous verrez sans doute bien moins que 10% d’impact, car les requêtes que vous surveillez ne sont sans doute pas formulées en langage naturel

Quel type de site peut y gagner avec BERT ?

Selon Ben Gomes (vice président de Google Core Search), « des sites de niche pourraient mieux ressortir sur des questions de niche ».

Faire en sorte que BERT travaille pour vous

Les modèles publiés peuvent être affinés sur une grande variété de tâches de PNL en quelques heures ou moins. La version open source inclut également du code pour lancer la préformation, bien que la majorité des chercheurs en PNL qui utilisent BERT n’auront jamais besoin de préformer leurs propres modèles à partir de zéro. Les modèles de BERT étaient uniquement en anglais, mais s’annonce dans d’autres langues.

L’implémentation open source de TensorFlow et les pointeurs vers les modèles BERT pré-formés sont disponibles à l’adresse http://goo.gl/language/bert. Alternativement, vous pouvez commencer à utiliser BERT via Colab avec le notebook « BERT FineTuning with Cloud TPU« .

Vous pouvez également l’article « BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding » pour plus de détails.

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.