Linguistique Breakthrough Heralds Machine Translation : pour des milliers de langues rares à protéger

Les services de traduction en ligne fonctionnent pour moins de 100 des 7 000 langues du monde. Une nouvelle technique de traduction automatique pourrait changer cela.La meilleure vision de la chose est que les humains parlent actuellement de 6 900 langues différentes. Plus de la moitié de la population mondiale communique en utilisant seulement une poignée d’entre elles – chinois, anglais, hindi, espagnol et russe. En effet, 95% des personnes communiquent en utilisant seulement 100 langues.

Les autres argots sont beaucoup moins fréquents. En effet, les linguistes estiment qu’environ un tiers des langues du monde sont parlées par moins de 1 000 personnes et risquent de disparaître au cours des 100 prochaines années. Avec elles, le patrimoine culturel unique qu’elles portent: des histoires, des phrases, des blagues, des remèdes à base de plantes et même des émotions uniques.

Il est facile de penser que le machine learning peut aider. Le problème est que la traduction automatique repose sur d’énormes ensembles de données annotées pour faire son commerce. Ces ensembles de données se composent de vastes corpus de livres, d’articles et de sites Web qui ont été traduits manuellement dans d’autres langues. Cela fonctionne comme une pierre de Rosette pour les algorithmes de machine learning, et plus l’ensemble de données est grand, mieux ils apprennent.

Une carte montrant comment les indicateurs de temps passé se groupent pour 100 des langues étudiées.

Mais ces énormes ensembles de données n’existent tout simplement pas dans la plupart des langues. C’est pourquoi la traduction automatique ne fonctionne que pour une petite fraction des langues les plus courantes. Google Translate, par exemple, ne parle que de 90 langues.

Un défi important pour les linguistes est donc de trouver un moyen d’analyser automatiquement moins de langues communes pour mieux les comprendre.

Aujourd’hui, Ehsaneddin Asgari et Hinrich Schutze de l’Université Ludwig-Maximilian de Munich en Allemagne disent qu’ils ont fait exactement cela. Leur nouvelle approche révèle des éléments importants dans presque toutes les langues qui peuvent ensuite servir de tremplin pour la traduction automatique.

La nouvelle technique repose sur un seul texte qui a été traduit dans au moins 2000 langues différentes. C’est la Bible, et les linguistes reconnaissent depuis longtemps son importance dans leur discipline.

Par conséquent, ils ont créé une base de données intitulée Parallel Bible Corpus, qui comporte des traductions du Nouveau Testament dans 1 169 langues. Cet ensemble de données n’est pas assez grand pour le type d’apprentissage par machine industrielle que Google et d’autres utilisent. Ainsi, Asgari et Schutze ont proposé une autre approche fondée sur la manière dont les temps apparaissent dans différentes langues.

La plupart des langues utilisent des mots ou des combinaisons de lettres spécifiques pour signifier les temps. Donc, la nouvelle astuce consiste à identifier manuellement ces signaux dans plusieurs langues, puis utiliser des techniques d’exploration de données pour faire la chasse à travers d’autres traductions de mots ou de lettres qui jouent le même rôle.

Par exemple, en anglais, le temps présent est signifié par le mot « is », le temps futur par le mot « will », et le passé par le mot « was ». Bien sûr, il existe d’autres signifiants.

L’idée d’Asgari et Schutze est de trouver tous ces mots dans la traduction anglaise de la Bible ainsi que d’autres exemples d’une poignée d’autres traductions linguistiques. Ensuite, de recherchez des chaînes de mots ou de lettres qui jouent le même rôle dans d’autres langues. Par exemple, la chaîne de lettres « -ed » signifie également le passé en anglais.

Mais il y a un effet là-dedans. Asgari et Schutze ne commencent pas avec l’anglais, car il s’agit d’une langue relativement ancienne avec de nombreuses exceptions de règles, ce qui rend difficile l’apprentissage.

Au lieu de cela, ils commencent par un ensemble de langues créoles développées à partir d’un mélange d’autres langues. Parce qu’elles sont plus jeunes, les langues créoles ont eu moins de temps pour développer ces idiosyncrasies linguistiques. Et cela signifie qu’elles contiennent généralement de meilleurs marqueurs de fonctionnalités linguistiques telles que les temps et les modes. « Notre raison d’être est que les langues créoles sont plus régulières que d’autres langues car elles sont jeunes et n’ont pas accumulé de bagages historiques qui rendent l’analyse informatique plus difficile », disent-ils.

L’une de ces langues est le créole des Seychelles, qui utilise le mot « ti » pour signifier le passé. Par exemple, « mon travay » signifie « Je travaille » dans cette langue, tandis que « mon ti travay » signifie « J’ai travaillé » et « mon ti pe travay » signifie « Je travaillais ». Donc, « ti » est un bon signifiant de passé.

Asgari et Schutze compilent une liste de signifiants du passé dans 10 autres langues, puis applique le Parallel Bible Corpus pour d’autres mots et chaînes de lettres qui remplissent la même fonction. Ils le répètent pour le temps présent et le temps futur.

Les résultats permettent une lecture intéressante. La technique révèle des constructions linguistiques liées aux tendances dans les langages communs tels que « -ed » en anglais et « -te » en allemand, ainsi que les mots et les phrases qui exercent les mêmes fonctions dans des langages beaucoup moins communs que le signifiant du passé « Den » dans la langue Gourmanchema du Burkino Faso, et « yi » du Yalunka, parlé au Mali, et ainsi de suite.

Ce travail permet aux chercheurs de créer des cartes montrant comment les langues utilisent des constructions de temps similaires liées (voir diagramme).

C’est un travail intéressant. Asgari et Schutze ont développé une méthode de calcul pour analyser la façon dont les gens utilisent le passé, le présent et le futur dans plus de 1000 langues. Il s’agit de la plus grande étude de calcul en langage transfrontalier jamais entreprise. En effet, le nombre de langues impliquées est un ordre de grandeur supérieur à celui des autres études.

Le travail a une application importante. Les cartes de temps de la langue permettent aux chercheurs de trouver rapidement les relations entre les langues et leur lien. Cela pourrait être utilisé pour mieux comprendre l’évolution du langage.

Et la même approche pourrait également être utilisée pour d’autres caractéristiques linguistiques. « Nous exigeons seulement qu’une caractéristique linguistique soit ouvertement marquée dans quelques milliers de langues par opposition à exiger qu’elle soit marquée dans toutes les langues sous analyse », affirment Asgari et Schutze.

Les implications vont plus loin. La linguistique computationnelle a eu un impact profond sur notre compréhension du langage, de la façon dont elle varie dans le monde et de la façon dont les machines peuvent la comprendre. Cette discipline émergente a permis de traduire automatiquement plusieurs langues directement dans les autres par écrit et par oral. En effet, la promesse est que la traduction automatique instantanée va bientôt correspondre, puis surpasser la capacité des interprètes humains.

Mais l’utilité de la traduction automatique pour certaines langues les rend plus populaires au détriment des langues qui ne sont pas prises en charge. C’est pourquoi la traduction automatique pourrait accélérer la disparition des langues menacées.

En effet, les linguistes ont vu un phénomène similaire avec d’autres formes de communication de masse, comme les services de télévision par satellite. Ceux-ci diffusent généralement dans une seule langue, ce qui devient plus souhaitable et populaire que les langues qui ne sont pas diffusées.

Le travail d’Asgari et de Schutze pourrait aider à inverser ce modèle de déclin. Bien sûr, c’est un grand pas dans le travail pour une traduction précise par la machine, mais c’est un pas dans la bonne direction.

Ref:  arxiv.org/abs/1704.08914 : Passé, Présent, Futur: Une étude informatique de la typologie du sens dans 1000 langues en pdf.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s