Un algorithme résume les longs textes de façon surprenante

Les logiciels de formation qui résument avec précision des informations dans les documents pourraient avoir un impact important dans de nombreux domaines, tels que la médecine, le droit et la recherche scientifique.

Qui a le temps de lire chaque article qu’il voit partagé sur Twitter ou Facebook, ou tout document qui est pertinent pour son travail ? Au fur et à mesure que la surcharge d’information se développe, les ordinateurs peuvent devenir notre seul espoir de gérer ce déluge croissant de documents. Et il peut être devenu courant de compter sur une machine pour analyser et paraphraser des articles, des documents de recherche et d’autres textes pour vous.

Un algorithme développé par les chercheurs de Salesforce montre comment les ordinateurs peuvent finalement prendre soin de résumer les documents. Il utilise plusieurs astuces d’apprentissage par la machine pour produire des fragments de texte étonnamment cohérents et précis à partir d’extraits plus lons. Et bien qu’il ne soit pas aussi bon qu’une personne, il indique comment le texte résumé pourrait éventuellement devenir automatisé.

L’algorithme a produit, par exemple, le résumé suivant d’un récent article du New York Times  sur Facebook essayant de lutter contre les fausses nouvelles avant les élections à venir du Royaume-Uni:

  • Le réseau social a publié une série de publicités dans les journaux en Grande-Bretagne lundi.
  • Il a supprimé des dizaines de milliers de faux comptes en Grande-Bretagne.
  • Il a également déclaré qu’il embaucherait 3 000 modérateurs supplémentaires, doublant presque le nombre de personnes dans le monde entier qui recherchent un contenu inapproprié ou offensant.

L’algorithme de Salesforce est nettement meilleur que tout ce qui a été développé précédemment, selon un outil logiciel commun pour mesurer l’exactitude des résumés de texte.

« Je ne pense pas avoir jamais vu une si grande amélioration dans n’importe quelle tâche [de traitement de la langue naturelle] », explique Richard Socher, scientifique en chef chez Salesforce. Socher est un nom proéminent dans l’apprentissage automatique et le traitement de la langue naturelle, et sa start-up, MetaMind, a été acquis par Salesforce en 2016.

Le logiciel est encore loin de faire correspondre la capacité d’un humain à saisir l’essence du texte du document, et d’autres résumés qu’il produit sont négligés et moins cohérents. En effet, résumer le texte à la perfection nécessiterait une intelligence authentique, y compris une connaissance du sens commun et une maîtrise du langage.

Parsing language (l’analyse syntaxique) reste l’un des grands défis de l’intelligence artificielle. Mais c’est un défi avec un énorme potentiel commercial. Même l’intelligence linguistique limitée – la capacité d’analyser les questions écrites ou orales, et d’y répondre de manière plus sophistiquée et plus cohérente – pourrait transformer l’informatique personnelle. Dans de nombreux domaines spécialisés – comme la médecine, la recherche scientifique et l’information sur la loi – la synthèse et l’extraction d’idées – pourraient avoir d’énormes avantages commerciaux.

Caiming Xiong, un chercheur scientifique de Salesforce qui a contribué au travail, affirme que l’algorithme de son équipe, s’il est imparfait, pourrait résumer les articles quotidiens, ou fournir un synopsis des courriels des clients. Ce dernier pourrait être particulièrement utile pour la plate-forme propre de Salesforce.

L’algorithme de l’équipe utilise une combinaison d’approches pour réaliser son amélioration. Le système apprend à partir d’exemples de bons résumés, une approche appelée apprentissage supervisé, mais utilise également une sorte d’attention artificielle au texte qu’il ingère et qu’il produit. Cela permet de s’assurer qu’il ne produit pas trop de morceaux répétitifs de texte, un problème commun avec les algorithmes de synthèse.

Le système expérimente tout le temps afin de générer des résumés propres en utilisant un processus appelé apprentissage de renforcement. Inspiré par la façon dont les animaux semblent apprendre, cela implique de fournir des commentaires positifs pour les actions qui mènent vers un objectif particulier. L’apprentissage par renforcement a été utilisé pour former les ordinateurs à faire de nouvelles choses impressionnantes, comme jouer à des jeux complexes ou à contrôler des robots . Ceux qui travaillent sur des interfaces de conversation examinent de plus en plus l’apprentissage de renforcement comme moyen d’améliorer leurs systèmes.

Kristian Hammond, professeur à l’Université Northwestern et fondateur de Narrative Science, une société qui génère des reportages à partir de données brutes, affirme que la recherche Salesforce est une bonne avancée, mais elle montre aussi les limites de la maîtrise de l’apprentissage par machine statistique. « À un certain moment, nous devons admettre que nous avons besoin d’un peu de sémantique et d’un peu de connaissance syntaxique dans ces systèmes afin qu’ils soient fluides et lisibles », explique Hammond.

Hammond dit que l’utilisation d’un mécanisme d’attention imite, à un niveau très simple, la façon dont une personne donne son attention à ce qu’il vient de dire. « Lorsque vous dites quelque chose, les détails de la façon dont vous le dites sont motivés par le contexte de ce que vous avez dit auparavant », dit-il. « Ce travail est un pas dans cette direction ».

L’amélioration des compétences linguistiques des ordinateurs peut également s’avérer importante dans la volonté de faire progresser l’intelligence artificielle. Une start-up appelée Maluubae, qui a été acquis plus tôt cette année par Microsoft, a récemment produit un système capable de générer des questions pertinentes à partir du texte. L’équipe de Maluuba a également utilisé une combinaison d’apprentissage supervisé et d’apprentissage renforcé.

Adam Trischler, chercheur principal à Maluuba, dit que poser des questions pertinentes est une partie importante de l’apprentissage, il est donc important de créer des machines curieuses aussi.

« Le but ultime est d’utiliser les questions-réponses dans un dialogue », dit Trischler.

« Que faire si une machine pouvait sortir et rassembler des informations, puis poser ses propres questions ? »

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s