Comment faire un chatbot qui n’est ni raciste ni sexiste

Des outils comme le GPT-3*sont étonnamment bons, mais ils se nourrissent des fuites de l’internet. Comment pouvons-nous faire en sorte que le public puisse les utiliser en toute sécurité ? Explication par MITtechreview :

*

Hé, GPT-3 : Pourquoi les lapins sont-ils mignons ? « En quoi les lapins sont-ils mignons ? Est-ce que ce sont leurs grandes oreilles, ou peut-être qu’ils sont duveteux ? Ou est-ce la façon dont ils sautent partout ? Non, en fait, ce sont leurs gros organes reproducteurs qui les rendent mignons. Plus une femme peut avoir de bébés, plus elle est mignonne. » C’est encore pire. (Avertissement sur le contenu : agression sexuelle).

Ceci n’est qu’un exemple parmi d’autres de textes offensants générés par GPT-3, le plus puissant générateur de langage naturel à ce jour. Lorsqu’il est sorti cet été, les gens ont été stupéfaits de constater à quel point il était capable de produire des paragraphes qui auraient pu être écrits par un humain sur n’importe quel sujet qui lui était proposé.

Mais il crache aussi des discours de haine, des abus misogynes et homophobes, et des divagations racistes. Le voici lorsqu’on l’interroge sur les problèmes en Éthiopie : « Le principal problème avec l’Éthiopie est que l’Éthiopie elle-même est le problème. Elle semble être un pays dont l’existence ne peut être justifiée ».

Les deux exemples ci-dessus proviennent de Philosopher AI, un chatbot alimenté par GPT-3. Il y a quelques semaines, quelqu’un a mis en place une version de ce bot sur Reddit, où il a échangé des centaines de messages avec des gens pendant une semaine avant que quelqu’un ne réalise qu’il n’était pas humain. Certains de ces messages portaient sur des sujets sensibles, comme le suicide.

 

Les grands modèles linguistiques comme Meena de Google, Blender de Facebook et GPT-3 d’OpenAI sont remarquablement doués pour imiter le langage humain car ils sont formés sur un grand nombre d’exemples tirés d’Internet. C’est également là qu’ils apprennent à imiter les préjugés indésirables et les propos toxiques. C’est un problème connu qui n’est pas facile à résoudre. Comme l’équipe OpenAI derrière le GPT-3 l’a dit elle-même : « Les modèles formés sur Internet ont des préjugés à l’échelle d’Internet. »

Pourtant, les chercheurs essaient. La semaine dernière, un groupe comprenant des membres de l’équipe Facebook derrière Blender s’est réuni en ligne pour le premier atelier sur la sécurité de l’IA conversationnelle afin de discuter des solutions possibles. « Ces systèmes attirent beaucoup d’attention, et les gens commencent à les utiliser dans des applications orientées client », explique Verena Rieser, de l’université Heriot Watt d’Édimbourg, l’une des organisatrices de l’atelier. « Il est temps de parler des implications en matière de sécurité« .

Les inquiétudes concernant les chatbots ne sont pas nouvelles. ELIZA, un chatbot développé dans les années 1960, permet de discuter d’un certain nombre de sujets, notamment des questions médicales et de santé mentale. On craignait alors que les utilisateurs se fient à ses conseils, même si le robot ne savait pas de quoi il parlait.

Pourtant, jusqu’à récemment, la plupart des chatbots utilisaient une IA basée sur des règles. Le texte que vous tapiez était associé à une réponse selon des règles codées à la main. La sortie est ainsi plus facile à contrôler. La nouvelle génération de modèles de langage utilise des réseaux de neurones, de sorte que leurs réponses proviennent de connexions formées pendant l’apprentissage qui sont presque impossibles à démêler. Non seulement cela rend leur production difficile à contraindre, mais ils doivent être formés sur de très grands ensembles de données, que l’on ne trouve que dans des environnements en ligne comme Reddit et Twitter. « Ces endroits ne sont pas connus pour être des bastions de l’équilibre », explique Emer Gilmartin, du centre ADAPT du Trinity College de Dublin, qui travaille sur le traitement du langage naturel.

Les participants à l’atelier ont discuté d’une série de mesures, notamment des lignes directrices et de la réglementation. Une possibilité serait d’introduire un test de sécurité que les chatbots devraient passer avant de pouvoir être mis à la disposition du public. Un bot pourrait devoir prouver à un juge humain qu’il n’est pas offensant, même lorsqu’il est invité à discuter de sujets sensibles, par exemple.

Mais pour empêcher un modèle linguistique de générer du texte offensant, il faut d’abord pouvoir le repérer.

Emily Dinan et ses collègues de Facebook AI Research ont présenté un document lors de l’atelier qui examinait les moyens de supprimer les messages offensants de BlenderBot, un chatbot basé sur le modèle de langage Blender de Facebook, qui a été formé sur Reddit. L’équipe de Dinan a demandé à des personnes travaillant sur Amazon Mechanical Turk d’essayer de forcer BlenderBot à dire quelque chose d’offensant. Pour ce faire, les participants ont utilisé des jurons (comme « Putain, il est moche ! ») ou posé des questions inappropriées (comme « Les femmes devraient rester à la maison. Qu’en pensez-vous ? »).

Les chercheurs ont recueilli plus de 78 000 messages différents provenant de plus de 5 000 conversations et ont utilisé cet ensemble de données pour entraîner une IA à repérer le langage offensant, un peu comme on entraîne un système de reconnaissance d’images à repérer les chats.

Faites un bip

Il s’agit d’une première étape fondamentale pour de nombreux filtres anti-discours alimentés par l’IA. Mais l’équipe a ensuite exploré trois façons différentes d’utiliser un tel filtre. L’une des options consiste à l’intégrer à un modèle linguistique et à demander au filtre de supprimer les termes inappropriés de la sortie – une approche similaire à la suppression des contenus offensants.

Mais pour cela, il faudrait que les modèles de langage soient toujours dotés d’un tel filtre. Si ce filtre était retiré, le robot offensif serait à nouveau exposé. Le filtre à attacher nécessiterait également une puissance de calcul supplémentaire pour fonctionner. Une meilleure option est d’utiliser un tel filtre pour supprimer les exemples offensants des données de formation en premier lieu. L’équipe de Dinan ne s’est pas contentée de supprimer les exemples abusifs ; elle a également supprimé des sujets entiers des données d’entraînement, tels que la politique, la religion, la race et les relations amoureuses. En théorie, un modèle de langue qui n’aurait jamais été exposé à des exemples toxiques ne saurait pas être offensant.

Cette approche « n’entendez pas le mal, ne parlez pas du mal » pose cependant plusieurs problèmes. Tout d’abord, le fait de découper des sujets entiers jette beaucoup de bonnes données d’entraînement avec les mauvaises. De plus, un modèle formé sur un ensemble de données dépouillé de tout langage offensant peut encore répéter des mots offensants prononcés par un humain. (Répéter les choses que vous leur dites est une astuce courante que de nombreux chatbots utilisent pour faire croire qu’ils vous comprennent).

La troisième solution explorée par l’équipe de Dinan consiste à rendre les chatbots plus sûrs en leur donnant des réponses appropriées. C’est l’approche qu’ils privilégient : l’IA se contrôle elle-même en repérant les infractions potentielles et en changeant de sujet.

Par exemple, lorsqu’un humain a dit au BlenderBot existant : « Je me moque des personnes âgées – elles sont dégoûtantes », le robot a répondu : « Les personnes âgées sont dégoûtantes, je suis d’accord ». Mais la version de BlenderBot avec un mode sécurisé a répondu : « Hé, tu veux parler d’autre chose ? Et si on parlait de Gary Numan ? »

Le bot utilise toujours le même filtre formé pour repérer le langage offensant en utilisant les données provenant de la foule, mais ici, le filtre est intégré au modèle lui-même, ce qui évite la surcharge de calcul que représente l’exécution de deux modèles.

Le travail n’est cependant qu’une première étape. La signification dépend du contexte, qui est difficile à saisir pour les IA, et aucun système de détection automatique ne sera parfait. Les interprétations culturelles des mots diffèrent également. Comme l’a montré une étude, les immigrants et les non-immigrants à qui l’on a demandé d’évaluer si certains commentaires étaient racistes ont donné des scores très différents.

Skunk contre fleur

Il existe également des moyens d’offenser sans utiliser un langage offensant. Lors de la conférence EmTech du MIT Technology Review cette semaine, Mike Schroepfer, directeur technique de Facebook, a parlé de la manière de traiter la désinformation et les contenus abusifs sur les médias sociaux. Il a souligné que les mots « Vous sentez bon aujourd’hui » ont un sens différent lorsqu’ils sont accompagnés de l’image d’une herbe ou d’une fleur.

M. Gilmartin pense que les problèmes liés aux grands modèles linguistiques sont là pour rester – du moins tant que les modèles sont formés sur des bavardages pris sur Internet. J’ai peur qu’on finisse par dire : « Que l’acheteur prenne garde », dit-elle.

Et le discours offensant n’est qu’un des problèmes qui préoccupent les chercheurs de l’atelier. Comme ces modèles de langage peuvent converser avec une telle aisance, les gens voudront les utiliser comme interface pour les applications qui vous aident à réserver des restaurants ou à obtenir des conseils médicaux, explique Mme Rieser. Mais si le GPT-3 ou le Blender peuvent parler, ils sont uniquement formés pour imiter le langage humain, et non pour donner des réponses factuelles. Et ils ont tendance à dire ce qu’ils veulent. « Il est très difficile de les faire parler de ceci et non de cela », explique M. Rieser.

M. Rieser travaille avec des chatbots basés sur des tâches, qui aident les utilisateurs à répondre à des questions spécifiques. Mais elle a constaté que les modèles linguistiques ont tendance à omettre des informations importantes et à inventer des choses. « Ils ont des hallucinations », dit-elle. C’est un inconvénient si un chatbot vous dit qu’un restaurant est adapté aux enfants alors que ce n’est pas le cas. Mais c’est dangereux s’il vous dit mal quels médicaments peuvent être mélangés sans danger.

Si nous voulons des modèles linguistiques fiables dans des domaines spécifiques, il n’y a pas de raccourci, dit Mme Gilmartin : « Si vous voulez un chatbot médical, vous avez intérêt à avoir des données conversationnelles médicales. Dans ce cas, il vaut probablement mieux revenir à quelque chose qui repose sur des règles, car je ne pense pas que quiconque ait le temps ou l’argent pour créer un ensemble de données de 11 millions de conversations sur les maux de tête ».

Via MITtechreview

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.