Il est temps de repenser complètement les assistants vocaux

Les entreprises de technologie doivent reconnaître que les machines qui semblent humaines peuvent faire plus de mal que de bien.

Plus de 200 millions de foyers disposent aujourd’hui d’un haut-parleur intelligent offrant un accès à Internet à commande vocale, selon une estimation mondiale. Ajoutez à cela les assistants virtuels parlants installés sur de nombreux smartphones, sans parler des appareils de cuisine et des voitures, et cela fait beaucoup d’Alexas et de Siris.

Parce que la parole est un élément fondamental de l’être humain, il est tentant de penser que ces assistants devraient être conçus pour parler et se comporter comme nous. Bien que cela nous donnerait un moyen fiable d’interagir avec nos appareils, il est incroyablement difficile de reproduire des conversations humaines réellement réalistes. De plus, les recherches suggèrent qu’il peut être inutile et même malhonnête de faire paraître une machine humaine. Au lieu de cela, nous devrons peut-être repenser comment et pourquoi nous interagissons avec ces assistants et apprendre à comprendre les avantages d’être une machine.

Les concepteurs de technologies de la parole parlent souvent du concept d' »humanité« . Les développements récents dans le développement de la voix artificielle ont eu pour résultat que les voix de ces systèmes brouillent la frontière entre l’humain et la machine, sonnant de plus en plus comme des humains. Des efforts ont également été faits pour rendre le langage de ces interfaces plus humain.

Le plus célèbre est peut-être Google Duplex, un service qui permet de prendre des rendez-vous par téléphone. Pour ajouter à la nature humaine du système, Google a inclus des énoncés comme « hmm » et « uh » à la sortie vocale de son assistant – des sons que nous utilisons couramment pour signaler que nous écoutons la conversation ou que nous avons l’intention de commencer à parler bientôt. Dans le cas de Google Duplex, ils ont été utilisés dans le but d’avoir un son/ton naturel.

Mais pourquoi est-il si important d’avoir l’air naturel ou plus humain ?

La poursuite de cet objectif de rendre les systèmes sonores et de se comporter comme nous découle peut-être des inspirations de la culture pop que nous utilisons pour alimenter la conception de ces systèmes. L’idée de parler aux machines nous fascine dans la littérature, la télévision et le cinéma depuis des décennies, à travers des personnages comme HAL 9000 en 2001 : A Space Odyssey ou Samantha in Her. Ces personnages ont des conversations ininterrompues avec les humains. Dans le cas de Her, il y a même une histoire d’amour entre un système d’exploitation et son utilisateur. De manière critique, toutes ces machines sonnent et réagissent de la manière dont nous pensons que les humains le feraient.

Il y a des défis technologiques intéressants à essayer d’obtenir quelque chose qui ressemble à des conversations entre nous et les machines. C’est pourquoi Amazon a récemment lancé le Prix Alexa, dont l’objectif est de « créer des robots sociaux capables de converser de manière cohérente et engageante avec les humains sur une série d’événements d’actualité et de sujets populaires tels que le divertissement, le sport, la politique, la technologie et la mode ». La compétition actuelle demande aux équipes de produire une conversation de 20 minutes entre l’un de ces robots et un interlocuteur humain.

Ces grands défis, comme d’autres dans l’ensemble de la science, font clairement progresser l’état de l’art, apportant des avantages planifiés et non planifiés. Pourtant, lorsque nous nous efforçons de donner aux machines la capacité de vraiment converser avec nous comme les autres êtres humains, nous devons réfléchir à ce à quoi servent réellement nos interactions orales avec les gens et à la question de savoir si c’est le même type de conversation que celui que nous voulons avoir avec les machines.

Nous discutons avec d’autres personnes pour faire avancer les choses et pour établir et maintenir des relations les uns avec les autres – et souvent ces deux objectifs s’entremêlent. Pourtant, les gens considèrent les machines comme des outils qui servent à des fins limitées et n’ont guère envie d’établir le genre de relations que nous avons tous les jours avec d’autres personnes.

Poursuivre des conversations naturelles avec des machines qui nous ressemblent peut devenir un objectif inutile et fastidieux. Cela crée des attentes irréalistes à l’égard de systèmes qui peuvent réellement communiquer et comprendre comme nous. Quiconque a interagi avec un Amazon Echo ou Google Home sait que cela n’est pas possible avec les systèmes existants.

Ceci est important car les gens ont besoin d’avoir une idée de la façon d’obtenir un système pour faire des choses qui, parce que les interfaces vocales ont des boutons et des visuels limités, sont guidées de manière significative par ce que le système dit et comment il le dit. L’importance de la conception de l’interface signifie que l’humanité elle-même peut être non seulement discutable mais trompeuse, surtout si elle sert à faire croire aux gens qu’ils interagissent avec une autre personne. Même si leur intention peut être de créer des voix intelligibles, les entreprises de technologie doivent tenir compte de l’impact potentiel sur les utilisateurs.

REGARDER AU-DELÀ DE L’HUMANITÉ

Plutôt que d’embrasser systématiquement l’humanité, nous pouvons accepter qu’il puisse y avoir des limites fondamentales, tant technologiques que philosophiques, aux types d’interactions que nous pouvons et voulons avoir avec les machines.

Nous devrions nous inspirer des conversations humaines plutôt que de les utiliser comme un étalon-or perçu pour l’interaction. Par exemple, considérer ces systèmes comme des interprètes plutôt que comme des conversationnalistes humains peut être une façon de créer des interfaces plus engageantes et expressives. L’incorporation d’éléments spécifiques de conversation peut être nécessaire dans certains contextes, mais nous devons réfléchir à la nécessité d’une interaction conversationnelle de type humain, plutôt que de l’utiliser comme un objectif de conception par défaut.

Il est difficile de prédire à quoi ressemblera la technologie à l’avenir et comment les perceptions sociales changeront et se développeront autour de nos appareils. Peut-être que les gens seront d’accord pour avoir des conversations avec les machines, devenir amis avec les robots et demander leur avis.

Mais nous sommes actuellement sceptiques à ce sujet. À notre avis, c’est une question de contexte. Les interactions et les interfaces ne sont pas toutes identiques. Certaines technologies de la parole peuvent être nécessaires pour établir et favoriser une certaine forme de lien social ou émotionnel, par exemple dans des applications médicales spécifiques. Si tel est l’objectif, il est logique de faire en sorte que les machines conversent de manière plus appropriée dans ce but – peut-être en sonnant humain pour que l’utilisateur obtienne le bon type d’attentes.

Pourtant, ce n’est pas une nécessité universelle. Ce qui est crucial, c’est que cette ressemblance avec l’être humain devrait être liée à ce que les systèmes peuvent réellement faire avec la conversation. Faire des systèmes qui n’ont pas la capacité de converser comme un être humain peut faire beaucoup plus de mal que de bien.

Via Fastcompany

1 commentaire sur “Il est temps de repenser complètement les assistants vocaux”

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.