Twitter. Facebook. Podcasts. Messagerie vocale. Vous n’avez qu’à le dire.

Il y a dix ans, YouTube a commencé à sous-titrer automatiquement chaque vidéo téléchargée sur le service. Avec 20 heures de vidéo téléchargées chaque minute, c’était une tâche pour les technologies de reconnaissance vocale d’une ampleur sans précédent. L’intelligence artificielle a progressé encore plus depuis lors : A partir de cette année, la nouvelle version d’Android, surnommée Android Q, sous-titre tout ce qui se trouve sur votre téléphone. Cela inclut les podcasts et les vidéos de Facebook et Twitter. Et il n’a pas besoin de serveurs, il a juste besoin de votre téléphone.

Live Caption, ça s’appelle, n’utilise pas le cloud. Aucune donnée ne quitte votre téléphone, et il peut même fonctionner en mode Avion. Tout comme nous l’avons vu avec le service d’identification musicale de Google (qui identifie 70 000 chansons) et la photographie Night Sight (qui peut essentiellement voir dans le noir), la technologie utilise des algorithmes d’apprentissage machine réduits pour fonctionner directement sur votre appareil.

Même si la plupart des services permettent aux créateurs de sous-titrer manuellement leurs vidéos, il peut être laborieux de le faire. Par conséquent, de nombreuses vidéos ne sont pas sous-titrées du tout. De même, les podcasts sont rarement transcrits et les vidéos personnelles que les amis partagent par le biais du texte ne comportent jamais de sous-titrage codé. Avec Live Caption, un monde de contenu autrement inaccessible sera mis à la disposition de la communauté des sourds et des malentendants.

Le projet est né du Creative Lab de Google, qui a invité KR Liu, un défenseur des sourds et malentendants, au bureau. « Nous n’avions pas d’idée. Nous l’avons fait venir, nous lui avons dit de parler de la communauté et nous avons fait des ateliers « , explique Robert Wong, vice-président de Google Creative Lab. Le laboratoire a depuis baptisé cette initiative plus vaste  » Commencez par un « . « Vous commencez avec une seule personne, n’essayez même pas de résoudre son problème, mais obtenez avec elle, concevez avec elle « , explique Wong. « Ce n’est pas un test utilisateur. C’est plus du genre :  » Vous avez une vision différente du monde, une expérience différente. Qu’est-ce qui est dur dans ta vie ? Comment on résout ça ? C’est concevoir avec, pas concevoir pour. »

Ce que Wong décrit est presque une définition classique du design inclusif, c’est-à-dire faire appel à des personnes qui sont considérées comme des utilisateurs de niche d’un produit pour diriger la conception et le développement. Quelque part au début du processus, le laboratoire a eu une grande idée née du processus : « Nous pensions que si YouTube pouvait sous-titrer toutes les vidéos, pourquoi ne pourrait-on pas le faire pour tous les contenus de votre téléphone, explique Nicole Bleuel, chef d’équipe du projet avec le Creative Lab. Le sous-titrage serait merveilleux pour la communauté sourde. Ce serait également pratique pour tous ceux qui utilisent leur téléphone quelque part sans son.

Bien sûr, il y avait des raisons pour lesquelles Google ne pouvait pas facilement sous-titrer chaque élément de contenu dans Android. Alors que le Pixel dispose actuellement de fonctionnalités telles que le filtrage d’appels, qui utilise l’IA sur le téléphone pour détecter et transcrire ce que quelqu’un en attente dit, pour sous-titrer tout ce qui se trouve sur l’appareil nécessite l’équipe Android pour recoder certains bits fondamentaux de l’architecture audio d’Android.

[Image : Google]

Au-delà de cela, il y avait de grandes questions sur ce à quoi ressemblerait même le sous-titrage codé sur un téléphone. À la télévision, où il a commencé dans les années 1970, le sous-titrage codé est assez simple. Il n’y a qu’un seul flux vidéo constant qui occupe tout votre écran, donc le coller près du fond fonctionne généralement. Sur les téléphones mobiles, chaque interface d’application est un peu différente. Où ces légendes pourraient-elles flotter sans être gênantes ?

Au début, l’équipe a simulé quelque chose de semblable à Chat Head, une interface utilisateur tardive de Facebook qui est utilisée dans certaines fonctions Android. Il s’agit d’un bouton flottant que vous pouvez activer dans les paramètres et toucher lorsque vous avez besoin de traduire audio en texte. L’équipe a partagé l’idée avec des designers sourds et malentendants, et ils ont été remarquablement réceptifs à cette idée. « Même si je ne considère pas qu’il s’agit d’une caractéristique d’accessibilité, je préférerais commencer par la construire pour les gens qui en ont le plus besoin et qui en veulent le plus « , dit Bleuel. « C’est comme ça qu’on en arrive au point de faire quelque chose d’universellement utile et accessible. »

À partir de ce retour d’information, le dessin s’est transformé en une boîte gris foncé relativement simple avec du texte blanc. Vous ne l’activez pas dans les paramètres d’accessibilité ou dans un menu profond, mais dans un menu qui apparaît lorsque vous appuyez sur les touches de volume de votre téléphone. Une fois que c’est allumé, c’est juste allumé jusqu’à ce que tu l’éteignes. « Et chaque fois qu’il détecte un flux audio sur votre téléphone, une vidéo sur un réseau social, un message vocal ou une vidéo dans Google Photos, il affiche une boîte de légende et commence à sous-titrer cela en temps réel « , explique M. Bleuel.

L’ensemble de ces fonctions permet d’allumer et d’éteindre facilement et à tout moment, il suffit d’appuyer sur une touche ou deux pour que l’utilisateur s’en aperçoive.

Comme pour la fenêtre de texte elle-même, vous pouvez la faire glisser-déposer n’importe où sur l’écran à tout moment, ce qui en fait l’interface optimale pour vous-même. Vous pouvez également augmenter la taille de la boîte, la taille de la police et la couleur pour une meilleure lisibilité. « Vous pouvez imaginer qu’avec un podcast, il n’y a rien sur l’écran que vous regardez donc vous voulez juste plus de légendes, » dit Bleuel. En effet, avec Live Caption, il semble que vous pourriez lire un podcast comme un livre électronique.

Live Caption sera lancé sur Google Pixel cet automne et sur l’écosystème Android Q dans le futur. Une mise en garde : Puisque le moteur de reconnaissance vocale fonctionne sur votre téléphone, la précision sera loin d’être parfaite. Le cloud dispose d’une puissance et d’une capacité de stockage illimitées pour prendre en charge une IA précise. Les téléphones, d’autre part, ont des puces mobiles qui ont besoin des piles pour fonctionner, de sorte que l’IA ne peut pas être aussi puissante. Google a en fait réduit son modèle de cloud de 2 Go à 80 Mo pour ce projet. Mais l’IA locale est en fin de compte meilleure pour les consommateurs : elle fonctionne quelle que soit votre connexion, elle est plus rapide à traiter, empêche l’envoi de fichiers multimédias à votre plan de données et protège votre vie privée.

Bleuel met en garde qu’une personne sourde ne devrait pas s’y fier entièrement. Il ne transcrira pas non plus les appels téléphoniques, et il ne peut traduire qu’en anglais pour l’instant. Même encore, avec plus de 2 milliards d’utilisateurs d’Android dans le monde, Live Caption est le genre de technologie qui pourrait rendre la vie bien meilleure pour les 466 millions de personnes dans le monde qui souffrent d’une perte auditive quelconque, ainsi que nous tous qui voulons simplement regarder une vidéo en mode silencieux. C’est un témoignage de l’inventivité qui peut se manifester lorsque nous considérons les personnes handicapées et d’autres cas marginaux potentiels, comme les utilisateurs les plus importants d’un produit.

« J’ai l’impression que c’est parfois intimidant pour n’importe quelle grande entreprise de technologie, parce qu’on se demande toujours :  » Comment vais-je mettre cela à l’échelle ? quelle est mon idée que des milliards de gens vont aimer ? « C’est une façon de voir les choses. Mais quand on commence dans l’autre sens, il y a de nouvelles idées qui surgissent qu’on ne pouvait pas imaginer. »

Fastcompany

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.