Publicités

Google peut enfin comprendre vos sms « étranges »

Google peut enfin comprendre vos sms « étranges »

Supr nouv1ls!1!
Google aimerait avoir des voix pour ses produits sonores aussi naturels que celle de Samantha, l’amie proche de l’avenir qui vivait dans l’écouteur de Joaquin Phoenix dans le film Her. Pour atteindre cet effet, vous pouvez embaucher un acteur à voix douce pour enregistrer tous les mots, les phrases et les phonèmes dont vous auriez besoin et de rédiger des logiciels sophistiqués pour les recombiner à la volée… Vous pouvez automatiser l’enchilada, ou des mots plus spécifiques avec un apprentissage approfondi. Google étant Google, vous pouvez imaginer quel choix il a pris. Allez voir Tacotron : ScarJo n’est pas prononcé, mais il peut dire « membrane basilaire et otorhinolaryngologie sans auto-corrélations » mieux que vous.

Certes, c’est une phrase que vous n’avez jamais vue avant et que vous ne verrez ou entendrez jamais à nouveau. Mais c’est tout le point: Tacotron n’a jamais vu la phrase avant, mais il peut jouer sur la prononciation compliquée avec un discours appris qu’il synthétise seul. Tacotron gère la prosodie (la « tonalité » musicale de la parole), la désambiguïsation sémantique (en disant « lire » différemment dans le présent ou le passé) et des erreurs d’orthographe écrites (« Supr nouv1ls!1 ») avec un aplomb surprenant.

[Image: Google]

Dans son rapport technique, Google admet que la synthèse du discours concaténatif  (« chump », employé par le livre de Siri d’Apple) donne plus de résultats naturels que Tacotron. Mais la concaténation est fastidieuse, coûteuse, et implique des « choix de conception fragiles », pour citer le rapport de Google. C’est cette fragilité que Tacotron doit contourner, explique William Wang, expert en traitement de langue naturelle à l’Université de Californie, à Santa Barbara, qui connaît bien la recherche. La programmation d’un synthétiseur de discours à la main implique de « faire de nombreux choix de conception très arbitraires », explique Wang.Prenez la prosodie comme exemple. Les différences naturelles de la prononciation entre une déclaration (« Le renard rapide roux bondit sur le chien paresseux ») et une question (« Le rapide renard brun saute sur le chien paresseux ? ») va subir des changements de tons subtils. Comment, exactement, ces changements doivent-ils être codés dans les logiciels ? Quelqu’un doit décider à l’avance – et même si ces choix peuvent offrir une prosodie naturelle dans certaines phrases, les mêmes choix peuvent produire des résultats gênants dans les autres. Il n’y a aucun moyen de le dire à l’avance, et aucun moyen de prendre en compte les erreurs et les cas particuliers, sauf avec plus de codage manuel sur plusieurs composants du système.

[Image: Google]

Tacotron utilise un logiciel d’apprentissage en profondeur (communément appelé « AI ») pour capturer et automatiser tout ce que prend une décision. Ce n’est pas le meilleur pour « le naturel »: la  technologie WaveNet de Google, qui utilise également un apprentissage approfondi pour synthétiser le discours, prétend battre même les logiciels concaténatifs en termes de qualité. Mais Tacotron est plus rapide que WaveNet, et plus simple: il gère tout le pipeline de traitement de texte à parole « en utilisant une seule architecture de réseau neuronal », selon Wang. Cela rend le Tacotron beaucoup plus facile à comprendre sur toute la galaxie des données de texte et de voix.Google est silencieux sur ce que, le cas échéant, prévoit d’appliquer Tacotron à ses produits actuels (les chercheurs n’ont pas répondu). Mais si vous êtes un jour capable de convoquer une des voitures d’auto-conduite de Google avec un peu plus qu’un message texte uniquement dactylographié, et que vous vous parlez sans ressembler à un obot, il se pourrait que Tacotron fasse le poids pour beaucoup de commande vocale.

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :