Les médias de synthèse peuvent-ils être à l’origine de nouvelles expériences de contenu ?

Les « Deepfakes » ont à juste titre attiré l’attention négative des médias, mais existe-t-il une possibilité créative et solide sur le plan rédactionnel d’exploiter la technologie sous-jacente ? Ahmed Razek, de la BBC Blue Room, a expérimenté cette technologie controversée.

Les « Deepfakes » – la capacité de manipuler la vidéo avec des intentions malveillantescontinuent d’être une force technologiquement troublante. Un récent rapport de la société de cybersécurité Deeptrace a souligné que sur les 14 698 Deepfakes trouvés en ligne, 96 % étaient de nature sexuelle, les femmes étant en très grande majorité les victimes.

Dans la lutte contre la désinformation en ligne, les « Deepfakes » restent heureusement un problème secondaire, même si des signes inquiétants se profilent à l’horizon. L’année dernière, des images truquées de Nancy Pelosi, présidente de la Chambre des représentants, qui avait l’air ivre, se sont répandues de manière virale sur les médias sociaux, causant d’importants dommages à la réputation. Malgré les nombreux articles réfutant le contenu – le mal a été fait – un mensonge peut faire le tour du monde avant que la vérité ne fasse son apparition. À proprement parler, la fausse vidéo de Pelosi n’est pas un exemple de Deepfake ; elle ressemble plutôt à un faux superficiel (shallow fake) – un nouveau terme dans le lexique de la désinformation qui décrit une vidéo truquée produite avec une technologie de base. En raison de la simplicité de sa création, certains chercheurs affirment que la diffusion de shallow fakes présente un risque plus élevé pour le monde de la désinformation en ligne que les Deepfakes.

Dans toute application de la technologie, tout est une question d’intention. Razek a cherché à savoir si la même technologie audiovisuelle synthétique utilisée pour créer Deepfakes peut être exploitée pour diffuser du contenu de manière innovante. Cette expérience s’est appuyée sur les enseignements tirés d’une démonstration de médias synthétiques du présentateur de la BBC Matthew Amoriwala lisant un article d’actualité dans plusieurs langues différentes – vous pouvez voir les résultats ici (c’est remarquable !!)

En préparation de la conférence annuelle Media, Tech & Society 2019 de la BBC, la BBC Blue Room (le laboratoire interne de la BBC pour les technologies grand public) a été mise au défi de construire un prototype qui à la fois met en évidence les avancées des médias synthétiques et démontre une proposition d’audience évolutive.

Actuellement, l’une des interactions les plus populaires des utilisateurs sur les appareils à commande vocale comme Amazon Alexa pose des questions sur la météo locale. En comprenant cela, nous nous sommes demandé à quoi pourrait ressembler une réponse en vidéo de synthèse à une demande de météo d’une personnalité célèbre ? Et quelles questions rédactionnelles seraient soulevées ?

La météo est un domaine utile à prototyper car le contenu est factuel et généralement pas un domaine de contenu litigieux. Étant donné que les écrans à commande vocale comme Amazon Echo Show ou le portail Facebook font de plus en plus leur entrée dans les foyers, il ne faudra pas longtemps avant de rencontrer un avatar numérique répondant à une requête.

Pour réaliser cette expérience, Ahmed Razek (Technologist, Blue Room) s’est associés à des collègues du BBC World Service qui ont assuré le traitement éditorial de l’article et à la société de synthèse vidéo d’IA Synthesia, qui a fourni l’expertise technique en IA.

Ils ont demandé au présentateur Radzi Chinyanganya de lire à la caméra les noms de 12 villes, des chiffres de -30 à 30 et plusieurs phrases percutantes pour expliquer la température. Le scénario terminé ressemblait à ceci :

« Bienvenue à votre bulletin météo quotidien, regardons ce qui s’est passé. Dans « x », les habitants s’attendent à « x », les températures devraient être, en moyenne, « x » donc si vous sortez, n’oubliez pas de « x ».

Ils ont utilisé l’API météo de la BBC pour remplir la variable « x » avec des données météo précises et à jour des douze villes. Vous pouvez vous demander à ce stade, pourquoi seulement douze villes ? Pour mettre à l’échelle une démo telle qu’un présentateur puisse fournir un bulletin météo personnalisé pour n’importe quelle ville/rue du monde, il faudrait des progrès dans la technologie audio synthétique. Lorsque vous écoutez votre navigation par satellite vous donner des indications ou que vous obtenez une réponse à votre requête par un orateur intelligent, vous entendez un discours synthétique. Malgré l’explosion des investissements et de la recherche utilisant les réseaux neuronaux pour simuler des voix humaines, il est encore difficile de reproduire les voix de manière convaincante. Cela dit, vous ne pourrez bientôt plus dire si le son de votre célébrité préférée est synthétique ou authentique. Pour leur expérience, ils ont décidé d’utiliser la vraie voix de Radzi, au lieu d’une version numérique sous-optimale qui aurait brisé l’illusion de l’expérience.

Jetez un coup d’œil à la démo et voyez par vous-même le résultat. Sélectionnez votre ville préférée et obtenez un rapport vidéo synthétique personnalisé basé sur des données météorologiques en temps réel. Veuillez noter que cette démo ne fonctionne que dans Google Chrome et d’autres navigateurs basés sur Chromium tels que Brave, Opera et le nouveau Microsoft Edge (j’ai pris Moscou):

Sauvegarde de la confiance

Il est délicat de mener des expériences avec une technologie aussi controversée pour un radiodiffuseur de service public responsable. Des questions épineuses de confiance et de normes éditoriales font rapidement surface.

La confiance avec le public est un élément fondamental de la BBC. Il est clair que les téléspectateurs qui regardent ou écoutent du faux contenu qui, à première vue, semble authentique, risquent de porter atteinte à leur réputation. Toutefois, cela ne veut pas dire qu’il n’y a pas de circonstances où l’utilisation des médias synthétiques pourrait améliorer l’offre au public sans sacrifier la confiance. Beaucoup dépend de notre honnêteté et de la clarté avec le public sur ce qu’il reçoit, un principe éditorial que la BBC a l’habitude d’appliquer dans toutes sortes de contextes. L’utilisation des médias de synthèse dans un contexte d’information a, comme souligné ci-dessus, le potentiel d’être déstabilisant, en particulier à une époque de « fausses nouvelles ». Cependant, dans un contexte différent, comme la démo de bulletin météo, il n’est pas évident que le public serait troublé si des avatars numériques diffusaient un bulletin météo. Compte tenu de la croissance des assistants numériques et de la volonté de l’industrie de personnaliser davantage les informations, on s’attendra peut-être à ce qu’une réponse vidéo à une requête soit générée numériquement.

Un autre facteur à prendre en compte qui pourrait aider à instaurer la confiance serait les marqueurs d’audience. À l’instar de nombreux chatbots en ligne qui utilisent des émojis robots pour faire comprendre au public qu’il s’adresse à une machine et non à un humain, il est tout à fait possible d’utiliser des marqueurs visuels similaires pour communiquer aux spectateurs qu’un contenu est généré par un ordinateur. Dans ce contexte, avec les garanties supplémentaires en place, la croissance des médias visuels synthétiques semble plausible, même pour un radiodiffuseur de service public responsable.

La deuxième question, peut-être plus intrigante, qui se pose lorsqu’on pense aux médias synthétiques est d’ordre éditorial. Prenez la démo météo, même le critique le plus généreux admettrait qu’il s’agit d’un bulletin météo fade. Le sens du récit et la créativité que les présentateurs apportent pour enrichir un contenu sont complètement perdus dans cette démo dépassionnée. L’un des défis majeurs dans un monde de médias générés par ordinateur sera de trouver comment créer un contenu dynamique et imaginatif de manière personnalisée. Ou peut-être de trouver comment utiliser la technologie pour diffuser les éléments de la présentation qui sont fades mais qui demandent beaucoup de travail, et ainsi donner à nos talentueux conteurs plus de temps et d’espace pour créer en tandem des contenus de valeur. Cela ne veut pas dire que les contenus fades sont inévitables – le domaine émergent des créateurs de personnalité en IA pourrait peut-être déboucher sur des expériences synthétiques extrêmement créatives.

Donc, pour en revenir à notre question initiale, les médias synthétiques peuvent-ils susciter de nouvelles expériences de contenu ? Oui, je crois que oui.

Actuellement, les coûts de diffusion de vidéos synthétiques de haute qualité sont prohibitifs pour les consommateurs ordinaires. Avec la banalisation croissante des outils, les consommateurs qui créent des expériences synthétiques de qualité à bas prix pourraient en théorie déclencher un nouveau modèle de narration. Vous imaginez bientôt un avenir où un personnage numérique photoréaliste de type humain peut être amené à faire n’importe quoi, de la lecture des résultats de football à une leçon de physique.

À une époque où le monde est de plus en plus troublé par des contenus authentiques faux, le défi sera, dans un avenir proche, de trouver comment se préparer à ce changement de paradigme du conte.

Via BBC.co.UK blog

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.