Les chercheurs peuvent maintenant détecter les fausses vidéos générées par l’IA avec un taux de succès de 95 %, et tout cela grâce aux yeux.

Une nouvelle forme de désinformation est prête à se répandre dans les communautés en ligne à mesure que les campagnes électorales de mi-mandat de 2018 s’intensifieront. Appelées « deepfakes » d’après le compte en ligne pseudonyme qui a popularisé la technique – qui a peut-être choisi son nom parce que le processus utilise une méthode technique appelée « deep learning » – ces fausses vidéos ont un aspect très réaliste.

Jusqu’à présent, les gens ont utilisé de fausses vidéos pornographiques et satiriques pour faire croire que des gens célèbres font des choses qu’ils ne feraient pas normalement. Mais il est presque certain que des imitations profondes apparaîtront pendant la saison électorale, prétendant dépeindre des candidats disant des choses ou allant dans des endroits que le vrai candidat ne le ferait pas.

Parce que ces techniques sont si nouvelles, les gens ont du mal à faire la différence entre les vraies vidéos et les vidéos deepfakes. Ming-Ching Chang et l’étudiant au doctorat Yuezun Li, ont trouvé un moyen fiable de distinguer les vidéos réelles des vidéos deepfakes. Ce n’est pas une solution permanente, parce que la technologie s’améliorera. Mais c’est un début, et offre l’espoir que les ordinateurs seront en mesure d’aider les gens à distinguer la vérité de la fiction.

[Illustration : Daniel Salo]

QU’EST-CE QU’UN « DEEPFAKE« , PAR AILLEURS ?

Réaliser une vidéo en deepfake, c’est un peu comme traduire d’une langue à l’autre. Des services comme Google Translate utilisent l’apprentissage automatique – l’analyse informatique de dizaines de milliers de textes dans plusieurs langues – pour détecter les modèles d’utilisation des mots qu’ils utilisent pour créer la traduction.

Les algorithmes Deepfake fonctionnent de la même manière : ils utilisent un type de système d’apprentissage automatique appelé réseau neuronal profond pour examiner les mouvements faciaux d’une personne. Ensuite, ils synthétisent les images du visage d’une autre personne en faisant des mouvements analogues. En agissant de la sorte, on crée une vidéo de la personne cible qui semble faire ou dire les choses que la personne source a faites.

Avant de pouvoir fonctionner correctement, les réseaux neuronaux profonds ont besoin de beaucoup d’informations de source, telles que des photos de la personne qui est la source ou la cible de l’usurpation d’identité. Plus le nombre d’images utilisées pour former un algorithme de contrefaçon profonde est élevé, plus l’usurpation d’identité numérique sera réaliste.


[Illustration : Daniel Salo]

DÉTECTION DU CLIGNOTEMENT

Il y a encore des failles dans ce nouveau type d’algorithme. L’une d’entre elles est liée à la façon dont les visages simulés clignent ou ne clignent pas. Les adultes en bonne santé clignent des yeux toutes les 2 à 10 secondes, et un seul clignement prend entre un dixième et quatre dixièmes de seconde. C’est ce qu’il serait normal de voir dans une vidéo d’une personne qui parle. Mais ce n’est pas ce qui se passe dans beaucoup de vidéos truquées.

Lorsqu’un algorithme deepfake est formé sur les images du visage d’une personne, il dépend des photos qui sont disponibles sur Internet et qui peuvent être utilisées comme données d’apprentissage. Même pour les personnes qui sont souvent photographiées, peu d’images sont disponibles en ligne montrant les yeux fermés. Non seulement les photos comme celles-ci sont rares – parce que les yeux des gens sont ouverts la plupart du temps – mais les photographes ne publient généralement pas d’images où les yeux du sujet principal sont fermés.

Sans formation d’images de personnes clignant des yeux, les algorithmes deepfake sont moins susceptibles de créer des visages qui clignent normalement. Lorsque ils ont calculé le taux global de clignement puis comparé à l’échelle naturelle, ils ont constaté que les personnages des vidéos en deepfake clignent beaucoup moins souvent que les personnes réelles. La recherche utilise l’apprentissage automatique pour examiner l’ouverture et la fermeture des yeux dans les vidéos.

Cela leur a donné l’inspiration pour détecter les vidéos truquées. Par la suite, ils ont également développé une méthode pour détecter quand la personne dans la vidéo clignent des yeux.

Pour être plus précis, il scanne chaque image d’une vidéo en question, détecte les visages qu’elle contient, puis localise automatiquement les yeux. Il utilise ensuite un autre réseau neuronal profond pour déterminer si l’œil détecté est ouvert ou fermé, en utilisant l’apparence, les caractéristiques géométriques et le mouvement de l’œil.
Ce travail profite d’une faille dans le type de données disponibles pour former des algorithmes de deepfake. Pour éviter d’être la proie d’un défaut similaire, ils ont formé leur système sur une grande bibliothèque d’images d’yeux ouverts et fermés. Cette méthode semble bien fonctionner et, par conséquent, ils ont atteint un taux de détection de plus de 95 %.

Ce n’est pas le dernier mot sur la détection des deepfakes, bien sûr. La technologie s’améliore rapidement, et la concurrence entre la génération et la détection de fausses vidéos est analogue à celle d’une partie d’échecs. En particulier, le clignement peut être ajouté aux vidéos truquées en incluant des images du visage avec les yeux fermés ou en utilisant des séquences vidéo pour l’entraînement.

Les gens qui veulent embrouiller le public s’amélioreront dans la réalisation de fausses vidéos – et d’autres membres de la communauté technologique devrons continuer à trouver des moyens de les détecter.

(dans The Conversation)

Siwei Lyu est professeur agrégé d’informatique et directeur du Computer Vision and Machine Learning Lab à l’Université d’Albany, State University of New York.

Publicités

1 commentaire »

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.