Contagion censurée : comment les informations sur le coronavirus sont gérées sur les médias sociaux chinois

Principales conclusions de la recherche de Citizen Lab :

  • YY, une plateforme de streaming en direct en Chine, a commencé à censurer les mots-clés liés à l’épidémie de coronavirus le 31 décembre 2019, un jour après que des médecins (dont feu le Dr Li Wenliang) aient tenté d’avertir le public sur le virus alors inconnu.
  • WeChat a largement censuré le contenu lié au coronavirus (y compris les informations critiques et neutres) et a élargi le champ de la censure en février 2020. Le contenu censuré comprenait des critiques à l’égard du gouvernement, des rumeurs et des informations spéculatives sur l’épidémie, des références au Dr Li
  • Wenliang et des références neutres aux efforts du gouvernement chinois pour gérer l’épidémie qui avaient été rapportées dans les médias d’État.
  • De nombreuses règles de censure sont larges et bloquent efficacement les messages qui comportent des noms pour le virus ou des sources d’information à son sujet. Ces règles peuvent restreindre des communications vitales liées à l’information et à la prévention de la maladie.

Introduction

La maladie du coronavirus, officiellement appelée COVID-19 par l’Organisation mondiale de la santé (OMS), est une épidémie qui a fait surface dans la ville de Wuhan, dans la province du Hubei, en Chine centrale, au début du mois de décembre 2019. Au 2 mars 2020, la COVID-19 avait atteint 65 pays et infecté plus de 88 000 personnes. L’OMS a déclaré que le virus constituait une urgence sanitaire mondiale.

Au cours de la dernière semaine de décembre 2019, des médecins de Wuhan (comme feu le Dr Li Wenliang) ont commencé à remarquer qu’un agent pathogène inconnu troublant décimait les salles de leurs hôpitaux. Ils se sont tournés vers les médias sociaux pour diffuser des avertissements sur cette nouvelle maladie que l’on pense être liée au marché des fruits de mer de Wuhan.

Alors que les médecins tentaient de donner l’alerte sur la propagation rapide de la maladie, les informations sur l’épidémie étaient censurées sur les médias sociaux chinois. Le 31 décembre 2019, lorsque la Commission municipale de la santé de Wuhan a publié son premier avis public sur la maladie, on a découvert que des mots-clés comme « 武汉不明肺炎 » (Pneumonie de Wuhan inconnue) et « 武汉海鲜市场 » (Wuhan Seafood Market) a commencé à être censuré sur YY, une plateforme chinoise de streaming en direct.

Entre janvier et février 2020, alors que l’épidémie se propageait, un large éventail de contenus liés au COVID-19 a été censuré sur WeChat (l’application de chat la plus populaire en Chine), y compris des critiques à l’encontre du gouvernement chinois, des informations spéculatives et factuelles liées à l’épidémie, et des références neutres aux efforts du gouvernement chinois pour gérer l’épidémie qui avaient été rapportées dans les médias d’État.

Ce rapport présente les résultats d’une série de tests de censure sur YY et WeChat qui montrent que les médias sociaux chinois ont commencé à censurer les contenus liés à la maladie dès les premiers stades de l’épidémie et ont bloqué un large éventail de contenus.

Avec plus d’un milliard d’utilisateurs actifs par mois, WeChat est l’application de messagerie la plus populaire en Chine. Selon une enquête réalisée en 2019, plus de 50 % des correspondants ont déclaré qu’ils dépendaient assez fortement de WeChat pour l’information et la communication. De plus, la plateforme est devenue de plus en plus populaire parmi les médecins qui l’utilisent pour obtenir des connaissances professionnelles de leurs pairs. En raison du rôle intégral des médias sociaux dans la société chinoise et de leur adoption par la communauté médicale chinoise, le blocage systématique de la communication générale sur les médias sociaux liée à l’information et à la prévention des maladies risque de nuire considérablement à la capacité du public à partager des informations qui peuvent être essentielles à sa santé et à sa sécurité.

Contrôle de l’information COVID-19

Alors que le gouvernement chinois tentait de répondre à l’épidémie, il s’est également efforcé de contrôler les informations sur la maladie disponibles en ligne et dans les médias.

Les briefings du gouvernement et les rapports des médias montrent que les autorités chinoises ont retardé la diffusion des informations sur l’épidémie au public. Lorsque huit personnes (dont au moins deux experts médicaux) ont tenté d’avertir le public de l’apparition mystérieuse de la maladie le 30 décembre 2019, elles ont été réduites au silence et punies par les autorités locales de Wuhan pour avoir « répandu des rumeurs » et « troublé l’ordre social ».

Le 5 février 2020, la Cyberspace Administration of China (CAC), l’agence de gouvernance de l’Internet au plus haut niveau en Chine, a publié une déclaration publique soulignant qu’elle punirait les « sites, plateformes et comptes » qui publient des contenus « préjudiciables » et « répandent la peur » liés au COVID-19. La CAC a distingué Sina Weibo, Tencent et ByteDance dans la déclaration, en disant qu’elle effectuerait une « inspection thématique » de leurs plateformes.

Les autorités chinoises continuent de mettre en garde le public contre les conséquences de la « propagation de rumeurs ». Une collection non exhaustive d’annonces de la police sur la sanction des « faiseurs de rumeurs » montre qu’au moins 40 personnes ont fait l’objet d’avertissements, d’amendes et/ou de détention administrative ou pénale aux alentours des 24 et 25 janvier 2020. Une autre annonce fait état d’un nombre beaucoup plus important, détaillant 254 cas de citoyens pénalisés pour avoir « répandu des rumeurs » en Chine entre le 22 et le 28 janvier 2020.

Méthodes

Cette section décrit les méthodes que Citizen Lab a utilisées pour documenter la censure COVID-19 sur YY et WeChat.

Documenter la censure sur YY

YY censure les mots-clés côté client, ce qui signifie que toutes les règles pour effectuer la censure se trouvent à l’intérieur de l’application. YY dispose d’une liste intégrée de mots clés qu’elle utilise pour effectuer des vérifications afin de déterminer si l’un de ces mots clés est présent dans un message de chat avant l’envoi d’un message. Si un message contient un mot-clé de la liste, le message n’est pas envoyé. L’application télécharge une liste de mots clés mise à jour à chaque fois qu’elle est exécutée, ce qui signifie que les listes peuvent changer au fil du temps.

Ce type de mise en œuvre de la censure nous permet de faire de l’ingénierie inverse de l’application, puis de télécharger et de décoder la liste exhaustive des listes de mots clés que YY utilise pour déclencher la censure. Grâce à cette méthode, Citizen Lab (CL) suit toutes les mises à jour de la liste noire de mots-clés de YY depuis février 2015, sur une base horaire.

Documenter la censure sur WeChat

WeChat censure le contenu côté serveur, ce qui signifie que toutes les règles pour effectuer la censure se trouvent sur un serveur distant. Lorsqu’un message est envoyé d’un utilisateur de WeChat à un autre, il passe par un serveur géré par Tencent (la société mère de WeChat) qui détecte si le message contient des mots-clés figurant sur une liste noire avant qu’il ne soit envoyé au destinataire. Pour documenter la censure sur un système avec une implémentation côté serveur, il faut concevoir un échantillon de mots-clés à tester, faire passer ces mots-clés par l’application et enregistrer les résultats. Lors de travaux précédents, CL a développé un système automatisé pour tester le contenu sur WeChat afin de déterminer s’il est censuré.

WeChat censure un message en fonction de la présence ou non d’une combinaison de mots-clés figurant sur une liste noire. Une combinaison de mots-clés se compose d’un ou de plusieurs éléments de mots-clés. Lorsqu’une combinaison de mots-clés ne comprend qu’un seul élément (par exemple, « 习近平到武汉 », « Xi Jinping va à Wuhan »), un message est filtré s’il contient cet élément. Pour une combinaison de mots-clés qui contient plus d’un composant (par exemple, « 习近平 » et « 疫情蔓延 », « Xi Jinping » et « Epidemic Spread »), un message est censuré uniquement si chaque composant de la combinaison apparaît quelque part dans le message, bien qu’il ne soit pas nécessairement adjacent. Dans ce cas, les règles de censure peuvent être appliquées de manière plus précise.

Scénarios de chat

Pour découvrir des combinaisons de mots-clés censurés sur WeChat, CL scénarise des conversations de groupe sur le chat. Ils collectent par programme les articles figurant sur la première page des sites web types. Ils extraient ensuite le texte de chaque article, composé du titre et du corps du texte, et l’envoient dans un chat de groupe WeChat en utilisant trois comptes test : un compte enregistré sur un numéro de téléphone de Chine continentale et deux comptes enregistrés sur des numéros de téléphone canadiens (aucun de ces comptes n’était lié à des utilisateurs réels). Ils utilisent l’un des comptes canadiens pour envoyer des messages et le second compte canadien pour n’effectuer aucune action, agissant uniquement en tant qu’utilisateur passif pour faciliter la création d’un chat de groupe (c’est-à-dire un chat avec trois utilisateurs ou plus). Tout au long de ce processus, ils limitent les comptes test à l’interaction entre eux dans le chat de groupe et n’interagissent jamais avec les utilisateurs réels de la plateforme. Ils utilisent le compte chinois pour contrôler passivement si les messages envoyés dans le chat de groupe ont été filtrés.

Après avoir envoyé le texte de l’article extrait sous forme de message dans le chat du groupe WeChat, si le compte chinois ne l’a pas reçu, ils signalent le texte du message comme contenant une ou plusieurs combinaisons de mots clés qui déclenchent la censure du texte. La figure 2 montre un exemple de censure dans un de ces groupes de discussion. Ils effectuent ensuite des tests supplémentaires pour réduire le texte de l’article au nombre minimum de caractères requis pour déclencher la censure. Enfin, ils regroupent chaque combinaison de mots clés résultante en catégories de contenu en fonction du contexte sous-jacent.

Découvrir la censure par mot-clé

Ils ont effectué leurs tests du 1er janvier au 15 février 2020, à partir d’un réseau de l’Université de Toronto. Leur échantillon d’articles à tester a été extrait des médias d’État chinois, des agrégateurs de nouvelles en langue chinoise qui publient des articles de tendance publiés par les médias d’État et commerciaux en Chine, et des sites web d’information basés à Hong Kong et à Taiwan (voir l’annexe pour une liste des sources). Dans des travaux antérieurs, ils ont constaté que l’extraction de textes d’articles de ces sources d’information est un moyen efficace de découvrir des combinaisons de mots-clés censurés liés à des événements sur une période définie.

Résultats

Dans cette section, voici les contenus liés à COVID-19 qui sont censurés sur YY et WeChat.

Censure sur YY

Le 31 décembre 2019, un jour après que le Dr. Li Wenliang et sept autres personnes aient averti de l’épidémie de COVID-19 dans les groupes WeChat, YY a ajouté 45 mots-clés à sa liste noire, tous faisant référence au virus alors inconnu qui présentait des symptômes similaires à ceux du SRAS (l’épidémie mortelle de syndrome respiratoire aigu sévère qui a débuté dans le sud de la Chine et s’est répandue dans le monde en 2003).

Parmi les 45 mots-clés censurés liés à l’épidémie de COVID-19, 40 sont en chinois simplifié et cinq en chinois traditionnel. Ces mots-clés comprennent des descriptions factuelles de la pneumonie grippale, des références au nom du lieu considéré comme la source du nouveau virus, aux agences gouvernementales locales de Wuhan et des discussions sur la similitude entre l’épidémie de Wuhan et le SRAS. Nombre de ces mots-clés tels que « 沙士变异 » (variation du SRAS) sont très larges et bloquent efficacement les références générales au virus.

Le tableau 1 présente une sélection de mots-clés censurés dans cette catégorie.

YY a supprimé cinq des 45 mots-clés le 10 février 2020. Le tableau 2 montre les cinq mots-clés qui ont été retirés de la liste noire de YY.

Nous ne pouvons pas être certains de la raison pour laquelle ces mots-clés ont été retirés de la liste noire. Cependant, les mots-clés retirés avaient une longueur moyenne inférieure (4,29) à celle des autres (5,9), ce qui suggère que les mots retirés étaient plus courts et plus larges. Les opérateurs de YY ont peut-être estimé que certains mots-clés de la liste noire étaient trop larges, ce qui a entraîné une dégradation substantielle de l’expérience utilisateur en filtrant de nombreuses conversations non sensibles sur l’épidémie de COVID-19.

Les informations publiques montrent qu’il y a eu 104 cas d’infections COVID-19 au 31 décembre 2019. Pourtant, l’ampleur de l’épidémie, y compris la capacité du virus à se transmettre de personne à personne, n’a été révélée au public en Chine que vers le 20 janvier 2020. Les résultats de CL montrent qu’au moins une plateforme chinoise de médias sociaux a commencé à bloquer le contenu de COVID-19 trois semaines avant cette annonce officielle, ce qui suggère fortement que les sociétés de médias sociaux ont subi des pressions gouvernementales pour censurer l’information dès les premiers stades de l’épidémie.

Censure sur WeChat

Entre le 1er janvier et le 15 février 2020, nous avons trouvé 516 combinaisons de mots-clés directement liées au COVID-19 qui ont été censurées dans leur chat de groupe WeChat. La portée de la censure des mots-clés sur WeChat s’est étendue en février 2020. Entre le 1er et le 31 janvier 2020, 132 combinaisons de mots-clés ont été trouvées censurées sur WeChat. Trois cent huit quatre nouveaux mots-clés ont été identifiés au cours d’une période de test de deux semaines entre le 1er et le 15 février.

Les combinaisons de mots-clés comprennent du texte en chinois simplifié et traditionnel. Ils ont traduit chaque combinaison de mots-clés en anglais et, sur la base de l’interprétation du contexte sous-jacent, ils les ont regroupés en catégories de contenu.

Les combinaisons de mots clés censurées liées à COVID-19 couvrent un large éventail de sujets, notamment des discussions sur les réponses des dirigeants centraux à l’épidémie, des références critiques et neutres aux politiques gouvernementales sur la gestion de l’épidémie, les réponses à l’épidémie à Hong Kong, Taiwan et Macao, des informations spéculatives et factuelles sur la maladie, des références au Dr Li Wenliang et l’action collective.

Direction centrale

Nous avons découvert que 192 combinaisons de mots-clés font référence aux plus hauts dirigeants chinois et à leur rôle dans la gestion de l’épidémie. La majorité des combinaisons de mots-clés de cette catégorie font référence au président Xi Jinping (87 %). Les autres combinaisons de mots-clés (25 au total) font référence aux noms d’autres dirigeants du gouvernement central et du Parti, dont le Premier ministre Li Keqiang, le Vice-Premier ministre Sun Chunlan et le Comité permanent du Politburo du Parti communiste chinois en tant qu’agence collective.

Bien qu’un certain nombre de ces combinaisons de mots-clés soient de nature critique (par exemple, « 亲自 [+] 皇上, » par quelqu’un + empereur), le fait de critiquer ou de faire allusion à l’incapacité ou à l’inaction de la direction centrale dans le cadre de COVID-19 (par exemple, « 亲自 [+] 皇上, » par quelqu’un + empereur), le fait de critiquer ou de faire allusion à l’incapacité ou à l’inaction de la direction centrale dans le cadre de COVID-19 (par exemple 习近平 [+] 形式主义 [+] 防疫 », Xi Jinping + formalisme + prévention des épidémies), beaucoup d’entre eux font référence au leadership de manière neutre (par exemple, « 肺炎 [+] 李克强 [+] 武汉 [+] 总理 [+] 北京 », « Pneumonie + Li Keqiang + Wuhan + Premier ministre + Pékin »). Huit des combinaisons de mots-clés liées à Xi- font référence à l’endroit où il se trouvait pendant l’épidémie, par exemple s’il avait été dans la ville de Wuhan.

Le tableau 3 présente des exemples de combinaisons de mots-clés censurés dans cette catégorie.

Si le sujet vous intéresse, l’étude complète est ici, sur Citizen Lab.

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.