Internet est en train de se détériorer

Trop de choses ont déjà été perdues. La colle qui maintient ensemble les connaissances de l’humanité est en train de se défaire., affirme Jonathan Zittrain pour The Atlantic :

« Il y a soixante ans, le futuriste Arthur C. Clarke a observé que toute technologie suffisamment avancée est indifférenciable de la magie. L’internet, qui nous permet de communiquer les uns avec les autres et de préserver ensemble les produits intellectuels de la civilisation humaine, correspond bien à l’observation de Clarke. Pour reprendre les mots de Steve Jobs, « ça marche tout simplement« , aussi facilement que de cliquer, tapoter ou parler. Et tout comme les vicissitudes de la magie, lorsque l’internet ne fonctionne pas, les raisons sont généralement si obscures que les explications sont aussi utiles que de tenter de décortiquer un sort raté.

Nos réseaux numériques, vastes et simples en apparence, reposent sur des technologies qui, si elles n’avaient pas déjà été inventées, ne se déploieraient probablement plus de la même manière. Ce sont des artefacts d’une circonstance très particulière, et il est peu probable que dans une autre époque, elles auraient été conçues de la même manière.

L’architecture distincte d’Internet est née d’une contrainte et d’une liberté distinctes : Tout d’abord, ses concepteurs à l’esprit académique n’avaient pas ou n’espéraient pas réunir des capitaux massifs pour construire le réseau ; ensuite, ils ne voulaient pas ou n’espéraient pas gagner de l’argent avec leur invention.

Les concepteurs de l’Internet n’avaient donc pas les moyens de déployer un réseau centralisé uniforme, comme FedEx, par exemple, qui a investi des dizaines de millions de dollars pour déployer des avions, des camions, des personnes et des boîtes de dépôt en livrée, créant ainsi un système de livraison unique de point à point. Au lieu de cela, ils se sont contentés de l’équivalent de règles sur la façon d’assembler les réseaux existants.

Au lieu d’un réseau centralisé unique modelé sur l’ancien système téléphonique, exploité par un gouvernement ou quelques grandes entreprises de services publics, l’Internet a été conçu pour permettre à n’importe quel appareil, où qu’il soit, d’interagir avec n’importe quel autre appareil, permettant ainsi à n’importe quel fournisseur d’apporter sa capacité de mise en réseau au groupe en expansion. Et comme les créateurs du réseau n’avaient pas l’intention de monétiser et encore moins de monopoliser quoi que ce soit, l’essentiel était que le contenu souhaitable soit fourni naturellement par les utilisateurs du réseau, dont certains agiraient en tant que producteurs ou hôtes de contenu, créant des points d’eau que d’autres pourraient fréquenter.

Contrairement aux réseaux propriétaires qui ont connu une brève ascension comme CompuServe, AOL et Prodigy, le contenu et le réseau seraient séparés. En effet, l’internet n’avait et n’a pas de menu principal, pas de PDG, pas d’offre publique d’achat, pas d’organisation formelle du tout. Il n’y a que des ingénieurs qui se réunissent de temps à autre pour affiner les protocoles de communication qu’il propose et que les fabricants de matériel et de logiciels, ainsi que les constructeurs de réseaux, sont ensuite libres de reprendre à leur compte.

L’internet était donc une recette pour le mortier, avec une invitation pour tout le monde à apporter ses propres briques. Tim Berners-Lee a répondu à l’invitation et a inventé les protocoles du World Wide Web, une application à exécuter sur l’internet. Si votre ordinateur parlait « web » en exécutant un navigateur, il pouvait alors communiquer avec des serveurs qui parlaient également « web », connus naturellement sous le nom de sites web. Les pages des sites pouvaient contenir des liens vers toutes sortes de choses qui, par définition, n’étaient qu’à un clic de distance, et pouvaient en pratique se trouver sur des serveurs situés n’importe où dans le monde, hébergés par des personnes ou des organisations qui non seulement n’étaient pas affiliées à la page web en question, mais qui ignoraient totalement son existence. Et les pages web elles-mêmes pouvaient être assemblées à partir de sources multiples avant de s’afficher comme une seule unité, facilitant l’essor des réseaux publicitaires auxquels les sites web pouvaient faire appel pour insérer des balises de surveillance et des publicités à la volée, au fur et à mesure que les pages étaient assemblées au moment où quelqu’un cherchait à les consulter.

À l’instar des concepteurs de l’internet, Berners-Lee a mis gratuitement ses protocoles à la disposition du monde entier, ce qui a permis de concevoir un système dépourvu de toute forme de gestion ou de contrôle centralisé, puisqu’il n’y avait pas d’utilisation à suivre par une société World Wide Web Inc. à des fins de facturation. Le web, comme l’internet, est une hallucination collective, un ensemble d’efforts indépendants unis par des protocoles technologiques communs pour apparaître comme un tout magique et sans faille.

Cette absence de contrôle central, ou même de surveillance centrale facile, a longtemps été célébrée comme un instrument de démocratie et de liberté de la base. Il n’est pas trivial de censurer un réseau aussi organique et décentralisé qu’internet. Mais plus récemment, ces caractéristiques ont été considérées comme facilitant les vecteurs de harcèlement individuel et de déstabilisation sociétale, sans points d’accès faciles permettant de supprimer ou d’étiqueter les travaux malveillants qui ne sont pas sous l’égide des principales plateformes de médias sociaux, ou d’identifier rapidement leurs sources. Bien que ces deux évaluations soient puissantes, elles négligent chacune une caractéristique essentielle du web et de l’internet distribués : Leurs conceptions créent naturellement des lacunes dans la responsabilité du maintien d’un contenu précieux sur lequel d’autres personnes comptent. Les liens fonctionnent de manière transparente jusqu’à ce qu’ils ne fonctionnent plus. Et comme les contreparties tangibles du travail en ligne s’estompent, ces lacunes représentent des trous réels dans les connaissances de l’humanité.

Avant l’avènement de l’Internet, le principal moyen de préserver quelque chose à travers les âges était de l’écrire – d’abord sur de la pierre, puis sur du parchemin, du papyrus, du papier sans acide de 20 livres, puis sur un lecteur de bande, une disquette ou un disque dur – et de stocker le résultat dans un temple ou une bibliothèque : un bâtiment conçu pour le protéger contre la pourriture, le vol, la guerre et les catastrophes naturelles. Cette approche a facilité la préservation de certains documents pendant des milliers d’années. Idéalement, il y aurait plusieurs copies identiques stockées dans plusieurs bibliothèques, de sorte que la défaillance d’un entrepôt n’entraînerait pas l’extinction des connaissances qu’il contient. Et dans les rares cas où un document était subrepticement modifié, il pouvait être comparé à des copies conservées ailleurs pour détecter et corriger le changement.

Ces bâtiments ne fonctionnaient pas tout seuls et n’étaient pas de simples entrepôts. Ils étaient dotés de membres du clergé, puis de bibliothécaires, qui encourageaient une culture de la conservation et ses nombreuses pratiques élaborées, afin que les documents précieux soient à la fois sauvegardés et rendus accessibles à grande échelle – certainement physiquement, mais aussi, et c’est tout aussi important, grâce à une indexation minutieuse, afin qu’un esprit curieux puisse trouver dans une bibliothèque tout ce qui peut étancher sa soif. (Comme l’a fait remarquer Jorge Luis Borges, une bibliothèque sans index devient paradoxalement moins informative à mesure qu’elle s’agrandit).

À l’aube de l’ère de l’internet, il y a 25 ans, il semblait que l’internet apporterait d’immenses améliorations, et peut-être un certain soulagement, au long travail de ces intendants. La bizarrerie de la conception de l’internet et du web était l’apothéose de la garantie que le parfait ne serait pas l’ennemi du bien. Au lieu d’un système minutieux de désignation des connaissances « importantes », distinctes de la bouillie quotidienne, et d’importation de ces connaissances dans des institutions et des cultures de conservation et d’accès permanents (les bibliothèques), il n’y avait que le web infiniment varié, avec des sites de référence canoniques comme ceux des documents universitaires et des articles de journaux, juxtaposés à des PDF, des blogs et des messages de médias sociaux hébergés ici et là.

Des étudiants entreprenants ont conçu des robots d’exploration du Web pour suivre et enregistrer automatiquement chaque lien qu’ils pouvaient trouver, puis suivre chaque lien à la fin de ce lien, et enfin construire une concordance qui permettrait aux gens de faire des recherches dans un ensemble homogène, créant ainsi des moteurs de recherche qui renvoient les 10 premiers résultats pour un mot ou une phrase parmi, aujourd’hui, plus de 100 trillions de pages possibles. Comme le dit Google, « le web est comme une bibliothèque en perpétuelle expansion avec des milliards de livres et aucun système de classement central ».

Je viens de citer le site Web de Google, et j’ai utilisé un lien hypertexte pour que vous puissiez voir ma source. Le sourcing est la colle qui maintient ensemble les connaissances de l’humanité. C’est ce qui vous permet d’en savoir plus sur ce qui n’est que brièvement mentionné dans un article comme celui-ci, et aux autres de vérifier les faits tels que je les présente. Le lien que j’ai utilisé pointe vers https://www.google.com/search/howsearchworks/crawling-indexing/. Supposons que Google modifie le contenu de cette page ou réorganise son site Web à tout moment entre le moment où j’écris cet article et celui où vous le lisez, et qu’il la supprime entièrement. Modifier le contenu de cette page serait un exemple de dérive du contenu ; l’éliminer entièrement est connu sous le nom de pourriture des liens (link rot).

Il s’avère que la pourriture des liens et la dérive du contenu sont endémiques sur le web, ce qui est à la fois peu surprenant et terriblement risqué pour une bibliothèque qui possède « des milliards de livres et aucun système de classement central ». Imaginez que les bibliothèques n’existent pas et qu’il n’y ait qu’une « économie de partage » pour les livres physiques : Les gens pourraient enregistrer les livres qu’ils ont chez eux, et ceux qui le souhaitent pourraient les consulter. Il n’est pas surprenant qu’un tel système puisse devenir obsolète, les livres n’étant plus là où ils étaient annoncés, surtout si quelqu’un a signalé qu’un livre se trouvait chez quelqu’un d’autre en 2015, puis qu’un lecteur intéressé a vu ce rapport de 2015 en 2021 et a essayé de visiter la maison originale mentionnée comme détenant le livre. C’est ce que nous avons actuellement sur le web.

Qu’il s’agisse d’une humble maison ou d’un énorme édifice gouvernemental, les hôtes de contenu peuvent échouer et échouent effectivement. Par exemple, le président Barack Obama a signé l’Affordable Care Act au printemps 2010. À l’automne 2013, les républicains du Congrès ont interrompu le financement quotidien du gouvernement dans le but de tuer Obamacare. Les agences fédérales, obligées de cesser toute activité autre qu’essentielle, ont débranché les sites Web de l’ensemble du gouvernement américain, y compris l’accès à des milliers, voire des millions, de documents officiels du gouvernement, actuels ou archivés, et bien sûr très peu ayant un rapport avec Obamacare. Comme la nuit succède au jour, tous les liens pointant vers les documents et les sites concernés ne fonctionnent plus. Voici le site de la NASA de l’époque :

En 2010, le juge Samuel Alito a rédigé une opinion concordante dans une affaire portée devant la Cour suprême, et son avis comportait un lien vers un site Web dans le cadre de l’explication de son raisonnement. Peu après la publication de l’opinion, les personnes qui suivaient le lien ne voyaient pas ce qu’Alito avait en tête en rédigeant son opinion. A la place, ils trouveraient ce message : « Si vous l’aviez fait, comme l’a fait le juge Alito, le contenu original aurait disparu depuis longtemps et quelqu’un d’autre aurait pu acheter le domaine afin de faire un commentaire sur le caractère éphémère des informations liées à l’ère de l’Internet. »

Inspirés par des cas comme ceux-ci, certains collègues et moi-même avons rejoint ceux qui enquêtent sur l’ampleur de la pourriture des liens en 2014, puis au printemps dernier.

La première étude, avec Kendra Albert et Larry Lessig, s’est concentrée sur des documents censés perdurer indéfiniment : des liens au sein d’articles savants, comme on en trouve dans la Harvard Law Review, et des avis judiciaires de la Cour suprême. Nous avons constaté que 50 % des liens intégrés dans les avis de la Cour depuis 1996, date à laquelle le premier hyperlien a été utilisé, ne fonctionnaient plus. Et 75 % des liens de la Harvard Law Review ne fonctionnaient plus.

Les gens ont tendance à négliger le délabrement du web moderne, alors qu’en fait ces chiffres sont extraordinaires – ils représentent une rupture complète de la chaîne de conservation des faits. Les bibliothèques existent, et elles contiennent encore des livres, mais elles ne gèrent pas un pourcentage énorme des informations auxquelles les gens renvoient, y compris dans les documents officiels et juridiques. Personne ne le fait. La flexibilité du web – la caractéristique même qui le fait fonctionner, qui lui a permis d’éclipser CompuServe et d’autres réseaux organisés de manière centralisée – répartit la responsabilité de cette fonction sociétale essentielle.

Le problème ne concerne pas seulement les articles universitaires et les avis juridiques. Avec John Bowers et Clare Stanton, et l’aimable coopération du New York Times, j’ai pu analyser environ 2 millions de liens externes trouvés dans les articles du nytimes.com depuis sa création en 1996. Nous avons constaté que 25 % des liens profonds étaient pourris. (Les liens profonds sont des liens vers un contenu spécifique – pensez à theatlantic.com/article, par opposition à theatlantic.com). Plus l’article est ancien, moins il est probable que les liens fonctionnent. Si l’on remonte à 1998, 72 % des liens sont morts. Dans l’ensemble, plus de la moitié des articles du New York Times qui contiennent des liens profonds ont au moins un lien pourri.

Nos études vont dans le même sens que d’autres. Dès 2001, une équipe de l’université de Princeton a étudié la persistance des références Web dans les articles scientifiques. Elle a constaté que le nombre brut d’URL contenues dans les articles universitaires augmentait, mais que de nombreux liens étaient rompus, notamment 53 % de ceux des articles qu’elle avait collectés en 1994. Treize ans plus tard, six chercheurs ont créé un ensemble de données comprenant plus de 3,5 millions d’articles savants sur la science, la technologie et la médecine, et ont déterminé qu‘un sur cinq ne pointe plus vers la source initialement prévue. En 2016, une analyse effectuée avec le même ensemble de données a révélé que 75 % de toutes les références avaient dérivé.

Bien sûr, il y a un problème très lié de permanence pour une grande partie de ce qui est en ligne. Les gens communiquent d’une manière qui semble éphémère et baissent leur garde en conséquence, pour découvrir qu’un commentaire sur Facebook peut rester en place pour toujours. Le résultat est le pire des deux mondes : certaines informations restent en place alors qu’elles ne devraient pas, tandis que d’autres disparaissent alors qu’elles devraient rester.

Jusqu’à présent, l’essor du web a permis de citer régulièrement des sources d’information qui ne font pas partie de systèmes plus formels ; les articles de blog ou les documents de travail placés de manière fortuite à une adresse web particulière n’ont pas d’équivalent dans l’ère pré-internet. Mais il est certain que tout ce qui mérite d’être conservé à travers les âges serait toujours publié sous la forme d’un livre ou d’un article dans une revue savante, ce qui le rendrait accessible aux bibliothèques d’aujourd’hui et le préserverait de la même manière qu’auparavant. Hélas, non.

(….)

À une échelle incommensurablement plus modeste, si cet article contient une erreur, nous devrions tous vouloir une note de l’auteur ou de l’éditeur en bas de page indiquant où une correction a été appliquée et pourquoi, plutôt que ce genre de révision discrète. (Du moins, je veux cela avant de savoir à quel point une erreur peut être embarrassante, c’est pourquoi nous concevons des systèmes basés sur des principes, plutôt que d’essayer de naviguer sur le moment).

La société ne peut pas se comprendre si elle ne peut pas être honnête avec elle-même, et elle ne peut pas être honnête avec elle-même si elle ne peut vivre que dans le moment présent. Il est grand temps d’affirmer et de mettre en œuvre les politiques et les technologies qui nous permettront de voir où nous avons été, y compris et surtout où nous avons commis des erreurs, afin d’avoir un sens cohérent de notre situation et de nos objectifs.

Jonathan Zittrain est professeur de droit et d’informatique à Harvard, et cofondateur du Berkman Klein Center for Internet & Society.

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.