Internet se divise. Internet Archive veut le sauver pour toujours.

Je ne cache pas que j’ai souvent de grandes inquiétudes quant à la mémoires des contenus numériques, en particulier les photos, que nous faisons par milliers, mais que nous n’imprimons plus, mais aussi les petits mots, les commentaires, les articles, et tant de choses. Si un grand « Soak » pouvait advenir, que resterait-il de nos vies « récentes ».
L’Internet Archive a de grandes ambitions pour la préservation de l’Internet. Mais pour ce faire, les grandes entreprises doivent rester à l’écart, explique cet article de Protocol :

Le premier bibliothécaire de l’internet aime se souvenir. Les débuts de l’internet sont comme un fantasme pour le fondateur de l’Internet Archive, un endroit auquel il revient sans cesse dans ses conversations lorsque les questions sur le présent deviennent sombres ou déprimantes. Brewster Kahle en sait peut-être plus que quiconque sur les premières années du web.

Il a l’occasion de parler des débuts de l’Archive peut-être plus qu’il ne devrait ces jours-ci. Discuter de son avenir peut parfois être sinistre ou, à tout le moins, incertain. Les gloires de la Wayback Machine, les pétaoctets de données capturant chaque jour de l’existence humaine en ligne dans des entrepôts disséminés dans le monde entier, le système fluide de crawlers allant de mon Twitter à la page d’accueil du gouvernement russe en passant par Clubhouse en Chine – dans le grand schéma de l’histoire, tout cela pourrait être un âge d’or éphémère.

La balkanisation d’Internet n’est pas seulement un problème théorique pour l’Internet Archive. Si les pare-feux Internet restent en place en Chine, en Iran et en Russie, si les nouveaux contenus continuent à circuler principalement derrière des murs payants et des mots de passe, et si les dirigeants politiques américains décident qu’il est enfin temps de mettre fin à la section 230, les robots d’exploration dont les formules simples ont préservé les dernières décennies pour les futurs historiens pourraient ne pas faire de même pendant plus de quelques décennies.

« Il y a de plus en plus de jardins clos où l’on ne peut pas aller. Nous avons des crawlers qui fonctionnent à une échelle folle, et ils peuvent être bloqués comme n’importe qui peut l’être », a déclaré Jefferson Bailey, directeur de l’archivage Web et des services de données des Archives.

Mais même ainsi, jusqu’à ce que quelqu’un ou quelque chose change fondamentalement les règles du web, l’Internet Archive continuera à faire ce qu’il fait depuis 1996 : préserver chaque fragment de texte que vous ou moi sommes susceptibles de lire. Les jardins clos de la technologie peuvent rendre plus difficile l’obtention d’une image parfaite, mais la petite équipe de bibliothécaires, d’archivistes numériques et d’ingénieurs logiciels de l’Internet Archive prévoit de continuer à offrir au monde la Wayback Machine, l’Open Library, la Software Archive, etc. jusqu’à la fin des temps. Littéralement.

La balkanisation de l’internet

Lorsque Kahle était étudiant au MIT au début des années 80, il a utilisé la carte d’identité d’un professeur pour s’introduire dans la bibliothèque de droit de Harvard afin d’accéder à des cas pour un projet. S’il y a un moment dans sa vie qui résume la nature fermée de l’accès à l’information avant l’internet, c’est bien celui-là.

Mais aujourd’hui, n’importe qui peut trouver les informations dont il avait besoin à l’époque sans même avoir besoin d’une carte de bibliothèque. « Habituellement, les choses sont très fermées et verrouillées. Historiquement, c’est un moment très rare », a-t-il déclaré.

Mais cela pourrait bientôt changer. « Risquons-nous de nous fermer ? Oui, absolument », a-t-il déclaré. L’Internet Archive est actuellement bloqué en Chine, et occasionnellement aussi en Russie, en Inde et en Turquie, et ce n’est qu’un caprice des gouvernements des États-nations qui ont les outils pour le faire. Selon Kahle et Bailey, les entreprises sont tout aussi capables de fracturer le web de manière à en rendre l’accès et l’archivage plus difficiles ; même le « verrouillage de l’utilisateur » sur un navigateur et des produits spécifiques pourrait un jour créer des bulles internet, puis des murs, en fonction des produits pour lesquels les gens paient.

« Les Facebook et les Google sont en train de prendre le pouvoir, et ils veulent faire de l’argent », a déclaré Bailey. Plus les gens agissent sur l’internet derrière un mot de passe et plus le web devient corporatif, plus l’éthique de l’internet ouvert s’efface de la conscience publique, facilitant la voie vers cet éclatement que Kahle craint.

« C’est une préoccupation stratégique pour tout le monde. Bien sûr, cela a également un impact sur l’archivage », a déclaré Bailey. Les archives font de leur mieux pour capturer Twitter, Tumblr, Instagram, YouTube, Vimeo, Facebook et autres. Facebook est le plus difficile, car l’entreprise n’est pas favorable à l’archivage en général, selon Mme Bailey. Mais en réalité, si l’une de ces entreprises sociales décidait d’empêcher l’Internet Archive de faire son travail, elle le pourrait probablement, a-t-il ajouté.

« Nous sommes intégrés dans la communauté », a déclaré Bailey. « Au bout du compte, nous ne sommes qu’une bibliothèque ».

M. Kahle craint que l’éventuel « murage » de l’internet ne se développe à un endroit incongru : de la part d’entreprises technologiques avides de réglementations qui cimenteraient leur propre statut en étouffant l’innovation future. Par exemple, presque toutes les propositions de modification de la section 230 – qui protège les propriétaires de sites Web de toute responsabilité juridique pour le contenu créé et publié par leurs utilisateurs – détruiraient le cadre juridique délicat qui protège le travail de l’Internet Archive (ainsi que Wikipédia et les projets contribués par les utilisateurs), selon Kahle. Mark Zuckerberg, de Facebook, fait partie des nombreux leaders de la technologie qui ont exprimé leur soutien à une réécriture.

Les entreprises technologiques, les éditeurs de livres et même l’industrie musicale ont fait pression pour limiter, modifier ou même supprimer les exceptions générales d’utilisation équitable du droit d’auteur, ainsi que les exemptions spécifiques de droit d’auteur et d’utilisation pour les bibliothèques. Les changements apportés à ces lois pourraient (accidentellement ou intentionnellement, selon la personne à qui vous demandez) rendre beaucoup plus difficile pour les gens de partager leur travail créatif en ligne, et pour des groupes comme l’Internet Archive de les sauver.

« Pourquoi font-ils cela ? Certaines personnes disent que c’est pour l’argent. Mais lorsque vous avez des oligarchies, il s’agit en fait de se protéger contre les nouveaux entrants sur le marché », a déclaré M. Kahle. En fin de compte, les grandes entreprises se sont adaptées aux régimes juridiques actuels, et elles disposent de l’argent et du savoir-faire technique pour pouvoir plaider en faveur de réglementations plus strictes qui leur permettraient de préserver leurs monopoles tout en modifiant ou en limitant les protections de l’utilisation équitable.

Comment l’Internet Archive décide de ce qu’il faut archiver

Jusqu’au jour où ces problèmes plus existentiels se transformeront en quelque chose que Kahle pourra combattre autrement qu’avec des mots, le combat quotidien de l’Internet Archive consiste à préserver le web, qui est en constante évolution. Les pages Web ont une durée de vie moyenne d’environ 90 jours avant de changer ou de disparaître. L’Internet Archive doit donc capturer ces pages au moins tous les 90 jours pour conserver une image complète du Web au fil du temps.

Les archivistes emploient trois stratégies principales pour capturer la majeure partie de ce qui pourrait être important pour les futurs historiens. Bailey ne veut pas deviner le pourcentage exact du web qu’ils parviennent à préserver – « J’aurais l’air d’un idiot », dit-il – car personne ne peut vraiment deviner la taille ou l’échelle de l’internet. (Ne vous faites pas d’idées, si vous pouvez l’éviter. Comment mesurer l’ampleur de l’Internet : par la taille des données ? Le nombre d’objets ? Le nombre d’URL distinctes ?) « Il ne sert à rien de s’inquiéter de ce qui échappe à votre contrôle », a-t-il déclaré.

Les archivistes commencent par considérer l’ensemble du Web et en recherchent la fraction la plus importante. Ils saisissent un aperçu superficiel de l’ensemble de l’internet (chaque URL et page d’accueil associée qui est accessible), puis ils plongent dans le plus grand nombre de pages possible pour les quelque 5 millions de sites les plus visités. Cela donne une vue d’ensemble assez plate de l’internet, à vol d’oiseau.

Pour obtenir une image plus tridimensionnelle, ils recherchent d’autres signaux d’importance, allant des agrégateurs d’actualités à l’intégralité d’un domaine national (comme Cuba, la France, la Somalie, etc.) en cas d’événement important, et même chaque URL YouTube jamais partagée sur Twitter (ils ne peuvent pas capturer tout YouTube, mais au moins ils peuvent capturer les vidéos que les gens jugent suffisamment importantes pour les partager ailleurs).

Enfin, d’autres institutions peuvent utiliser Internet Archive pour créer leurs propres services d’archivage, en créant généralement des collections spécialisées sur des sujets tels que les droits de l’homme ou la bio-ingénierie. Toutes ces collections sont ensuite recopiées dans la Wayback Machine, qui est la version publiquement accessible de l’archive web.

Abbie Grotke, responsable de l’équipe d’archivage du Web à la Library of Congres, participe à ce travail d’une manière ou d’une autre depuis plus de 20 ans. Les archives de la Library of Congres sont l’une des collections spéciales construites en collaboration avec Bailey. Elles contiennent environ 2,4 pétaoctets et plus de 18 milliards d’objets, allant des sites web du gouvernement américain aux mèmes les plus importants sur le plan culturel. Mme Grotke a donné sa vie à la préservation de l’internet pour la Library of Congres.

Le travail en soi est techniquement énorme, mais il se résume à un objectif simple. « Nous essayons simplement de saisir les changements qui se produisent au fil du temps », explique-t-elle.

Library of Congres a commencé à capturer des sites web en 2014, en se concentrant principalement sur les collections politiques et les sites web à risque, ainsi que sur les collections qui pourraient être retirées avant d’être capturées. « Nous sommes toujours un peu inquiets de savoir si nous collectons tout ce que nous devons collecter. Nous nous inquiétons toujours de savoir si nous collectons tout ce qui doit l’être, s’il y a quelque chose qui nous échappe », a déclaré Amber Paranick, l’une des bibliothécaires de référence de la Library of Congres. Mais ce problème n’est pas si différent parce qu’il est numérique : « C’est toujours le dilemme du bibliothécaire ».

Les archives du web représentent à elles seules environ 45 pétaoctets – 4 500 téraoctets – et l’Internet Archive elle-même représente environ le double de cette taille (le groupe possède d’autres collections, comme une énorme base de données de films éducatifs, de musique et même de logiciels disparus depuis longtemps).

Il est impossible de concevoir des données réellement utilisables et accessibles à cette échelle, et encore moins de les rendre interrogeables par texte. Ainsi, bien que les archives aient des projets visant à utiliser l’apprentissage automatique pour identifier certaines images, comme les photos de chevaux, Bailey aime penser aux applications étranges et inimaginables qui ont vu le jour et à la façon dont elles laissent présager des utilisations plus importantes à l’avenir.

La Wayback Machine a évolué pour jouer un rôle important dans les litiges relatifs aux brevets, par exemple. Les personnes qui se disputent la propriété d’un brevet recherchent ce que l’on appelle « l’art antérieur », qui indique qui a pu avoir la première idée d’un produit. Dans un cas, alors que deux personnes se disputaient pour savoir qui avait été le premier à créer un modèle spécifique de jantes en enjoliveur, l’une d’entre elles a pu prouver qu’elle était propriétaire en trouvant un ancien site web qui avait été archivé dans la Wayback Machine.

Il existe également d’autres cas d’utilisation : Les personnes qui développent des outils de traduction en code source libre chez Mozilla ont également trouvé que la collection de sites web en plusieurs langues des archives Internet était utile pour former leurs outils de traduction. Il existe très peu de documents imprimés ou numérisés contenant de grandes quantités du même texte dans deux langues, mais de nombreux sites web officiels en contiennent, ce qui peut aider à créer des outils de traduction de qualité pour les « langues mineures », comme les traductions anglais-swahili, selon M. Bailey.

L’avenir de nos histoires

Lorsque j’ai demandé à M. Kahle ce qu’il pensait de la préservation du présent pour les historiens des siècles à venir, il s’est montré philosophe. Il a envoyé des liens dans le chat Zoom, d’abord vers le document Google d’un livre qu’il a écrit, puis vers un article de Nation, et enfin vers un long article de blog qu’il a écrit en 2015. Au moment où nous avons raccroché, j’avais des piles de documents à lire, la plupart denses et datés.

Il y a de la valeur dans toute cette histoire, m’a-t-il dit. « Ce que nous sommes en mesure de faire maintenant, c’est de connaître votre histoire individuelle. Nous sommes en mesure d’accéder à la spécificité de l’enregistrement historique. Ce qui, je pense, sera vraiment intéressant dans 100 ans. Que donneriez-vous pour avoir une vidéo de votre arrière-grand-mère ? Elle vous donnerait cet ancrage, qui nous fait défaut actuellement », a-t-il déclaré. « Nous vivons dans le présent perpétuel, et c’est dangereux. » M. Kahle pense que notre histoire fait de nous de meilleures personnes, et nous donne de meilleures connaissances. Mais l’histoire n’est pas financièrement lucrative.

Les entreprises de médias sociaux veulent que nous nous concentrions sur demain, et non sur les posts que nous avons faits il y a un an. Les éditeurs aussi. HarperCollins poursuit les archives pour tenter de les empêcher de partager des livres épuisés dans sa bibliothèque numérique, arguant que le partage public de livres épuisés constitue une violation massive des lois sur le droit d’auteur. Si, à première vue, il peut sembler étrange que les éditeurs s’intéressent à des livres qui ne sont plus imprimés, pour les entreprises dont l’activité dépend de l’achat de nouvelles choses, archiver pour que les gens puissent se concentrer sur le passé n’est pas dans leur intérêt financier.

« Ils effacent le passé par tous les moyens juridiques et politiques à leur disposition », a déclaré M. Kahle.

Si la balkanisation de l’Internet peut être évitée, l’Internet Archive pourrait transformer la façon dont nous apprenons les grands moments historiques, a déclaré Kahle. Les livres d’histoire et les historiens se limitent à quelques œuvres textuelles, principalement réalisées par les puissants de l’époque. Avec l’Internet Archive, l’histoire quotidienne deviendra soudainement accessible à ceux qui étudient notre époque. Imaginez que chacun d’entre nous puisse jeter un coup d’œil à ses arrière-grands-parents et savoir ce qu’ils ont dit ou pensé à l’âge de 15 ans, puis de 25 ans et de 50 ans. Les Archives le permettraient.

Les archives pourraient également forcer les historiens à devenir des mineurs de données professionnels. « Il y aura beaucoup de ces études comparatives à une échelle beaucoup plus grande à l’avenir – chaque tweet de chaque président en 30 ans. Des analyses longitudinales pourraient être réalisées avec des pétaoctets de données », a déclaré M. Bailey. Les questions de recherche elles-mêmes ne changeront peut-être pas beaucoup ; elles s’étendront simplement sur des périodes plus longues et des comparaisons plus importantes.

« Nous sommes en train de construire des macroscopes », a déclaré M. Kahle.

 

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.