Publicités

Restauration de textes anciens par deep learning : une étude de cas sur l’épigraphie grecque

Restauration de textes anciens par deep learning : une étude de cas sur l’épigraphie grecque

L’histoire ancienne s’appuie sur des disciplines telles que l’épigraphie, l’étude des textes anciens inscrits, pour trouver des preuves du passé enregistré. Cependant, ces textes, les « inscriptions », sont souvent endommagés au fil des siècles, et les parties illisibles du texte doivent être restaurées par des spécialistes, appelés épigraphistes. Cet ouvrage présente PYTHIA, le premier modèle de restauration de texte ancien qui récupère les caractères manquants d’un texte endommagé en utilisant des réseaux neuronaux profonds. Son architecture est soigneusement conçue pour traiter les informations contextuelles à long terme et traiter efficacement les représentations de caractères et de mots manquants ou corrompus. Pour le former, Yannis Assael, Thea Sommerschield, Jonathan Prag, les chercheurs ont écrit un pipeline non trivial pour convertir PHI, le plus grand corpus numérique d’inscriptions grecques anciennes, en texte exploitable par machine, qu’ils ont appelé PHI-ML. Sur PHI-ML, les prédictions de PYTHIA atteignent un taux d’erreur de caractères de 30,1 %, comparativement à 57,3 % chez les épigraphistes humains. De plus, dans 73,5 % des cas, la séquence de vérification empirique figurait parmi les 20 premières hypothèses de PYTHIE, ce qui démontre bien l’impact de cette méthode d’assistance dans le domaine de l’épigraphie numérique et constitue l’état actuel de la restauration de textes anciens.

Préservation et restauration de textes anciens

Les historiens s’appuient sur différentes sources pour reconstruire la pensée, la société et l’histoire des civilisations passées. Bon nombre de ces sources sont textuelles – qu’elles soient écrites sur des rouleaux ou gravées dans la pierre, les documents préservés du passé permettent de faire la lumière sur les sociétés anciennes. Cependant, ces archives de notre patrimoine culturel ancien sont souvent incomplètes : en raison d’une destruction délibérée, ou de l’érosion et de la fragmentation au fil du temps. C’est le cas des inscriptions : textes écrits sur une surface durable (pierre, céramique, métal) par des individus, des groupes et des institutions du passé, et qui font l’objet de la discipline appelée épigraphie. Des milliers d’inscriptions ont survécu jusqu’à nos jours, mais la plupart ont subi des dommages au cours des siècles, et certaines parties du texte sont illisibles ou perdues (figure 1). La reconstruction (« restauration ») de ces documents est complexe et prend du temps, mais elle est nécessaire pour une compréhension plus profonde des civilisations passées.

L’un des problèmes qu’il y a à discerner le sens des fragments de texte incomplets est qu’il y a souvent de multiples solutions possibles. Dans de nombreux jeux de mots et casse-têtes, les joueurs devinent des lettres pour compléter un mot ou une phrase – plus le nombre de lettres spécifiées est élevé, plus les solutions possibles sont limitées. Mais contrairement à ces jeux, où les joueurs doivent deviner une phrase isolément, les historiens qui restaurent un texte peuvent estimer la probabilité de différentes solutions possibles basées sur d’autres indices contextuels dans l’inscription – tels que des considérations grammaticales et linguistiques, la disposition et la forme, les parallèles textuels et le contexte historique. Aujourd’hui, en utilisant l’apprentissage automatique sur des textes anciens, nous avons construit un système qui peut fournir une liste plus complète et systématiquement classée de solutions possibles, ce qui, nous l’espérons, améliorera la compréhension d’un texte par les historiens.

Pythia

Pythia – qui tire son nom de la femme qui a livré les réponses oraculaires du dieu Apollon au sanctuaire grec de Delphes – est le premier modèle de restauration de texte ancien qui récupère les caractères manquants d’un texte endommagé en utilisant des réseaux neuraux profonds. Réunissant les disciplines de l’histoire ancienne et de l’apprentissage profond, le présent ouvrage offre une aide entièrement automatisée à la restauration de textes, fournissant aux historiens anciens de multiples restaurations textuelles, ainsi que le niveau de confiance pour chaque hypothèse.

Pythia prend une séquence de texte endommagé comme entrée, et est formé pour prédire des séquences de caractères comprenant des restaurations hypothétiques d’inscriptions grecques anciennes (textes écrits dans l’alphabet grec datant entre le septième siècle avant notre ère et le cinquième siècle de notre ère). L’architecture fonctionne à la fois au niveau des caractères et des mots, ce qui permet de traiter efficacement les informations contextuelles à long terme et de traiter efficacement les représentations incomplètes des mots (Figure 2). Cela le rend applicable à toutes les disciplines traitant des textes anciens (philologie, papyrologie, codicologie) et s’applique à toute langue (ancienne ou moderne).

Évaluation expérimentale

Pour former la Pythie, les chercheurs ont écrit un pipeline non trivial pour convertir le plus grand corpus numérique d’inscriptions grecques anciennes (PHI Greek Inscriptions) en texte exploitable par machine, que nous appelons PHI-ML. Comme le montre le tableau 1, les prédictions de Pythia sur le PHI-ML atteignent un taux d’erreur de caractères de 30,1 %, comparativement aux 57,3 % d’historiens humains anciens évalués (en particulier, il s’agissait de doctorants d’Oxford). De plus, dans 73,5 % des cas, la séquence de vérification empirique figurait parmi les 20 premières hypothèses de la Pythie, ce qui démontre bien l’impact de cette méthode d’assistance sur le domaine de l’épigraphie numérique et constitue l’état de l’art de la restauration de textes anciens.

L’importance du contexte

Pour évaluer la réceptivité de la Pythie à l’information contextuelle et visualiser les poids d’attention à chaque étape de décodage, ils ont expérimenté les lignes modifiées d’une inscription de la ville de Pergame (en Turquie moderne)*. Dans le texte de la figure 3, le dernier mot est un nom personnel grec se terminant par -ου. Les chercheurs ont mis ἀπολλοδώρου (« Apollodorou ») comme nom personnel, et caché ses 9 premiers caractères. Ce nom a été spécifiquement choisi parce qu’il figurait déjà dans le texte d’entrée. Pythia s’est occupé des parties contextuellement pertinentes du texte – en particulier, ἀπολλοδώρου. La séquence ἀπολλοδώρ a été prédit correctement. Comme test décisif, ils ont remplacé ἀπολλοδώρου dans le texte d’entrée par un autre nom personnel de la même longueur : ἀρτεμιδώρου (« Artemidorou »). La séquence prédite a été modifiée en conséquence sur ἀρτεμιδώρ, illustrant ainsi l’importance du contexte dans le processus de prédiction.


Figure 3 : Visualisation des poids d’attention pour le décodage des 4 premiers caractères manquants. Pour faciliter la visualisation, les poids à l’intérieur de la zone des caractères à prédire (‘??’) sont en vert, et en bleu pour le reste du texte ; la magnitude des poids est représentée par l’intensité des couleurs. Le texte de la vérité au sol ἀπολλοδώρ apparaît dans le texte d’entrée, et la Pythie s’occupe des parties pertinentes de la séquence.

Recherches futures
La combinaison de l’apprentissage automatique et de l’épigraphie peut avoir un impact significatif sur l’étude des textes inscrits et élargir la portée du travail de l’historien. Pour cette raison, les chercheurs ont ouvert un cahier Python en ligne, Pythia, et le pipeline de traitement PHI-ML à https://github.com/sommerschield/ancient-text-restoration, en collaboration avec des chercheurs de l’Université d’Oxford. Ce faisant, ils espèrent contribuer à la recherche future et inspirer d’autres travaux interdisciplinaires.

Via Deepmind

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :