Archive | 2019

Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité

 
 

Abstract


Cet article concerne un ensemble de textes anciens (datant du milieu du 17e siecle), que les specialistes d histoire et de litterature ont l habitude de nommer corpus des mazarinades . Ces quelque 5500 textes offrent une variete de problematiques qui s inscrivent pleinement dans le domaine des humanites numeriques. Nous montrons en premier lieu qu il ne s agit pas a proprement parler d un corpus puisqu on ne dispose pas, malgre un important travail bibliographique sur le sujet, d une definition ni d un recensement rigoureux de cet ensemble. Il s agit ensuite de voir l impact de cette definition instable sur le travail des chercheurs qui s interessent a ce corpus , tout en proposant de corriger ces biais grâce a un outillage automatique. Nous montrons que, si le but est d exploiter le materiau textuel et non de l interpreter, il est interessant de s autoriser a traiter des donnees brutes (avec un minimum de traitements preparatoires). Enfin, nous exposons un premier cadre d application sur la sous-partie de cet ensemble actuellement disponible sous forme numerique : la datation de documents. La methode utilisee se fonde sur une analyse en chaines de caracteres qui permet a la fois de fonctionner sur un corpus partiellement bruite (etats de langue divers, scories de l ocerisation. . .) et sur un corpus heterogene, comprenant des documents de tailles et surtout de genres tres varies. Nous montrons que, dans certains cas, le bruitage du corpus peut etre un avantage pour certaines tâches de classification, notamment grâce a l utilisation de methodes exploitant des chaines de caracteres. Les approches en caracteres permettent en effet de surmonter un certain nombre de difficultes liees a la variete des donnees disponibles. Aussi ce travail donne-t-il des outils pour extraire des sous-corpus coherents, pour exploiter des jeux de donnees issus de la numerisation en economisant le post-traitement, et pour identifier des metadonnees manquantes : trois enjeux essentiels pour ce corpus qui reste encore pour une bonne part a divulguer a la communaute dans un format numerique raisonne.

Volume 2
Pages None
DOI 10.21494/ISTE.OP.2019.0335
Language English
Journal None

Full Text