Soutenance de thèse de Nicolas Gutherlé

21 juin 2024

UFR SLHS
Grand salon

Jury

Professeur Bachimont, Bruno COSTECH, Université de technologie de Compiègne (France) Rapporteur
Docteur Pecina, Pavel ÚFAL, Charles University (République Tchèque) Rapporteur
Docteur Lamirel, Jean-Charles SYNALP, LORIA, Université de Strasbourg (France) Examinateur
Professeur Boughanem, Mohand IRIS, Université de Toulouse 3 (France) Examinateur
Professeur Doucet, Antoine L3i, La Rochelle Université (France) Examinateur
Professeur Jatowt, Adam Data Science Group, Universität Innsbruck (Autriche) Examinateur
Docteur Atanassova, Iana CRIT, Université de Franche-Comté ; IUF (France) Directrice de thèse

Résumé de la thèse

Ces dernières années, les bibliothèques et archives ont entrepris de nombreuses campagnes de numérisation afin d’élargir l’accès du public à leurs collections d’archives. Cependant, le défi de promouvoir le contenu des collections et de rendre ces ressources accessibles reste entier. La numérisation produit souvent un contenu non structuré dans lequel il est difficile de naviguer, tandis que les interfaces qui s’appuient sur des requêtes basées sur des mots clés pour accéder aux documents d’archives peuvent fournir aux utilisateurs des résultats non pertinents. Afin d’exploiter le potentiel des « Big Data of the Past », notion introduite par Kaplan et di Lenardo en 2017, il est essentiel de développer des méthodes et des cadres pour structurer le contenu textuel des documents, dans le but d’en améliorer l’exploration et l’exploitation. Dans ce contexte, la présente thèse de doctorat aborde le problème du traitement des documents historiques numérisés, en se concentrant sur l’extraction des Entités Nommées et des Relations afin de créer des interfaces pour l’exploitation efficace des données textuelles historiques. Premièrement, nous proposons une nouvelle méthode pour déterminer la structure logique des journaux historiques en utilisant une approche à base de règles. Deuxièmement, nous présentons une méthode pour extraire les entités et les relations concernant les personnes et les lieux mentionnés dans les textes. Notre approche s’intitule Extensible, Lightweight and Interpretable Joint Extraction of Relations and Entities (ELIJERE). Elle est basée sur des ressources linguistiques obtenues par supervision distante. Enfin, nous proposons un cadre général pour l’étude de l’expression d’informations spatiales dans les documents, et un autre cadre pour l’application des méthodes de TimeLine Summarisation à des collections de documents. Nous montrons comment ces méthodes peuvent être appliquées pour produire des interfaces sémantiquement riches, telles que des frises chronologiques et des cartes, qui permettent au grand public une lecture proche ou distante de ces collections.

Mots clés

Extraction d’information, Gestion des connaissances, Annotation sémantique, Interfaces de recherche, Exploitation et exploration des documents, Humanités Numériques