• il y a 10 mois
SESSION 4. RIC DANS DES PROJETS DE RECHERCHE

Utilisation et extension de RiC-O pour construire un graphe de connaissances à partir de descriptions de documents médiévaux dans le cadre du projet ORESM par Florian Langelé (étudiant en Master 2 Technologies numériques appliquées à l’histoire de l’École nationale des chartes) et Florence Clavaud (responsable du Lab, AnF)

[English]

SESSION 4. RIC IN RESEARCH PROJECTS

Using and extending RiC-O to build a knowledge graph from the descriptions of medieval records produced within the ORESM project
by Florian Langelé (Master student, “Digital Technologies Applied to History” Master’s degree, École nationale des chartes, France) and Florence Clavaud (head of the Lab, AnF)
Transcription
00:00 Bonjour à nouveau. Je ne vais pas parler longtemps. Je vais me contenter de présenter
00:14 en introduction et de conclure la présentation que va faire Florian. Comme Mathieu l'a déjà
00:21 dit, là on va parler d'utilisation de Ricot pour construire un graphe de connaissances
00:28 à propos de documents médiévaux. Juste quelques mots au sujet du contexte de ce projet. Il
00:37 s'agit d'un projet qui s'appelle Oresme, en français œuvres et référentiels des
00:41 étudiants, suppôts et maîtres de l'université de Paris au Moyen-Âge. Un projet de recherche
00:48 en histoire qui a démarré en 2019, qui est mené par plusieurs institutions, en particulier
00:56 par la bibliothèque interuniversitaire de la Sorbonne, qu'on appellera plus loin BIS,
01:02 qui a eu l'initiative du projet et qui le porte administrativement. Le laboratoire de
01:08 médiévistique occidentale de Paris, qui est une équipe de chercheurs en histoire
01:14 habitués à utiliser les technologies numériques. Et les archives nationales où sont spécialement
01:21 impliquées le LAB, que vous connaissez déjà, et le département du Moyen-Âge et de l'Ancien
01:29 Régime, qui est le service de la direction des fonds sous l'égide de Marie-Françoise
01:34 Limon, qui s'occupe des archives antérieures à la Révolution, pour le dire très vite,
01:41 aux archives nationales. Pourquoi ces institutions ? Parce que le fonds de la très ancienne
01:48 université de Paris, pour ceux qui ont un peu de notion d'histoire en Europe et en
01:56 France, a été démembré sous la Révolution. Et si beaucoup de ces documents sont aujourd'hui
02:04 conservés aux archives nationales, c'est dans des différentes collections formées
02:09 après la Révolution, selon une perspective assez thématique et non selon la provenance.
02:17 Et une autre partie de ces archives est conservée aujourd'hui à la BIS, sur la base de ce
02:25 constat, et grâce à un financement essentiellement fourni par l'infrastructure de recherche
02:33 française Colex-Percé, une équipe s'est montée pour essayer d'atteindre deux buts
02:42 principaux. Le premier, mieux comprendre l'histoire du fonds de cette ancienne et prestigieuse
02:48 université, en le reconstituant virtuellement, mais avec l'idée de pouvoir être capable
02:56 de dire à tel moment, au Moyen-Âge ou au début de l'Ancien Régime, le fonds était
03:01 constitué de ces objets-là. Et deuxième objectif, étudier le réseau de personnes
03:06 et d'institutions formant cette université et relier à elle. Le choix technologique
03:15 qui a été fait a été d'utiliser les technologies sémantiques comme le cœur du futur dispositif.
03:21 J'y reviendrai peut-être un peu dans la conclusion. En fait, je vais passer la parole
03:26 à Florian, parce que dans le cadre de ce projet, Florian Langeley, qui termine actuellement
03:33 sa deuxième année de master technologie numérique appliquée à l'histoire à l'École
03:38 nationale des Chartes, a effectué un stage de quatre mois d'avril à juillet dernier
03:45 à la BIS d'une part et au Lab d'autre part pour travailler à la construction du
03:52 graph de connaissances. Donc, Florian, je te passe la parole.
04:03 Bonjour, moi j'ai travaillé sur le projet Auresme pendant quatre mois, comme Florence
04:08 l'a dit par rapport à mon stage. Je ne suis pas parti de rien, je suis parti d'une
04:15 première preuve de concept que Florence avait déjà réalisée puisqu'elle est partie
04:19 première du projet en 2021. Cette preuve de concept utilisait déjà Ricoh 0.2 et avait
04:26 montré les possibilités et surtout l'utilité du passage en sémantique en utilisant l'ontologie
04:33 Ricoh. La présentation est disponible qu'elle avait faite à ce sujet.
04:37 Mon stage consistait à étendre cette preuve de concept, notamment puisque Florence avait
04:44 travaillé sur un petit groupe de données, 188 archives dépouillées que j'ai étendues
04:51 à plus large. Mon stage aussi cherchait à commencer à travailler directement sur le
04:58 graph en montrant les possibilités qu'on pouvait avec l'inférence et aussi à travailler
05:03 sur les besoins utilisateurs, notamment pour la relacture que les chercheurs devront mener
05:09 sur nos données qu'ils ne peuvent pas chercher directement en Sparkle.
05:16 On va parler d'abord de nos données sources. Les données qu'on a proviennent de campagnes
05:25 de dépouillement financées par le LabEx ASTEC et réalisées au cours de l'année
05:30 2021-2022. Ces dépouillements ont eu lieu principalement aux archives nationales mais
05:35 aussi dans certaines archives départementales comme les archives de la Seine-et-Marne et
05:40 de l'Oise. Ils se basaient sur des inventaires pré-existants qui ne fournissait pas suffisamment
05:45 d'informations pour les enjeux scientifiques du projet. Le choix a été fait de retravailler
05:52 directement sur les originaux pour extraire davantage de données de contexte sur ces
05:57 pièces d'archives. Ce que j'ai traité du remontage, ça concerne 1441 pièces d'archives
06:04 parties sur 13 collèges différents puisque les collèges étaient liés à l'université
06:08 de Paris donc c'était très intéressant pour les enjeux scientifiques d'extraire
06:12 ces données. Ces données, vous avez un exemple à droite, c'est un exemple des données
06:20 qu'on peut retrouver sur une seule pièce d'archives. Ici c'est une pièce du collège
06:24 des Cholets. Je vous l'ai mise sous la forme verticale mais on les trouve dans des fichiers
06:29 Excel qui suivent une méthodologie avec 47 champs ou colonnes choisies par le conseil
06:37 scientifique du projet. L'archiviste en charge des dépouillements a rempli chacune de ces
06:43 47 colonnes avec des informations qu'elle a pu extraire au moment des dépouillements.
06:48 Cette description 47 colonnes c'est énorme. C'était des descriptions très détaillées
06:54 notamment sur les personnes, physiques ou morales et sur l'historie de conservation
06:58 donc les anciennes cotes, les anciens conservateurs de l'archive et tout ce qui est mention dorsale
07:05 etc. L'utilisation de Ricoh était assez naturelle puisque déjà Florence fait partie
07:19 du projet donc elle a pu nous apporter son expérience à ce niveau là mais surtout
07:25 son ontologie de référence quand il concerne la description d'archives et son caractère
07:32 assez générique permettait d'exprimer n'importe lesquelles des relations dont on avait besoin,
07:36 en tout cas en surpropriété pour nos besoins mais il a fallu quand même pour exprimer
07:44 les spécificités de la recherche médiévale et surtout des archives médiévales, étendre
07:52 cette ontologie. Donc quand on l'a étendue, on a créé 42 relations d'entités à entités
08:00 qu'on appelle object properties, 42 ça compte les inverses donc en vérité il n'y en a
08:04 que 21 et 17 data type properties donc les attributs des entités. Toutes ces relations
08:12 qu'on a créées sont des sous-propriétés de Ricoh ce qui permet l'interopérabilité
08:16 de nos données. On n'a pas créé de classes parce que toutes les classes créées par
08:22 Ricoh étaient suffisantes pour exprimer ce dont on avait envie. Là ici je vous ai mis
08:27 un screen de l'arborescence de nos relations donc en graphe vous avez les relations que
08:35 nous avons créées pour exprimer les besoins donc notamment puisqu'on s'intéresse à
08:41 l'historique de conservation on avait besoin d'exprimer si une cote était actuelle ou
08:44 ancienne ou si une cote était incluse dans un ensemble plus général. Donc ça c'était
08:51 ce qu'on fait descendre de la relation as-or-add-identifier ce qui nous permet quand même de nous rattacher
08:56 au model-ric. Donc là je vous ai mis une représentation en UML des relations dont
09:11 on avait besoin pour représenter nos données. Les traits bleus représentent les relations
09:18 déjà créées par Ricoh et en rouge, les flèches rouges représentent les relations
09:23 que nous avons créées pour le besoin. Ici c'est le même exemple que le tableau précédent
09:26 que je vous ai montré. Je peux vous citer quelques relations créées notamment la relation
09:33 a pour testateur qui est une notion très importante en termes médiévaux que nous
09:40 avons fait descendre de la relation as-auteur puisqu'un testateur c'est un type spécifique
09:44 d'auteur. Également aussi la relation est-conservée actuellement par puisque l'archiviste en
09:50 charge des débrouillements a relevé de nombreuses institutions de conservation intermédiaires
09:56 qui sont par exemple le collège Joliot-Grand qui étaient nécessaires d'exprimer dans
10:02 notre modèle de données. Je peux aussi citer la relation a pour vidimus puisque le vidimus
10:06 c'est un type spécifique d'archive qui descend de la relation as-copie. Le vidimus
10:15 c'est une notion très médiévale dont on avait besoin pour le modèle que l'on peut
10:21 rattacher au modèle Ricoh. L'ensemble de la transformation qu'on a effectuée entre
10:31 le passage du fichier Excel à un modèle RDF est documenté dans un mapping. Vous avez
10:38 un screen du tableau ici. Ce mapping a été réalisé sur les 47 champs donc aucun champ
10:47 n'a été oublié. Tous les champs des campagnes de débrouillement ont pu être exprimés
10:52 avec notre ontologie qui est en Ric évidemment. La transformation se fait avec un script XSLT
10:59 que nous avons développé conjointement avec Florence qui transforme les 1441 pièces en
11:05 environ 5-6 secondes. C'est très puissant et on essaiera de continuer à l'utiliser
11:12 pour les futures campagnes de débrouillement qui vont suivre puisque l'idée du projet
11:16 est de débrouiller l'ensemble du fond de l'ancienne université de Paris. Pour certaines
11:23 de ces données, notamment les états des documents, nous avons utilisé les référentiels
11:33 développés par le Lab des Archives Nationales. C'est rédigé en scotch qui utilise l'ontologie
11:40 Ricoh aussi. Une fois qu'on avait effectué la transformation de nos données en RDF,
11:52 on a commencé à explorer le graphe. On les a mis dans une base de données, un graphe
12:00 de connaissances, un triple store. Il en résulte que nous avons, je vais vous parler un peu
12:06 en chiffres, on a 3457 entités personnes qui ont été créées. Sur 1441 pièces d'archives
12:14 débrouillées, on a pu extraire 3457 personnes. Évidemment il y aura des variations puisque
12:21 il y a beaucoup de toponymes ou de graphies différentes mais c'est un chiffre très intéressant.
12:25 Aussi, 102 institutions, 314 lieux et 1770 pièces d'archives. Ce n'est pas le même
12:32 chiffre que le nombre de pièces débrouillées puisque nous avons aussi extrait les originaux.
12:37 Donc plusieurs fois dans les débrouillements, l'archiviste en charge a identifié une pièce
12:44 comme étant une copie ou un vidimus ou un extrait d'un acte, d'un original, mais l'original
12:49 n'a pas été retrouvé. Cet original est quand même représenté dans la base comme
12:55 un record ressource mais il n'a pas d'instanciation. C'est là qu'on fait la différence entre
12:59 la pièce d'archives intellectuelle et la pièce d'archives physique. On a aussi 1447
13:07 instanciations, donc c'est 6 instanciations de plus que les 1441 pièces débrouillées
13:13 puisque aussi certaines de nos pièces étaient numérisées. Donc les instanciations représentent
13:18 6 pièces numérisées directement par les archives nationales.
13:23 Donc là vous avez la représentation en graphes toujours de la même pièce. L'exploration
13:32 dans le graphes se fait aussi par les langages Parkell. Ce qui est intéressant pour la recherche
13:37 c'est qu'on peut faire des requêtes qui donnent beaucoup de sens aux données. Ici
13:41 je vous ai mis un exemple d'une requête que j'ai rédigée pour identifier par siècle
13:46 le nombre de pièces et la langue qu'elle utilisait. On voit qu'au début le latin
13:50 prédomine puis au fur et à mesure des siècles qui passent le français prend de plus en
13:54 plus de place.
13:55 Évidemment Sparkle ne fait pas tout et nous avons décidé d'utiliser un début de l'interface
14:08 Spanatural pour permettre la relecture des données. Ici je vous ai mis un screen d'une
14:13 requête construite suivant la configuration que j'ai faite en utilisant Spanatural 8.5.0.
14:20 Le résultat est assez satisfaisant même si la prise en main reste à appréhender
14:26 évidemment. Ce n'est pas évident pour tout le monde de comprendre la logique de création
14:30 mais quand on s'y met on se rend compte très vite des possibilités et ça permettra je
14:35 pense à terme d'aider beaucoup la recherche puisque l'interrogation du graphes permet
14:40 beaucoup plus de choses qu'un simple formulaire traditionnel.
14:45 Il reste juste cette diapositive de conclusion. En termes de perspective après ce stage court
14:53 et intense c'est de poursuivre le travail bien entendu. Des données coexistent avec
15:01 les fichiers Excel de dépouillement qui attendent d'être sémantisés en particulier des données
15:08 que l'on va sortir d'un fichier XML EAD coproduit par l'équipe Projet et qui décrit les ensembles
15:18 documentaires cette fois-ci constituant les archives de l'université telles que l'on
15:25 est en mesure de les reconstituer aujourd'hui pour l'époque médiévale. Inversement nous
15:34 allons avoir besoin de réintégrer les données que nous avons produites dans les instruments
15:38 de recherche préexistants aux archives nationales. Dans le cadre de ce projet nous avons également
15:45 - ce n'est pas en fait le lab qui en est la source mais le DEMAR avec Jean-François Moufflet
15:52 a produit un tableau qui décrit de façon extrêmement détaillée y compris avec des
15:59 données spatio-temporelles des types d'actes, des états d'actes et des formes d'actes,
16:07 tous concepts entre guillemets puisque ce ne sont plus des concepts que nous allons réintégrer
16:11 dans les référentiels correspondant des archives nationales en utilisant SCOSS et RICO. Nous
16:17 allons en avoir besoin et puis ensuite nous allons faire bénéficier au projet. Par ailleurs
16:24 et ça c'est la principale problématique en ce qui concerne les données, des travaux
16:30 de réconciliation doivent être menés entre les personnes qui ont émergé dans le cadre
16:37 de ce premier travail avec elles-mêmes mais aussi avec les données d'une base de données
16:44 produites préalablement par le LAMOP qui s'appelle Studium Parisiense et qui est en
16:50 cours dont le contenu devrait également être sémantisé pour produire un référentiel
16:59 en ligne et opérer des réconciliations. Et enfin l'interface complète d'interrogation
17:06 de ce graphe reste à construire. Elle ne doit pas se limiter évidemment. Une interface
17:14 de recherche de type avancée comme celle que SporNatural peut facilement permettre
17:21 de construire.
17:22 Voilà, je vous remercie.
17:26 Merci.
17:28 Merci.
17:30 Merci.
17:32 Merci.
17:34 Merci.
17:36 Merci.
17:38 Merci à tous !
17:40 [SILENCE]

Recommandations