• il y a 10 mois
SESSION 2. LES IMPLÉMENTATIONS DE RIC AU SEIN DES INSTITUTIONS

La transition vers des graphes de connaissances conformes à RiC-O aux Archives nationales de France : un processus en plusieurs étapes
par Mathieu Zrhal et Alexandre Bartz (ingénieurs au Lab, AnF)

[English]
SESSION 2. RIC EARLY IMPLEMENTATIONS WITHIN INSTITUTIONS

Transitioning to RiC-O knowledge graphs at the Archives nationales de France: a step-by-step process by Mathieu Zrhal and Alexandre Bartz (engineers, Lab, AnF)

Transcription
00:00 Mathieu et moi-même allons vous présenter la transition vers des graphes de connaissances
00:12 conformes à RICOH aux Archives nationales de France, un processus en plusieurs étapes.
00:15 En guise d'introduction, j'aimerais simplement revenir sur ce que sont les Archives nationales
00:21 de France.
00:22 Il s'agit d'une des institutions du patrimoine culturel national français qui dépend du
00:26 ministère de la Culture.
00:28 Ces missions sont des missions à la fois classiques et non pour des services d'archives
00:31 puisqu'elle est chargée de la collecte, du traitement, de la description, de la conservation,
00:36 de la communication et de la valorisation des archives publiques de l'administration
00:40 centrale, donc des archives de ministères par exemple, mais aussi des notaires parisiens
00:45 et d'archives privées qui ont un intérêt national.
00:48 Pour vous donner quelques chiffres, en 2022, cette institution conserve plus de 380 mètres
00:55 linéaires d'archives papier et plus de 70 téraoctets d'archives nativement numériques
01:00 et on peut trouver en ligne plus de 11 millions de documents numérisés.
01:03 Pour ce qui est du contexte dans lequel on a décidé d'utiliser RICOH aux Archives
01:10 nationales, il est important de savoir que les Archives nationales de France gèrent
01:14 une énorme collection de métadonnées descriptives puisqu'on peut trouver en ligne près de
01:18 31 000 instruments de recherche.
01:20 Ces métadonnées descriptives sont encodées dans différents formats, donc XML, EAD pour
01:24 les instruments de recherche et XML, EAC, CPF pour les notices de producteurs.
01:27 Ces données sont dans plusieurs silos.
01:30 On doit également faire face à des problèmes de qualité qu'on ne peut pas forcément
01:33 toujours bien détecter.
01:35 On n'a également pas ou peu d'accès aux fichiers sources depuis l'extérieur de
01:40 l'institution puisque les missions dans les ministères, par exemple les missions
01:44 archives, n'ont pas forcément accès à l'ensemble de nos données.
01:48 Ce système d'information est donc complexe, relativement ancien et il n'est pas possible
01:53 pour l'instant d'intégrer une couche ou des modules sémantiques.
01:56 Le passage à un graphe unique d'entités liées est nécessaire mais il implique de
02:02 travailler en dehors de notre système d'information archivistique ou SIA, au moins pendant un certain
02:07 temps.
02:08 C'est ce que le Lab fait depuis 2017 puisque les Archives nationales de France utilisent
02:15 RICOH depuis 2017 comme un cadre de référence globale et flexible.
02:19 Pour vous présenter rapidement ce qui a été fait aux Archives nationales de France depuis
02:24 2017, on peut citer la preuve de concept qualitatif PIAF qui correspond à un SPARQL endpoint
02:32 et à une interface de recherche et de visualisation des données.
02:35 On peut également citer l'outil RICOH Converter sur lequel je ne m'étends pas puisqu'il
02:40 sera présenté cet après-midi.
02:41 Il y a également la sémantisation et l'enrichissement des référentiels à partir de 2021.
02:47 J'insiste sur le fait que ces référentiels sont accessibles sur GitHub à la fois au
02:51 format CSV et au format RDF et qui peuvent être réutilisables.
02:57 On a également la création d'une interface user-friendly à l'aide de SPARNATURAL qui
03:03 permet de requêter et d'accéder aux tiers des métadonnées décrivant les archives
03:08 des notaires parisiens.
03:09 Et enfin, le Lab participe également à des projets de recherche.
03:12 On peut citer les projets Allegoria ou Ores.
03:16 Je vais faire un petit focus sur le traitement ou l'utilisation de RICOH pour les référentiels
03:28 au sein des archives nationales.
03:30 Tout d'abord, les référentiels des archives nationales sont vraiment le fruit d'un travail
03:36 de générations multiples et successives d'archivistes.
03:40 On a énormément d'informations là-dedans.
03:44 On a plus de 60 000 notices décrivant des agents ou alors plus de 60 000 entrées qui
03:51 vont décrire des lieux qui peuvent être des circonscriptions par exemple françaises,
03:55 anciennes ou récentes.
03:57 Ce que je vais faire ici, c'est vraiment un focus sur l'utilisation de RICOH au sein
04:15 des archives nationales pour les référentiels que nous avons ici, qui contiennent énormément
04:24 d'informations, des dizaines de milliers d'entrées qui vont décrire des agents, des
04:30 lieux, que ce soit des voies parisiennes ou alors des circonscriptions administratives.
04:35 On a plus d'une vingtaine de référentiels d'indexation.
04:39 Et dans notre système d'information, ces référentiels vont être très hétérogènes
04:47 dans les formats et les niveaux de détails qu'on va y trouver.
04:52 Et on trouve que ce sont des données qui ne sont pas assez utilisées, qu'on ne peut
04:58 pas par exemple y accéder depuis la salle de lecture virtuelle, ou on a par exemple
05:03 à l'exception de certaines notices d'autorité ou alors de producteurs d'archives, etc.
05:10 Ce sont des données clés pour nous et qui vont décrire des entités contextuelles
05:18 par rapport aux documents qui sont vraiment très importantes.
05:22 Donc, comment on fait pour traiter ces référentiels-là ?
05:30 Généralement, ça se fait en trois étapes.
05:33 Une étape de standardisation où on va convertir les données en SCOSS et en RICO.
05:38 Ensuite, on va essayer de les aligner avec d'autres référentiels qui peuvent exister
05:43 dans d'autres institutions pour nous assurer de l'interopérabilité de nos référentiels
05:50 à nous.
05:51 Et ensuite, généralement, on utilise ces alignements-là pour enrichir nos propres
05:54 référentiels.
05:55 Donc là, je vais juste donner un petit exemple sur comment on a utilisé RICO pour modéliser
06:03 une voie parisienne parce que ça, c'est un référentiel sur lequel on est en train
06:06 de travailler en ce moment.
06:08 Donc ça, en fait, au centre, vous pouvez voir au centre en vert, ça, c'est vraiment
06:12 l'avenue des Champs-Elysées.
06:13 Le type d'information qu'on peut avoir, c'est qu'on pourrait dire par exemple que
06:18 c'est une avenue, déjà.
06:20 Donc c'est un RICO Place Type.
06:22 On peut dire qu'elle va être bordée par la place de la Concorde d'un côté et la
06:26 place Charles de Gaulle de l'autre côté, qu'elle appartient au huitième arrondissement.
06:29 Donc ça, c'est vraiment des informations un petit peu plus assez simples.
06:33 On peut aussi avoir des informations sur la localisation et du coup, ce qui va nous permettre
06:39 d'avoir des coordonnées.
06:41 Donc du coup, on peut avoir un point central ou alors peut-être tout un multipolygone.
06:47 On peut l'associer aussi à des données qui sont externes, les données de la voie de
06:53 Paris, de la mairie de Paris ou alors ceux de la DGFIP.
06:58 Mais aussi, on peut avoir par exemple des rules pour savoir quels sont les textes de
07:12 loi qui vont réguler l'architecture qu'il va y avoir sur les Champs-Elysées par exemple.
07:19 Et aussi, l'utilisation de Ricoh en fait, on a aussi utilisé Ricoh sur un autre projet
07:30 qui concerne la description des archives notarielles.
07:33 Et c'est important en fait de parler de ce projet-là parce que même si on a utilisé
07:38 Ricoh, on a pu en utilisant Ricoh, on a pu générer 57,9 millions de triplés en RDF.
07:47 Mais on a eu besoin d'utiliser que 34 classes pour décrire toutes les entités qu'on a
07:53 parmi les 106 qui sont disponibles dans Ricoh.
07:55 C'est-à-dire qu'on n'est pas obligé vraiment d'utiliser Ricoh en entier.
08:00 On a même dû en fait, étendre Ricoh à un moment parce qu'on voulait des trucs un
08:04 petit peu plus fins que ce qui est disponible dans le standard à la base.
08:09 Et en fait, grâce à ces données qu'on a obtenues, on a pu identifier des problèmes
08:19 de qualité et qu'on compte bien aller régler par la suite.
08:27 Donc simplement quelques mots de conclusion.
08:33 On aimerait insister sur le fait que la transition vers Ricoh nous permet de réutiliser nos
08:41 données qui sont passées en RDF.
08:42 Je le rappelle, elles sont accessibles sur GitHub.
08:44 Et pour ce qui est des perspectives de travail au sein du Lab, une des idées c'est bien
08:50 sûr de rendre nos données conformes à Ricoh 1.0, de développer la version 3 de Ricoh
08:55 Converter.
08:56 Donc on a vraiment des réflexions en cours autour du développement d'une interface
09:00 pour consulter les référentiels.
09:01 Et il y a également le travail, la poursuite du travail sur le projet à long terme d'enrichissement
09:07 des référentiels des archives nationales.
09:09 Nous vous remercions pour votre attention.
09:11 Merci.
09:12 Merci.
09:13 Merci.
09:13 Merci.
09:13 Merci.
09:14 Merci.
09:14 Merci.
09:15 Merci.
09:15 Merci.
09:16 Merci.
09:16 Merci.
09:17 Merci.
09:17 Merci.
09:18 Merci.
09:18 Merci.
09:19 Merci.
09:19 Merci.
09:20 Merci.
09:20 Merci.
09:21 Merci.
09:21 Merci.
09:22 Merci.
09:22 Merci d'avoir regardé cette vidéo !

Recommandations