• l’année dernière
SESSION 2. LES IMPLÉMENTATIONS DE RIC AU SEIN DES INSTITUTIONS

La transition vers des graphes de connaissances conformes à RiC-O aux Archives nationales de France : un processus en plusieurs étapes
par Mathieu Zrhal et Alexandre Bartz (ingénieurs au Lab, AnF)

[English]
SESSION 2. RIC EARLY IMPLEMENTATIONS WITHIN INSTITUTIONS

Transitioning to RiC-O knowledge graphs at the Archives nationales de France: a step-by-step process by Mathieu Zrhal and Alexandre Bartz (engineers, Lab, AnF)



Les premières implémentations de Records in Contexts / Early implementations of Records in Contexts

Le Groupe d'experts sur la description archivistique (EGAD) du Conseil international des archives (ICA) a organisé le 15 novembre 2023 le premier événement international entièrement dédié aux premières implémentations de nouveau standard Records in Contexts (RiC)

voir : https://www.ica.org/fr/release-of-the-first-three-parts-of-the-records-in-contexts-archival-description-standard-version-1-0-ric-fad-ric-cm-and-ric-o/ pour la description des archives.

Le programme et les supports de présentation, en français ou en anglais, sont disponibles à cette adresse :
https://drive.google.com/drive/folders/1zywJxTuccDjSX-QUrYc4deACs_BTw9z8?usp=drive_link

The Expert Group on Archival Description (EGAD) of the International Council on Archives (ICA) organized on November 15th 2023 the first international event entirely dedicated to early implementations of the new Records in Contexts (RiC) archival description standard https://www.ica.org/release-of-the-first-three-parts-of-the-records-in-contexts-archival-description-standard-version-1-0-ric-fad-ric-cm-and-ric-o/

The program and the slides of this study day, in French or English, are available at: https://drive.google.com/drive/folders/1zywJxTuccDjSX-QUrYc4deACs_BTw9z8?usp=drive_link

Catégorie

📚
Éducation
Transcription
00:00 Mathieu et moi-même allons vous présenter la transition vers des graphes de connaissances
00:12 conformes à RICOH aux Archives nationales de France, un processus en plusieurs étapes.
00:15 En guise d'introduction, j'aimerais simplement revenir sur ce que sont les Archives nationales
00:21 de France.
00:22 Il s'agit d'une des institutions du patrimoine culturel national français qui dépend du
00:26 ministère de la Culture.
00:28 Ces missions sont des missions à la fois classiques et non pour des services d'archives
00:31 puisqu'elle est chargée de la collecte, du traitement, de la description, de la conservation,
00:36 de la communication et de la valorisation des archives publiques de l'administration
00:40 centrale, donc des archives de ministères par exemple, mais aussi des notaires parisiens
00:45 et d'archives privées qui ont un intérêt national.
00:48 Pour vous donner quelques chiffres, en 2022, cette institution conserve plus de 380 mètres
00:55 linéaires d'archives papier et plus de 70 téraoctets d'archives nativement numériques
01:00 et on peut trouver en ligne plus de 11 millions de documents numérisés.
01:03 Pour ce qui est du contexte dans lequel on a décidé d'utiliser RICOH aux Archives
01:10 nationales, il est important de savoir que les Archives nationales de France gèrent
01:14 une énorme collection de métadonnées descriptives puisqu'on peut trouver en ligne près de
01:18 31 000 instruments de recherche.
01:20 Ces métadonnées descriptives sont encodées dans différents formats, donc XML, EAD pour
01:24 les instruments de recherche et XML, EAC, CPF pour les notices de producteurs.
01:27 Ces données sont dans plusieurs silos.
01:30 On doit également faire face à des problèmes de qualité qu'on ne peut pas forcément
01:33 toujours bien détecter.
01:35 On n'a également pas ou peu d'accès aux fichiers sources depuis l'extérieur de
01:40 l'institution puisque les missions dans les ministères, par exemple les missions
01:44 archives, n'ont pas forcément accès à l'ensemble de nos données.
01:48 Ce système d'information est donc complexe, relativement ancien et il n'est pas possible
01:53 pour l'instant d'intégrer une couche ou des modules sémantiques.
01:56 Le passage à un graphe unique d'entités liées est nécessaire mais il implique de
02:02 travailler en dehors de notre système d'information archivistique ou SIA, au moins pendant un certain
02:07 temps.
02:08 C'est ce que le Lab fait depuis 2017 puisque les Archives nationales de France utilisent
02:15 RICOH depuis 2017 comme un cadre de référence globale et flexible.
02:19 Pour vous présenter rapidement ce qui a été fait aux Archives nationales de France depuis
02:24 2017, on peut citer la preuve de concept qualitatif PIAF qui correspond à un SPARQL endpoint
02:32 et à une interface de recherche et de visualisation des données.
02:35 On peut également citer l'outil RICOH Converter sur lequel je ne m'étends pas puisqu'il
02:40 sera présenté cet après-midi.
02:41 Il y a également la sémantisation et l'enrichissement des référentiels à partir de 2021.
02:47 J'insiste sur le fait que ces référentiels sont accessibles sur GitHub à la fois au
02:51 format CSV et au format RDF et qui peuvent être réutilisables.
02:57 On a également la création d'une interface user-friendly à l'aide de SPARNATURAL qui
03:03 permet de requêter et d'accéder aux tiers des métadonnées décrivant les archives
03:08 des notaires parisiens.
03:09 Et enfin, le Lab participe également à des projets de recherche.
03:12 On peut citer les projets Allegoria ou Ores.
03:16 Je vais faire un petit focus sur le traitement ou l'utilisation de RICOH pour les référentiels
03:28 au sein des archives nationales.
03:30 Tout d'abord, les référentiels des archives nationales sont vraiment le fruit d'un travail
03:36 de générations multiples et successives d'archivistes.
03:40 On a énormément d'informations là-dedans.
03:44 On a plus de 60 000 notices décrivant des agents ou alors plus de 60 000 entrées qui
03:51 vont décrire des lieux qui peuvent être des circonscriptions par exemple françaises,
03:55 anciennes ou récentes.
03:57 Ce que je vais faire ici, c'est vraiment un focus sur l'utilisation de RICOH au sein
04:15 des archives nationales pour les référentiels que nous avons ici, qui contiennent énormément
04:24 d'informations, des dizaines de milliers d'entrées qui vont décrire des agents, des
04:30 lieux, que ce soit des voies parisiennes ou alors des circonscriptions administratives.
04:35 On a plus d'une vingtaine de référentiels d'indexation.
04:39 Et dans notre système d'information, ces référentiels vont être très hétérogènes
04:47 dans les formats et les niveaux de détails qu'on va y trouver.
04:52 Et on trouve que ce sont des données qui ne sont pas assez utilisées, qu'on ne peut
04:58 pas par exemple y accéder depuis la salle de lecture virtuelle, ou on a par exemple
05:03 à l'exception de certaines notices d'autorité ou alors de producteurs d'archives, etc.
05:10 Ce sont des données clés pour nous et qui vont décrire des entités contextuelles
05:18 par rapport aux documents qui sont vraiment très importantes.
05:22 Donc, comment on fait pour traiter ces référentiels-là ?
05:30 Généralement, ça se fait en trois étapes.
05:33 Une étape de standardisation où on va convertir les données en SCOSS et en RICO.
05:38 Ensuite, on va essayer de les aligner avec d'autres référentiels qui peuvent exister
05:43 dans d'autres institutions pour nous assurer de l'interopérabilité de nos référentiels
05:50 à nous.
05:51 Et ensuite, généralement, on utilise ces alignements-là pour enrichir nos propres
05:54 référentiels.
05:55 Donc là, je vais juste donner un petit exemple sur comment on a utilisé RICO pour modéliser
06:03 une voie parisienne parce que ça, c'est un référentiel sur lequel on est en train
06:06 de travailler en ce moment.
06:08 Donc ça, en fait, au centre, vous pouvez voir au centre en vert, ça, c'est vraiment
06:12 l'avenue des Champs-Elysées.
06:13 Le type d'information qu'on peut avoir, c'est qu'on pourrait dire par exemple que
06:18 c'est une avenue, déjà.
06:20 Donc c'est un RICO Place Type.
06:22 On peut dire qu'elle va être bordée par la place de la Concorde d'un côté et la
06:26 place Charles de Gaulle de l'autre côté, qu'elle appartient au huitième arrondissement.
06:29 Donc ça, c'est vraiment des informations un petit peu plus assez simples.
06:33 On peut aussi avoir des informations sur la localisation et du coup, ce qui va nous permettre
06:39 d'avoir des coordonnées.
06:41 Donc du coup, on peut avoir un point central ou alors peut-être tout un multipolygone.
06:47 On peut l'associer aussi à des données qui sont externes, les données de la voie de
06:53 Paris, de la mairie de Paris ou alors ceux de la DGFIP.
06:58 Mais aussi, on peut avoir par exemple des rules pour savoir quels sont les textes de
07:12 loi qui vont réguler l'architecture qu'il va y avoir sur les Champs-Elysées par exemple.
07:19 Et aussi, l'utilisation de Ricoh en fait, on a aussi utilisé Ricoh sur un autre projet
07:30 qui concerne la description des archives notarielles.
07:33 Et c'est important en fait de parler de ce projet-là parce que même si on a utilisé
07:38 Ricoh, on a pu en utilisant Ricoh, on a pu générer 57,9 millions de triplés en RDF.
07:47 Mais on a eu besoin d'utiliser que 34 classes pour décrire toutes les entités qu'on a
07:53 parmi les 106 qui sont disponibles dans Ricoh.
07:55 C'est-à-dire qu'on n'est pas obligé vraiment d'utiliser Ricoh en entier.
08:00 On a même dû en fait, étendre Ricoh à un moment parce qu'on voulait des trucs un
08:04 petit peu plus fins que ce qui est disponible dans le standard à la base.
08:09 Et en fait, grâce à ces données qu'on a obtenues, on a pu identifier des problèmes
08:19 de qualité et qu'on compte bien aller régler par la suite.
08:27 Donc simplement quelques mots de conclusion.
08:33 On aimerait insister sur le fait que la transition vers Ricoh nous permet de réutiliser nos
08:41 données qui sont passées en RDF.
08:42 Je le rappelle, elles sont accessibles sur GitHub.
08:44 Et pour ce qui est des perspectives de travail au sein du Lab, une des idées c'est bien
08:50 sûr de rendre nos données conformes à Ricoh 1.0, de développer la version 3 de Ricoh
08:55 Converter.
08:56 Donc on a vraiment des réflexions en cours autour du développement d'une interface
09:00 pour consulter les référentiels.
09:01 Et il y a également le travail, la poursuite du travail sur le projet à long terme d'enrichissement
09:07 des référentiels des archives nationales.
09:09 Nous vous remercions pour votre attention.
09:11 Merci.
09:12 Merci.
09:13 Merci.
09:13 Merci.
09:13 Merci.
09:14 Merci.
09:14 Merci.
09:15 Merci.
09:15 Merci.
09:16 Merci.
09:16 Merci.
09:17 Merci.
09:17 Merci.
09:18 Merci.
09:18 Merci.
09:19 Merci.
09:19 Merci.
09:20 Merci.
09:20 Merci.
09:21 Merci.
09:21 Merci.
09:22 Merci.
09:22 Merci d'avoir regardé cette vidéo !

Recommandations