• il y a 10 mois
SESSION INTRODUCTIVE. RIC DANS SES CONTEXTES - ACTUALITÉS DE RIC ET DE SES RELATIONS AVEC D’AUTRES STANDARDS

PREMIS : un modèle de données et des expressions XML et RDF pour la préservation numérique par Bertrand Caron (expert en modélisation, département des Métadonnées, BnF ; membre du Comité éditorial PREMIS)

[English]
INTRODUCTORY SESSION. RIC IN ITS CONTEXTS -
AN UPDATE ABOUT RIC AND ITS CONNECTIONS WITH OTHER STANDARDS

PREMIS: a data model for digital preservation, and its XML and RDF representations by Bertrand Caron (modeling expert, Metadata Department, Bibliothèque nationale de France; member of PREMIS Editorial Committee)
Transcription
00:00 Bonjour à toutes, bonjour à tous.
00:10 Donc, je vais essayer de vous faire un petit, une présentation rapide de ce format de métadonnées
00:20 cousins en quelque sorte de Ricoh et je vais vous le faire en français.
00:24 Donc, le rêve de toute ma vie professionnelle d'imposer à nos collègues anglophones une
00:28 présentation en français, mais par mensuetude, je vous ai proposé des diapositives en anglais.
00:35 En dix minutes, je vais vous présenter un petit peu le panorama et les caractéristiques
00:41 particulières de Prémis.
00:42 Je n'aurai pas le temps de développer les possibles points de contact entre les deux
00:48 standards, mais ce sont des choses qui, de toute façon, sont en réflexion entre nos
00:54 groupes de travail.
00:55 Donc, je vais vous parler rapidement du modèle de données de Prémis, ses différents outils
01:04 et ses expressions officielles en XML et en RDF.
01:09 Tu peux passer à la suivante.
01:11 Donc, le standard Prémis est un standard.
01:17 Il s'agit de l'acronyme Preservation Metadata Implementation Strategies et il s'agit d'un
01:29 standard de facto qui a été développé à l'origine plutôt dans le milieu des bibliothèques.
01:35 Maintenant, il est utilisé à la fois par les bibliothèques, les archives et dans d'autres
01:40 contextes également.
01:41 À partir de 2005 et donc le contexte, le cas d'usage qu'il tente de problématiser,
01:50 de couvrir, c'est l'information la plus large et la plus commune à tous les types
01:57 de documents dont vous avez besoin pour garantir à long terme la préservation des objets
02:02 numériques.
02:03 Je peux passer à la suivante pour présenter un petit peu ce dont on parle lorsqu'on parle
02:12 de Prémis.
02:14 Prémis, c'est d'abord le document principal, c'est un dictionnaire de données qui présente
02:21 à la fois le modèle de données et ce dictionnaire, cette liste arborescente d'éléments de
02:31 métadonnées qu'on appelle unités sémantiques, "Semantic Units", et qui crée une sorte
02:40 de checklist avec un certain nombre de définitions de tous les éléments nécessaires, tous,
02:47 non pas tous, mais une partie pour la préservation numérique.
02:52 Donc, je vous ai mis également le site, la caractéristique, le standard est maintenu
03:00 par un groupe d'experts, le "Premises Editorial Committee", qui est international, issu de
03:08 plusieurs secteurs, et la maintenance, la partie logistique est assurée par la bibliothèque
03:17 du Congrès.
03:18 Une des caractéristiques également qu'il faut avoir à l'esprit lorsqu'on pense Prémis,
03:22 c'est que, outre le dictionnaire de données, le groupe, le comité éditorial maintient
03:28 également une liste de vocabulaire contrôlée, qui sont des valeurs possibles pour chacune
03:34 de ces éléments de métadonnées, donc par exemple une liste de type d'événements
03:41 de préservation, une liste de type d'algorithme de hachage, d'empreinte numérique, qui est
03:49 maintenue par la bibliothèque du Congrès sur un site dédié à la publication de ces
03:55 vocabulaires web-sémantiques, et qui donc peut avoir un rythme de vie différent en
04:04 termes de mise à jour.
04:05 Voilà, je peux passer à la suivante.
04:07 Le périmètre de Prémis est donc relativement large, il couvre à la fois l'utilisabilité,
04:26 la compréhensibilité, l'intégrité et l'authenticité des objets numérés.
04:33 Voilà, donc cette fameuse pyramide des objectifs de préservation.
04:39 Pour autant, son périmètre est à la croisée de chemin d'un certain nombre de domaines
04:44 existants, et avec lesquels Prémis négocie un périmètre donné, notamment avec les
04:51 métadonnées descriptives, donc là c'est le contact avec Ric O qui est évident, et
04:56 pour lequel, a priori, le recoupement est relativement faible, et seulement pour certains
05:03 cas d'usage.
05:04 Là aussi où Prémis va arrêter son périmètre, c'est pour la description concrète des objets
05:11 numériques par type de contenu, donc dès qu'il s'agit de décrire une image fixe en
05:17 termes techniques, ou une vidéo, Prémis laisse la main à d'autres schémas de métadonnées
05:22 spécialisées.
05:23 Donc le modèle de données de Prémis, il est celui de haut niveau, bien sûr comme
05:34 il est arborescent, il a un certain nombre de groupements à l'intérieur qui vont devenir
05:40 des classes lorsqu'on parle ontologie, mais ici on a ce modèle donné de haut niveau
05:45 qui est relativement simple, avec l'élément principal qui est l'objet numérique, qui
05:51 peut être décrit à quatre niveaux différents, celui du fichier en termes informatiques,
05:57 bien sûr, celui de la représentation numérique, qui est un ensemble de données, de fichiers
06:02 qui va fournir une représentation numérique complète d'une entité intellectuelle.
06:10 Cette entité intellectuelle est hors du périmètre de Prémis, sauf pour un cas particulier,
06:15 sur lequel je ne m'étendrai pas, mais qui permet de traiter aussi des cas d'environnement
06:19 logiciel et matériel pour de l'émulation.
06:21 Mais sinon, c'est là le point de contact avec les autres standards.
06:25 Et puis enfin, au niveau plus bas que le fichier, il y a la possibilité de décrire à l'intérieur
06:29 du fichier des flux, par exemple à l'intérieur d'un conteneur audiovisuel, un flux vidéo,
06:35 un flux audio, un flux textuel synchronisé.
06:37 Ensuite on a les éléments, événements de préservation et agents intervenants là-dedans,
06:42 donc c'est les métadonnées de provenance, globalement, et enfin l'entité droit qui
06:48 présente l'ensemble des informations dont l'entrepôt numérique a besoin pour savoir
06:56 s'il a le droit ou non de réaliser telle ou telle opération de préservation.
07:00 Alors, je vous ai mis une petite image de ce dont ces unités sémantiques dont le dictionnaire
07:11 de données est fait essentiellement, une liste d'éléments, ici il s'agit de "inhibitors",
07:17 donc des mécanismes de protection qui peuvent entraver des opérations de préservation
07:22 avec toujours les contraintes d'utilisation, le "rational", donc la raison pour laquelle
07:28 il est souhaitable de conserver cette information-là, et des notes d'application et d'usage.
07:34 Voilà ce dont est faite la structure de ce dictionnaire de données, des éléments,
07:41 des atomes de ce dictionnaire.
07:43 Les usages de prémisses sont de nature un petit peu différente, les différents contextes
07:53 dans lesquels on les utilise, je vais les passer rapidement.
07:56 D'abord, le plus traditionnellement, et le plus de manière évidente, c'est dans
08:02 ce qu'on appelle les "manifestes", donc les fichiers de métadonnées qui sont embarqués
08:07 dans des paquets d'informations.
08:09 Généralement, assez souvent, prémisses sont utilisées à l'intérieur de fichiers
08:14 METS, et donc le groupe de travail a produit un document d'utilisation qui décrit la
08:26 façon dont ces deux standards doivent fonctionner ensemble.
08:29 J'ai mis également quelques cas où ces prémisses sont utilisées de cette manière-là.
08:35 Il est également utilisé dans une mesure plus ou moins importante par des très grands
08:39 acteurs de la préservation numérique à travers le monde, je cite les trois les plus
08:44 évidents, mais il y en a d'autres, Archivematica, Rosetta et donc Preservica.
08:49 Et puis enfin, dans une mesure relativement moindre, il est utilisé par certains outils
08:55 open source d'analyse, et notamment le cas d'Apachtica qui fournit l'information
09:02 de chiffrement des PDF en prémisses.
09:05 Donc, les expressions.
09:09 Comme je vous le disais, une prémisse est techniquement neutre, théoriquement.
09:14 On le sait bien dans les archives, la neutralité est un objectif.
09:20 La neutralité n'existe pas, mais on tend vers une sorte de neutralité.
09:25 Je dis cela parce que la nature arborescente du dictionnaire de données est très proche
09:29 de la logique XML.
09:30 Malgré tout, on essaie de permettre d'utiliser les prémisses dans des contextes différents,
09:37 bases de données relationnelles, bases de données XML, entrepôts de triplets comme
09:41 ce qu'on fait à la BNF.
09:42 Et parmi les expressions officiellement validées, il y a l'expression en XML pour
09:49 lequel, depuis très longtemps, il y a des schémas XSD.
09:52 Et puis, depuis la version 2 et maintenant la version 3, une ontologie qui fait la part
09:58 belle désormais au bon principe théoriquement du web sémantique et du modèle entité-association
10:05 avec la réutilisation notamment de Provo, de Dublin Core, d'ODRL, etc.
10:11 Et puis, pour terminer, un petit mot sur la conformité à prémisses.
10:16 On a un document spécifique pour savoir si les implémentations sont conformes et à
10:21 quel niveau.
10:22 Et elle s'articule sur deux plans.
10:24 La question de quelles entités on implémente, soit l'objet seul, soit l'objet plus les
10:30 métadonnées de provenance, donc événements et agents.
10:33 Et puis un deuxième plan qui est dans quelle mesure est-ce qu'on peut être le niveau
10:40 d'implémentation.
10:41 Le premier niveau qui est à travers la documentation d'alignement.
10:44 Donc on dit simplement voilà comment nos structures de données s'alignent avec les
10:50 logiques de prémisses par export, si c'est le deuxième niveau, et enfin par implémentation
10:56 interne, qui est le niveau le plus avancé en quelque sorte.
11:00 Et je crois que j'en ai terminé pour ce panorama très rapide de prémisses.
11:05 Voilà.
11:06 Merci beaucoup Bertrand.
11:08 C'est effectivement rapide mais également instructif.
11:13 Donc je voulais juste redire, comme tu l'as déjà dit, que les groupes EGAD et Prémisses
11:21 Editorial Committee se sont contactés pour travailler ensemble à voir comment articuler
11:32 les deux modèles ou au minimum produire en conjointement un document expliquant comment
11:40 utiliser Prémisses et RIC en même temps, ce qui sera nécessaire notamment pour la
11:50 description des archives numériques, sachant que comme Daniel l'a dit, le modèle RIC
11:59 et l'anthologie ne rentrent pas dans le détail de la description physique des documents
12:04 et par voie de conséquence des métadonnées qui servent à leur préservation dans le temps.
12:12 Pour en dire quelques mots en anglais, je voulais juste ajouter que l'EGAD et la Prémisses
12:21 Editorial Committee ont commencé à discuter de la façon dont nous pouvions articuler
12:27 les modèles ou au minimum produire un document en conjoint pour expliquer comment les utiliser
12:36 ensemble, ce qui serait nécessaire au moins pour la description des archives numériques,
12:46 sachant que le modèle RIC ne rentre pas dans le détail de la description physique des
12:54 documents et par voie de conséquence des métadonnées qui servent à leur préservation.
13:00 Merci.
13:01 [SILENCE]

Recommandations