10 000ème ouvrage archivé ! Le CINES, Huma-Num et OpenEdition, trois acteurs majeurs au service de l’archivage pérenne en SHS

Institutionnel Humanités numériques

Le 23 avril 2020, OpenEdition, en collaboration avec Huma-Num, déposait son 1er ouvrage au CINES. 4 ans plus tard, OpenEdition a dépassé les 10 000 ouvrages archivés de manière pérenne. A cette occasion, Huma-Num, OpenEdition et le CINES proposent de revenir, par le biais d’une interview, sur cette collaboration historique et les enjeux de la préservation à long terme en sciences humaines et sociales.

Qu’est-ce que l’archivage pérenne ou archivage à long terme et quels sont ses enjeux dans le domaine des sciences humaines et sociales ?

[Olivier Rouchon] L’archivage à long-terme consiste à préserver l’aspect (la forme) et le sens (le fond) de l’information contenue dans des objets numériques sans limitation de durée, sur un temps suffisamment long pour faire face à des changements notamment  technologiques susceptibles de remettre en cause leur lisibilité et leur compréhension.

[Nicolas Larrousse] Les données numériques utilisées pour la recherche en Sciences Humaines et Sociales ont souvent une forte valeur patrimoniale et il est parfois impossible de les produire à nouveau. C’est principalement pour ces raisons qu’il y a un enjeu à préserver ces données sur un temps long avec leur contexte de production afin de pouvoir être réutilisées par les futures générations de chercheurs en Sciences Humaines et Sociales. 

Pourquoi et comment la collaboration avec Huma-Num s’est-elle mise en place ?

[Olivier Rouchon] La collaboration entre Huma-Num et le CINES sur l’archivage pérenne de données SHS a débuté en 2010 avec le projet d’archives du CRDO (LACITO/COCOON).

[Pascal Dugénie] Afin de prendre en compte ces nouvelles collections de données orales et de respecter les recommandations OAIS, quatre nouvelles fonctionnalités ont été ajoutées à PAC (Plateforme d’Archivage du CINES) : (i) l’ajout d’un contrôleur de formats audio/video, (ii) la création d’un mécanisme de diffusion pour l’anonymisation des données sensibles mais cette fonctionnalité n’est pas utilisée dans le cadre d’OE, (iii) la réplication distante vers le site du CC-IN2P3 à Lyon avec le protocole iRODS, (iv) l’utilisation de Schematron pour implémenter des règles spécifiques de gestion des versions, des mise-à-jour des métadonnées et des relations de filiation entre paquets.

[Michel Jacobson] Dès 2008, le TGE-Adonis (qui donnera naissance en 2013 à la TGIR Huma-Num) réfléchit à la mise en place d’une organisation pour pérenniser les données numériques de la recherche en SHS. En effet, ces données, souvent à cheval entre le scientifique et le patrimonial, peuvent être précieuses sur de multiples aspects et demander une gestion (pour le maintien de leur authenticité et de leur intégrité) qui peut s’avérer coûteuse sur un temps long. Ce coût peut parfois être hors de portée des producteurs ou collecteurs, financièrement mais aussi simplement parce que ces unités ne sont elles-même pas pérennes.

La mise en place de la chaîne d’archivage s’est faite entre 2008 et 2010 en rassemblant autour du TGE-Adonis une équipe projet avec des compétences techniques (les centres de calcul CC-IN2P3 et CINES), des compétences archivistiques (le service d’archivage numérique du CINES et la tutelle administrative pour les archives publiques le SIAF) des compétences “métier” sur les données de l’oral (les centres de ressources COCOON et le SLDR) et un accompagnement par un consultant du CNES spécialiste du modèle OAIS. 

La volonté du TGE de l’époque était de mettre à disposition des chercheurs, des projets et des laboratoires une organisation qui prenne en charge la responsabilité de la conservation de leurs données jusqu’au moment de leur versement auprès du service d’archives définitif compétent (en général les Archives nationales).

L’expérience sur les données de l’oral ayant été satisfaisante de l’avis de l’ensemble des partenaires du projet pilote, il a été décidé de généraliser la démarche et d’ouvrir ce service à d’autres producteurs et à d’autres types de données.

Quand est survenue la question de l’archivage pérenne des ouvrages d’OpenEdition au CINES et pour quelle(s) raison(s) ?

[Émilie Cornillaux] La question de l’archivage pérenne des ouvrages d’OpenEdition au CINES a émergé en 2015 dans le cadre d’une collaboration avec Huma-Num. Cette initiative a abouti en avril 2020 avec le déploiement de l’application d’OpenEdition et l’envoi des premiers ouvrages vers la plateforme d’archivage du CINES, fruit d’un travail collectif entre le service Données, le service Développement logiciel et le service Livres et revues d’OpenEdition. L’archivage pérenne revêt une importance cruciale pour les éditeurs, les bibliothèques et les utilisateurs, car il garantit la conservation à long terme des données publiées sur OpenEdition. L’objectif principal est d’assurer l’accès continu au contenu tout en préservant son intégrité, son intelligibilité et sa lisibilité.

Quel a été l’impact de la mise en place de cette collaboration sur la question de la qualité des données pour l’ensemble des 3 partenaires ?

[Olivier Rouchon] Au CINES, cela a impliqué l’étude du format TEI, qui n’était pas pris en charge par la plateforme d’archivage, et de voir dans quelle mesure il pouvait devenir éligible. Puis, il a fallu développer le module de vérification de conformité au format des fichiers déposés.

[Nicolas Larrousse] Comme cela est toujours le cas, Huma-Num s’est appuyée sur ses communautés utilisatrices pour identifier les besoins concernant le format TEI (Text Encoding Initiative). En collaboration avec le CINES et ces communautés, nous avons pu identifier les besoins de vérifications et les outils disponibles pour mettre en œuvre un processus qui permette au CINES de s’assurer de la conformité des données déposées. Cela a permis l’amélioration de la qualité des productions des créateurs de TEI qui déposent au CINES. OpenEdition a ainsi pu effectuer quelques correctifs sur son flux de création de fichiers en format TEI. 

[Émilie Cornillaux] Nous avons intégré la vérification de la conformité des données au processus d’archivage des contenus d’OpenEdition, contribuant ainsi à l’amélioration globale de la qualité des données de la plateforme. Chaque fichier XML est analysé pour sa conformité au schéma TEI, et les PDF et les images sont soumis au service de validation de formats du CINES (FACILE). Cette démarche garantit également le respect des critères de publication d’OpenEdition qui concernent à la fois les fichiers sources des documents importés (structuration TEI, encodage des documents Word) et les fichiers associés (images, PDF).

Quels sont les objectifs de l’archivage pérenne pour OpenEdition et les nouveaux enjeux auxquels cette collaboration devra faire face dans les années à venir ?

[Émilie Cornillaux] ​​Les objectifs de l’archivage pérenne pour OpenEdition impliquent une transition prochaine vers la nouvelle version de PAC (la Plateforme d’Archivage Électronique du CINES) qui se basera en très grande partie sur la solution VITAM (Valeurs Immatérielles Transmises aux Archives pour Mémoire) au lieu de la solution Arcsys encore actuellement en production. Ce transfert vers les protocoles VITAM repose sur l’adoption du Standard d’échange de données pour l’archivage (SEDA 2.1), en remplacement du Dublin Core actuellement utilisé par OpenEdition. Un effort considérable a été entrepris pour produire des données conformes au SEDA 2.1, permettant ainsi un versement direct dans VITAM et l’utilisation de sa nouvelle API. Le CINES et HumaNum ont collaboré étroitement avec OpenEdition dans cette démarche. Par ailleurs, OpenEdition envisage de faire évoluer son application interne pour l’adapter à l’archivage des publications présentes sur OpenEdition Journals dont les objets diffèrent de la plateforme Books. Les métadonnées associées aux numéros et rubriques annuelles ne sont pas les mêmes que celles des livres et une réflexion doit être menée sur les éléments à archiver (fichiers PDF, types de documents, fichiers annexes, etc.). Il s’agit là d’un des principaux enjeux pour les années à venir.

[Nicolas Larrousse] Dans le cadre de l’EquipeX+ COMMONS, Huma-Num collabore avec OpenEdition et Metopes à établir de manière non ambiguë le lien entre les données et les publications. Cela demandera d’adapter l’archivage de données stockées sur la plate-forme NAKALA associées à des publications issues des plate-formes d’OpenEdition : lorsque les outils de productions seront mis en oeuvre par COMMONS, il sera alors nécessaire d’établir une nouvelle coopération entre les trois partenaires pour prendre en compte ces nouveaux objets.

Cette collaboration a-t-elle ouvert d’autres dynamiques d’archivage pérenne au CINES dans le domaine des SHS ?

[Olivier Rouchon] L’ajout de la TEI à la liste des formats de fichier acceptés sur le plateforme d’archivage a ouvert le champ des possibles pour de nouveaux projets, dont ORTOLANG.

[Michel Jacobson] Une des premières étapes du projet a été l’étude des formats utilisés par le service  « OpenEdition Books » afin de déterminer sous quelles formes préserver les informations. Les formats PDF ou Epub proposés par le portail d’OpenEdition ont rapidement été écartés puisque étant des formes dérivées et facilement reproductibles à partir du format source (XML/TEI). A ce format source, se sont ajoutés quelques formats d’image (PNG, JPEG, GIF) pour les illustrations encapsulées dans les ouvrages. Enfin les fichiers PDF ont finalement été ajoutés afin de préserver un fac-similé de l’époque de l’édition.

L’ensemble de ces formats était déjà accepté par la plateforme du CINES qui disposait d’outils permettant de contrôler leur bonne formation, mais ni la sémantique ni les liens entre les fichiers pour construire un ouvrage édité n’étaient pris en considération. Nous avons donc souhaité ajouter ce format XML/TEI comme nouveau format à part entière afin d’améliorer les contrôles qui pouvaient porter dessus.

Nous avons organisé un groupe de travail élargi avec différents acteurs de la recherche utilisant ce format. Ce groupe de travail a abouti après un long temps de réflexion à la définition de contraintes complémentaires à la validation unitaire des fichiers composant un ouvrage. Ces nouvelles contraintes permettent de vérifier des éléments de cohérence, d’intégrité, de complétude et de documentation de l’ensemble des fichiers qui composent l’ouvrage.

Cette action a rapidement dépassé la stricte utilisation par OpenEdition puisqu’avant même la mise en production de sa chaîne d’archivage, un autre projet (les manuscrits anciens de l’IRHT) qui utilisait aussi ce format TEI a pu essuyer les plâtres de cette nouvelle validation. En perspective, nous avions aussi au moins 3 autres déposants ou futurs déposants identifiés qui pouvaient tirer partie de l’arrivée de ce nouveau format au CINES : à savoir, les entrepôts tels que Nakala, Cocoon et Ortolang.

Au bénéfice de cette étude, on peut également imputer l’introduction de ce format TEI au registre de formats PRONOM (référentiel des archives du Royaume-Unis très largement utilisé dans le monde des archives). Une conséquence directe de cette introduction est la possibilité d’identifier automatiquement un fichier TEI (distinct d’un autre fichier XML) avec l’outil DROID (également des archives du Royaume-Uni et aussi très largement utilisé dans le monde des archives).

Émilie Cornillaux, administratrice des systèmes d’information au sein du service Données d’OpenEdition ; Nicolas Larrousse, directeur adjoint de l’IR* Huma-Num ; Michel Jacobson, expert en archivage numérique à Huma-Num ; Pascal Dugénie, directeur adjoint-technique du CINES (ex. ingénieur CNRS pour le projet TGE ADONIS) ; Olivier Rouchon, responsable des Données de la Recherche CNRS-DDOR (ex. responsable du département archivage et diffusion au CINES) ; Philippe Prat, responsable du département archivage et services aux données au CINES.

En savoir plus

HumaNum

OpenEdition