Archivage numérique pérenne : OpenEdition collabore avec Huma-Num et le CINES

Humanités numériques

L’archivage pérenne des contenus d’OpenEdition est lancé ! Fruit d’une collaboration entre OpenEdition, Huma-Num et le CINES1 , cet archivage numérique permettra la conservation des publications d’OpenEdition Books et Journals dans le temps. À ce jour, plus de 2 000 ouvrages ont ainsi été archivés au CINES.

  • 1Centre Informatique National de l’Enseignement Supérieur

Un partenariat pour la préservation des données d’OpenEdition

La préservation à long terme est une préoccupation centrale dans le cycle de vie des données de la recherche et permet d’envisager leur potentielle réutilisation par des personnes n’ayant pas été impliquées dans leur création. En outre, certaines données de la recherche peuvent être considérées comme possédant une forte valeur patrimoniale et méritent à ce titre d’être préservées.

Dans le cadre de son partenariat avec le CINES, Huma-Num assure le lien avec les communautés SHS et les accompagne dans leur projet de préservation. Huma-Num assure le financement, identifie de nouveaux formats de données à préserver, les propose au CINES et participe au processus d’intégration de ces formats sur la plateforme du CINES. Dans ce contexte, les données d’OpenEdition étant exprimées en format TEI, une étude a été menée par Huma-Num en collaboration avec les experts de la communauté TEI pour introduire ce format au CINES. Le niveau d’exigence défini pour l’intégration de ce format au CINES a permis en retour à l’ensemble des producteurs utilisant ce format d’améliorer la qualité de leur production en particulier leur structuration et leur documentation. 

Le CINES apporte son expertise technique sur les formats, effectue un suivi archivistique et prend la responsabilité de la conservation sur le long-terme des données qui lui sont confiées pour le compte d’Huma-Num, en anticipant les risques liés à l’obsolescence technologique par des procédures d’assurance qualité et une planification de la préservation, et en répliquant les données sur un site distant pour parer à tout type de sinistre. 

L’archivage des contenus d’OpenEdition au CINES garantit l’intégrité, la lisibilité et la compréhension des publications. En revanche, cet archivage n’a pas pour objectif de maintenir la continuité d’accès aux plateformes d’OpenEdition : d’autres dispositifs sont en place, comme la sauvegarde des données au Centre de Calcul de l’IN2P3/CNRS.

Du point de vue des principes FAIR (données "faciles à trouver, accessibles, interopérables et réutilisables”), la préservation sur le long terme concerne la réutilisation des données. Le processus de préparation des données impose quant à lui d’utiliser des standards pour les données et métadonnées, garantissant ainsi une interopérabilité pour le futur. Un identifiant persistant (ARK) est généré pour chaque paquet archivé.

Comment les contenus d’OpenEdition sont-ils archivés ?

OpenEdition sélectionne les ressources à archiver puis prépare et envoie les archives en respectant les spécifications de la plateforme du CINES. Ces opérations sont effectuées à l’aide d’une application développée dans le système d’information d’OpenEdition comprenant une interface de gestion pour l’équipe du laboratoire.

Pour chaque publication d’OpenEdition, sont archivés les fichiers suivants : le format TEI pour l’ensemble des unités éditoriales d’un volume (chapitre, articles), le format METS pour la description du volume, mais aussi les images et les PDF des volumes et des unités éditoriales. La description des documents archivés se fait par le standard DublinCore.

Pour être archivables au CINES, les fichiers doivent être valides, et leur conformité sera testée au moment du versement. Avant archivage, OpenEdition réalise des corrections éventuelles sur les documents déjà publiés, ce qui permet d’améliorer la qualité des données de la plateforme en optimisant la structuration TEI des documents et les fichiers images et PDF.

À ce jour, le nombre de publications à archiver s’élève à environ 10 800 pour OpenEdition Books et 15 000 pour OpenEdition Journals (numéros et rubriques annuelles pour les revues en flux continu). 

En avril 2020, la mise en production de l’application d’OpenEdition a permis d’envoyer les premiers ouvrages au CINES. Depuis septembre 2020, l’équipe d’OpenEdition a mis en place un processus pour l’archivage de l’ensemble des livres, en commençant par ceux publiés avant septembre 2019 sur OpenEdition Books. Plus de 2 000 livres ont été archivés à ce jour, cela représente plus de 60 000 fichiers images (JPEG ou PNG) et plus de 28 000 fichiers TEI.

Les ressources à archiver pour les revues étant différentes, l’archivage des publications d’OpenEdition Journals nécessitera une adaptation de l’application. 

 

OpenEdition