L'infrastructure de recherche Huma-Num IR* : 10 ans de construction collective

La Lettre Arts et littérature Humanités numériques

#À PROPOS

Dès sa création en 2013, par la fusion de deux infrastructures existantes1 , Huma-Num s’est construite en associant l’expertise des communautés en sciences humaines et sociales et une infrastructure informatique de haut niveau.

  • 1Le TGE Adonis qui fournissait des services numériques et l’IR Corpus qui appuyait les communautés dans leur processus de numérisation de ressources.

1

Ce mode de développement original a nécessité une faculté d’adaptation agile pour suivre au plus près les  évolutions constantes et rapides des besoins des communautés. De la simple sauvegarde de données en péril par le passé à l’utilisation, commune aujourd’hui, d’outils sophistiqués traitant de nouveaux types de données comme celles  issues de capteurs LIDAR, ou issues de modèles fondés sur l’intelligence artificielle, ces dix années ont procuré à Huma-Num un point de vue unique sur la transformation des pratiques de recherche dans les différents domaines des sciences humaines et sociales. 

Dans un mouvement parallèle, la place prise par les données dans le processus de recherche et la reconnaissance de leur importance ont aussi considérablement progressé durant cette décennie. Le développement des plans de gestion de données résulte de cette évolution et met en évidence le rôle des services numériques apportés par les infrastructures de recherche sur tout le cycle de vie des données et adaptés aux pratiques des communautés.

Compte-tenu de la diversité des disciplines, il convient d’articuler le travail fait par l’équipe d’Huma-Num avec des expertises issues des différentes communautés. Cette articulation offre le double avantage de s’assurer que les services développées par l’équipe technique de l'infrastructure correspondent aux besoins actuels des projets de recherche et d’accompagner ceux-ci par un réseau d’experts de haut niveau. Pour mettre en œuvre en pratique cette démarche, Huma-Num a conçu un processus de labellisation permettant à un groupe de personnes, exerçant différentes activités au sein du monde de la recherche (c’est-à-dire les chercheurs/chercheuses, ingénieures, archivistes, etc.), de travailler ensemble sur un même sujet et de bénéficier d’un financement sur quatre ans pour mener à bien un programme validé par le conseil scientifique d’Huma-Num. Ces Consortiums-Huma-Num ont eux aussi beaucoup évolué, en adéquation non seulement avec la transformation des pratiques mais aussi avec le développement de nouveaux types d’objets scientifiques. Par exemple, l’utilisation de la 3D, à l’origine utilisée plutôt en archéologie, permet de répondre à des problématiques dans d’autres disciplines comme la géographie. De même, les outils permettant l’utilisation de données historisées, qui sont développés par le consortium Paris Time Machine sont utiles pour aborder de nouvelles approches en linguistique, littérature et même philologie. Ces Consortiums-Huma-Num jouent un rôle essentiel dans l’évolution de l’infrastructure par leur production de ressources : des guides de bonnes pratiques, des outils, des formations et de l’innovation scientifique. Une autre approche d’intégration des communautés est réalisée via les Maisons des sciences de l’Homme et leur réseau national dans lesquels Huma-Num développe un réseau de correspondants et des projets collectifs. Les collaborations avec les communautés s’étendent à d'autres partenaires nationaux comme la BnF avec le BnF DataLab qui facilite l’accès pour les projets de recherche aux collections de la BnF.  Ces collaborations se prolongent naturellement au niveau international, en particulier européen (voir encadré).  

1
Schéma 1 - Cycle de vie des données d’un projet de recherche en sciences humaines et sociales

Ces coopérations ont permis à Huma-Num de développer un ensemble de services adaptés à chaque étape du cycle de vie des données d’un projet de recherche en sciences humaines et sociales (voir Schéma 1) : du stockage de données, de leur traitement par les outils adaptés, puis de leur publication sur la plate-forme NAKALA. À un niveau plus général, Huma-Num propose un moteur de recherche : ISIDORE. Il s’agit d’un véritable assistant qui permet aux projets de recherche l’accès unifié à de nombreuses ressources de tous types (par exemple des publications, des données, des billets de blog, etc.) dans le domaine des  sciences humaines et sociales. ISIDORE est également un outil important de valorisation des productions en sciences humaines et sociales au niveau international. Tous ces services sont hébergés au sein du centre de calcul de l’IN2P3-CNRS  à Villeurbanne.

Quels sont les grands axes de développement de Huma-Num pour les années à venir ?

Ce dispositif qui associe étroitement l’infrastructure technologique à ses utilisateurs a aujourd’hui atteint une certaine maturité. Cette maturité se signale notamment par le déploiement de services relais autour des Huma-Num box au sein en particulier des MSH. Cela permet d’envisager le développement de nouveaux outils et services. L’EquipeX+ COMMONS, qui associe les infrastructures OpenEdition et METOPES, en est un exemple significatif. Le but principal de ce projet est de construire des passerelles entre les services des infrastructures afin de donner les moyens aux communautés de recherche d’associer simplement les données et les publications.

Le premier grand chantier pour les années à venir est de faire évoluer l’infrastructure informatique et les services dédiées à la sécurité des données et aux outils de stockage et de calcul afin de permettre aux acteurs de la recherche en sciences humaines et sociales de bénéficier des pratiques les plus innovantes.

Le deuxième chantier, qui est déjà en cours, est l’amélioration de la qualité des données. En effet, même si les données sont dites “FAIR”, cela ne signifie pas pour autant que le contenu, tant des données elles-mêmes que des métadonnées descriptives associées, soit de qualité suffisante pour être découvrable et réutilisé.

Pour cela, Huma-Num va solliciter ses communautés et partenaires,  en cohérence avec le dispositif national des Ateliers de la données mis en place par Recherche Data Gouv au sein duquel Huma-Num est un centre de référence thématique. Pour compléter et faciliter ce travail, des outils doivent être développés. Ces outils sont pour beaucoup encore à inventer et intégreront certainement les avancées technologiques dont celles de l'Intelligence Artificielle. Ainsi, plusieurs directions de recherche sont aujourd’hui envisagées pour être intégrées dans l’entrepôt NAKALA :

  • classifier automatiquement les données par qualité afin d’identifier les potentialités d’amélioration de la qualité et pouvoir en faire un retour aux déposants ;
  • améliorer les métadonnées existantes par des alignements avec des référentiels ;
  • générer de nouvelles métadonnées lorsque cela est possible par exemple pour des données textuelles ou des images.
 

Collaborations européennes

Il est apparu rapidement, surtout compte tenu du fait qu’il n’existait pas beaucoup de modèles pour une infrastructure dédiée aux sciences humaines et sociales, que le développement d’Huma-Num ne pouvait se concevoir sans tenir compte des expériences des autres disciplines et des autres pays notamment en Europe. Pour cela, Huma-Num s’est fortement impliquée dans la construction d’infrastructures européennes de type ERIC — notamment DARIAH dont la création est contemporaine de celle de Huma-Num —, et dans plusieurs projets européens. Ces activités ont facilité les échanges avec les collègues européens en intégrant différents réseaux d’expertise. Ces échanges ont contribué non seulement à nourrir la construction de l’infrastructure nationale mais également à valoriser les productions de la recherche française au niveau international. 

Les partenaires européens de Huma-Num ont été invités dans le cadre des 10 ans de Huma-Num pour échanger sur  les relations entre les niveaux nationaux et européens de la recherche en sciences humaines et sociales. De ces discussions, il ressort que la diversité des situations dans l'organisation des infrastructures nationales se retrouve également dans le nombre d’infrastructures européennes. Cela conduit les pays à définir une stratégie de participation à ces infrastructures nationales en fonction des priorités elles aussi nationales. En effet, ces infrastructures européennes reflètent les différents besoins exprimés par les communautés et leur fusion ne serait probablement pas pertinente. En revanche, ces infrastructures doivent collaborer plus étroitement et définir des stratégies communes en particulier pour porter la voix des sciences humaines et sociales au niveau européen. La création du SSH Open Cluster est notamment une réponse à ce besoin. Dans ce cadre, les différentes infrastructures coopèrent et apprennent les unes des autres, et apportent des bénéfices mutuels comme le démontre une décennie de coopération.

Le troisième chantier, ISIDORE 2030, doit apporter un socle d’innovation scientifique pour l’ensemble des SHS. Il s’agit de transformer les technologies utilisées par le moteur de recherche en intégrant les nouveaux modèles d’indexation, eux aussi fondés sur l'Intelligence Artificielle. Cette mutation ambitieuse doit permettre de développer un ensemble de services articulés avec l’entrepôt de données Nakala émulant les pratiques scientifiques de demain. Ce projet se fera en partenariat avec une entreprise privée dans le cadre d’un co-développement. 

2
Schéma 2 - Huma-Num, une infrastructure de partage des savoirs centrée sur les projets de recherche dans une démarche internationale

Enfin, si l'avenir de Huma-Num passe par l’intégration d’outils innovants, ceux-ci seront plus que jamais pensés et développés en totale coopération avec les communautés et les acteurs de la recherche. Il s’agit, in fine, de se transformer en une infrastructure de partage des savoirs (knowledge infrastructure) centrée sur les projets de recherche (voir schéma 2) dans une démarche internationale.

Contact

Olivier Baude
Directeur de l'infrastructure de recherche Huma-Num IR*