Reproductibilité et réplicabilité des données en recherches participatives

La Lettre Autres

#ZOOM SUR…

Maître de conférence en physique quantique et en spectroscopie à l’université de Montpellier, Kenneth Maussang est membre de l’Institut d'électronique et des systèmes (IES, UMR5214, CNRS / Université de Montpellier). Ses recherches actuelles portent sur les technologies térahertz, l'informatique quantique, la spectroscopie térahertz de la matière désordonnée, l'analyse de données, l'apprentissage automatique et l'IA appliqués à la spectroscopie et à l'imagerie hyperspectrale. Il a co-rédigé, en mars 2023, un rapport présentant les résultats d'une enquête relative aux sciences participatives, et notamment à la qualité des données et métadonnées ainsi qu’à leur ouverture.

Les recherches participatives consistent en « des formes de production de connaissances scientifiques auxquelles des acteurs non-scientifiques professionnels — qu’il s’agisse d’individus ou de groupes — participent de façon active et délibérée »1 . Le terme de non-scientifique professionnel désigne tout individu qui n’est pas, du fait de l’exercice de sa profession, au contact d’une activité de recherche scientifique. Cela peut également désigner des professionnels du domaine mais n’exerçant pas une profession en lien avec une activité de recherche stricto sensu.  Ces pratiques ont commencé à se développer dès les années 1970, notamment dans le cas de projets impliquant des données observationnelles ou en recherche-action. Le déploiement d’un accès à Internet haut-débit permettant l’échange quasi-instantané des informations et des données, suivi en 2007 de l’arrivée des premiers smartphones, ouvrent un nouveau champ des possibles pour les recherches participatives. En 2022, 87 % de la population française était équipée d’un smartphone2 , et plus de 95 % pour les 18-39 ans. Le smartphone est un outil transportable et compact, permettant à tout un chacun non seulement d’échanger de la donnée, mais également de disposer de capteurs intégrés pour l’acquisition de données « sur site » : photos, vidéos, enregistrements sonores, géolocalisation GPS, etc. Ces technologies concurrencent les canaux traditionnels de production, de conservation et de transmission des connaissances, facilitant les échanges de données avec la population générale.

Le collège Données de la recherche du Comité pour la Science Ouverte (CoSO) a travaillé sur la production, le cycle de vie des données de recherche et plus généralement l’appréhension de la notion d’une donnée de recherche dans un projet de recherches participatives. À la suite d’une enquête nationale3 ayant récolté 359 réponses dont 87 de porteurs de tels projets, complétée par dix entretiens ciblés, un rapport4 présente quinze recommandations destinées aux chercheuses et chercheurs qui souhaitent démarrer un projet de recherches participatives. L’implication de non-scientifiques professionnels dans un processus de recherche peut engendrer des craintes légitimes quant à la fiabilité des données produites et, donc, à la crédibilité des résultats du projet de recherche mené. Ce travail a donc nécessité une réflexion approfondie sur les problématiques de réplicabilité et de reproductibilité des données de recherche. Une recherche participative est un projet de recherche donnant à voir la science en train de se faire, permettant aux citoyens d’être des contributeurs actifs de la création de connaissances et non simplement d’avoir accès aux connaissances établies. Elle donne à voir le fonctionnement intime de la recherche scientifique, ainsi que la variété des métiers impliqués. De manière analogue, les arts de rue placent le spectateur dans une nouvelle dimension dans son rapport avec les artistes, avec l’irruption d’une scène commune dans l’espace public et la notion de « public-population ». Le lieu de création artistique n’est plus sanctuarisé au sens qu’il n’existe plus de limite claire entre le réel et l’imaginaire, constituant ainsi un vecteur d’inclusivité d’un public différent vers l’art et la culture, sans en canaliser l’accès par les rouages traditionnels mis en place par la société (musées, théâtres, etc.) La contribution active des citoyens dans un projet de recherche est un levier d’inclusivité quant à l’acculturation à la démarche scientifique, mais également de compréhension et d’acceptation de l’action publique. À ce titre, une loi sur les recherches participatives a été votée aux États-Unis en 2016 (Crowdsourcing and Citizen Science Act) dans le cadre du plan d’action national d’Open Government.

1
Figure 1 - Processus de recherche simplifié : de l’objet de recherche à la production de connaissances. Chaque étape peut impliquer des opérateurs, des protocoles, des instruments ou des outils informatiques

Dans un projet de recherches participatives, la donnée de recherche constitue la matière première de l’échange entre les chercheurs/chercheuses et les participants extérieurs. Un processus de recherche peut, de manière simplifiée, être décomposé en quatre temps (voir Figure 1), nécessitant l’utilisation d’instruments, d’outils, de protocoles ainsi que l’implication d’opérateurs humains à chaque étape. L’objet de recherche peut exister nativement ou bien résulter d’un processus de production ou de collection d’échantillons préalable. Les données de recherche brutes sont issues du traitement de cet objet d’étude par l’application d’un protocole dédié. De l’analyse de ces données brutes résultent des informations utiles à des fins de production de connaissances. Chaque étape de ce processus global peut être impacté par l’intervention des participants non-professionnels, y compris en phase de conception dans les démarches de co-création. La qualité d’une donnée produite ne peut s’apprécier qu’au regard de la question de recherche posée. Un projet participatif va impliquer plusieurs centaines voire plusieurs milliers de personnes, qui n’ont ni les réflexes d’un professionnel, ni le niveau de formation scientifique et technique. La formation des participants, ainsi que la clarté et la faisabilité des protocoles deviennent critiques. Dans des démarches participatives, il convient de s’assurer que les protocoles soient suffisamment détaillés et accessibles aux participants afin de garantir la réplicabilité des tâches qui leurs sont confiées, et ce malgré l’hétérogénéité de niveaux de connaissances et de motivations de ces derniers. Un protocole doit être préalablement testé avant diffusion massive, voire co-construit avec des participants afin de s’assurer de son accessibilité et de la faisabilité des tâches associées.

La crédibilité des connaissances produites est assurée par la légitimité institutionnelle des professionnels de la recherche encadrant le projet (voir Figure 2). La fiabilité des données produites par les participants relève de la mise en place d’une stratégie qualité par les chercheurs professionnels, la reproductibilité en étant un élément essentiel, gage de crédibilité des connaissances produites. Cette stratégie qualité peut consister à évaluer le travail des participants et leur attribuer des scores de confiance dynamiques. Ceux-ci peuvent être produits à partir de contrôles croisés entre contributeurs sur des jeux de données similaires ou identiques, ou de vérifications aléatoires par des experts professionnels. Cette comparaison entre la production des participants et la production d’un professionnel permet d’évaluer la reproductibilité des résultats. Ces stratégies qualités nécessitent alors de maintenir le lien entre une donnée et son (ses) contributeur(s), mais également l’intégralité des traitements appliqués, les codes correspondants, l’échantillon ou l’objet d’étude associé, le protocole mis en œuvre et la documentation des instruments ou outils utilisés. Cela nécessite par conséquent de tout conserver : données brutes, traitements appliqués et protocoles utilisés. Il convient de conserver les erreurs en les signalant quitte à qualifier la donnée (normale, anormale, erreur). Le principe de conservation de l’ensemble des données de recherche n’est pas spécifique aux recherches participatives, et est inscrit dans le décret de décembre 2021 sur l’intégrité scientifique. Le partage des données (ouverture) permet usuellement d’élever la qualité des contributions. Les données étant immédiatement partagées par les pairs, une forme d’exigence mutuelle de la part des contributeurs de données se met en place : un mécanisme de « pression du groupe » sur le résultat de son travail, exposé à la vue de tous, est inconsciemment mis en place.

Dans une étape ultime, le succès d’un projet de recherches participatives tend à l’appropriation de l’objet de recherche par les citoyens participants. Ce fut le cas du projet « Derrière le Blob, la recherche », qui a donné lieu non seulement à des reportages (52 minutes sur Arte) mais aussi à une diffusion populaire de l’objet « Blob » dans sa symbolique d’interconnexion (voir Figure 3). L’objet de recherche devient alors un objet culturel.

2
Figure 2 – La fiabilité des données produites par les participants nécessite d’instaurer une stratégie qualité afin de garantir la réplicabilité des protocoles distribués aux participants. La crédibilité des résultats obtenus est assurée par la légitimité institutionnelle des chercheurs professionnels. La fiabilité des connaissances produite est alors assurée si ces dernières sont reproductibles par un ou des chercheurs professionnels du domaine
  • 1Houllier F., Merilhou-Goudard J-B. 2016, Sciences Participatives en France. Etats des lieux, bonnes pratiques et recommandations. https://hal.inrae.fr/hal-02801940
  • 2ARCEP - Enquête sur la diffusion des technologies de l’information et de la communication dans la société française en 2022.
  • 3Maussang K., Jouguet H., Jouneau T., Martin J.-F., Larrousse N. 2023, Recherches participatives, innovation ouverte et science ouverte. Résultats de l'enquête nationale, Comité pour la science ouverte. https://hal-lara.archives-ouvertes.fr/hal-04074860.
  • 4Maussang K., Jouguet H., Jouneau T., Martin J.-F., Larrousse N. 2023, Données et recherches participatives. Enjeux et recommandations issues d'exemples de projets de recherches participatives, Comité pour la science ouverte. https://hal-lara.archives-ouvertes.fr/hal-04221292.

Contact

Kenneth Maussang
Maître de conférence en physique quantique et en spectroscopie à l’université de Montpellier, membre de l’Institut d'électronique et des systèmes