Progedo : des grandes enquêtes en FAIR

Lettre de l'InSHS Autres

#ZOOM SUR...

Dirigée par Nicolas Sauger, professeur à Sciences Po et spécialiste de méthodes quantitatives, l’infrastructure de recherche étoile (IR*) Progedo a pour but de développer la culture des données, d’impulser et structurer une politique des données d’enquêtes pour la recherche en sciences sociales.

Lors de son inscription sur la première feuille de route nationale pour les infrastructures de recherche, Progedo s’est vu doté d’une double mission : coordonner la production des grandes enquêtes définies par les infrastructures européennes de recherche dans le domaine des sciences sociales et assurer la mise à disposition pour la recherche des grandes enquêtes issues de la statistique publique et de la recherche. Cette double mission a fait de Progedo un acteur incontournable sur la scène nationale et européenne des grandes enquêtes, à l’instar des grandes archives internationales de sciences sociales. Malgré une différence de taille très substantielle, Progedo, par son patrimoine d’enquêtes de référence, se compare ainsi à des références telles que le Leibniz Institute for Social Sciences (GESIS, en Allemagne) ou le Centre de compétences suisse en sciences sociales (FORS). Même si les activités de Progedo se sont depuis diversifiées, collecte et diffusion des grandes enquêtes restent aujourd’hui encore au cœur des activités de Progedo.

Si l’ensemble des grandes enquêtes du périmètre de Progedo relève d’une approche quantitative, principalement des enquêtes par questionnaire, c’est la qualité plutôt que le nombre d’enquêtes qui oriente les activités de l’infrastructure. La qualité d’une grande enquête, c’est d’abord son respect des standards statistiques. L’échantillonnage aléatoire — c’est-à-dire une sélection des unités d’observation inclues dans le périmètre d’un sondage ne dépendant que de règles explicites, réalisées en amont de la collecte et comprenant une part de hasard —, est l’un de ces indicateurs possibles de qualité. Il n’est ni nécessaire ni suffisant mais il donne la possibilité, par exemple, d’un calcul de pondérations construites autour de la probabilité de sélection — en fonction du design et de l’observation de la réponse ou de la non-réponse des individus visés dans l'échantillon —, plutôt qu’une simple correction par redressement — en calant les marges de l’échantillon sur celles de la population cible. Ceci ne garantit pas forcément la représentativité de l’échantillon mais donne du moins de meilleurs moyens d’en juger notamment en observant l’existence de biais systématiques dans la réponse et la non-réponse.

f1
Résultats du module de l’Enquête sociale européenne sur la démocratie Source : Frédéric Gonthier (2024, 23 mai). Compréhensions et évaluations de la démocratie – résultats de l’enquête ESS10. PROGEDO. Consulté le 24 juin 2024, à l’adresse https://doi.org/10.58079/11pn5

Une enquête de qualité, c’est également une enquête disposant d’une documentation riche, dont les métadonnées permettent de comprendre précisément les conditions de production et le sens du contenu. Pour les enquêtes en sciences sociales, notamment quantitatives, le standard DDI (Data Documentation Initiative) définit ainsi les champs devant être renseignés. Ils concernent tant l’enquête (de l’auteur à sa date de production et passant par le type d’échantillonnage) que les variables à disposition elles-mêmes. C’est ce qui est affiché par exemple sur le catalogue de données data.progedo.fr. Ces métadonnées représentent la condition nécessaire (mais non suffisante) de la « FAIRisation » des enquêtes, c’est-à-dire la possibilité de réutilisation effective de ces données. Pour cela, il faut qu’elles soient effectivement trouvables (F), accessibles (A), interopérables (I) et réutilisables (R). Pour être considérée comme une grande enquête, le partage, au-delà de la qualité, paraît en effet une notion centrale. Mais sa réutilisation effective, et de nombreuses fois, est évidemment encore plus importante ! Cette notion de partage s’inscrit largement dans le mouvement d’ouverture des données. Elle le précède dans sa conceptualisation, un centre de redistribution de données de sondages existe par exemple depuis les années 1940 aux États-Unis, avec le Roper Center for Public Opinion Research. Elle en diffère également parce que la plupart de ces données ne sont pas directement accessibles. Des garanties sont nécessaires pour à la fois s’assurer de la finalité de ces réutilisations et garantir le principe de confidentialité de ces réponses, la diversité des informations obtenues auprès des participants aux enquêtes permettant rarement une anonymisation totale de leur réponse.

Ainsi définies, le patrimoine des enquêtes du périmètre de Progedo peut être ainsi distingué suivant que Progedo contribue à leur production ou à leur diffusion, les enquêtes produites étant rarement diffusées dans le cadre direct de l’infrastructure puisque participant à une logique comparative et internationale.

En termes de production, les grandes enquêtes sont d’abord celles définies par la feuille de route nationale du ministère de l’Enseignement supérieur et de la Recherche et par la feuille de route européenne des infrastructures de recherche. À ce titre, Progedo participe à trois séries d’enquêtes principales : ESS, SHARE et GGP.

Les deux premières sont présentées de manière détaillée dans un article de cette lettre qui fait le bilan des journées SHARE-ESS organisées avec Progedo le 4 mars dernier.

GGP, enquêtes sur les générations et le genre, est la dernière enquête en date à intégrer la feuille de route nationale et européenne des infrastructures de recherche. Réalisée en France par l’Ined, sous le nom Erfi (Étude des relations familiales et intergénérationnelles), GGP est une étude panélisée des individus entre 18 et 79 ans, avec une interrogation tous les trois ans. Son centre d’intérêt principal est celui des structures familiales et de leur évolution. L’une des caractéristiques remarquables de GGP tient à la taille des échantillons mobilisés, avec près de 10 000 individus par pays participant en moyenne.

Au-delà de ces trois enquêtes, Progedo a également soutenu la participation française dans plusieurs programmes d’enquêtes internationales comparatives : ISSP (programme international de sondage sur les sociétés), EVS (enquête sur les valeurs des européens) et CSES (sondage comparatif sur les systèmes électoraux). Le champ couvert est ainsi large, de thématiques rotatives et variées pour ISSP aux questions morales et de valeurs pour EVS ou aux comportements électoraux pour CSES.

Le panorama des enquêtes diffusées par Progedo à partir de son entrepôt de données data.progedo est évidemment encore plus diversifié. Le catalogue comprend actuellement plus de 1 600 références — soit près de 500 000 variables documentées ! Plusieurs outils permettent une recherche par série, producteur ou mot-clé. Depuis juin 2024, le catalogue est par ailleurs doté d’une nouvelle interface de commande, facilitant encore l’accès aux données.

Les enquêtes proposées viennent principalement de la statistique publique et notamment de l’Insee. On y retrouve notamment un ensemble d’enquêtes liées au recensement de la population depuis 1962, mais également des enquêtes thématiques, qu’il s’agisse de l’Enquête emploi en continu, de l’enquête Cadre de vie et sécurité ou des enquêtes Emploi du temps. Ces grandes séries thématiques touchent ainsi la plupart des enjeux économiques, sociaux et culturels du périmètre de la statistique publique. Il est à noter que ces enquêtes sont généralement soumises à habilitation préalable par le Comité du secret statistique, dans le cadre de la diffusion des Fichiers pour la recherche (FPR) dont est chargé Progedo. Dans le contexte électoral finalement fourni de 2024, on signalera également les enquêtes sur la participation électorale, exploitant les listes électorales et leurs appariements depuis 2002.

De manière complémentaire, plusieurs séries au catalogue sont issues d’autres administrations publiques ou équivalent. Le Baromètre d’opinion de la Direction de la recherche, des études, de l'évaluation et des statistiques (DREES) y figure au même titre que l’enquête auprès des sortants des listes de demandeurs d’emploi (Direction de l'animation de la recherche, des études et des statistiques - DARES), des Enquêtes ménages déplacement (Cerema) ou des enquêtes sur les pratiques culturelles des Français (Département des études, de la prospective, des statistiques et de la documentation - DEPSD).

À ces enquêtes issues de la statistique publique, il faut également ajouter au catalogue les données de la recherche, en commençant par souligner la diffusion des données des grandes enquêtes de l’Ined par le portail Quetelet-Progedo-Diffusion. On retrouvera ici quelques enquêtes phare comme l’enquête Trajectoires et Origines (TeO) sur les questions de migration, l’enquête Violence et rapports de genre (Virage) ou encore l’enquête Fécondité – Contraception – Dysfonctionnement sexuel (FECOND).

f2
Aperçu du catalogue Quetelet-Progedo-Diffusion (data.progedo). Source : www.data.progedo.fr

Si toutes les enquêtes n’ont pas forcément vocation à venir être partagées sur ce catalogue, la dynamique n’en reste pas moins celle d’une diffusion accrue de l’ensemble des enquêtes. Participez donc à l’enrichissement des références à disposition en prenant contact avec l’équipe de Progedo pour étudier tout projet de dépôt de données auprès de nous !

Contact

Nicolas Sauger
Progedo