BiblioGraph : un outil et une méthode pour visualiser les paysages scientométriques
Développé avec le soutien de la Mission pour les initiatives transverses et interdisciplinaires (MITI) du CNRS et en collaboration avec Ouestware, BiblioGraph est un outil expérimental permettant de transformer un corpus de notices bibliographiques en un paysage scientométrique — autrement dit une visualisation prenant la forme d'un réseau de références et de métadonnées extraites d'un corpus de notices bibliométriques.
BiblioGraph a été développé dans le cadre de CAIAC, un projet proposant pour la première fois l'exploration cartographique des oppositions et des alliances scientifiques présentes dans la littérature académique sur l’intelligence artificielle. Pour cela, CAIAC proposait de développer une nouvelle méthode d’analyse des controverses et des collaborations scientifiques basée sur l’analyse visuelle des réseaux de co-citation.
Selon la définition de Wikipédia, « la scientométrie est la science de la mesure et de l'analyse de la science ». Cette approche est parfois critiquée, et non sans raison, certaines de ses techniques réduisant parfois la carrière de chercheurs individuels ou la production de centres de recherche à des indicateurs quantitatifs que les décideurs politiques ou les agences de financements de la recherche peuvent facilement s’approprier. Le facteur d’impact des revues scientifiques ou h-index1 des chercheurs et chercheuses constituent les exemples les plus célèbres — mais aussi les plus critiqués — de ces indicateurs simplistes.
Cependant, les méthodes développées par la recherche scientométrique sont infiniment plus riches et sophistiquées que les quelques mesures les plus connues et utilisées. Loin d'être synonyme de quantification ou simplification, la scientométrie peut proposer des techniques extrêmement complexes pour explorer la production scientifique dans le temps et l'espace. BiblioGraph, par exemple, a été développé pour exploiter certaines idées classiques de la scientométrie afin de générer, non pas des indicateurs numériques, mais des paysages visuels.
Avant d'illustrer le fonctionnement de BiblioGraph, il est important de présenter brièvement l'idée de paysage scientométrique, sur laquelle se base l'outil. Nous appelons « paysage scientométrique » une représentation visuelle d'un ensemble de données décrivant un corpus de publications scientifiques. Plus précisément, un « paysage scientométrique » est un réseau d'éléments apparaissant dans des publications scientifiques (références, auteurs, mots-clés, revues, etc.) regroupés par le fait d'apparaître dans les mêmes publications.
Un paysage scientométrique est produit en deux étapes successives. La première étape consiste en la construction d'un « fond de carte » par une technique scientométrique classique appelée bibliographic coupling ou co-citation2 . Cette étape commence par l'extraction de toutes les références contenues dans les bibliographies des publications du corpus analysé. Ces références deviennent les nœuds du réseau de base et sont connectées si elles apparaissent ensemble dans une ou plusieurs bibliographies, c'est-à-dire si elles sont parfois ou souvent citées ensemble. La force du lien entre les références est pondérée par le nombre de leurs co-citations. Prenons l'exemple de deux articles, l'un publié dans PlosOne, l'autre publié dans Nature :
Toutes les publications citées par l'article de PlosOne deviendront des nœuds du réseau des références et seront toutes liées entre elles car elles apparaissent ensemble dans l'article. Il en sera de même pour toutes les publications citées par l'article de Nature. La publication C, étant citée par les deux articles sera le pont entre les deux groupes de références.
Une fois généré selon la méthode qu'on vient de décrire, le réseau des références est ensuite spatialisé à l'aide d'un algorithme force-dirigé (force-based ou force-directed layout). Cet algorithme simule un système de forces physiques : il assigne une force de répulsion aux nœuds et une force d’attraction aux liens, et cherche ensuite à trouver une position d’équilibre. Dans cette position d'équilibre, les nœuds les plus directement ou indirectement connectés tendent à se retrouver spatialement proches et le réseau peut ainsi être lu quasiment comme une carte géographique3 . Dans le cas particulier d'un réseau de co-citation, cela signifie que les références qui se regroupent sont souvent citées ensemble et peuvent donc être interprétées comme des clusters disciplinaires ou sous-disciplinaires.
Une fois le réseau de base construit et spatialisé, la deuxième étape de la création d'un paysage scientométrique consiste en l'extraction de toutes les autres métadonnées qui sont contenues dans les notices bibliographiques du corpus comme, par exemple :
- les mots clés associés aux publications ;
- les journaux, livres ou conférences où elles sont parues ;
- les bailleurs de fonds qui les ont soutenues ;
- les auteurs qui les ont signées ;
- les affiliations nationales et institutionnelles de leurs auteurs.
Tous ces différents éléments sont alors ajoutés en tant que nouveaux nœuds aux réseaux de base et connectés, non pas entre eux, mais uniquement aux références qui figurent dans les mêmes notices bibliographiques. Revenons à notre exemple de PlosOne et Nature :
Le réseau comprenant maintenant les références et les métadonnées est ensuite spatialisé à nouveau, en utilisant le même algorithme force-dirigé, mais en gardant la position des références fixes, de sorte que les métadonnées soient positionnées en fonction des connexions avec elles, et non l'inverse. Autrement dit, le réseau de co-citation reste inchangé comme fond de carte et les métadonnées sont positionnées sur ce fond par ce que l'on pourrait appeler une « projection relationnelle ».
Pour illustrer le fonctionnement de BiblioGraph et la lecture d'un paysage scientométrique, nous proposons un exemple concernant la géo-ingénierie des océans, c'est-à-dire les différentes techniques suggérées par les scientifiques et les ingénieurs pour utiliser les mers et les océans comme puits de CO2 — des lieux où l'on peut capter et stocker du CO2 pour compenser (idéalement du moins) notre incapacité à réduire nos émissions de gaz à effet de serre. Cette recherche préliminaire fait partie du projet européen OceanNets et est conduite à l'Institute for Advanced Sustainability Studies (IASS) à Potsdam.
Nous avons utilisé une requête très complexe pour récupérer un corpus de notices bibliographiques à partir de Scopus — la base de données bibliométriques d'Elsevier. Cette requête nous permet d'identifier 2 169 notices de publication parues entre 1953 et 2021, et de les télécharger au format CSV avec toutes leurs métadonnées, y compris (et de manière cruciale pour BiblioGraph) leurs références.
Après lecture et pré-traitement de ces corpus, BiblioGraph offre aux chercheurs et chercheuses la possibilité de définir le seuil d'occurrence pour chacun des éléments qui deviendront des nœuds dans le réseau, en définissant ainsi la taille du graphe résultant. En pratique, le chercheur choisit le nombre minimum d'occurrences de chaque type d'items à inclure dans les réseaux et obtient un aperçu du nombre de nœuds qui seront ajoutés au réseau pour chaque seuil.
Sur la base des seuils choisis par le chercheur, BiblioGraph génère un réseau de références de base, le spatialise et projette les autres métadonnées sur ce fond de carte selon la méthode expliquée précédemment. Le chercheur peut enfin télécharger le graphe sous forme d'image ou, mieux encore, sous forme de fichier graphique (gexf) à ouvrir dans un logiciel d'analyse de réseau tel que Gephi.org4 .
Voici ci-dessous le paysage scientométrique généré par BiblioGraph à partir des notices bibliographiques sur la géo-ingénierie océanique (après un traitement graphique Gephi et Inkscape). La carte est disponible en ligne en version zoomable et en haute résolution.
Pour lire la carte, il faut se rappeler que :
- les nœuds gris représentent les références (citées dans les notices bibliographiques du corpus sur la géo-ingénierie des océans) ;
- les nœuds colorés représentent les métadonnées (présentes dans ce même corpus) ;
- la taille des nœuds est proportionnelle au nombre d'occurrences de chaque élément dans le corpus ;
- les connexions correspondent à la co-occurrence dans les publications du corpus ;
- la position des nœuds dépend de leur connexions ;
- les connexions ont été remplacées par une carte de chaleur (heatmap) de densité pour augmenter la lisibilité de l'image.
Nous n'avons pas l'espace ici pour discuter les intuitions que ce paysage nous suggère (mais cela sera l'objet d'une publication à paraître), mais nous pouvons déjà remarquer la séparation du réseau en deux principaux clusters. Sur la gauche, la région du paysage scientométrique relative à la fertilisation des océans, une méthode très discutée et controversée ayant pour but d'accroître artificiellement la quantité d'organismes marins capables d'absorber le CO2, en injectant du fer dans les océans. Sur la droite, la région relative au « carbone bleu », c'est-à-dire aux techniques de conservation des écosystèmes côtiers pour accroître leur capacité de capture du CO2.
Le cas de la géo-ingénierie des océans n’est qu’un exemple d’un sujet qui peut être exploré par le BiblioGraph. L’outil permet en effet de visualiser n’importe quel corpus de publications scientifiques extrait de Scopus ou ISI Web of Science par une requête visant une question scientifique, une institution de recherche, une sous-discipline, un pays ou une période dans la limite des capacités techniques du navigateur Web dans lequel BiblioGraph est lancé. BiblioGraph est entièrement open source et son code est disponible sur Github.
Tommaso Venturini, chargé de recherche CNRS, Centre Internet et Société (CIS, UPR2000, CNRS) ; Kari De Pryck, Institute for Advanced Sustainability Studies
- 1Le h-index (ou facteur h) est une mesure d’impact de la production scientifique d’un chercheur, d'une revue ou d'un groupe de recherche. Il prend en compte le nombre de publications aussi bien que le nombre de citations et correspond au nombre h le plus élevé de publications qui ont reçu au moins h citations chacune. Un chercheur a donc un h-index de 10, s'il est auteur dix publications ayant reçu au moins 10 citations.
- 2Small H. 1973, Co-citation in the scientific literature: A new measure of the relationship between two document, Journal of the American Society for Information Science, 24 : 265–269.
- 3Venturini T., Jacomy M. & Jensen P. 2021, What do we see when we look at networks: Visual network analysis, relational ambiguity, and force-directed layouts, Big Data & Society, 8(1).
- 4Bastian M., Heymann S. & Jacomy M. 2009, Gephi: An open source software for exploring and manipulating network, in International AAAI Conference on Weblogs and Social Media (pp. 361–362).