GarganText 007 : la complexité de vos données devient votre atout

La Lettre Humanités numériques

#VALORISATION

L’équipe de GarganText, projet en humanités numériques développé au sein de l’Institut des systèmes complexes de Paris Île-de-France (ISC-PIF, UAR 3611, CNRS), ainsi que son réseau de partenaires académiques, est heureuse de vous annoncer sa version 007, la boîte à outils pour la cartographie collaborative des données textuelles.

Cette version marque la première étape d’une feuille de route qui prévoit deux autres évolutions majeures pour valoriser la recherche scientifique. En 2023, la GarganFest a annoncé la version 007 et s’est accompagnée d’un travail régulier de la part des développeurs pour stabiliser la version logicielle. La nouvelle s’est à peine diffusée que GarganText est déjà cité par près de 100 articles scientifiques tandis que nous ouvrons plusieurs milliers de comptes sur l’infrastructure publique Renater hébergée à Saclay, comprenant douze plateformes réparties par communautés de pratiques scientifiques et académiques : la plateforme Earth, pour les travaux scientifiques liés à la préservation de la planète ou la plateforme Health, pour les projets scientifiques liés à la santé ; agents du CNRS ou de l’Institut Mines-Télécom, acteurs de la communauté scientifique des systèmes complexes ou lauréats de projets européens…

Sur chacune des plateformes ouvertes, vous travaillez sur des masses de données textuelles sécurisées et dans des équipes dédiées que vous pourrez valoriser : la complexité des données devient votre atout. Cet article est donc une invitation plus large au banquet.

Plongée dans l’océan de données textuelles

Le thème de la fête de la science cette année est l’océan et vous vous sentez une âme de naturaliste. Inspiré par l’Homère des insectes selon Victor Hugo qui désignait ainsi l’illustre Jean-Henri Fabre, vous vous imaginez devenir le Virgile du crustacé avec les enfants. Vous profitez alors de cet été pour échapper aux vers de feu ou méduses et observer les perles d’oxygène produites par la photosynthèse des phytoplanctons. Dans ce petit monde aquatique, vous repérez mollusques et crabes dont vous pensez pouvoir identifier la position dans la chaîne trophique… La forme, les couleurs, les pinces, tout concorde : Eurêka ! Vous cherchez alors la confirmation de votre observation naturaliste sur votre encyclopédie favorite et là, surprise ! Le simple mot « crabe » renvoie à « un nom vernaculaire ou nom commun (qui) est, en sciences de la nature, un nom indigène, usuel ou désuet (qui) peut donc désigner des taxons très différents selon le contexte ». En bref, ce que vous lisez ne correspond pas à ce que vous avez observé avec vos enfants… 

Le sens dépend du contexte autour du mot, de ses relations, tout comme dans un écosystème naturel : le mot seul devient insuffisant en lui-même. Les mots en contexte, c’est justement ce que vous permet d’observer GarganText avec différents types de lentilles. Ce sont ces contextes que vous pourrez rassembler pour coordonner un projet, une action ou une organisation dans la nouvelle économie numérique de la connaissance fondée sur l’apprentissage artificiel.

De l’arbre des connaissances à la carte des savoirs

Or la connaissance s’est progressivement émiettée, surspécialisée, comme dans une organisation taylorienne du savoir dans un océan de connaissances. Le processus lent est devenu irréversible. La première encyclopédie imprimée, la perle philosophique Margarita philosophica publiée en 1504, montre déjà la spécialisation de l’arbre. Le foisonnement des branches s’accroît les siècles suivants avec le Léviathan de Hobbes en 1651 qui montre la naissance des sciences humaines et sociales. Puis D’Alembert, co-auteur de la fameuse encyclopédie des lumières, en appelle à une nouvelle manière de représenter la connaissance en utilisant une analogie géographique : comme une mappemonde ! Il a fallu trois siècles pour se rendre compte du processus et du problème que nous avons renforcé les deux siècles suivants. 

Ainsi, il y a comme un hiatus entre la connaissance savante qui fait autorité dans un arbre complexe et la connaissance simplement expérimentable. Les outils d’observation et d’expérimentation orientent alors la démarche scientifique, comme une boussole. L’outillage scientifique s’est amélioré au cours du millénaire avec le télescope et le microscope. Les progrès théoriques et appliqués en optique ont permis de nouvelles pratiques scientifiques. L’importance de la preuve par visualisation est mobilisée par un Galilée qui croyait avoir vu deux satellites à Saturne avant que l’art des lentilles permette l’amélioration de la longue-vue. La vue, encore elle, permit à Le Verrier de valider ses hypothèses sur la présence d’une planète non remarquée, mais nécessairement présente selon ses calculs. Ainsi, l’évolution de la connaissance s’accompagne du perfectionnement de son outillage combiné à l’expérimentation. C’est pourquoi l’espace de travail de GarganText est un laboratoire d’expérimentation visuelle et partageable du sens des mots tout comme le tableau noir fut introduit à partir du XVIe siècle pour la pédagogie.

En effet, notre espace de travail collaboratif et décentralisé est notre tableau interactif qui permet de partager notre connaissance située en fonction de la question posée au texte. L’interface de collaboration est inscrite dans une plateforme configurable selon les usages, les métiers, qui partagent alors la même méthodologie par un même moteur de cartographie des connaissances, autour des visualisations de données textuelles comme celle présentée dans cet article. Ce sont des visualisations des relations des termes qui synthétisent les masses textuelles, car le texte est partout et est commun à tout support qu’il soit vidéo ou audio. GarganText est donc l’espace de travail collaboratif et décentralisé libre avec le moteur de cartographie des connaissances comme principe premier de son organisation sociale.

À quoi ça sert ?

  • Vous découvrez un nouveau domaine et vous souhaitez le cartographier pour avoir une vue complète de ses ramifications ? En d’autres termes, vous voulez un état de l’art en quelques minutes sur n’importe quel sujet complexe comme le « Covid » ? Vous voulez partager cet état de l’art scientifique avec vos amis, collègues, étudiants dans votre communauté de manière reproductible et cumulative pour votre veille partagée ?

  • Vous êtes une association et souhaitez rassembler les mots des acteurs qui portent la même vision que vous ? Vous voulez un moteur de construction de connaissances pour vos séances de remue-méninges ?

  • Dans une perspective pédagogique, pour apprendre une langue, une matière, vous voulez partager vos supports de l’année pour visualiser l’ensemble avec un graphe des concepts clefs que vos élèves devront apprendre ?

  • Enfin, vous êtes une entreprise et vous souhaitez visualiser les brevets sur votre marché et en particulier ceux de la concurrence ? Vous voulez sécuriser vos données pour nourrir et tenir un jardin pour éduquer vos IA ?

Si vous cochez au moins l’une de ces cases non exhaustives, GarganText est construit pour vous.

Visualiser la carte du restaurant 007 imaginaire 

Devant la diversité des expériences dans un océan de savoir, comment faire comprendre l’expérience que propose ce logiciel d’un nouveau genre ? Partons d’une expérience existentielle partagée. Rabelais nous l’avait déjà indiquée avec humour… En effet, il semble que nous partageons la même position dans le réseau trophique : on boit et on mange ! Nous pouvons alors modéliser notre position à partir de ce que nous engloutissons à table sur cette planète Terre.

Dans cette invitation au banquet, nous avons constitué une carte d’un restaurant imaginaire avec toutes les recettes de cuisine de la gastronomie française. Cela représente approximativement 70 000 plats, car nous sommes gourmands avec la version 007 ! Quel est le résultat attendu de GarganText ? Tout d’abord, quels sont les mots que nous allons croiser avec les recettes ? Cette liste de mots est notre filtre d’observation. Conservons-nous les ustensiles comme « cuillère », « couteau » ou « bol » ? Les quantités en « grammes » ou en « cuillerées » ? Les ingrédients comme les noms de fruits ou de légumes ou les verbes pour identifier les manières de cuisiner comme « rincer », « cuire », « couper » ou « mélanger » ?

Nous proposons de cartographier notre gastronomie à partir de ses ingrédients. Il s’agit du principal choix subjectif qui dépend de notre question de recherche initiale avec celui de la constitution de notre carte de plats que nous appelons « corpus ».

Dans GarganText, vous avez deux principales lentilles, comme il existe les lentilles convexes/conjonctives et concaves/disjonctives en optique. Ces lentilles sont en réalité des mesures de similarité entre les mots en fonction de leurs co-apparition (ou non) dans les mêmes contextes, ici, la recette. Le terme lentille est une analogie. Le terme scientifique est « mesure de similarité conditionnelle » pour la première lentille et « mesure de similarité distributionnelle » pour la seconde.

Ces mesures sont des fonctions au calcul rigoureux dont le résultat dépend strictement des entrées. Les visualisations sont alors reproductibles pour que l’on puisse se coordonner.

La première lentille, objective celle-ci, nous permet de révéler la catégorisation néophyte, la première frontière qui fait sens si l’on met deux mots ensemble dans le même contexte. Entendez dans notre exemple : deux ingrédients dans la même recette.

Revenons à notre carte de restaurant imaginaire pour formuler nos hypothèses à partir de la question initiale : à quoi pourrait ressembler la carte du restaurant 007 avec ses 70 000 plats selon la première lentille ? Vous pouvez formuler vos hypothèses. Les ingrédients seraient-ils regroupés par « entrée », « plat » ou « dessert » comme dans une carte de restaurant habituelle ? Ou, autre hypothèse, les catégories construites seraient-elles celles des plats végétariens d’un côté et les autres plats de l’autre ? Ou, autre distinction, les produits locaux, bios ou par rayons d’un supermarché… Ou par pays et type de cuisine ? Eh bien, c’est encore plus simple et tellement évident a posteriori. Oui, la première distinction signifiante est celle du sucré/salé. Nous voyons distinctement deux groupes de mots que nous appelons clusters (certains disent des « patates ») : le sucré et le salé ! 

Graph d’ordre 1, GarganText version 007.3.1. Corpus de 70 000 recettes en Français et la liste de 2 600 ingrédients. Clusters rose : ingrédients de recettes sucrées. Clusters bleus : ingrédients de recettes salées. Post-Production du graph réalisée avec Gephi

Comme en cuisine, en associant un ingrédient et un autre, nous faisons apparaître le lien entre les mots dans le même contexte et l’analogie suivante : un contexte de mots est comme une recette de cuisine. Assez simple direz-vous, mais continuons notre enquête. Vous pouvez sélectionner les ingrédients et explorer les recettes associées, vous avez en main une carte d’un restaurant avec près de 70 000 recettes !

C’est alors que nous pouvons changer de lentille. L’autre lentille, à la différence de la lentille précédente, vous montrera les associations alternatives. Par exemple, une pâte à pizza et des spaghettis ne vont pas bien ensemble, on utilise l’un ou l’autre dans une même recette, mais jamais les deux ensemble. Donc, contrairement à l’opération précédente qui montre l’association des ingrédients ensemble dans la même recette (ingrédient A et ingrédient B), on se concentre ici sur l’alternative (ingrédient A ou ingrédient B). On fait alors apparaître l’équivalence « structurale » d’un ingrédient qui est substituable par un autre. Cette lentille est utile pour choisir la recette et l’adapter en fonction de ce dont vous disposez en stock. Il manque un ingrédient ? Quelle serait l’alternative possible ? Nous avons analysé notre carte gastronomique pour faire de fins gourmets du savoir.

Ainsi, la première lentille (01) indique le niveau de la première frontière de catégorisation, l’un et l’autre dans le même contexte. La seconde lentille disponible (02) donne à voir les appareils : la pâte et les pâtes, la pâte à pizza et les spaghettis se mêlent à la sauce tomate et au fromage, l’un ou l’autre font recette.

À partir de quoi, nous proposons d’isoler les recettes avec les mots salés puis les recettes avec les mots sucrés. Ainsi, quelles sont vos hypothèses pour ce que nous devrions voir lors des prochaines étapes ? Suivez nos prochaines cartes de la gastronomie dans notre prochaine contribution à la Lettre CNRS Sciences humaines & sociales !

D’une science ouverte à une science libre

Le dispositif numérique GarganText est une épistémologie implémentée qui propose un chemin heuristique. Cette démarche outillée s’accompagne d’un mode d’écriture et de publication pour une organisation en vue de sa valorisation. 

Nous façonnons des outils, puis les outils nous façonnent : le logiciel est en effet à l’image de l’organisation qui l’a produite. Nous pensons être prêts pour construire ensemble une infrastructure numérique pour une véritable économie de la connaissance. Nous commençons par la boîte à outils de cartographie à destination du milieu académique et public, puis nous l’ouvrirons au secteur privé pour un co-financement de l’infrastructure numérique à la suite de la prématuration réalisée avec CNRS Innovation. Il y eut des investissements pour le chemin de fer, pour les autoroutes, pour les canalisations, nous construisons désormais l’infrastructure numérique pour l’économie de la connaissance.

Trois versions majeures marquent notre feuille de route pour les années à venir :

  • en 2024 : la version 007, pour la mission des héros naturalistes et scientifiques afin de représenter les savoirs ;

  • objectif 2025 : la version 017, pour faire organisation en construisant la connaissance ensemble ; 

  • objectif 2026 : la version 117, pour certifier, protéger et valoriser la création de connaissances.

La science ouverte est un premier pas nécessaire, mais non suffisant, car elle permet surtout de nourrir les IA sans nourrir les auteurs. Bienvenue alors dans une science libre avec GarganText.

Contact

Alexandre Delanoë
Chef de projet de la plateforme Gargantext, Institut des Systèmes Complexes de Paris Île-de-France