6 avril 20216 avril 2021 Alexandra PETITJEAN-MONNIN

Conditor, du projet à la base

Actu Inist

Lancé en décembre 2016, l’objectif du projet Conditor était de recenser l’ensemble des publications de la recherche française au sein d’un seul réservoir de métadonnées enrichies, homogénéisées et dédoublonnées, et offrir ainsi une vision complète de la production française.

Le recueil des publications sous forme de métadonnées a nécessité un important travail de programmation opéré à l’Inist ; une mise en œuvre parfois complexe en raison de la multiplicité des formats de données liées aux différentes sources collectées.

4 sources de données

Les bases en « open access » sont moissonnées, en identifiant les publications ayant au moins un auteur appartenant à une structure française de l’ESR. Actuellement, les métadonnées proviennent de HAL, Crossref, Pubmed et l’ABES qui fournit des données du SUDOC (ouvrages, thèses).

Ces métadonnées sont ensuite transformées au format TEI puis enrichies par des méthodes d’alignements automatiques et des méthodes de fouille de textes. Enfin, un algorithme de dédoublonnage identifie et marque les documents en doublons.

Des enrichissements

Les notices sont enrichies de plusieurs informations (quand cela est possible) :

Lien vers le document en accès libre (après alignement avec Unpaywal et Core) ;
Catégorie scientifique(apposée par le baromètre de la science ouverte – BSO) ;
Identifiants auteurs IdRef, Orcid, IdHal;
Domaines scientifiques des revues contenant l’article (classification Science-Metrix et Scopus) ;
Code RNSR (Répertoire national des structures de recherche) associé aux affiliations françaises : cela se fait soit par récupération des informations dans d’autres bases (HAL par exemple), soit à partir de programmes informatiques développés à l’Inist.

Et maintenant une base

A ce jour, Conditor recense plus de 1 430 000 signalements, dont environ 1 108 000 publications distinctes, allant de 2014 à 2020. Fin décembre, la base comptait 66 % d’articles, 10 % de thèses et 14 % de conférences.

Elle est accessible à tout membre de l’ESR pour requêter et télécharger des corpus via une application.

Le résultat peut être déchargé sous forme de corpus en TEI ou JSON. De plus, le programme a une option permettant d’avoir une seule notice consolidée quand plusieurs références identiques sont détectées.

Des évolutions en vue

Plusieurs évolutions de la base Conditor sont en cours de réalisation telles que :

un programme de classification capable d’apposer une catégorie scientifique à tout document se trouvant dans Conditor ;
des méthodes d’extraction de mots clés;

Le fruit d’un travail multipartenarial

Le projet Conditor a été mené grâce au soutien du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, en impliquant de nombreux partenaires :

des organismes de recherche : CNRS, Inra, Inria, IRD, Irstea,
des universités : Angers, Bordeaux, Grenoble, Lorraine, Montpellier, Nice Paris Dauphine, Paris Diderot, Sorbonne Université, Strasbourg,
des opérateurs et entités de l’ESR : Abes, Amue, CCSD, Hcéres, Huma-Num, IAVFF Agreenium, Inist CNRS, MESRI RNSR-ScanR.

Vidéo

Découvrir la vidéo de présentation de la base Conditor : https://youtu.be/tFE0risRMoI