Point sur l’avancement du projet Rapido
RAPIDO, est un des 2 projets de l’Inist qui a été Lauréat du 2ème appel à projet du fond national pour la science ouverte. Il a vocation à rendre accessibles des publications scientifiques Indexées et liées à des données certifiées. En plus de l’Inist, ce projet réunit 5 partenaires, Persée, l’Abes, l’École française de Rome (EfR), l’École française d’Athènes (EfA)
Le projet porte sur des corpus d’Archéologie, produits par l’École française de Rome (EfR) et de l’École française d’Athènes (EfA), diffusés par Persée.
L’équipe de l’Inist est composée de Justine Revol, Lucas Anki, Alexis Martello et est supervisée par Pascal Cuxac. Elle est chargée d’enrichir et de mettre en relation ces corpus avec des sources externes (référentiels, données ouvertes…) au moyen d’un protocole automatisé.
L’objectif du projet est de permettre à des chercheurs en archéologie d’identifier les sites archéologiques ou alors des parties de site décrits dans les corpus (Exemple : Temple d’Apollon est un site, et Pilier étolien d’Eumène II est un élément d’un site archéologique).
L’ambition est de créer des liens étroits entre les publications de Persée et des Ecoles françaises de Rome et d’Athènes et les données de la recherche en favorisant l’exploitation de ces publications grâce aux outils de l’INIST.
Cela s’inscrit d’ailleurs dans la feuille de route du CNRS puisque l’objectif « science ouverte » du projet est, notamment, d’inscrire les publications du portail Persée dans un écosystème de diffusion favorisant leur indexation et leur interconnexion à des données ouvertes validées scientifiquement.
Le dispositif envisagé s’appuie sur le savoir-faire de l’Inist dans le domaine du traitement automatisé de corpus autour de l’enrichissement de données via le référentiel IdRef.
Pour se faire, le corpus est annoté automatiquement grâce à un programme développé par Lucas. Justine et Alexis vérifient ensuite ces annotations et corrigent au besoin ces dernières. C’est après cette préparation que le programme peut commencer son apprentissage.
Pour simplifier, le programme ingère des termes lié aux entités géographiques et au fur à mesure, il est capable d’en reconnaitre de nouveau.
La collaboration porte sur un corpus délimité de publications, il sera ensuite possible d’envisager de l’intégrer à d’autres corpus d’archéologie. Les programmes développés sous forme de webservices pourront ensuite être mis à disposition sur le site Objectif TDM.
Le projet a une durée prévue de 2 ans, mais l’implication de l’Inist sera plus dense la première année. Aujourd’hui, le projet RAPIDO nécessite une réunion par mois avec les partenaires, des échanges réguliers et constitue plus de 50% de la charge de travail de l’équipe.