Rapido, un an déjà !
Lancé le 2 février 2022, Rapido vient de fêter son premier anniversaire ! Retour sur la première partie de ce projet axé science ouverte.
Lauréat de l’appel à projet FNSO en 2021, Rapido (Rendre Accessibles des Publications scientifiques Indexées et liées à des DOnnées certifiées) est porté par l’ENS de Lyon, en partenariat avec l’Inist, l’École française de Rome, l’École française d’Athènes et l’Abes.
Ce projet a pour but de mettre en place, d’abord sur un corpus délimité de revues des Écoles françaises à l’étranger, un protocole automatisé permettant leur mise en relation de ces publications avec des données de recherche via les notices de toponymes Idref.
Ce projet se démarque également par son ambition méthodologique. Il demande en effet de définir une méthode pour le repérage d’entités nommées et l’annotation automatisée des corpus de Persée, grâce à l’expérience des outils développés par l’Inist pour Istex, et en association étroite avec les chercheurs. Cette démarche vise à proposer un service nouveau, qui mettra en relation la plateforme de Persée et les outils de l’Inist pour une offre de service conjointe.
Le rôle de Persée
Persée assure la coordination de Rapido entre les partenaires de longue date, regroupés à cette occasion autour d’un objectif commun. Persée joue également le rôle d’un fournisseur de données structurées issues du traitement des revues archéologiques des Écoles françaises diffusées sur le portail Persée. Par ailleurs, ce dernier bénéficiera de nouvelles fonctionnalités de navigation grâce au travail mené dans le cadre de Rapido.
Les développements permettant l’implémentation de la notion de « toponyme » dans les outils de Persée ont déjà débuté. L’intégration de ce nouveau type d’information aux documents existants permettra de proposer de nouveaux parcours de lecture dans le portail. Afin de contrôler la qualité des toponymes détectés et alignés automatiquement, des interfaces de validation ont été mises en place. Un documentaliste pourra ainsi accepter ou rejeter un « candidat » (un terme repéré comme un toponyme potentiel par les outils de l’Inist). Une première opération de contrôle sur un corpus d’apprentissage a déjà été effectuée par les experts de l’École française d’Athènes, qui ont donné leur avis sur de nombreuses propositions. Leur relecture était nécessaire afin d’évaluer la pertinence des candidats d’un point de vue scientifique.
Toutes les actions entreprises par les différents partenaires sont soigneusement documentées dans un espace commun afin de rendre les procédures les plus réplicables possibles.
Le rôle de l’Inist
Alors que l’Abes fournit les corpus IdRef, l’Inist détecte les entités nommées liées à l’archéologie et les aligne avec la bonne notice. Pour ce faire, le corpus est annoté automatiquement grâce à un programme développé par un ingénieur en analyse de données et fouille de textes de l’Inist. Ces annotations sont ensuite vérifiées et corrigées si nécessaire. Les corrections permettent de corriger et d’améliorer le programme afin de prendre en compte l’expertise des archéologues.
La collaboration porte aujourd’hui sur un corpus délimité de publications (environ 4000 documents en archéologie), mais l’idée est de pouvoir transposer la méthodologie dans d’autres domaines. À terme, les programmes développés pourraient être proposés sous forme de web-services, mis à disposition sur le site Objectif TDM.
Rapido, et la suite ?
Les prochains mois seront consacrés à une phase d’évaluation. Du côté des outils, il s’agira de valider les annotations qui constituent le corpus d’apprentissage, faire tourner les outils sur l’ensemble du corpus, réintégrer les données dans le système d’information de Persée, en vue de leur exploitation sur le portail. Et d’un point de vue méthodologique, de stabiliser et d’évaluer les procédures, pour réplication sur d’autres ensembles.
Article réalisé en collaboration avec Agnieszka Halczuk de Persée