Infos Inist

Corpus Gold – textes Istex annotés : une initiative transversale

La création d’un corpus Gold avec accord inter-annotateurs va commencer au début de l’année 2020 à l’Inist. Cette initiative va rassembler 10 volontaires, provenant de différents départements.

Explications sur ce projet transversal :

Un corpus Gold : définition

Un corpus Gold est un corpus entièrement annoté par des humains, ce qui signifie que des balises sont insérées dans un document sur un ensemble de mots ou de concepts définis à l’avance (noms de personnes, noms de lieux, date, etc.)

Le <geogName>Massif Armoricain</geogName> en <placeName>Bretagne</placeName>

Un corpus Gold : à quoi ça sert ?

Une corpus Gold sert de référence pour tester les outils de reconnaissance d’entités nommées et ajuster les algorithmes en fonction de ce qu’ils retrouvent.

Particularité de ce corpus Gold

La demande de faire un corpus Gold annoté avec accord inter-annotateurs est venue de Denis Maurel du Laboratoire d’Informatique Fonctionnelle et Appliquée de Tours avec qui le partenariat est monté.

Le fait d’être annoté par différentes personnes qui discuteront des choix de leurs annotations jusqu’à l’accord total entre les annotateurs est un argument scientifique sur la qualité des données qui rend ce type de corpus rare et donc très précieux pour les créateurs d’algorithmes.

Les annotateurs vont travailler sur un corpus de 200 documents (100 documents du corpus-éditeur Elsevier et 100 documents du corpus-éditeur Wiley). Le choix des documents respecte la proportion des catégories scientifiques Science-Metrix des corpus.

La date de livraison du corpus est prévue pour avril 2020 avec une mise à disposition sur data.istex.fr

Tous les détails sur la fiche projet 

Le groupe de volontaires

La recherche de volontaires pour ce travail s’est faite via le réseau ingénierie documentaire qui a relayé l’information dans les services.

Les personnes impliquées dans ce projet sont  Carine Bach, Jimmy Falck, Patricia Fener, Isabelle Gomez, Sylvie Grésillaud, Enza Morale, Olha Nahorna, Claire Ris, Stéphane Schneider et Pascale Viot.

La première réunion du groupe aura lieu début janvier 2020 pour définir l’organisation de travail.