[TDM] Un Corpus Gold Standard sur data.istex
L’Inist, associé au Laboratoire d’informatique fondamentale et appliquée de Tours (LIFAT), vient de mettre à disposition sur data.istex un corpus permettant d’évaluer les outils de TDM : un corpus annoté à la main pour entraîner les outils de reconnaissance d’entités nommées.
Définition, usage et caractéristiques du corpus
Un corpus gold standard est destiné aux chercheurs désirant tester ou entraîner leur outil de reconnaissance d’entités nommées ; corpus qui pourra également être utilisé comme corpus d’apprentissage pour ces mêmes outils.
Il est annoté manuellement par un groupe de personnes ayant une culture commune d’annotation.
Il comporte 200 documents ISTEX, en anglais. Ce corpus est le plus représentatif possible des deux corpus les plus importants du fonds ISTEX. Chaque document comporte au moins 10 entités nommées.
Entités nommées annotées
L’annotation manuelle utilise les huit balises suivantes :
- noms de personnes <persName>
- noms de lieux administratifs <placeName>
- noms de lieux géographiques <geogName>
- noms d’organismes <orgName>
- noms d’organismes financeurs <orgName type= »funder »>
- noms d’organismes pourvoyeurs de ressources <orgName type= »provider »>
- dates <date>
- url <ref type= »url »>
Démarche de constitution du corpus Gold
Le corpus Entités Nommées ISTEX a été constitué au long de l’année 2020 à l’Inist, à la demande du LIFAT.
Les 8 annotateurs Inist ont pris 10% du corpus et les ont annotés en même temps. Ils ont ensuite comparé les résultats, discuté et construit une culture d’annotation commune.
Bach, Carine (annotatrice) ; Falck, Jimmy (annotateur) ; Fener, Patricia (annotatrice) ; Gomez, Isabelle (annotatrice) ; Grésillaud, Sylvie (annotatrice) ; Morale, Enza (animatrice de la campagne d’annotation et annotatrice) ; Ris, Claire (annotatrice) ; Schneider, Stéphane (annotateur)
Ils ont mis en place un guide annotateur comportant des règles d’annotation propres au corpus.
La fiabilité de l’annotation a été mesurée par un accord inter-annotateurs : mesure globale de 0,91 de Kappa (réalisé par le LIFAT).
Les 180 documents restants ont ensuite été répartis entre les annotateurs.
Le guide d’annotations, téléchargeable, comprend la présentation du projet, la méthodologie, les résultats, les calculs de l’accord inter-annotateurs et les règles mises en place avec des exemples.
Accès au corpus
Le Corpus Gold Standard est publié sur le site data.istex.fr en tant que jeu de données, sous le nom de Corpus Entités Nommées ISTEX, dans la collection Corpus annotés manuellement.
Le corpus au format XML-TEI et les offsets des entités nommées sont disponibles au téléchargement dans le champ « Application ».
Lien : https://gold-collection.corpus.istex.fr/ark:/67375/VH5-5W45R3J3-P
Une vue graphique du corpus et de ses entités nommées
La visualisation de la répartition des documents du corpus selon différents angles de vue bibliométriques est accessible sur le bouton « Graphiques ».
- Exemple avec le graphique des dates de publications : https://gold-enistex.corpus.istex.fr/graph/EVoz
Les entités nommées du corpus font aussi l’objet de graphiques (bouton Graphiques) et sont visibles pour chaque article sur le bouton « Recherche ».
- Exemple avec le graphique des organismes financeurs : https://gold-enistex.corpus.istex.fr/graph/XoUs ou avec
- le graphique des lieux administratifs : https://gold-enistex.corpus.istex.fr/graph/aNbB
Voir aussi : https://blog.istex.fr/un-corpus-gold-standard-pour-le-tdm/
Corpus Gold – textes Istex annotés : une initiative transversale