Infos Inist

La COVID à l’intersection de deux équipes, un thésaurus et un corpus

Le fonctionnement en méthode Agile et l’actualité se sont unis pour donner vie à une initiative conjointe entre deux équipes : celle de Nathalie Vedovotto et celle de Sabine Barreaux.

Une initiative conjointe entre deux équipes issues du service Ingénierie terminologique de Nathalie Vedovotto et du service Textes et corpus – ISTEX  de Sabine Barreaux a vu le jour durant la période de confinement.

Malgré l’éloignement physique pendant le télétravail, les échanges réguliers au sein du département Analyser et fouiller l’information scientifique ont mis en lumière une possible coopération entre deux initiatives :

  • l’une sur la terminologie avec la création d’un thésaurus sur les maladies à coronavirus réalisé par Patricia Fener pour Loterre
  • l’autre sur les corpus ISTEX avec la constitution d’un corpus d’actualité sur certaines maladies à coronavirus (SRAS-MERS) par Pascale Viot et sa publication sur data.istex 

Une thématique scientifique, une expertise médicale commune,  deux facettes

Lors de la survenue de la pandémie de COVID-19, des appels ont  été lancés pour identifier les ressources sémantiques et technologiques qui permettraient de faire avancer la connaissance de cette pathologie, comme celui de l’infrastructure Clarin (https://www.semanticscholar.org/cord19)

Particulièrement sensibilisées à cette problématique du fait de leurs compétences médicales, Patricia Fener et Pascale Viot ont entrepris de développer 2 facettes de ce sujet d’actualité :

  1. L’aspect terminologique avec la réalisation d’un thésaurus centré sur les maladies à coronavirus (COVID-19 dans un premier temps puis élargi aux pathologies SRAS et MERS) afin d’alimenter le portail de ressources sémantiques Loterre. La publication de ce thésaurus est prévue pour août 2020.
  2. L’aspect Corpus avec une collecte de documents ISTEX sur les coronavirus responsables du SRAS et du MERS qui a inauguré la collection Science de la santé dans la nouvelle rubrique “Corpus d’actualité” de data.istex. Ce type de corpus a pour vocation d’illustrer, de comprendre et d’éclairer l’actualité à partir de données d’archives. (Pour en savoir plus lire l’article https://www.inist.fr/nos-actualites/corpus-actualites-data-istex-1-coronavirus/ )

Coopération spontanée inter-équipes

Ces 2 initiatives se sont rejointes dans le projet d’extraction de termes du thésaurus sur le corpus ISTEX SRAS-MERS

Ce projet rassemble des membres des 2 équipes, dans une volonté affirmée de coopérer autour d’une problématique d’actualité et de partager leurs compétences :

  • Pascale Viot pour la constitution du corpus à partir d’une requête de l’archive ISTEX, avec la participation de Catherine Morel pour la curation via l’outil Openrefine pour repérer les variantes de mots-clés d’auteurs et Stéphanie Gregorio pour la curation des données ISTEX
  • Patricia Fener pour la constitution du thésaurus et Majid Khayari pour sa publication sur Loterre
  • Patricia Fener, Claude Dahdouh, Enza Morale et Majid Khayari pour l’extraction des termes issus du thésaurus avec Unitex (à ne pas confondre avec la marque de masque sanitaire) et la conversion de la sortie en format TEI-standOff en vue d’un enrichissement futur d’ISTEX

Thésaurus Coronavirus : de l’idée à la réalisation

Premier corpus d’actualités sur data Istex : « Coronavirus SRAS MERS »