Thésaurus Coronavirus : de l’idée à la réalisation
Les événements sanitaires récents et spectaculaires ont suscité des initiatives comme la création d’un thésaurus spécifique Coronavirus à l’Inist.
Pourquoi un thésaurus Coronavirus?
Face à l’inflation observée de publications au sujet de la Covid-19 (croissance exponentielle depuis avril 2020 avec 40 000 publications contre 3 000 sur les Coronavirus à la même période en 2019 sur Pubmed), Patricia Fener, actuellement dans le service d’ingénierie terminologique, a proposé la création d’un thésaurus bilingue français /anglais spécifique Coronavirus. Ceci en vue de construire un outil terminologique à la disposition de l’ESR afin d’optimiser le temps des chercheurs tout en leur permettant d’accéder rapidement à une information pertinente.
Le thésaurus est un outil terminologique indispensable lors de de la consultation d’une base de données bibliographique de par sa double vocation d’aide à l’indexation des documents et à la recherche documentaire.
Contexte technique et compétences
Patricia a constitué un corpus d’articles à partir d’une extraction terminologique sur la thématique avec l’outil Termsuit disponible à l’Inist.
- La première étape a été la constitution d’un corpus de 500 articles après interrogation de Pubmed à l’aide d’une requête comportant les termes SARS-CoV-2 et Covid-19.
- Une extraction terminologique a ensuite été réalisée par Claude Dahdouh avec TermSuite, logiciel Open Source, développé à l’Université de Nantes, par le laboratoire LS2N du CNRS qui a mis en évidence les concepts « cœur » de la thématique.
- L’étape suivante a été la collecte de termes issus de l’analyse de publications scientifiques, de rapports et communications des instances nationales et internationales de santé, ainsi que gouvernementales.
- Il a fallu ensuite structurer l’ensemble des concepts avec des relations sémantiques et d’équivalence.
- L’étape finale a été la réalisation d’un dictionnaire à partir du thésaurus qui a permis l’annotation sémantique dans Unitex du corpus MERS-SRAS.
Ce premier tri a révélé un noyau de termes qui après une lecture méthodique des documents sélectionnés (rapport, communication gouvernementale, oms, commission européenne, INSERM…) et une curation de ceux-ci a généré une « toile d’araignée » de synonyme et termes associés qu’elle a dû ensuite structurer. Cette phase délicate et chronophage a produit et permis de dégager plusieurs facettes du sujet.
La phase de curation essentielle et indispensable a été possible grâce à la formation initiale en médecine consolidée par l’expérience en indexation et en terminologie de Patricia. Les outils à disposition utilisés dans la conception du thésaurus Coronavirus sont excel et Termsuit, puis pour la diffusion et l’exposition la plateforme Loterre avec une phase intermédiaire de conversion vers SKOS (langage pour le partage et la représentation des connaissances).
Le thésaurus s’inscrit et répond aux principes FAIR. Chaque concept est associé à un identifiant unique et persistant (URI), réutilisable avec une Licence CC ou etalab, il est interopérable grâce à SKOS.
Vie et perspective du thésaurus
Un objectif à plus ou moins long terme et à partir de la publication du thésaurus sur la plateforme Loterre depuis le 30 juillet 2020 serait d’aller plus loin, par exemple il s’agirait d’enrichir le thésaurus avec des définitions, ce qui serait très utile dans le cadre de ce travail d’annotation sémantique du corpus MERS-SRAS.
Le thésaurus est voué à être réutilisé jusqu’à agréger une communauté dans le meilleur des cas. Il constitue un socle de travail à faire évoluer et affiner grâce aux retours utilisateurs que l’on ne peut qu’espérer.
Lien vers le thésaurus
https://www.loterre.fr/skosmos/C0X/fr/
Le sujet de la thématique « Coronavirus » a été traité également dans l’équipe Textes et corpus – ISTEX et a pu permettre une rencontre de pratiques en interne à l’intersection de deux équipes du département Analyser et fouiller l’information scientifique autour des SRAS-coronavirus.