Infos Inist

Corpus Systématique végétale et Systématique Animale : Istex et TDM en quête de Biodiversité

Le succès de la collaboration entre le service Istex et le service Text and data mining a permis d’enrichir les corpus Systématique végétale et Systématique animale.

Tout a commencé en 2017 lorsque Dominique Besagni, aujourd’hui à la retraite, a créé un programme appelé IRC3 pour identifier des termes spécifiques dans des textes, tels que les noms scientifiques d’espèces animales et végétales. Ce programme simple et robuste visait à reconnaître et extraire, dans un corpus de textes, des termes figés tels que les composés chimiques, les noms scientifiques d’espèces animales ou végétales, les noms propres, etc. Le programme a été incrémenté à l’aide d’une fiche Json créée manuellement. Cet outil recherche dans un corpus de documents les noms d’espèces animales et végétales présents dans Catalogue Of Life.

Un travail de recherche des noms d’espèces animales et végétales avait précédemment été réalisé avec la Société Science-Miner (https://science-miner.com/), qui a créé l’outil entity-fishing, permettant de relier les noms d’espèces à Wikidata.

En 2023, François Parmentier du service Text and Data Mining a implémenté le web service IRC3 Species. Ce nouvel outil est capable de reconnaître non seulement les noms d’espèces animales et végétales, mais aussi les virus, bactéries, champignons, en utilisant la base de données Catalogue of Life, qui répertorie 3,8 millions d’espèces différentes. Enza Morale du service Istex a utilisé ce web service pour la détection des noms d’espèces dans le corpus Systématique végétale.

De plus, le logiciel Lodex a été mis à jour, permettant désormais de cliquer sur des liens vers le Catalogue of Life ou Wikidata (dans le corpus Systématique animale), offrant ainsi une expérience interactive pour explorer davantage d’informations sur les espèces.

Grâce à cette collaboration fructueuse, les corpus Systématique végétale et Systématique animale ont été améliorés avec les noms scientifiques d’espèces détectés pour chaque document. Cela offre aux chercheurs une ressource précieuse pour étudier les règnes végétal et animal.