23 mars 202023 mars 2020 Cécilia FABRY

[IST] Les initiatives en fouille de textes fleurissent sur le coronavirus

Base de données Kaggle

Dans une base de 29 000 articles, dont 13 000 en texte intégral concernant le coronavirus (bien sûr pas seulement le « nouveau »), des questions sont listées sous la rubrique « Tasks », et chaque question générique est déclinée en questions spécifiques.

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks

Par exemple

« What is known about transmission, incubation, and environmental stability? »

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks?taskId=568

Corpus (LitCovid) sur le Covid-19 mis à jour en continu à la National Library of Medicine

LitCovid est un centre de documentation pour la recherche d’informations scientifiques sur le Coronavirus 2019. Il s’agit de la ressource la plus complète sur le sujet, offrant un accès central à 1528 articles pertinents (et en augmentation) dans PubMed.

https://www.ncbi.nlm.nih.gov/research/coronavirus/ (1528 articles aujourd’hui).

Annotations

Le DBCLS à Tokyo a mis en place dans sa plateforme de gestion d’annotations un espace pour centraliser les informations extraites sur le corpus LitCovid sous forme d’annotations :

http://pubannotation.org/collections/LitCovid

Tous les spécialistes de TAL sont donc encouragés à appliquer leurs méthodes sur ces données et à les faire tourner sur Kaggle (CORD-19), à les appliquer au corpus LitCovid et à déposer les annotations sur pubannotation.