[IST] Les initiatives en fouille de textes fleurissent sur le coronavirus
Base de données Kaggle
Dans une base de 29 000 articles, dont 13 000 en texte intégral concernant le coronavirus (bien sûr pas seulement le « nouveau »), des questions sont listées sous la rubrique « Tasks », et chaque question générique est déclinée en questions spécifiques.
https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks
Par exemple
« What is known about transmission, incubation, and environmental stability? »
https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks?taskId=568
Corpus (LitCovid) sur le Covid-19 mis à jour en continu à la National Library of Medicine
LitCovid est un centre de documentation pour la recherche d’informations scientifiques sur le Coronavirus 2019. Il s’agit de la ressource la plus complète sur le sujet, offrant un accès central à 1528 articles pertinents (et en augmentation) dans PubMed.
https://www.ncbi.nlm.nih.gov/research/coronavirus/ (1528 articles aujourd’hui).
Annotations
Le DBCLS à Tokyo a mis en place dans sa plateforme de gestion d’annotations un espace pour centraliser les informations extraites sur le corpus LitCovid sous forme d’annotations :
http://pubannotation.org/collections/LitCovid
Tous les spécialistes de TAL sont donc encouragés à appliquer leurs méthodes sur ces données et à les faire tourner sur Kaggle (CORD-19), à les appliquer au corpus LitCovid et à déposer les annotations sur pubannotation.