Un nouveau projet à l’Inist : le « Lac de publications »
Vous l’avez peut-être déjà remarqué : un chef de projet a été nommé et de nouveaux recrutements sont en cours… Mais alors, qu’est-ce que le « Lac de publications » ?
C’est un nouveau projet, actuellement en phase de lancement, piloté par Claude Niederlender. Son objectif est de mettre en place un service capable de répondre aux besoins spécifiques des chercheurs d’analyse d’information à l’aide de technologies d’IA. Concrètement, il s’agit de développer une plateforme proposant 2 grandes fonctionnalités, à savoir :
- le stockage de masse, la normalisation et le traitements de tout type de publications scientifiques
- la mise à disposition selon un contrôle d’accès fin au niveau document.
Les données seront converties dans des formats compatibles avec la fouille de texte, ce qui permettra de leur appliquer des traitements d’IA tels que ceux du service TDM de l’Inist, voire les traitements expérimentaux des chercheurs. Les résultats pourront être stockés et partagés au sein même du lac de publications.
Cet usage du lac pour des travaux de fouille de texte s’inscrit dans le cadre du programme AIKO (IA appliquée aux publications scientifiques) de l’Inria, dans lequel Istex est partenaire.
Etant dédiée aux publications scientifiques, cette plateforme deviendra également le lieu de stockage des données de nos propres bases Istex, Panist et Conditor. Un des enjeux du lac est de mutualiser les ressources de tous ces services « voisins », ce qui à terme facilitera la maintenance et l’évolution. Cette mutualisation permettra que tout document déposé et traité par un utilisateur ou service, pourra être mis à disposition de n’importe quel autre utilisateur, sous réserve de respecter les licences et conditions d’accès. Par exemple, le traitement d’un PDF par le logiciel Grobid pour restructurer le texte intégral d’un document ne sera effectué qu’une fois et le résultat pourra être accédé par chacun. L’ambition est d’agréger en un point unique l’ensemble des traitements réalisés par chacun au bénéfice de tous.
L’équipe projet du lac de publication est en cours de constitution et réunira :
- un chef de projet (Claude Niederlender)
- un intervenant du service Istex T&C,
- un intervenant pour Panist
- un intervenant du service Istex TDM (rectrutement à venir)
- de développeurs en CDD financés par projets (dont Zack Pedretti, ancien stagiaire eZteam)
- du SISI (service ingénierie des systèmes d’information).
Le projet est prévu pour une durée de trois ans, avec une première mise en service attendue fin 2026. Les données seront hébergées dans le DataCenter Mutualisé Lorrain (DCML), en partenariat avec l’Université de Lorraine. Elles rejoindront ainsi le Datacenter Adage (Alliance pour un Datacenter Grand Est), labellisé par le MESRI, ce qui permettra une réplication sur le site de l’Université de Strasbourg.
Contexte : le programme AIKO
AIKO (AI for publication Knowledge), porté par l’Inria, est un projet de recherche de 5 ans. Il explore le potentiel de l’IA appliquée aux publications scientifiques : extraction et structuration des informations, analyse des tendances et biais, amélioration de l’accès aux contenus…
Le tout s’appuye sur ISTEX en tant “infrastructure de services pour la fouille de textes” , dont ce futur Lac de publications est l’élement principal.