Infos Inist

Marc Rubio collabore avec la Chaire UNESCO à Montréal sur un projet de corpus parallèles

Marc Rubio, du service Ressources Langagières Multilingues, a récemment mené un projet en collaboration avec la Chaire UNESCO sur la science ouverte de l’Université de Montréal. L’objectif : constituer des corpus parallèles, ensembles de textes et de leurs traductions alignées, afin de produire des fichiers .tmx destinés à l’entraînement d’un système de traduction automatique pour la Chaire.

Pour ce projet, Marc a sélectionné 15 documents bilingues publiés entre 2019 et 2024, portant sur le thème de la science ouverte. À l’aide du logiciel libre LF Aligner, il a procédé à un minutieux travail d’alignement phrase à phrase, nécessitant notamment un important nettoyage préalable des fichiers (suppression de tableaux, schémas et autres éléments non textuels perturbant l’analyse).

Le résultat : deux fichiers XML, un pour chaque sens de traduction (en-fr et fr-en), totalisant 3 231 segments alignés.