Infos Inist

[BrèveDeScience] Comment coder le sens des mots avec des chiffres ?

DE QUOI S’AGIT-IL ?

En traitement automatique des langues, on représente le sens des mots par des suites de chiffres. Ces chiffres sont choisis de manière à pouvoir effectuer des calculs qui vont nous permettre de retrouver les propriétés des mots.
Par exemple des propriétés de synonymie ou de calculer le sens d’unités de mots plus complexes comme par exemple le cours de mathématiques en connaissant le sens de cours et le sens de mathématiques.
Prenons l’exemple d’un enfant qui lit un livre et tombe sur un mot qu’il ne connait pas, par exemple le mot ‘barbare’. Les techniques de traitement automatique des langues vont permettre de lui suggérer un autre mot dont on considère qu’il le connait, comme par exemple ‘sauvage’.

COMMENT VOUS FAITES ?

Pour identifier ces suites de chiffres qui représentent le sens des mots, on va considérer que le sens d’un mot est défini par les mots qui l’entourent. Bien évidemment, il y a tout un traitement un petit peu complexe, on va utiliser ce que l’on appelle de l’apprentissage à base de réseaux de neurones profonds, qui essayent de trouver la meilleure représentation de cette suite de mots.
Donc, le traitement automatique des langues s’intéresse à la langue sous toutes ses formes, que ce soit la langue écrite, parlée, ou même signée.
Les grandes applications du traitement automatique des langues sont la traduction automatique, les nouvelles interfaces langagières… le fameux Siri « Que puis-je faire pour vous ? »

Avec Béatrice Daille,

Spécialiste en traitement automatique des langues au Laboratoire des Sciences du Numérique de Nantes (LS2N – CNRS / Ecole centrale de Nantes / Université de Nantes / IMT Atlantique – Institut Mines-Telecom)

Série « Brève de science » saison 2