Le traitement des collocations en génération automatique de texte

 

François Lareau

Université de Montréal

 

Domaine : langues et langage

Programme établissement de nouveaux professeurs-chercheurs

Concours 2015-2016

La génération automatique de texte consiste à produire de façon dynamique, au moyen d'un programme informatique, des textes qui expriment de l'information qu'on veut communiquer (généralement à partir de données brutes). La plupart des générateurs sont spécifiques à une langue et une application particulières, mais on tente maintenant de construire des générateurs plus génériques qui seraient facilement réutilisables pour diverses applications. Pour cela, il faut modéliser les principaux phénomènes linguistiques qu'on retrouve dans les langues en général.

Or, il y a un phénomène fondamental qui reste très peu étudié en génération automatique de texte: les collocations. Ce sont des expressions figées du type « grippe carabinée », « peur bleue » ou « désir ardent », où un sens (ici, l'intensité) ne s'exprime pas de la même façon selon le mot qu'il modifie. En lexicographie, on modélise les collocations au moyen de fonctions qui correspondent à des patrons récurrents de collocations. Par exemple, les trois expressions considérées ici se décrivent au moyen d'une fonction qui  s'appelle « Magn » : Magn (peur)=bleue, Magn (grippe)=carabinée, Magn (désir)=ardent. Il existe des centaines de fonctions de ce type. Nous proposons de les intégrer de façon systématique et exhaustive à une plateforme de génération de texte pour l'anglais, l'espagnol et le français, afin de résoudre le problème du traitement des collocations.