|
Apprentissage automatique des morphologies : Pourquoi et comment ?| old_uid | 2213 |
|---|
| title | Apprentissage automatique des morphologies : Pourquoi et comment ? |
|---|
| start_date | 2007/02/09 |
|---|
| schedule | 10h-11h |
|---|
| online | no |
|---|
| summary | Nous parlerons d'un projet mis sur pied en 1997 et actuellement incarné
dans le logiciel Linguistica (URL : linguistica.uchicago.edu). Le but de
ce projet est de clarifier, en l'explicitant et la quantifiant, la notion «bonne description de la morphologie d'une langue naturelle», afin d'incorporer cette notion dans un logiciel capable de découvrir la structure morphologique d'un corpus sans l'intervention d'une intelligence humaine, une fois le logiciel lancé. Le cadre dans lequel ce travail se fait est celui de l'analyse Minimum Description Length (MDL) (Jorma Rissanen, 1989), une approche bayésienne qui se prête bien au problème de 'apprentissage non-supervisé.
L'intérêt de l'approche relève du fait que MDL précise une expression, la
longueur de description d'un corpus C par une analyse H, qui se décompose en deux termes. Le premier terme mesure la capacité de l'analyse H de bien modéliser les données C; ce terme est -log prob(C | H) : plus il est petit, mieux la morphologie H modélise les données. Le deuxième terme est la probabilité du modèle H même (ou plutôt, -log prob(H)), que l'on modélise à la base de la longueur de la morphologie, mesurée en bits. Ce deuxième terme mesure la simplicité de l'analyse.
Je ferais de mon mieux pour insuffler un peu de vie et de rigueur dans ces notions mathématiques, et d'expliquer pourquoi ceci devrait intéresser un linguiste. Nous regarderons ensemble les analyses offertes par le logiciel aux corpora de l'anglais, du français, et du swahili et conclurons en nous posant la question : est-ce qu'une simple expression mathématique peut vraiment mesurer la réussite d'une analyse linguistique ? |
|---|
| responsibles | Faraco, Bertrand |
|---|
| |
|