|
N-Grammes, Hapax et Probabilités Rares| old_uid | 13304 |
|---|
| title | N-Grammes, Hapax et Probabilités Rares |
|---|
| start_date | 2014/01/23 |
|---|
| schedule | 10h-12h |
|---|
| online | no |
|---|
| location_info | Bât. G E27, salle Modal'X |
|---|
| summary | Dans cet exposé, je vous donnerai un aperçu d'une des plus simples modélisations en linguistique informatique: les n-grammes. Ceux-ci sont une famille de dépendances Markoviennes, utilisée pour prédire la probabilité qu'un mot suive d'autres, ou bien pour donner un score à chaque phrase automatiquement reconnue de la parole ou traduite d'une autre langue. Je vous parlerai en particulier d'un problème courant dans cette modélisation: l'estimation des probabilités rares. L'abondance du phénomène des hapax legomenon, des mots dont on observe que quelques occurrences, peut poser des problèmes dans ce genre de traitement. Afin de compenser ces lacunes, les informaticiens et statisticiens ont crées des techniques dites d'"extrapolation" ou de "lissage", qui arrivent à estimer ce qu'on a rarement, voire ce qu'on n'a jamais, vu. On pourrait même utiliser ces méthodes pour donner une réponse à la question: en se basant sur ses œuvres, pourrions-nous dires combien de mots différents Molière connaissait? Je vous montrerai comment ces techniques sont particulièrement adaptées aux langues naturelles, en se basant sur le faite de la prépondérance des lois de puissance dans ce domaine. |
|---|
| responsibles | Parisse |
|---|
| |
|