N-Grammes, Hapax et Probabilités Rares

old_uid13304
titleN-Grammes, Hapax et Probabilités Rares
start_date2014/01/23
schedule10h-12h
onlineno
location_infoBât. G E27, salle Modal'X
summaryDans cet exposé, je vous donnerai un aperçu d'une des plus simples modélisations en linguistique informatique: les n-grammes. Ceux-ci sont une famille de dépendances Markoviennes, utilisée pour prédire la probabilité qu'un mot suive d'autres, ou bien pour donner un score à chaque phrase automatiquement reconnue de la parole ou traduite d'une autre langue. Je vous parlerai en particulier d'un problème courant dans cette modélisation: l'estimation des probabilités rares. L'abondance du phénomène des hapax legomenon, des mots dont on observe que quelques occurrences, peut poser des problèmes dans ce genre de traitement. Afin de compenser ces lacunes, les informaticiens et statisticiens ont crées des techniques dites d'"extrapolation" ou de "lissage", qui arrivent à estimer ce qu'on a rarement, voire ce qu'on n'a jamais, vu. On pourrait même utiliser ces méthodes pour donner une réponse à la question: en se basant sur ses œuvres, pourrions-nous dires combien de mots différents Molière connaissait? Je vous montrerai comment ces techniques sont particulièrement adaptées aux langues naturelles, en se basant sur le faite de la prépondérance des lois de puissance dans ce domaine.
responsiblesParisse