N-Grammes, Hapax et Probabilités Rares

old_uid	13304
title	N-Grammes, Hapax et Probabilités Rares
start_date	2014/01/23
schedule	10h-12h
online	no
location_info	Bât. G E27, salle Modal'X
summary	Dans cet exposé, je vous donnerai un aperçu d'une des plus simples modélisations en linguistique informatique: les n-grammes. Ceux-ci sont une famille de dépendances Markoviennes, utilisée pour prédire la probabilité qu'un mot suive d'autres, ou bien pour donner un score à chaque phrase automatiquement reconnue de la parole ou traduite d'une autre langue. Je vous parlerai en particulier d'un problème courant dans cette modélisation: l'estimation des probabilités rares. L'abondance du phénomène des hapax legomenon, des mots dont on observe que quelques occurrences, peut poser des problèmes dans ce genre de traitement. Afin de compenser ces lacunes, les informaticiens et statisticiens ont crées des techniques dites d'"extrapolation" ou de "lissage", qui arrivent à estimer ce qu'on a rarement, voire ce qu'on n'a jamais, vu. On pourrait même utiliser ces méthodes pour donner une réponse à la question: en se basant sur ses œuvres, pourrions-nous dires combien de mots différents Molière connaissait? Je vous montrerai comment ces techniques sont particulièrement adaptées aux langues naturelles, en se basant sur le faite de la prépondérance des lois de puissance dans ce domaine.
responsibles	Parisse

hosted_by

event_of

Event #166775 - latest update on 2022/05/17, created on 2014/01/09