|
Segmentation non-supervisée du mandarin écrit| old_uid | 10996 |
|---|
| title | Segmentation non-supervisée du mandarin écrit |
|---|
| start_date | 2012/03/09 |
|---|
| schedule | 11h-12h30 |
|---|
| online | no |
|---|
| summary | L'écriture chinoise est de celles qui n'utilisent pas de caractère d'espacement.
Ceci complexifie grandement la tokenisation, première étape de presque tout
système d'analyse de textes écrits en mandarin, étape que l'on appelle
traditionnellement "segmentation".
Si les méthodes de segmentation supervisées donnent aujourd'hui de très bons
résultats "en laboratoire", la qualité de leur sortie devient difficile à prédire si
l'on doit faire face à toute forme de variation qui nous éloignerait du corpus
d’entraînement (variations en genre, en style, dans le temps ou au contact
d'autres langues sinitiques).
Pour cette raison, ainsi que pour les questions linguistiques sous-jacentes sur
lesquelles les méthodes supervisées ne disent presque rien, la segmentation
non-supervisée reste une option intéressante à étudier.
Après avoir évoqué les difficultés d'évaluation de tels systèmes, nous montrerons
comment l'état de l'art actuel peut être atteint en simplifiant un modèle existant
inspiré d'une hypothèse de Harris.
Pour une qualité de sortie comparable, le modèle proposé présente les avantages
d'être non paramétrique et de se baser sur une unique hypothèse linguistique,
rendant son fonctionnement plus intuitif. |
|---|
| responsibles | Candito |
|---|
| |
|