Segmentation non-supervisée du mandarin écrit

old_uid10996
titleSegmentation non-supervisée du mandarin écrit
start_date2012/03/09
schedule11h-12h30
onlineno
summaryL'écriture chinoise est de celles qui n'utilisent pas de caractère d'espacement. Ceci complexifie grandement la tokenisation, première étape de presque tout système d'analyse de textes écrits en mandarin, étape que l'on appelle traditionnellement "segmentation". Si les méthodes de segmentation supervisées donnent aujourd'hui de très bons résultats "en laboratoire", la qualité de leur sortie devient difficile à prédire si l'on doit faire face à toute forme de variation qui nous éloignerait du corpus d’entraînement (variations en genre, en style, dans le temps ou au contact d'autres langues sinitiques). Pour cette raison, ainsi que pour les questions linguistiques sous-jacentes sur lesquelles les méthodes supervisées ne disent presque rien, la segmentation non-supervisée reste une option intéressante à étudier. Après avoir évoqué les difficultés d'évaluation de tels systèmes, nous montrerons comment l'état de l'art actuel peut être atteint en simplifiant un modèle existant inspiré d'une hypothèse de Harris. Pour une qualité de sortie comparable, le modèle proposé présente les avantages d'être non paramétrique et de se baser sur une unique hypothèse linguistique, rendant son fonctionnement plus intuitif.
responsiblesCandito