search

actions - event

state: published
- cancelpublished
- view workflow

Segmentation non-supervisée du mandarin écrit

old_uid	10996
title	Segmentation non-supervisée du mandarin écrit
start_date	2012/03/09
schedule	11h-12h30
online	no
summary	L'écriture chinoise est de celles qui n'utilisent pas de caractère d'espacement. Ceci complexifie grandement la tokenisation, première étape de presque tout système d'analyse de textes écrits en mandarin, étape que l'on appelle traditionnellement "segmentation". Si les méthodes de segmentation supervisées donnent aujourd'hui de très bons résultats "en laboratoire", la qualité de leur sortie devient difficile à prédire si l'on doit faire face à toute forme de variation qui nous éloignerait du corpus d’entraînement (variations en genre, en style, dans le temps ou au contact d'autres langues sinitiques). Pour cette raison, ainsi que pour les questions linguistiques sous-jacentes sur lesquelles les méthodes supervisées ne disent presque rien, la segmentation non-supervisée reste une option intéressante à étudier. Après avoir évoqué les difficultés d'évaluation de tels systèmes, nous montrerons comment l'état de l'art actuel peut être atteint en simplifiant un modèle existant inspiré d'une hypothèse de Harris. Pour une qualité de sortie comparable, le modèle proposé présente les avantages d'être non paramétrique et de se baser sur une unique hypothèse linguistique, rendant son fonctionnement plus intuitif.
responsibles	Candito

hosted_by

UFR Linguistique

speakers

event_of

Linguistique informatique (séminaire Alpage, UFR de Linguistique) (2011)

Event #164467 - latest update on 2022/05/17, created on 2012/03/08