Unitex2SxPipe

old_uid3524
titleUnitex2SxPipe
start_date2007/11/26
schedule10h30
onlineno
summaryUnitex permet entre autres de reconnaître automatiquement des motifs dans un texte brut. Grâce à son interface graphique, il permet aux linguistes de construire des grammaires de façon quasi intuitive, sous forme de graphes à états finis. SxPipe est une chaîne de traitement pré-syntaxique développée par Benoît Sagot et Pierre Boullier, qui gère la segmentation, la tokenisation, la correction orthographique ainsi que la reconnaissance d'entités nommées. Il transforme un texte brut en DAG (Direct Acyclic Graph ou lattice) d'entrées lexicales. Depuis peu, il sait utiliser une grammaire non contextuelle pour reconnaître des motifs dans un DAG d'entrée, qui est alors modifié en conséquence (étiquetage, insertion de balises,...). Unitex2SxPipe est un ensemble de scripts Perl qui utilisent cette nouvelle fonctionnalité. Ils ont pour objectif de traduire une grammaire Unitex (une série de graphes au format .grf) en une grammaire utilisable par SxPipe (grammaire qui sera constituée d'une grammaire non contextuelle et d'un lexique). Cet outil a été créé dans le but d'adapter Ilimp, grammaire Unitex développée par Laurence Danlos qui distingue les occurrences anaphoriques et impersonnelles du pronom « il ». Le résultat pour Ilimp étant satisfaisant, nous essayons de généraliser le procédé à tous les graphes Unitex.
responsiblesTolone