search

actions - event

state: published
- cancelpublished
- view workflow

Annotation d'entités nommées dans le Corpus National du Polonais

old_uid	11504
title	Annotation d'entités nommées dans le Corpus National du Polonais
start_date	2012/06/11
schedule	10h30
online	no
location_info	salle 4B08R
summary	Le Corpus National du Polonais, développé par l'Académie Polonaise des Sciences, est une grande collection de textes de 1,5 milliard de mots, de différents genres, dans laquelle des objets de différents types sont annotés linguistiquement : les phrases, les segments, les items morphosyntaxiques, les mots syntaxiques, les phrases syntaxiques, les entités nommées et les sens des mots. Un sous ensemble de 1 million de mots de ce corpus a été annoté manuellement. Nous évoquerons la méthodologie générale de construction d'un tel corpus multi-niveau, ainsi que la définition de son format conforme à la norme TEI P5. Ensuite nous présenterons de manière plus détaillée le schéma d'annotation des entités nommées. Seront discutés certains choix méthodologiques novateurs, tels que l'annotation des dérivés (adjectifs relatifs et gentilés des noms propres), ainsi que des unités imbriquées et discontinues. Nous montrerons des exemples de phénomènes linguistiques et extra-linguistiques qui défient le schéma d'annotation pré-établi. Les corpus annotés sont fréquemment utilisés pour l'entraînement d'outils à base d'apprentissage automatique qui peuvent ensuite servir à l'annotation de nouveaux corpus. Cependant, la représentation d'annotations fines selon des méthodes classiques en apprentissage, telles la méthode IOB, n'est pas toujours banale, notamment en ce qui concerne des unités non contiguës ou possédant des composants qui se chevauchent. Nous allons présenter des propositions de solutions à ces problèmes implantées dans un outil d'annotation automatique d'entités nommées NERF, basé sur les CRF (Conditional Random Fields).
responsibles	Sigogne, Rakho

hosted_by

Cité Descartes

event_of

Informatique Linguistique (séminaire de l’équipe du Laboratoire d'Informatique Gaspard Monge, LIGM) (2011)

Event #164975 - latest update on 2022/05/17, created on 2012/05/07