|
Annotation d'entités nommées dans le Corpus National du Polonais| old_uid | 11504 |
|---|
| title | Annotation d'entités nommées dans le Corpus National du Polonais |
|---|
| start_date | 2012/06/11 |
|---|
| schedule | 10h30 |
|---|
| online | no |
|---|
| location_info | salle 4B08R |
|---|
| summary | Le Corpus National du Polonais, développé par l'Académie Polonaise des
Sciences, est une grande collection de textes de 1,5 milliard de mots, de
différents genres, dans laquelle des objets de différents types sont annotés
linguistiquement : les phrases, les segments, les items morphosyntaxiques, les
mots syntaxiques, les phrases syntaxiques, les entités nommées et les sens des
mots. Un sous ensemble de 1 million de mots de ce corpus a été annoté
manuellement. Nous évoquerons la méthodologie générale de construction d'un tel
corpus multi-niveau, ainsi que la définition de son format conforme à la norme
TEI P5. Ensuite nous présenterons de manière plus détaillée le schéma
d'annotation des entités nommées. Seront discutés certains choix
méthodologiques novateurs, tels que l'annotation des dérivés (adjectifs
relatifs et gentilés des noms propres), ainsi que des unités imbriquées et
discontinues. Nous montrerons des exemples de phénomènes linguistiques et
extra-linguistiques qui défient le schéma d'annotation pré-établi. Les corpus
annotés sont fréquemment utilisés pour l'entraînement d'outils à base
d'apprentissage automatique qui peuvent ensuite servir à l'annotation de
nouveaux corpus. Cependant, la représentation d'annotations fines selon des
méthodes classiques en apprentissage, telles la méthode IOB, n'est pas toujours
banale, notamment en ce qui concerne des unités non contiguës ou possédant des
composants qui se chevauchent. Nous allons présenter des propositions de
solutions à ces problèmes implantées dans un outil d'annotation automatique
d'entités nommées NERF, basé sur les CRF (Conditional Random Fields). |
|---|
| responsibles | Sigogne, Rakho |
|---|
| |
|