Annotation d'entités nommées dans le Corpus National du Polonais

old_uid11504
titleAnnotation d'entités nommées dans le Corpus National du Polonais
start_date2012/06/11
schedule10h30
onlineno
location_infosalle 4B08R
summaryLe Corpus National du Polonais, développé par l'Académie Polonaise des Sciences, est une grande collection de textes de 1,5 milliard de mots, de différents genres, dans laquelle des objets de différents types sont annotés linguistiquement : les phrases, les segments, les items morphosyntaxiques, les mots syntaxiques, les phrases syntaxiques, les entités nommées et les sens des mots. Un sous ensemble de 1 million de mots de ce corpus a été annoté manuellement. Nous évoquerons la méthodologie générale de construction d'un tel corpus multi-niveau, ainsi que la définition de son format conforme à la norme TEI P5. Ensuite nous présenterons de manière plus détaillée le schéma d'annotation des entités nommées. Seront discutés certains choix méthodologiques novateurs, tels que l'annotation des dérivés (adjectifs relatifs et gentilés des noms propres), ainsi que des unités imbriquées et discontinues. Nous montrerons des exemples de phénomènes linguistiques et extra-linguistiques qui défient le schéma d'annotation pré-établi. Les corpus annotés sont fréquemment utilisés pour l'entraînement d'outils à base d'apprentissage automatique qui peuvent ensuite servir à l'annotation de nouveaux corpus. Cependant, la représentation d'annotations fines selon des méthodes classiques en apprentissage, telles la méthode IOB, n'est pas toujours banale, notamment en ce qui concerne des unités non contiguës ou possédant des composants qui se chevauchent. Nous allons présenter des propositions de solutions à ces problèmes implantées dans un outil d'annotation automatique d'entités nommées NERF, basé sur les CRF (Conditional Random Fields).
responsiblesSigogne, Rakho