Constitution des ressources TAL pour les langues sous-dotées : la cas du serbe

old_uid13984
titleConstitution des ressources TAL pour les langues sous-dotées : la cas du serbe
start_date2017/06/01
schedule14h
onlineno
summaryIl existe à ce jour peu de corpus annotés et de ressources lexicales libres en serbe, ce qui en fait une langue encore peu dotée en termes d’outillage et de diffusion. Les résultats des outils du TAL, notamment des étiqueteurs morphosyntaxiques et des analyseurs syntaxiques, restent en-dessous des performances obtenues pour d’autres langues. Cette situation défavorise aussi bien le développement de diverses applications en TAL que les recherches linguistiques nécessitant des données annotées. Mon travail de thèse a pour objectif de répondre à ce besoin à travers la constitution d’un corpus annoté et le développement des modèles statistiques pour la lemmatisation, l’étiquetage morphosyntaxique et le parsing du serbe. Dans la première moitié de mon intervention, je présenterai mon travail de thèse de manière globale. L’exposé sera organisé en trois temps : j’aborderai d’abord le processus de constitution des ressources, basé notamment sur l’exploitation des ressources existantes pour les langues proches et sur le travail avec une équipe d’annotateurs ; je présenterai ensuite les outils du TAL développés à partir des ressources ainsi constituées ; enfin, je chercherai à illustrer l’utilité d’un corpus annoté syntaxiquement pour le serbe à travers une question linguistique – celle des structures discontinues et du phénomène de non-projectivité, très présent en serbe. La deuxième partie de mon intervention sera consacrée à une discussion sur des questions encore ouvertes, en particulier sur ce dernier point.
responsibles<not specified>