Annotation du rôle sémantique des arguments des prédicats dans des corpus arborés par apprentissage statistique

old_uid7280
titleAnnotation du rôle sémantique des arguments des prédicats dans des corpus arborés par apprentissage statistique
start_date2009/06/30
schedule14h-17h
onlineno
summaryDans le cadre du projet ANR Crotal, nous étudions l’apport de méthodes d’apprentissage statistique pour traiter de grands volumes de données textuelles. Plus précisément, on s’intéresse au modèle statistique des Champs Conditionnels Aléatoires ("Conditional Random Fields", ou CRF), que nous appliquons à l’annotation de corpus arborés pour prédire les arguments des "prédicats" : les prédicats auxquels on s’intéresse sont généralement les verbes, mais on peut également y inclure les/des noms. Les arguments d’un verbe sont les éléments de la phrase qui en dépendent, dont il faut déterminer l’emplacement exact et le "rôle" (e.g. sujet, objet, etc. parmi une liste plus ou moins complexe). Nous utilisons pour cela différentes formes de modèles CRF, basées sur l’utilisation des informations structurelles contenues dans les corpus arborés. L’un des points cruciaux de la problématique est la sélections de traits ("features", i.e. critères de base prises en compte) pertinents qui permettent de construire un modèle fiable. Le système ainsi conçu a été appliqué dans deux contextes : l’annotation de fonctions syntaxiques des arguments du verbe sur le corpus "Paris 7" d’Anne Abeillé d’une part, et le "challenge" proposé au sein du workshop CoNLL, qui consistait cette année en l’annotation de rôles sémantiques dans un cadre multilingue (sept langues).
responsiblesPoibeau