Annotation en rôles sémantiques fondée sur la connaissance du français en domaine spécifique

old_uid14938
titleAnnotation en rôles sémantiques fondée sur la connaissance du français en domaine spécifique
start_date2015/01/16
schedule11h-12h30
onlineno
location_infosalle 267
summaryNous présenterons nos travaux de thèse, qui portent sur l’annotation automatique en rôles sémantiques du français en domaine spécifique. Cette tâche consiste à la fois à désambiguïser le sens des verbes d’un texte et à annoter leurs syntagmes avec des rôles sémantiques tels qu’Agent, Patient, ou Destination. Elle aide de nombreuses applications dans les domaines où des corpus annotés existent : on peut alors entraîner des algorithmes supervisés performants. Nous cherchons au contraire à annoter des domaines ne disposant pas de tels corpus annotés. Nous considérons ici trois domaines : le réchauffement climatique, Informatique/Internet, et le football, leurs corpus annotés ne nous servant que pour l’évaluation. Nous montrons que nos traductions vers le français de lexiques sémantiques pour l’anglais donnent la possibilité d’annoter en rôles sémantiques des textes aussi bien en domaine général qu’en domaine spécifique sans avoir à entraîner un modèle statistique. Nos travaux portent sur deux grands axes : les ressources puis les méthodes servant à l’annotation en rôles sémantiques. Concernant les ressources, nous commençons par traduire la base de données lexicales WordNet vers le français à l’aide d’un modèle de langue syntaxique issu du web. Cette ressource, WoNeF, est disponible en trois versions : une à haute précision (93,3 %), une à haut F-score (70,9 %), et l’autre à haute couverture, plus large mais plus bruitée. Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont regroupés suivant leur traits syntaxiques, morphologiques et sémantiques. Contrairement à WordNet, la traduction, Verb?Net a été obtenue à la fois en réutilisant au maximum les lexiques verbaux du français (le Lexique-Grammaire et Les Verbes Français) mais aussi avec un travail manuel important pour contrôler au mieux son contenu. Concernant les méthodes, nous commençons par évaluer notre méthode basée sur VerbNet sur le corpus annoté FrameNet, en suivant les travaux de Swier and Stevenson [2005] (http://www.aclweb.org/anthology/H05-1111). Nous montrons que des améliorations conséquentes peuvent être obtenues à la fois d’un point de vue syntaxique avec la prise en compte de la voix passive et d’un point de vue sémantique en filtrant les syntagmes ne correspondant pas aux restrictions de sélection indiquées dans VerbNet et en réutilisant les résultats des premières annotations automatiques non ambigües. Enfin, une fois ces briques en place, nous évaluons la faisabilité de l’annotation en rôles sémantiques du français dans nos trois domaines spécifiques. Nous évaluons en effet quelles sont les avantages et inconvénients de se baser sur VerbNet et Verb?Net pour annoter ces domaines en anglais et en français.
responsiblesCandito