|
Annotation en rôles sémantiques fondée sur la connaissance du français en domaine spécifique| old_uid | 14938 |
|---|
| title | Annotation en rôles sémantiques fondée sur la connaissance du français en domaine spécifique |
|---|
| start_date | 2015/01/16 |
|---|
| schedule | 11h-12h30 |
|---|
| online | no |
|---|
| location_info | salle 267 |
|---|
| summary | Nous présenterons nos travaux de thèse, qui portent sur l’annotation
automatique en rôles sémantiques du français en domaine spécifique.
Cette tâche consiste à la fois à désambiguïser le sens des verbes d’un
texte et à annoter leurs syntagmes avec des rôles sémantiques tels
qu’Agent, Patient, ou Destination. Elle aide de nombreuses
applications dans les domaines où des corpus annotés existent : on
peut alors entraîner des algorithmes supervisés performants. Nous
cherchons au contraire à annoter des domaines ne disposant pas de tels
corpus annotés. Nous considérons ici trois domaines : le réchauffement
climatique, Informatique/Internet, et le football, leurs corpus
annotés ne nous servant que pour l’évaluation. Nous montrons que nos
traductions vers le français de lexiques sémantiques pour l’anglais
donnent la possibilité d’annoter en rôles sémantiques des textes aussi
bien en domaine général qu’en domaine spécifique sans avoir à
entraîner un modèle statistique.
Nos travaux portent sur deux grands axes : les ressources puis les
méthodes servant à l’annotation en rôles sémantiques.
Concernant les ressources, nous commençons par traduire la base de
données lexicales WordNet vers le français à l’aide d’un modèle de
langue syntaxique issu du web. Cette ressource, WoNeF, est disponible
en trois versions : une à haute précision (93,3 %), une à haut F-score
(70,9 %), et l’autre à haute couverture, plus large mais plus bruitée.
Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont
regroupés suivant leur traits syntaxiques, morphologiques et
sémantiques. Contrairement à WordNet, la traduction, Verb?Net a été
obtenue à la fois en réutilisant au maximum les lexiques verbaux du
français (le Lexique-Grammaire et Les Verbes Français) mais aussi avec
un travail manuel important pour contrôler au mieux son contenu.
Concernant les méthodes, nous commençons par évaluer notre méthode
basée sur VerbNet sur le corpus annoté FrameNet, en suivant les
travaux de Swier and Stevenson [2005]
(http://www.aclweb.org/anthology/H05-1111). Nous montrons que des
améliorations conséquentes peuvent être obtenues à la fois d’un point
de vue syntaxique avec la prise en compte de la voix passive et d’un
point de vue sémantique en filtrant les syntagmes ne correspondant pas
aux restrictions de sélection indiquées dans VerbNet et en réutilisant
les résultats des premières annotations automatiques non ambigües.
Enfin, une fois ces briques en place, nous évaluons la faisabilité de
l’annotation en rôles sémantiques du français dans nos trois domaines
spécifiques. Nous évaluons en effet quelles sont les avantages et
inconvénients de se baser sur VerbNet et Verb?Net pour annoter ces
domaines en anglais et en français. |
|---|
| responsibles | Candito |
|---|
| |
|