Acquisition de schémas d'événements à partir de corpus

old_uid9360
titleAcquisition de schémas d'événements à partir de corpus
start_date2010/12/03
schedule11h-13h
onlineno
location_infoetage 4, salle 4C92
summaryLe travail présenté a pour objectif la mise au point d´algorithmes pour produire des schémas d´extraction d'informations dans le cadre du projet SCRIBO (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies). SCRIBO vise à extraire, de manière non supervisée, des concepts et des relations entre concepts à partir de corpus. Un schéma d'extraction correspond à une relation entre des concepts. Il est défini sur le champs sémantique en tant qu'un type d'événement, tandis que sur le champs syntaxique, il rassemble toutes les manières dont un certain type d'événement peut être exprimé dans le texte. La méthodologie pour identifier les schémas d'extraction est basée sur l'analyse distributionnelle de Z.S. Harris. D'après notre hypothèse, les diverses formes pour exprimer le même type d'événement apparaissent dans le corpus avec les mêmes types de participants, ce qui se traduit en une similarité entre leurs contextes syntaxiques. De plus, les unités lexicales réunies autour d'un type d'événement partagent souvent un certain nombre de transformations syntaxiques (Gross 1975, Levin 1993).  Les algorithmes élaborés permettent d'exploiter ces similarités afin de proposer de regrouper autour d'un concept d'événement a) les unités lexicales (verbes, phrases à verbe support) qui dénotent le même événement, 2) pour chaque verbe, les noms déverbaux correspondants, 3) les équivalences entre les arguments du verbe et ceux du nom déverbal, 4) les équivalences entre les diverses fonctions syntaxiques dans le schéma de sous-catégorisation verbal qui remplissent les mêmes roles sémantiques (c'est-à-dire les transformations syntaxiques).  Pour surmonter le problème du manque de données (data sparseness) et améliorer les résultats du regroupement, les algorithmes d'apprentissage peuvent être réitérés en utilisant les résultats de la classification pour regrouper les éléments de l'espace de traits et filtrer les traits pertinents pour la tâche. Une validation manuelle de la ressource est envisagée. Une interface graphique permettra aux validateurs d'accepter ou de rejeter les propositions de schémas à la base d'une série d'exaples tirés du corpus.
responsiblesCrabbé