Variations linguistiques sur les CRF Mettre un peu de sens dans le monde du calcul brut

old_uid9219
titleVariations linguistiques sur les CRF Mettre un peu de sens dans le monde du calcul brut
start_date2010/11/08
schedule10h30-12h30
onlineno
summaryLes CRF ("Conditional Random Fields" ou "Champs Markoviens Conditionnels") sont une famille de modèles graphiques discriminants nés récemment dans le domaine du TAL (Lafferty, McCallum et Pereira 2001, Sutton et McCallum 2006), qui permettent d'apprendre à annoter des données en se basant sur un ensemble d'exemples déjà annotés. Ils ont donné d'excellents résultats (souvent les meilleurs) pour différentes tâches pouvant se ramener à l'étiquetage de séquences d'unités linguistiques (reconnaissance d'entités nommées et extraction d’information (McCallum et Li, 2003, Pinto et al., 2003), étiquetage en partie de discours (Altun et al., 2003), analyse syntaxique peu profonde (Sha et Pereira,2003)...).  Ils peuvent aussi être employés pour l'étiquetage dedonnées structurées comme les pages HTML ou les corpus arborés (Cohn et Blunsom 2005, Jousse 2007, Moreau et al 2009, Moreau et Tellier 2009) et même inspirer la conception de nouveaux analyseurs syntaxiques (Finkel, Kleeman & Manning 2008).  Dans cet exposé, nous commencerons par expliquer les fondements de ce modèle.  Nous montrerons ensuite que leur attrait pour les linguistes vient de ce qu'ils permettent d'intégrer facilement de plusieurs façons différentes des ressources linguistiques externes de diverses natures, et combinent ainsi naturellement connaissances symboliques et apprentissage statistique. Nous illustrerons cette souplesse d'utilisation via deux applications distinctes : l'étiquetage en partie du discours de phrases françaises et l'identification des rôles thématiques dans un corpus arboré.
responsiblesTolone