L'analyse syntaxique statistique du français : état des lieux

old_uid9025
titleL'analyse syntaxique statistique du français : état des lieux
start_date2010/07/05
schedule10h
onlineno
summaryL'analyse syntaxique statistique en constituants du français est, à l'heure actuelle, au stade des premières expérimentations. Les expériences qui ont été menées dans le passé ont consisté principalement à évaluer des analyseurs sur le français mais originellement développés sur l'anglais. Les résultats ont indiqué des performances moindres sur le français, les raisons invoquées étant diverses. On pourra notamment citer la différence entre le schéma d'annotation du corpus annoté du français et celui pour l'anglais, ou encore les spécificités du français impossibles à capturer avec certains analyseurs. Mon objectif premier est donc de déterminer une chaîne de traitements syntaxiques traitant le français qui permette d'obtenir des performances se rapprochant de celles obtenues pour l'anglais. Je commencerai par présenter l'état de l'art général de l'analyse syntaxique statistique en évoquant tout d'abord les différents modèles probabilistes existants et les analyseurs basés sur ces modèles. Nous verrons que le choix du modèle en fonction de la tâche à effectuer est crucial pour les performances d'un analyseur probabiliste. J'évoquerai ensuite l'état des lieux en ce qui concerne les expériences qui ont été menées sur le français et les conclusions que nous pouvons en tirer. Ensuite, je décrirai les expériences que je désire mener dans le cadre du français d'après les remarques et les observations faîtes dans la première partie. Je présenterai la chaîne de traitements syntaxiques basée sur la séquentialisation de deux analyseurs. Le premier analyseur calcule la ou les analyses les plus probables d'une phrase et un deuxième analyseur a pour tâche le reclassement des analyses, l'analyse plus probable n'est pas forcément la meilleure en terme de performance. Puis, je finirai cette présentation par l'avancement de mon travail et les perspectives à long terme avec notamment l'intégration d'un lexique syntaxique, le Lexique-Grammaire, dans la chaîne de traitements.
responsiblesTolone