L'annotation morphosyntaxique de transcriptions de dialogues oraux spontanés

old_uid4205
titleL'annotation morphosyntaxique de transcriptions de dialogues oraux spontanés
start_date2008/03/03
schedule10h30-12h30
onlineno
summaryDepuis plusieurs années, la communauté scientifique dispose de systèmes d'annotation morphosyntaxique qui donnent des résultats corrects sur des textes du français standard écrit. Néanmoins, très rares sont les tentatives d'étiquetage de corpus oraux retranscrits. Les logiciels faisant actuellement le type d'étiquetage auquel nous souhaitons aboutir s'avèrent inadéquats pour des données textuelles orales, et ce pour plusieurs raisons : - les conventions de transcription notent des éléments, souvent appelés disfluences, qui perturbent les logiciels habitués à analyser des textes de français écrit « standard » : amorces de mots, répétitions, chevauchements de parole, etc., entravent en effet l'analyse linéaire du texte ; - pour des raisons théoriques, les transcriptions ne sont pas ponctuées, or la plupart des logiciels se basent sur la ponctuation lors de l'étiquetage ; - les textes contiennent des particularités lexicales qui sont propres à l'oral ; notre corpus, en particulier, comporte des termes propres aux variétés du français en Belgique. Ainsi, si l'annotation de corpus oraux ne nous semble pas devoir être vue comme un problème spécifique, dans la mesure où il n'y a pas de grammaire de l'oral par opposition à une grammaire de l'écrit, les problèmes posés ci-dessus se doivent néanmoins d'être résolus pour rendre le système d'annotation performant. Dans ce séminaire, nous montrerons l'expérience que nous avons menée sur un vaste corpus de données textuelles orales ; nous insisterons sur la phase de prétraitement des données, ainsi que sur les modifications apportées au système d'étiquetage Elag.
responsiblesTolone