Lemmatisation et mise en place d’une base de données lexicales. Le rôle de l’iconicité dans la description lexicale de la langue des signes allemande

old_uid10034
titleLemmatisation et mise en place d’une base de données lexicales. Le rôle de l’iconicité dans la description lexicale de la langue des signes allemande
start_date2011/05/30
schedule10h-12h
onlineno
location_infoSalle de conférences
summaryPour créer un corpus linguistiques deux opérations sont fondamentales : la tokenization (segmentation et normalisation) et la lemmatisation. Ces annotations informatisées sont les données primaires sur lesquelles toute analyse linguistique est basée. Dans les langues vocales avec écriture la transcription orthographique représente la forme de l’occurrence et renvoie à la fois à l’unité lexématique (UL). Celle-ci peut être explicitée par l’opération de la lemmatisation. Pour la lemmatisation il faut un dictionnaire ou une base de données lexicale qui liste toutes les formes des mots. Pour identifier une UL dans les langues vocales, il suffit de comparer les occurrences par rapport à leurs formes et leurs significations. Pour créer un corpus lemmatisé d’une langue des signes les difficultés sont multiples. Sans écriture, il faut d’abord décider comment noter la forme d’un signe. Les différents systèmes de notation ne sont pas standardisés et n’ont pas une orthographie. Par conséquent, il est difficile d’établir une relation univoque entre annotation et UL. Sans ressource lexicale il faut dresser une liste des UL en parallèle avec la transcription des données vidéo ce qui fait qu’il y a un va-et-vient entre l’approche top-down (lemmatisation) et bottom-up (élargissement du lexique). Pour arriver à une lemmatisation cohérente et fiable, elle doit être supportée par un logiciel qui aligne les annotations, p. ex. les gloses, dans la transcription avec les entrées de la base de données lexicale. L‘appariement des occurrences et des UL avec ses formes correspondantes (token-type matching) suit les conventions de transcription qui sont, elles-mêmes, basés sur des suppositions théoriques à priori. Avec l’inventaire des symboles, les règles opératoires, le logiciel et la structure de la base de données elles forment le système de transcription qui est toujours une sorte de modelisation. Une question importante est si l‘iconicité des signes trouve sa place dans ce modèle. Les recherches lexicologiques et lexicographiques à l’Institut de la langue des signes allemande (IDGS) de l’Université de Hamburg témoignent le rôle de l’iconicité dans la création d’une base de données lexicales et d’un corpus de référence lemmatisé qui est un des objectifs du projet à long terme « Corpus de la DGS ».
responsiblesSoare, Ferret