Modelisation lexicale pour le traitement automatique des langues : les cas des expressions polylexicales et de la complexite lexicale

titleModelisation lexicale pour le traitement automatique des langues : les cas des expressions polylexicales et de la complexite lexicale
start_date2025/11/21
schedule14h-15h
onlineno
location_infoA118
summaryDans cet exposé, nous nous intéresserons à la modélisation lexicale dans le cadre du traitement automatique des langues. Après avoir dressé le contexte général de nos travaux en lien avec le sujet, nous présenterons plus en détail nos recherches sur deux aspects différents : (i) l’identification des expressions polylexicales et (ii) la prédiction de la complexité lexicale. Les expressions polylexicales (EP) sont des combinaisons de plusieurs unités lexicales montrant une certaine idiosyncrasie dans leur composition (ex. crever l’écran, cordon bleu, en dépit [de]). En particulier, nous présenterons des méthodes d’annotation de ces expressions à base de critères linguistiques qui ont permis de construire différents corpus annotés. Ces derniers ont ensuite servi à l’apprentissage et à l’évaluation de modèles d’identification automatique d’EP en corpus. La prédiction de la complexité lexicale telle que nous la considérons consiste à estimer le degré de difficulté (un nombre réel entre 0 et 1) qu’un lecteur ou une lectrice ressent pour comprendre un mot cible dans son contexte. Nous comparerons en particulier les performances pour cette tâche de modèles profonds supervisés avec des grands modèles de langue génératifs.
responsiblesVanzeveren, Gao