Construire et améliorer des thésaurus distributionnels

old_uid13140
titleConstruire et améliorer des thésaurus distributionnels
start_date2013/12/05
schedule14h-16h
onlineno
summaryLes approches distributionnelles de la sémantique font actuellement l'objet d'une attention toute particulière, que ce soit du point de vue de leur développement intrinsèque (compositionnalité des représentations, etc.) ou du point de vue de leurs applications (traduction automatique, analyse d'opinion, etc.). Dans cette présentation, nous nous focalisons plus spécifiquement sur la notion de thésaurus distributionnel, en étroite relation avec celle de mesure de similarité distributionnelle. Dans une première partie, nous rendrons compte d'une expérimentation menée dans la perspective de (Grefenstette, 1994), (Lin, 1998) et (Curran & Moens, 2002) pour construire un thésaurus distributionnel pour un corpus de taille moyenne en anglais (400 millions de mots), avec une approche de type fenêtre graphique. En particulier, nous présenterons l'utilisation d'un test de type TOEFL étendu pour la sélection des paramètres de la mesure de similarité sous-tendant ce thésaurus et nous mettrons un accent particulier sur la problématique de l'évaluation du thésaurus résultat et la mise en perspective de ces résultats. La seconde partie de la présentation sera dédiée à plusieurs pistes pour l'amélioration de ce type de thésaurus en commençant par l'utilisation classique de relations de dépendance syntaxique et la transposition d'une méthode d’amélioration de la qualité des données distributionnelles proposée dans (Zhitomirsky-Geffet & Dagan, 2009). Le reste de la présentation sera consacrée à un cadre d'amélioration fondé sur un mécanisme d'amorçage : un ensemble d'exemples positifs et négatifs de mots sémantiquement liés sont sélectionnés de façon non supervisée à partir du thésaurus à améliorer et utilisés pour entraîner un classifieur statistique permettant de réordonner les voisins sémantiques des entrées de ce thésaurus. Deux méthodes de sélection de ces exemples, l'une fondée sur un principe de symétrie des relations sémantiques, l'autre sur les relations entre les constituants de mots composés similaires, seront détaillées. Les évaluations menées montrent que ces méthodes permettent de rééquilibrer les thésaurus construits en améliorant significativement les résultats obtenus pour les entrées de fréquence moyenne ou faible.
responsiblesDuvignau