Word of Whacky : acquisition d'un réseau lexical, émergence de liens sémantiques et applications à l'analyse du discours via un jeu en ligne multi-joueurs

old_uid4477
titleWord of Whacky : acquisition d'un réseau lexical, émergence de liens sémantiques et applications à l'analyse du discours via un jeu en ligne multi-joueurs
start_date2008/03/31
schedule14h-15h30
onlineno
summaryLes informations lexicales et sémantiques, déjà indispensables pour les tâches réalisées en TALN* et devenant nécessaires dans une perspective de traitement informatique de l'AD*, sont difficiles à collecter. Jusqu'à présent, elles pouvaient l'être soit en ayant recours à une approche manuelle utilisant des experts - vite prohibitive - ou de manières automatiques surdéterminant les résultats en fonctions de corpus retenus. Notre approche consiste à utiliser un jeu lexical en ligne massivement multi-joueurs pour acquérir ces données de manière contributive et ludique [Lafourcade, 2007]. Dans la première partie de notre exposé, nous présenterons le mécanisme de jeuxdemots.org ainsi que le principe du logiciel. Le système de double-validation anonyme sera expliqué et permettra de comprendre comment la base lexicale s'enrichit au niveau des relations entre les mots mais également au niveau des termes (que ce soit des néologies de sens ou de forme). La présentation des types de jeu et le caractère addictif du système compléterons cette première partie. Nous nous intéresserons dans la seconde partie à l'émergence de liens sémantiques basés sur les fonctions lexicales [Mel'cuk et al., 1995] et la réutilisation des cliques* [Joubert & Lafourcade, 2008] générées dans le système. Nous détaillerons les types de jeux proposés, liés aux fonctions lexicales, qui peuvent représenter, dans une perspective praxématique, des programmes de sens. Les liens ainsi créés permettent la constitution de clique qui permet de faire apparaître les différents usages d'un terme. L'enrichissement de la base à l'aide de relations particulières, comme la relation lieu qui se traduit dans le jeu par la question « Dans quel lieu peut-on trouver <terme> » permet d'obtenir, toujours de façon pondérée, un ensemble de terme qui ne sont pas nécessairement les réponses canoniques que l'on peut s'attendre à trouver, c'est le cas de la relation sentiment que nous allons utiliser dans la troisième partie. Il faut remarquer la possibilité de générer automatiquement à partir des résultats obtenus un nouveau type de jeu non disponible initialement et qui correspond à la relation inverse : la relation lieu(-1) par exemple, qui se traduit par la question «que trouve-t-on dans <le lieu>». Les lieux proposés ayant été définis par le type de jeu précédent (lieu) et permet d'être sûr d'obtenir une question cohérente générée par le logiciel. Dans la troisième partie de l'exposé, nous appliquerons un type de relation particulier, la relation sentiment, à un corpus sur les polémiques mémorielles (la controverse du « rôle positif de la colonisation » suscitée par la loi du 23 février 2005) dans une perspective d'analyse du discours. L'approche habituellement utilisée en TALN ou en data-mining [Devitt et Ahmad, 2007] consiste à caractériser un texte (ou une portion de texte) de façon positive, négative ou avec une intensité associée. Nous montrerons comment jeuxdemots.org permet d'avoir une approche différente via la relation sentiment qui permet d'associer à des termes précis des sentiments. Ce qui permet d'avoir pour chaque terme, un vecteur SENTIMENT pondéré. Nous calculons ensuite pour chaque article de notre corpus, le vecteur sentiment qui lui est associé à partir de chacun des mots qui le composent : nous ne nous focalisons donc pas sur la recherche de terme de sentiments dans nos discours mais bien sur les sentiments associés à n'importe quel terme. Nous montrerons ensuite si ce type d'analyse permet de reconstituer au travers de l'étude d'un corpus journalistique l'évolution d'une polémique telle qu'analysée et reconstituée par un politiste à partir d'informations non-discursives [Bertrand, 2006]. * Lexique : TALN : traitement automatique du langage naturel AD : analyse du discours clique : ensemble des termes fortement reliés entre eux constituant un sous-graphe induit complet dans le réseau lexical. Bibliographie : BERTRAND R. (2006), Mémoire d'empire. La controverse autour du « fait colonial », Broissieux : Edition du Croquant. DEVITT A. & AHMAD K. (2007). Sentiment polarity identification in financial news : A cohesion-based approach. In Proceedings of ACL-07, the 45th Annual Meeting of the Association of Computational Linguistics, p. 984–991, Prague, CZ : Association for Computational Linguistics. JOUBERT A. & LAFOURCADE M. (2008) JeuxDeMots : un prototype ludique pour l'émergence de relations entre termes. In proc of JADT'2008, Ecole normale supérieure Lettres et sciences humaines , Lyon, France, 12-14 mars 2008. LAFOURCADE M., (2007) Making people play for Lexical Acquisition. In Proc. SNLP 2007, 7th Symposium on Natural Language Processing. Pattaya, Thailande, 13-15 December 2007, 8p. MEL' CUK I.A., CLAS A., PIGUÈRE A. (1995) Introduction à la lexicologie explicative et combinatoire : Edition Duculot AUPELF-UREF. Mots clés : Traitement automatique du langage naturel, analyse du discours, jeu en ligne, réseau lexical, sens d'usage, analyse des sentiments
responsiblesDétrie