Journée de l'ATALA : Extraction d'informations lexicales, sémantiques et syntaxiques, à partir de corpus multilingues (2010)

shared_uid1239
titleJournée de l'ATALA : Extraction d'informations lexicales, sémantiques et syntaxiques, à partir de corpus multilingues
typeJournée
year2010
start_date2011/05/07
stop_date2011/05/07
activeno
websitehttps://sites.google.com/site/journeecorpusmultilingues/
organisational_infoComité d'organisation ------------------------------ Marianna Apidianaki (Alpage, INRIA, mail : marianna.apidianaki@inria.fr) Benoît Sagot (Alpage, INRIA, mail : benoit.sagot@inria.fr)
summaryAppel à communications --------------------------------- Les corpus multilingues (parallèles et comparables) constituent une source importante d'informations lexicales, sémantiques et syntaxiques, exploitables aussi bien pour l'élaboration automatique de ressources que pour l'amélioration de la performance d'applications de TAL. L'alignement de corpus parallèles, contenant des textes en relation de traduction, permet l'extraction automatique de ressources lexicales (comme des lexiques, des thésaurus et des terminologies multilingues) mais aussi l'étude de la sémantique des langues impliquées et la génération de paraphrases. Ces tâches peuvent être facilitées par le prétraitement des corpus, leur annotation morphosyntaxique et leur lemmatisation. En outre, l'analyse syntaxique des corpus permet d'acquérir des informations syntaxiques et d'établir des correspondances de traduction au niveau sous-phrastique. Néanmoins, la disponibilité des corpus parallèles restant limitée, l'exploitation de corpus comparables pour l'acquisition d'informations lexicales constitue aujourd'hui un enjeu important. Ces corpus rassemblent des textes de langues différentes appartenant au même domaine ou genre. L'absence de relations de traduction entre ces textes rend nécessaire le développement de techniques pour le repérage d'informations multilingues utiles autres que celles utilisées dans le cas des corpus parallèles. Pour cette journée, nous sollicitons des contributions relatives aux méthodes utilisées pour extraire des informations sémantiques et syntaxiques à partir de tous types de corpus multilingues, aussi bien qu'aux ressources automatiquement élaborées à l'issue du traitement. Un autre axe d'intérêt concerne l'intégration de ces ressources dans des applications multilingues de TAL (comme la Traduction Automatique et la Recherche d'Information Multilingue) et les améliorations que leur exploitation peut apporter. L'objectif de la journée est de favoriser les rencontres de chercheurs qui travaillent sur cette thématique afin de faciliter l'échange d'idées et de promouvoir la collaboration. La journée est soutenue par le projet ANR EDyLex (Enrichissement Dynamique de Lexiques, http://sites.google.com/site/projetedylex/). Public visé --------------- Chercheurs et professionnels des industries de la langue travaillant sur l'exploitation de corpus multilingues pour l'élaboration de ressources lexicales et leur intégration dans des applications de TAL. Conférencier invité -------------------------- Pierre Zweigenbaum (LIMSI, CNRS) Soumission ---------------- Les auteurs sont invités à soumettre un résumé de 2 pages maximum, en français ou en anglais. Les soumissions devront être envoyées au format pdf à : JourneeCorpusMultilingues@gmail.com Les actes seront disponibles sous format électronique sur le site de la journée. Dates importantes ------------------------- Date limite de soumission : 10 avril 2011 Notification aux auteurs : 23 avril 2011 Version finale : 1 mai 2011 Date : samedi 7 mai 2011 Comité de lecture ------------------------ Marianna Apidianaki (Alpage, INRIA) Marine Carpuat (NRC, Canada) Eric de la Clérgerie (Alpage, INRIA) Tim Van de Cruys (Cambridge University, UK) Béatrice Daille (Université de Nantes) Eric Gaussier (LIG, Université de Grenoble) Philippe Langlais (RALI, Université de Montréal) Yves Lepage (Université de Caen) Aurélien Max (LIMSI, CNRS) Emmanuel Morin (Université de Nantes) Emmanuel Prochasson (Hong Kong University) Benoît Sagot (Alpage, INRIA) Lucia Specia (University of Wolverhampton, UK) Pierre Zweigenbaum (LIMSI, CNRS)
responsiblesSagot, Apidianaki