Cadres sémantiques et phraséologie multilingue de concepts spécialisés

titleCadres sémantiques et phraséologie multilingue de concepts spécialisés
start_date2022/10/10
schedule14h-16h
onlineno
location_info7e étage
detailsvisio-conférence et en présentiel
summaryNotre travail s’inscrit dans la lignée du projet EcoLexiCon (https://ecolexicon.ugr.es), une ressource terminologique spécialisée dans les sciences environnementales (Faber et al., 2014; Faber et al., 2016). Dans cette communication, nous présentons le prototype de « MarcoTAO », une interface web qui regroupe plusieurs fonctionnalités pour l'analyse de concepts spécialisés dans des corpus multilingues. L'outil Web intègre un protocole d'analyse de corpus, un tagueur sémantique, un visualiseur des résultats et la possibilité d'exporter l’analyse dans différents formats. Il est destiné à des terminologues et à des linguistiques de corpus. Les utilisateurs pourront extraire, stocker, analyser et visualiser des informations relatives aux structures phraséologiques et conceptuelles de termes analysés dans plusieurs langues (espagnol, anglais, français). Les données issues de ces analyses permettront notamment d’enrichir les bases de données terminologiques, dont EcoLexicon, et en conséquence d’améliorer les ressources dont bénéficient les apprenants de traduction, les rédacteurs spécialisés ainsi que les traducteurs professionnels. MarcoTAO exécute une série de scripts en Python pour extraire à partir des corpus spécialisés des structures argumentales sous forme de schémas lexicaux du type « nom-verbe-nom » (volcano-eject-lava) dans diverses langues. Les triplets sélectionnés sont manuellement annotés avec des étiquettes sémantiques. D’une part, les verbes sont classés selon leur sémantique en domaines lexicaux, tels que CHANGEMENT, ACTION ou EXISTENCE (Faber & Mairal 2012, 2021). D’autre part, les noms des arguments sont étiquetés en fonction de leur classe sémantique (par exemple, « flore » ou « catastrophe naturelle ») selon une typologie des noms conçue pour les sciences de l'environnement (Buendía 2013 ; Gil-Berrozpe et al 2018). Enfin, les arguments se voient attribuer un rôle thématique (par exemple, Agent, Thème, Résultat). Partant du principe que des modèles phraséologiques similaires révèlent une même structure conceptuelle et sémantique, les triplets annotés sont automatiquement regroupés, rassemblant les triplets qui partagent la même annotation. Ainsi, la structure conceptuelle du concept émerge. Ce processus peut être effectué sur plusieurs corpus comparables, ce qui permet d'établir des équivalences interlinguistiques sur la base de différentes dimensions conceptuelles activées par les termes (Sánchez-Cárdenas & Ramisch 2019). En outre, les schémas lexicaux extraits de ces analyses renseignent sur la phraséologie, la combinatoire lexicale et la prosodie sémantique (Kübler et Volanschi 2012) des termes analysés. Dans une prochaine étape du travail, une étude expérimentale aura pour but de déterminer dans quelle mesure les informations issues de MarcoTAO sur la combinatoire lexicale et la phraséologie spécialisée peuvent améliorer la qualité des traductions. L’étude comparera la qualité de divers types de traductions : (a) les traductions « traditionnelles » (groupe de contrôle) ; (b) les traductions faites avec l’outil EcoLexiCat enrichi avec les résultats de MarcoTAO (groupe expérimental 1); (c) les traductions automatiques neuronales (groupe expérimental 2) et ; (d) les traductions automatiques postéditées à l’aide des données linguistiques et conceptuelles issues de MarcoTAO (groupe expérimental 3). La typologie d’erreurs de traduction du projet MeLLANGE servira à mesurer la qualité des traductions.
responsiblesGledhill, Kübler