Aspects plurilingues et analyses quantitatives des CMO (Communications Médiatisées par Ordinateur) - Finnish Internet Parsebank et autres projets

old_uid14796
titleAspects plurilingues et analyses quantitatives des CMO (Communications Médiatisées par Ordinateur) - Finnish Internet Parsebank et autres projets
start_date2014/12/11
schedule14h-16h
onlineno
summaryL'internet offre de nombreuses possibilités pour les sciences du langage et pour le traitement automatiques des langues : d'une part, de nouveaux genres discursifs avec de nouvelles caractéristiques à explorer se développent, et, d'autre part, la quantité de textes disponibles permettent l'exploitation de nouvelles méthodes d'analyse. Cette présentation explore des projets de recherche sur les Communications Médiatisées par Ordinateur (CMO) et la constitution des corpus à partir de l'Internet menés à l'Université de Turku, Finlande. Finnish Internet Parsebank vise à transformer l'Internet finnophone à une ressource linguistique qui sera distribuée avec des analyses syntaxiques automatiques. De plus, nous visons à développer des méthodes automatiques pour son classement en sous-corpus selon les genres ou registres. En ce moment, nous sommes en train de développer un système d'apprentissage automatique pour l'identification des textes traduits par la machine et leur extraction du Parsebank. La deuxième étape sera de développer un système similaire pour le repérage des forums de discussion et des articles de la presse. Ces sous-corpus permettront des études linguistiques plus détaillées ciblées à un matériel plus homogène. Surtout, notre but est d'exploiter des analyses syntaxiques dans la description des caractéristiques de ces textes. Par exemple, en ce moment, nous sommes en train d'examiner l'usage des syntactic ngrams, c'est-à-dire des petits sous-arbres issus des analyses de dépendance, dans ce but. En ce qui concerne le français, nos études actuelles suivent les mêmes thématiques que pour le finnois, mais se concentrent sur des corpus déjà développés, tels que les blogs de politiciens, les discussions suivant les éditoriaux de Le Monde, etc. Pour les analyses syntaxiques, nous avons utilisé Talismane, mais aussi Bonsai. De même que pour le finnois, notre intérêt se porte surtout sur l'exploitation des analyses syntaxiques dans l'exploration des caractéristiques de ces genres. Or, ce projet vient seulement de commencer et nous sommes ouverts à des propositions et des nouvelles pistes. Une possibilité pour l'avenir est offerte par Universal Dependencies, un projet international visant à développer un schéma syntaxique multilingue, englobant entre autres le français et le finnois, à partir du schéma de dépendances de Stanford. Ce schéma permettrait l'analyse des corpus multilingues, par exemple en utilisant le frWack pour le français et le Parsebank pour le finnois.
responsiblesDuvignau