Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation

titleÉtudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation
start_date2024/01/19
schedule14h-16h
onlineno
location_infoSalle 533, Bât. Olympe de Gouges
summaryLa révolution de l’apprentissage profond, en plus d’avoir permis le développement d’applications grand public dont la visibilité et l’impact sont indéniables, offre de nombreuses nouvelles possibilités pour la documentation, l’analyse et la modélisation des langues. En effet, ces applications reposent en grande partie sur des réseaux de neurones qui ont appris, sans aucune intervention humaine, à construire des représentations de la langue (aussi bien parlée qu’écrite) encodant sous forme de vecteurs de nombreuses propriétés linguistiques, facilitant ainsi son analyse et son traitement automatique. Ces *modèles de langue neuronaux* peuvent notamment être utilisés pour réduire l’effort d’annotation des linguistes en facilitant le développement de systèmes capables d’annoter automatiquement des données. Dans une première partie de notre présentation, nous expliquerons comment, grâce à l’un de ces modèles, nous avons pu développer un système de transcriptions phonémiques à partir de très peu de données annotées pour des langues rares et en cours de documentation. Ces travaux font partie d’un effort général s’appuyant sur les développements récents du TAL pour outiller les linguistes de terrain. Nous discuterons de la manière dont ces modèles peuvent fournir la brique de base de ces outils et des enjeux de ces développements. Les modèles de langues neuronaux peuvent également fournir un autre type d’aide aux linguistes en extrayant automatiquement des informations typologiques (inventaire de phonèmes, indices de complexité phonologique et morphosyntaxique, …) d’enregistrements audio. Nous présenterons, dans la seconde partie de notre présentation, nos premiers travaux dans cette direction en montrant comment il est possible de détecter des langues « similaires » au plan phonético-phonologique. Nous discuterons des difficultés à interpréter ce type de mesures en particulier par rapport aux métadonnées habituellement collectées dans les travaux de linguistique de terrain.
responsiblesLahaussois, Cinato