search

actions - event

state: published

Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation

title	Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation
start_date	2024/01/19
schedule	14h-16h
online	no
location_info	Salle 533, Bât. Olympe de Gouges
summary	La révolution de l’apprentissage profond, en plus d’avoir permis le développement d’applications grand public dont la visibilité et l’impact sont indéniables, offre de nombreuses nouvelles possibilités pour la documentation, l’analyse et la modélisation des langues. En effet, ces applications reposent en grande partie sur des réseaux de neurones qui ont appris, sans aucune intervention humaine, à construire des représentations de la langue (aussi bien parlée qu’écrite) encodant sous forme de vecteurs de nombreuses propriétés linguistiques, facilitant ainsi son analyse et son traitement automatique. Ces modèles de langue neuronaux peuvent notamment être utilisés pour réduire l’effort d’annotation des linguistes en facilitant le développement de systèmes capables d’annoter automatiquement des données. Dans une première partie de notre présentation, nous expliquerons comment, grâce à l’un de ces modèles, nous avons pu développer un système de transcriptions phonémiques à partir de très peu de données annotées pour des langues rares et en cours de documentation. Ces travaux font partie d’un effort général s’appuyant sur les développements récents du TAL pour outiller les linguistes de terrain. Nous discuterons de la manière dont ces modèles peuvent fournir la brique de base de ces outils et des enjeux de ces développements. Les modèles de langues neuronaux peuvent également fournir un autre type d’aide aux linguistes en extrayant automatiquement des informations typologiques (inventaire de phonèmes, indices de complexité phonologique et morphosyntaxique, …) d’enregistrements audio. Nous présenterons, dans la seconde partie de notre présentation, nos premiers travaux dans cette direction en montrant comment il est possible de détecter des langues « similaires » au plan phonético-phonologique. Nous discuterons des difficultés à interpréter ce type de mesures en particulier par rapport aux métadonnées habituellement collectées dans les travaux de linguistique de terrain.
responsibles	Lahaussois, Cinato

Workflow history

from state (1)	to state	comment	date
submitted	published		2024/01/16 12:56 UTC

hosted_by

UFR Linguistique

speakers

event_of

L’annotation entre Moyen Âge et Modernité (séminaire du laboratoire d’Histoire des Théories Linguistiques (HTL Labex EFL), UMR 7597, Université Paris Cité) (2023)

Event #971724 - latest update on 2024/01/16, created on 2024/01/16