|
Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotationtitle | Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation |
---|
start_date | 2024/01/19 |
---|
schedule | 14h-16h |
---|
online | no |
---|
location_info | Salle 533, Bât. Olympe de Gouges |
---|
summary | La révolution de l’apprentissage profond, en plus d’avoir permis le développement d’applications grand public dont la visibilité et l’impact sont indéniables, offre de nombreuses nouvelles possibilités pour la documentation, l’analyse et la modélisation des langues. En effet, ces applications reposent en grande partie sur des réseaux de neurones qui ont appris, sans aucune intervention humaine, à construire des représentations de la langue (aussi bien parlée qu’écrite) encodant sous forme de vecteurs de nombreuses propriétés linguistiques, facilitant ainsi son analyse et son traitement automatique.
Ces *modèles de langue neuronaux* peuvent notamment être utilisés pour réduire l’effort d’annotation des linguistes en facilitant le développement de systèmes capables d’annoter automatiquement des données. Dans une première partie de notre présentation, nous expliquerons comment, grâce à l’un de ces modèles, nous avons pu développer un système de transcriptions phonémiques à partir de très peu de données annotées pour des langues rares et en cours de documentation. Ces travaux font partie d’un effort général s’appuyant sur les développements récents du TAL pour outiller les linguistes de terrain. Nous discuterons de la manière dont ces modèles peuvent fournir la brique de base de ces outils et des enjeux de ces développements.
Les modèles de langues neuronaux peuvent également fournir un autre type d’aide aux linguistes en extrayant automatiquement des informations typologiques (inventaire de phonèmes, indices de complexité phonologique et morphosyntaxique, …) d’enregistrements audio. Nous présenterons, dans la seconde partie de notre présentation, nos premiers travaux dans cette direction en montrant comment il est possible de détecter des langues « similaires » au plan phonético-phonologique. Nous discuterons des difficultés à interpréter ce type de mesures en particulier par rapport aux métadonnées habituellement collectées dans les travaux de linguistique de terrain. |
---|
responsibles | Lahaussois, Cinato |
---|
Workflow historyfrom state (1) | to state | comment | date |
submitted | published | | 2024/01/16 12:56 UTC |
| |
|