Apprendre des systèmes de transcription automatique à partir de peu de données. Une application pour la linguistique documentaire computationnelle

titleApprendre des systèmes de transcription automatique à partir de peu de données. Une application pour la linguistique documentaire computationnelle
start_date2024/02/01
schedule15h
onlineno
location_infosalle non précisée
summaryLes progrès spectaculaires que le TAL a récemment réalisés reposent principalement sur le développement de nouveaux modèles neuronaux capables de découvrir, sans aucune information de supervision, des représentations particulièrement pertinentes de la langue (écrite ou parlée). Ces modèles, capables de construire des représentations d'enregistrements audios ou de phrases écrites dans n'importe quelle langue, ouvrent de nombreuses nouvelles possibilités pour l'analyse et la modélisation des langues, et en particulier pour la linguistique documentaire. Dans cette présentation, nous cherchons à montrer comment les modèles pré-entraînés de la parole peuvent aider les linguistes dans leur travail de documentation des langues. Dans une première partie, nous expliquerons comment nous avons utilisé ces modèles pour développer des systèmes de transcription ne nécessitant qu'un petit corpus de données annotées. Nous détaillerons ensuite, dans une seconde partie, les nouvelles problématiques que soulève l'application de ces modèles aux scénarios où peu de ressources sont disponibles et ce que ces développements nous apprennent sur les capacités et le fonctionnement des architectures neuronales.
responsiblesNouvel