Erreurs de transcription automatique de la parole : expérimentations perceptives autour des cas problématiques

old_uid4737
titleErreurs de transcription automatique de la parole : expérimentations perceptives autour des cas problématiques
start_date2008/05/06
schedule10h-12h
onlineno
location_infosalle des séminaires
summaryEn dépit des avancées significatives réalisées au cours des dernières années en reconnaissance vocale, le niveau de performance des machines en matière de traitement de la parole est toujours bien en deçà des performances humaines. Pour réduire ces différences, il est nécessaire d'améliorer significativement la robustesse des modèles en y intégrant davantage de connaissances linguistiques potentiellement exploitées par l'humain. Les expériences perceptives "de référence" dans ce domaine font pour la plupart état de paradigmes expérimentaux où l'humain et le système transcrivent un même extrait de parole, générallement corréspondant à une "phrase" sans prise en compte des processus sous-jacents différents déployés pour accomplir la tâche (i.e. architecture d'un système vs. perception humaine). Afin d'estimer l'écart humain/systèmes actuels et de mettre à profit les stratégies "gagnantes" de l'humain, il est nécessaire de mettre en oeuvre des protocoles expérimentaux qui tiennent compte de ces paramètres et ciblent la comparaison sur les cas encore problématiques pour la reconnaissance automatique. Le système de transcription automatique du français du Limsi s'est classé le premier et a produit environ 11% WER (taux d'erreur de mots) lors de la campagne ESTER1 déroulée en 2005. Lors de cette campagne il s'agisait de transcrire de la parole journalistique provenant d'enregistrements d'emissions radiophoniques de sources différentes. Les mots les plus sujets à erreurs sont les mots fréquents et courts, homophones ou quasi homophones, appartenant pour la plupart à la classe des mots outils. Il s'agit donc des mots comme : à, a, as, et, est, il, y, etc. A partir de ces constats, des expérimentations perceptives ont été menées autour des mots ayant engendré le plus d'erreurs dans le but d'évaluer les performances humaines et éventuellement d'identifier des stratégies de désambiguïsation efficaces. Les expériences présentées ici ont été menées autour des mots (quasi)homophones ET (conjonction de coordination) et EST (verbe "être") dont plus de 20% des occurrences ont été mal transcrites. Les expérimentations ont été conçues pour approximer autant que possible la situation "système" et pour répondre aux requis suivants: (i) fournir à l'humain l'information contextuelle dont le système dispose pour transcrire le mot cible ; (ii) inclure toutes les types d'erreurs de transcription recensées dans le corpus. L'expérience divisée en trois sous-tests a été présentée à des groupes de 20 sujets français. Les résultats seront discutés du point de vue de la corrélation homme/machine dans la transcription des mots analysés et des stratégies que l'humain a potentiellement mis en oeuvre pour produire environ 5 fois moins d'erreurs pour les stimuli pour lesquels le système a produit 100% d'erreurs.
responsiblesKern