Synthèse de la parole multilocuteur par sélection d'unités acoustiques


Thèse
Auteur(s) : PRUDON, Romain
Directeur(s) :
Date de soutenance : 2003
Intitulé de la formation :
Format electronique :
Cote : T 0730
Résumé : Le principe des systèmes de synthèse de la parole actuels est de sélectionner, dans une importante base de données de parole lue, des unités acoustiques de taille variable, et de les concaténer pour reconstruire un signal de parole. Cette sélection est réalisée en minimisant deux fonctions de coûts : le coût de cibles et le coût de concaténation. Le premier établi une distance entre la phrase cible (texte d'entrée) et ce qui est disponible dans la base, le second quantifie la qualité de la jonction entre deux unités étudiées. A l'aide de ces deux fonctions, toutes les combinaisons possibles sont parcourues, puis la meiIleure est sélectionnée. Notre approche est de calculer chacune des fonctions selon différents critères de hauts niveaux. Le système est donc facilement adaptable à tous types de voix. Le système développé peut aussi être utilisé comme module de prédiction de la prosodie. Sans analyse syntaxique et sans règles, il est possible de calculer les valeurs de FO et de durée à partir de la base. La partie segmentale de la synthèse est alors prise en charge par un synthétiseur acoustique à partir de diphones (MBROLA). Une évaluation montre que les résultats ainsi obtenus sont comparables avec la prosodie calculée à partir de règles. Pour finir, nous avons analysé les différences entre les voix de synthèse et leurs versions originales (natureIle). Cette étude a été réalisée pour 20 locuteurs (10 hommes et 10 femmes). Elle met en avant la difficulté de déterniner des paramètres mesurables permettant de prédire si une voix est appropriée à la synthèse. Ainsi, la qualité d'une voix de synthèse dépend pour beaucoup de la régularité de la prosodie et du timbre de la voix.
Mots clés : Synthèse de la parole, Technique de concaténation, Prosodie, Base de données, Qualité vocale, Algorithme de sélection