Generierung akustischer Prosodieparameter für ein multilinguales Sprachsynthesesystem
Autoren
Mehr zum Buch
Die vorliegende Arbeit beschäftigt sich mit der Generierung von F0-Konturen und Lautdauern in einem multilingualen Sprachsynthesesystem und versucht, einen Beitrag zu leisten, mit datengetriebenen Verfahren eine angenehm und natürlich klingende Prosodie zu ermöglichen. Die Datenqualität ist für die Anwendung von datengetriebenen Verfahren essentiell, deshalb durchläuft eine vollautomatische Aufbereitung der Sprachdaten für die Erstellung der Trainingsmuster mehrere Phasen. Eine Optimierung des Eingangsraumes der neuronalen Modelle wird mit dem vorgeschlagenen PWD-Verfahren durchgeführt. Der hier vorgeschlagene hybride Ansatz ergänzt die Vorzüge einer CART-Modellierung in ihrer Robustheit um die Generalisierungseigenschaft einer neuronalen Ansteuerung in der Lautdauersteuerung. Dieses kombinierte Verfahren erlaubt, daß eine kausale-retro-kausale Neuro-Architektur, die die zeitliche Struktur der Information und den Informationsfluß aufrecht hält, einen großen Kontext im Eingangsraum einbezieht. In formellen Hörexperimenten wird eine umfangreiche Evaluierung durchgeführt. Diese belegt die Wirksamkeit der vorgeschlagenen Methoden und stellt eine hohe Qualität der geschätzten akustischen Prosodieparameter fest.