Puheen äänilähteen mallintaminen tilastollisessa parametrisessa puhesynteesissä

Tuomo Raitio

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Puhe on ihmisten luonnollisin tapa kommunikoida, ja siksi puhetta tuottavan koneen suunnittelu on jo kauan kiehtonut ihmisiä. Kuitenkin vasta viime vuosikymmeninä puhesynteesistä on tullut käytännössä mahdollista, mikä suureksi osaksi on johtunut puheen digitaalisesta esitysmuodosta ja kasvaneesta laskentatehosta. Vaikka puhesynteesiä käytetään nykyään monen-laisissa sovelluksissa, kuten ihmisen ja tietokoneen vuorovaikutuksessa sekä avustavassa teknologiassa, nykyiset puhesyntetisaattorit ovat kuitenkin vielä kaukana ihmisten monipuolisesta puheentuottokyvystä. Puhesynteesin perimmäinen tavoite on muuttaa mikä tahansa teksti ymmärrettäväksi ja luonnollisen kuuloiseksi puheeksi, josta välittyvät myös tilanteeseen sopivat ja puhujalle ominaiset puheen piirteet. Näiden kaikkien tavoitteiden saavuttaminen yhtä aikaa on erittäin haastavaa, minkä lisäksi puhesignaalin laatu pitää olla erittäin hyvä, koska ihminen on hyvin herkkä havaitsemaan pienimpiäkin virheitä puhesignaalissa. Tämän väitöskirjan tavoitteena on parantaa sekä puhesynteesin laatua että ilmaisuvoimaa kehittämällä puheenkäsittelymenetelmiä, jotka tarkemmin hyödyntävät informaatiota puheentuoton toimintatavasta. Yksi tämän työn tärkeimmistä menetelmistä onkin äänilähteen käänteissuodatus, minkä avulla äänitetystä puheesta voidaan määrittää äänilähdesignaali. Tämä signaali on erittäin tärkeä puheen havaitsemisen kannalta, sillä se vaikuttaa olennaisesti niihin akustisiin piirteisiin, jotka liittyvät ääntö- ja puhetapaan ja siten puheen persoonallisiin piirteisiin. Vaikka nämä piirteet vaikuttavat merkittävästi puheen luonnollisuuteen ja ilmai-suvoimaan, perinteisissä puhesynteesimenetelmissä käytetään yleensä hyvin yksinkertaistettua äänilähdesignaalin mallintamista. Tässä työssä pyritään parantamaan synteettisen puheen laatua keskittymällä erityisesti edellämainittuun ongelmaan. Tässä väitöskirjassa esitetään ensiksi kaksi uutta äänilähteen käänteissuodatusmenetelmää, jotka mahdollistavat tarkemman äänilähdesignaalin määrittämisen puheesta. Toiseksi työssä esitetään useita uusia äänilähteen mallintamistekniikoita, joita voidaan käyttää tilastollisessa parametrisessa puhesynteesissä parantamaan puheen luonnollisuutta ja ilmaisuvoimaa. Kolmanneksi käyttämällä äänilähteen käänteissuodatus- ja mallintamistekniikoita työssä luotiin synteettisiä ääniä, jotka pyrkivät kattamaan erilaisia puhetyylejä. Lopuksi luodut äänet arvioitiin erilaisissa koeympäristöissä kuuntelukokein, joiden tulokset osoittavat että äänien luonnollisuus, ilmaisuvoima ja tilanteeseen sopivuus parani käyttämällä työssä esitettyjä menetelmiä. Näin ollen kehitetyt menetelmät tarjoavat huomattavan mahdollisuuden parantaa syntee-sin luonnollisuutta, ilmaisuvoimaa ja soveltuvuutta erilaisissa puhesynteesisovelluksissa.
Julkaisun otsikon käännösPuheen äänilähteen mallintaminen tilastollisessa parametrisessa puhesynteesissä
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Alku, Paavo, Valvoja
  • Alku, Paavo, Ohjaaja
Kustantaja
Painoksen ISBN978-952-60-6136-8
Sähköinen ISBN978-952-60-6137-5
TilaJulkaistu - 2015
OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

Tutkimusalat

  • tilastollinen parametrinen puhesynteesi
  • äänilähteen mallintaminen
  • äänilähteen käänteissuodatus
  • äänenlaatu
  • ekspressiivinen puhesynteesi

Sormenjälki Sukella tutkimusaiheisiin 'Puheen äänilähteen mallintaminen tilastollisessa parametrisessa puhesynteesissä'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä