Abstrakti
Puhesynteesi, keinotekoisen puheen luominen tekstistä, on eräs puhekommunikaatioteknologian perustavista ongelmista. Puhesynteesin tutkimus on kehittynyt varhaisista vaiheistaan ihmisen puheentuoton mallinnuksen kautta nykymuotoonsa, jossa synteesiä voidaan soveltaa lukuisiin käyttötarkoituksiin. Näitä sovelluksia ovat muun muassa, näytönlukijat, puhekyvyttömien apuvälineet ja kasvavassa määrin tekoälyn synteettinen puhe koneen ja ihmisen välisessä vuorovaikutuksessa. Viime vuosina tilastollinen mallipohjainen synteesi on kehittynyt huomattavasti syvien hermoverkkojen ansiosta ja synteesin luonnollisuus vastaakin jo lähes ihmispuhetta. Tärkeä tekijä tässä kehityksessä ovat hermoverkkoihin perustuvat aaltomuotoja syntetisoivat mallit, jotka ottavat perinteisen puhesynteesijärjestelmän vokooderin roolin.
Laadullisesta kehityksestä huolimatta viimeaikaisten "neurovokooderien" ja perinteisten signaalinkäsittelyyn perustuvien mallien välillä on aukko sekä ymmärryksessämme että uusien algoritmien laskennallisessa tehokkuudessa. Tämän väitöskirjan keskeinen motivaatio on ollut yhdistää viimeisimpiä generatiivisia hermoverkkomalleja klassisiin signaalinkäsittelyn metodeihin, ja luoda algoritmisesti ymmärrettävää, korkealaatuista ja tehokasta puhesynteesiä.
Erityisesti tämä väitöskirja keskittyy mallintamaan puheentuoton lähde-suodinmallin herätesignaalia käyttäen syviä hermoverkkoja. Koska olemassa olevat signaalinkäsittelytekniikat kykenevät varsin hyvin mallintamaan puheen spektriverhokäyrää ja ääntöväylän resonansseja parametrisesti, jää tehtäväksi olennaisesti tuottaa äänilähdettä vastaava jäännösheräte hermoverkkomallilla.
Tämä väitöskirja kehittää uuden esitystavan jaksollisten aaltomuotojen mallintamiseksi ja soveltaa generatiivisia kilpailevia hermoverkkoja (eng. generative adversarial networks) näiden aaltomuotojen synteesiin. Lisäksi väitöskirja esittää WaveNet-pohjaisen herätemallin, joka yhdistetään eksplisiittisen suodinmalliin synteesissä. Lopuksi nämä kaksi mallityyppiä yhdistetään lähde-suodin hermoverkkosyntetisaattoriksi, joka kykenee hyödyntämään tehokasta rinnakkaislaskentaa ja voidaan kouluttaa integroituna osana syvää hermoverkkoa.
Julkaisun otsikon käännös | Puheen aaltomuotojen tuottaminen hermoverkoilla lähde-suodin mallissa |
---|---|
Alkuperäiskieli | Englanti |
Pätevyys | Tohtorintutkinto |
Myöntävä instituutio |
|
Valvoja/neuvonantaja |
|
Kustantaja | |
Painoksen ISBN | 978-952-60-3909-1 |
Sähköinen ISBN | 978-952-60-3910-7 |
Tila | Julkaistu - 2020 |
OKM-julkaisutyyppi | G5 Artikkeliväitöskirja |
Tutkimusalat
- puhesynteesi
- syväoppivat hermoverkot
- generatiiviset mallit