Neural waveform generation for source-filter vocoding in speech synthesis

Julkaisun otsikon käännös: Puheen aaltomuotojen tuottaminen hermoverkoilla lähde-suodin mallissa

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Puhesynteesi, keinotekoisen puheen luominen tekstistä, on eräs puhekommunikaatioteknologian perustavista ongelmista. Puhesynteesin tutkimus on kehittynyt varhaisista vaiheistaan ihmisen puheentuoton mallinnuksen kautta nykymuotoonsa, jossa synteesiä voidaan soveltaa lukuisiin käyttötarkoituksiin. Näitä sovelluksia ovat muun muassa, näytönlukijat, puhekyvyttömien apuvälineet ja kasvavassa määrin tekoälyn synteettinen puhe koneen ja ihmisen välisessä vuorovaikutuksessa. Viime vuosina tilastollinen mallipohjainen synteesi on kehittynyt huomattavasti syvien hermoverkkojen ansiosta ja synteesin luonnollisuus vastaakin jo lähes ihmispuhetta. Tärkeä tekijä tässä kehityksessä ovat hermoverkkoihin perustuvat aaltomuotoja syntetisoivat mallit, jotka ottavat perinteisen puhesynteesijärjestelmän vokooderin roolin. Laadullisesta kehityksestä huolimatta viimeaikaisten "neurovokooderien" ja perinteisten signaalinkäsittelyyn perustuvien mallien välillä on aukko sekä ymmärryksessämme että uusien algoritmien laskennallisessa tehokkuudessa. Tämän väitöskirjan keskeinen motivaatio on ollut yhdistää viimeisimpiä generatiivisia hermoverkkomalleja klassisiin signaalinkäsittelyn metodeihin, ja luoda algoritmisesti ymmärrettävää, korkealaatuista ja tehokasta puhesynteesiä. Erityisesti tämä väitöskirja keskittyy mallintamaan puheentuoton lähde-suodinmallin herätesignaalia käyttäen syviä hermoverkkoja. Koska olemassa olevat signaalinkäsittelytekniikat kykenevät varsin hyvin mallintamaan puheen spektriverhokäyrää ja ääntöväylän resonansseja parametrisesti, jää tehtäväksi olennaisesti tuottaa äänilähdettä vastaava jäännösheräte hermoverkkomallilla. Tämä väitöskirja kehittää uuden esitystavan jaksollisten aaltomuotojen mallintamiseksi ja soveltaa generatiivisia kilpailevia hermoverkkoja (eng. generative adversarial networks) näiden aaltomuotojen synteesiin. Lisäksi väitöskirja esittää WaveNet-pohjaisen herätemallin, joka yhdistetään eksplisiittisen suodinmalliin synteesissä. Lopuksi nämä kaksi mallityyppiä yhdistetään lähde-suodin hermoverkkosyntetisaattoriksi, joka kykenee hyödyntämään tehokasta rinnakkaislaskentaa ja voidaan kouluttaa integroituna osana syvää hermoverkkoa.
Julkaisun otsikon käännösPuheen aaltomuotojen tuottaminen hermoverkoilla lähde-suodin mallissa
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Alku, Paavo, Vastuuprofessori
Kustantaja
Painoksen ISBN978-952-60-3909-1
Sähköinen ISBN978-952-60-3910-7
TilaJulkaistu - 2020
OKM-julkaisutyyppiG5 Artikkeliväitöskirja

Tutkimusalat

  • puhesynteesi
  • syväoppivat hermoverkot
  • generatiiviset mallit

Sormenjälki

Sukella tutkimusaiheisiin 'Puheen aaltomuotojen tuottaminen hermoverkoilla lähde-suodin mallissa'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä