Speaker-independent raw waveform model for glottal excitation

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference article in proceedingsScientificvertaisarvioitu

29 Sitaatiot (Scopus)
212 Lataukset (Pure)

Abstrakti

Recent speech technology research has seen a growing interest in using WaveNets as statistical vocoders, i.e., generating speech waveforms from acoustic features. These models have been shown to improve the generated speech quality over classical vocoders in many tasks, such as text-to-speech synthesis and voice conversion. Furthermore, conditioning WaveNets with acoustic features allows sharing the waveform generator model across multiple speakers without additional speaker codes. However, multi-speaker WaveNet models require large amounts of training data and computation to cover the entire acoustic space. This paper proposes leveraging the source-filter model of speech production to more effectively train a speaker-independent waveform generator with limited resources. We present a multi-speaker ’GlotNet’ vocoder, which utilizes a WaveNet to generate glottal excitation waveforms, which are then used to excite the corresponding vocal tract filter to produce speech. Listening tests show that the proposed model performs favourably to a direct WaveNet vocoder trained with the same model architecture and data.
AlkuperäiskieliEnglanti
OtsikkoProceedings of Interspeech
KustantajaInternational Speech Communication Association (ISCA)
Sivut2012-2016
DOI - pysyväislinkit
TilaJulkaistu - 2 syysk. 2018
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaInterspeech - Hyderabad International Convention Centre, Hyderabad, Intia
Kesto: 2 syysk. 20186 syysk. 2018
http://interspeech2018.org/

Julkaisusarja

NimiInterspeech - Annual Conference of the International Speech Communication Association
ISSN (elektroninen)2308-457X

Conference

ConferenceInterspeech
Maa/AlueIntia
KaupunkiHyderabad
Ajanjakso02/09/201806/09/2018
www-osoite

Sormenjälki

Sukella tutkimusaiheisiin 'Speaker-independent raw waveform model for glottal excitation'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.
  • Poikkitieteellinen parametrisen puhesynteesin tutkimusprojekti

    Alku, P. (Vastuullinen johtaja), Bäckström, T. (Projektin jäsen), Nonavinakere Prabhakera, N. (Projektin jäsen), Bollepalli, B. (Projektin jäsen), Murtola, T. (Projektin jäsen), Airaksinen, M. (Projektin jäsen) & Juvela, L. (Projektin jäsen)

    01/01/201831/12/2019

    Projekti: Academy of Finland: Other research funding

  • Poikkitieteellinen parametrisen puhesynteesin tutkimusprojekti

    Alku, P. (Vastuullinen johtaja), Juvela, L. (Projektin jäsen), Airaksinen, M. (Projektin jäsen), Bäckström, T. (Projektin jäsen), Jokinen, E. (Projektin jäsen), Gowda, D. (Projektin jäsen), Kakouros, S. (Projektin jäsen), Bollepalli, B. (Projektin jäsen), Pohjalainen, J. (Projektin jäsen), Saeidi, R. (Projektin jäsen) & Raitio, T. (Projektin jäsen)

    01/01/201531/12/2017

    Projekti: Academy of Finland: Other research funding

Siteeraa tätä