Data augmentation strategies for neural network F0 estimation

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference contributionScientificvertaisarvioitu

161 Lataukset (Pure)

Abstrakti

This study explores various speech data augmentation methods for the task of noise-robust fundamental frequency (F0) estimation with neural networks. The explored augmentation strategies are split into additive noise and channel -based augmentation and into vocoder-based augmentation methods. In vocoder-based augmentation, a glottal vocoder is used to enhance the accuracy of ground truth F0 used for training of the neural network, as well as to expand the training data diversity in terms of F0 patterns and vocal tract lengths of the talkers. Evaluations on the PTDB-TUG corpus indicate that noise and channel augmentation can be used to greatly increase the noise robustness of trained models, and that vocoder-based ground truth enhancement further increases model performance. For smaller datasets, vocoder-based diversity augmentation can also be used to increase performance. The best-performing proposed method greatly outperformed the compared F0 estimation methods in terms of noise robustness.
AlkuperäiskieliEnglanti
Otsikko44th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2019; Brighton; United Kingdom; 12-17 May 2019 : Proceedings
KustantajaIEEE
Sivut6485 - 6489
Sivumäärä5
ISBN (elektroninen)978-1-4799-8131-1
ISBN (painettu)978-1-4799-8132-8
DOI - pysyväislinkit
TilaJulkaistu - 1 toukokuuta 2019
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaIEEE International Conference on Acoustics, Speech, and Signal Processing - Brighton, Iso-Britannia
Kesto: 12 toukokuuta 201917 toukokuuta 2019
Konferenssinumero: 44

Julkaisusarja

Nimi IEEE International Conference on Acoustics Speech and Signal Processing
KustantajaIEEE
ISSN (painettu)1520-6149
ISSN (elektroninen)2379-190X

Conference

ConferenceIEEE International Conference on Acoustics, Speech, and Signal Processing
LyhennettäICASSP
MaaIso-Britannia
KaupunkiBrighton
Ajanjakso12/05/201917/05/2019

Sormenjälki Sukella tutkimusaiheisiin 'Data augmentation strategies for neural network F0 estimation'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Projektit

    Poikkitieteellinen parametrisen puhesynteesin tutkimusprojekti

    Murtola, T., Bollepalli, B., Nonavinakere Prabhakera, N., Juvela, L., Airaksinen, M., Bäckström, T. & Alku, P.

    01/01/201824/01/2020

    Projekti: Academy of Finland: Other research funding

    Ihmisen ja koneen kielenoppimisen kontekstisidonnainen laskennallinen perusta

    Räsänen, O.

    31/12/201731/12/2017

    Projekti: Academy of Finland: Other research funding

    Siteeraa tätä

    Airaksinen, M., Juvela, L., Alku, P., & Räsänen, O. (2019). Data augmentation strategies for neural network F0 estimation. teoksessa 44th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2019; Brighton; United Kingdom; 12-17 May 2019 : Proceedings (Sivut 6485 - 6489). [8683041] ( IEEE International Conference on Acoustics Speech and Signal Processing). IEEE. https://doi.org/10.1109/ICASSP.2019.8683041