End-to-End Optimization of Source Models for Speech and Audio Coding Using a Machine Learning Framework

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference contributionScientificvertaisarvioitu

132 Lataukset (Pure)

Abstrakti

Speech coding is the most commonly used application of speech processing. Accumulated layers of improvements have however made codecs so complex that optimization of individual modules becomes increasingly difficult. This work introduces machine learning methodology to speech and audio coding, such that we can optimize quality in terms of overall entropy. We can then use conventional quantization, coding and perceptual models without modification such that the codec adheres to conventional requirements on algorithmic complexity, latency and robustness to packet loss. Experiments demonstrate that end-to-end optimization of quantization accuracy of the spectral envelope can be used for a lossless reduction in bitrate of 0.4 kbits/s.
AlkuperäiskieliEnglanti
OtsikkoProceedings of Interspeech
KustantajaISCA
Sivut3401-3405
DOI - pysyväislinkit
TilaJulkaistu - syyskuuta 2019
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInterspeech - Graz, Itävalta
Kesto: 15 syyskuuta 201919 syyskuuta 2019
https://www.interspeech2019.org/

Julkaisusarja

NimiInterspeech - Annual Conference of the International Speech Communication Association
ISSN (elektroninen)2308-457X

Conference

ConferenceInterspeech
MaaItävalta
KaupunkiGraz
Ajanjakso15/09/201919/09/2019
www-osoite

Sormenjälki Sukella tutkimusaiheisiin 'End-to-End Optimization of Source Models for Speech and Audio Coding Using a Machine Learning Framework'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Projektit

    • 1 Päättynyt

    Poikkitieteellinen parametrisen puhesynteesin tutkimusprojekti

    Murtola, T., Bollepalli, B., Juvela, L., Airaksinen, M., Bäckström, T. & Alku, P.

    01/01/201824/01/2020

    Projekti: Academy of Finland: Other research funding

    Siteeraa tätä

    Bäckström, T. (2019). End-to-End Optimization of Source Models for Speech and Audio Coding Using a Machine Learning Framework. teoksessa Proceedings of Interspeech (Sivut 3401-3405). (Interspeech - Annual Conference of the International Speech Communication Association). ISCA. https://doi.org/10.21437/Interspeech.2019-1284