Finnish ASR with deep transformer models

Abhilash Jain, Aku Rouhe, Stig Arne Grönroos, Mikko Kurimo

Tutkimustuotos: Artikkeli kirjassa/konferenssijulkaisussaConference article in proceedingsScientificvertaisarvioitu

7 Sitaatiot (Scopus)
191 Lataukset (Pure)

Abstrakti

Recently, BERT and Transformer-XL based architectures have achieved strong results in a range of NLP applications. In this paper, we explore Transformer architectures-BERT and Transformer-XL-as a language model for a Finnish ASR task with different rescoring schemes. We achieve strong results in both an intrinsic and an extrinsic task with Transformer-XL. Achieving 29% better perplexity and 3% better WER than our previous best LSTM-based approach. We also introduce a novel three-pass decoding scheme which improves the ASR performance by 8%. To the best of our knowledge, this is also the first work (i) to formulate an alpha smoothing framework to use the non-autoregressive BERT language model for an ASR task, and (ii) to explore sub-word units with Transformer-XL for an agglutinative language like Finnish.

AlkuperäiskieliEnglanti
OtsikkoProceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
KustantajaInternational Speech Communication Association (ISCA)
Sivut3630-3634
Sivumäärä5
Vuosikerta2020-October
DOI - pysyväislinkit
TilaJulkaistu - 2020
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisussa
TapahtumaInterspeech - Shanghai, Kiina
Kesto: 25 lokak. 202029 lokak. 2020
Konferenssinumero: 21
http://www.interspeech2020.org/

Julkaisusarja

NimiInterspeech
KustantajaInternational Speech Communication Association
ISSN (painettu)2308-457X

Conference

ConferenceInterspeech
LyhennettäINTERSPEECH
Maa/AlueKiina
KaupunkiShanghai
Ajanjakso25/10/202029/10/2020
www-osoite

Sormenjälki

Sukella tutkimusaiheisiin 'Finnish ASR with deep transformer models'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä