Modeling under-resourced languages for speech recognition

Mikko Kurimo, Seppo Enarvi*, Ottokar Tilk, Matti Varjokallio, André Mansikkaniemi, Tanel Alumäe

*Tämän työn vastaava kirjoittaja

Tutkimustuotos: LehtiartikkeliArticleScientificvertaisarvioitu

7 Sitaatiot (Scopus)
356 Lataukset (Pure)

Abstrakti

One particular problem in large vocabulary continuous speech recognition for low-resourced languages is finding relevant training data for the statistical language models. Large amount of data is required, because models should estimate the probability for all possible word sequences. For Finnish, Estonian and the other fenno-ugric languages a special problem with the data is the huge amount of different word forms that are common in normal speech. The same problem exists also in other language technology applications such as machine translation, information retrieval, and in some extent also in other morphologically rich languages. In this paper we present methods and evaluations in four recent language modeling topics: selecting conversational data from the Internet, adapting models for foreign words, multi-domain and adapted neural network language modeling, and decoding with subword units. Our evaluations show that the same methods work in more than one language and that they scale down to smaller data resources.

AlkuperäiskieliEnglanti
Sivut961-987
Sivumäärä27
JulkaisuLANGUAGE RESOURCES AND EVALUATION
Vuosikerta51
Numero4
Varhainen verkossa julkaisun päivämäärä10 helmikuuta 2016
DOI - pysyväislinkit
TilaJulkaistu - joulukuuta 2017
OKM-julkaisutyyppiA1 Julkaistu artikkeli, soviteltu

Sormenjälki Sukella tutkimusaiheisiin 'Modeling under-resourced languages for speech recognition'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Laitteet

    Science-IT

    Mikko Hakala (Manager)

    Perustieteiden korkeakoulu

    Laitteistot/tilat: Facility

  • Siteeraa tätä