Towards Efficient and Robust Automatic Speech Recognition: Decoding Techniques and Discriminative Training

Julkaisun otsikon käännös: Kohti tehokasta ja häiriöitä sietävää automaattista puheentunnistusta: tekniikoita dekoodaukseen ja diskriminatiiviseen opetukseen

Janne Pylkkönen

    Tutkimustuotos: Doctoral ThesisCollection of Articles

    Abstrakti

    Automaattinen puheentunnistus, eli puheen muuttaminen tekstiksi, on laajasti tutkittu ongelma. Tutkimus on jo saavuttanut pisteen jossa puheentunnistuksella on monia jokapäiväisiä sovelluskohteita. Kuitenkin puutteet tunnistuksen tarkkuudessa haittaavat edelleen puheentunnistuksen käyttöä, varsinkin pyrittäessä tunnistamaan laajan sanaston luonnollista puhetta. Myös tunnistuksen nopeus voi olla riittämätöntä jos vaatimuksena on reaaliaikainen tunnistus. Tämä väitöskirja käsittelee kahta puheentunnistuksen osaongelmaa: dekoodausta ja akustista mallinnusta. Parannukset näissä auttavat sekä tarkentamaan tunnistustulosta että tuottamaan tuloksen nopeammin. Väitöskirjan pääaihe on akustisten mallien diskriminatiivinen opetus, erityisesti siihen käytettävä laajennettu Baum-Welch algoritmi. Uutena teoreettisena tuloksena väitöskirja esittää tämän algoritmin yhteyden yleiseen rajoitettuun optimointiin. Algoritmin kontrollointiin esitetään useita vaihtoehtoisia menetelmiä, jotka parantavat akustisten mallien toimintaa erityisesti häiriöisissä ympäristöissä. Akustisten mallien parannukset on testattu empiirisesti useilla laajan sanaston tunnistustehtävillä. Koska diskriminatiivista opetusta käytetään yleisesti puheentunnistimien akustisten mallien opetukseen, on esitetyillä parannuksilla monia välittömiä sovelluksia. Tässä työssä on käytetty Aalto-yliopistossa kehitettyä puheentunnistusjärjestelmää, jota myös kehitettiin ja parannettiin väitöstutkimuksen yhteydessä. Väitöskirja sisältää yleiskatsauksen tästä järjestelmästä, sekä tarkemman kuvauksen siinä käytetystä dekooderista. Puheentunnistimen dekooderi on osa, joka puheen akustiikkaa ja kieltä kuvaavien tilastollisten mallien avulla etsii sanajonon, joka parhaiten vastaa syötteeksi annettua puhetta. Väitöskirja esittää uusia menetelmiä dekooderin nopeuttamiseen niin, ettei tunnistustarkkuus tämän vuoksi heikkene.
    Julkaisun otsikon käännösKohti tehokasta ja häiriöitä sietävää automaattista puheentunnistusta: tekniikoita dekoodaukseen ja diskriminatiiviseen opetukseen
    AlkuperäiskieliEnglanti
    PätevyysTohtorintutkinto
    Myöntävä instituutio
    • Aalto-yliopisto
    Valvoja/neuvonantaja
    • Oja, Erkki, Vastuuprofessori
    • Kurimo, Mikko, Ohjaaja
    Kustantaja
    Painoksen ISBN978-952-60-5063-8
    Sähköinen ISBN978-952-60-5064-5
    TilaJulkaistu - 2013
    OKM-julkaisutyyppiG5 Artikkeliväitöskirja

    Tutkimusalat

    • puheentunnistus
    • dekooderi
    • akustinen mallinnus
    • diskriminatiivinen opetus

    Sormenjälki

    Sukella tutkimusaiheisiin 'Kohti tehokasta ja häiriöitä sietävää automaattista puheentunnistusta: tekniikoita dekoodaukseen ja diskriminatiiviseen opetukseen'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

    Siteeraa tätä