Abstrakti
Automaattinen puheentunnistus, eli puheen muuttaminen tekstiksi, on laajasti tutkittu ongelma. Tutkimus on jo saavuttanut pisteen jossa puheentunnistuksella on monia jokapäiväisiä sovelluskohteita. Kuitenkin puutteet tunnistuksen tarkkuudessa haittaavat edelleen puheentunnistuksen käyttöä, varsinkin pyrittäessä tunnistamaan laajan sanaston luonnollista puhetta. Myös tunnistuksen nopeus voi olla riittämätöntä jos vaatimuksena on reaaliaikainen tunnistus. Tämä väitöskirja käsittelee kahta puheentunnistuksen osaongelmaa: dekoodausta ja akustista mallinnusta. Parannukset näissä auttavat sekä tarkentamaan tunnistustulosta että tuottamaan tuloksen nopeammin.
Väitöskirjan pääaihe on akustisten mallien diskriminatiivinen opetus, erityisesti siihen käytettävä laajennettu Baum-Welch algoritmi. Uutena teoreettisena tuloksena väitöskirja esittää tämän algoritmin yhteyden yleiseen rajoitettuun optimointiin. Algoritmin kontrollointiin esitetään useita vaihtoehtoisia menetelmiä, jotka parantavat akustisten mallien toimintaa erityisesti häiriöisissä ympäristöissä. Akustisten mallien parannukset on testattu empiirisesti useilla laajan sanaston tunnistustehtävillä. Koska diskriminatiivista opetusta käytetään yleisesti puheentunnistimien akustisten mallien opetukseen, on esitetyillä parannuksilla monia välittömiä sovelluksia.
Tässä työssä on käytetty Aalto-yliopistossa kehitettyä puheentunnistusjärjestelmää, jota myös kehitettiin ja parannettiin väitöstutkimuksen yhteydessä. Väitöskirja sisältää yleiskatsauksen tästä järjestelmästä, sekä tarkemman kuvauksen siinä käytetystä dekooderista. Puheentunnistimen dekooderi on osa, joka puheen akustiikkaa ja kieltä kuvaavien tilastollisten mallien avulla etsii sanajonon, joka parhaiten vastaa syötteeksi annettua puhetta. Väitöskirja esittää uusia menetelmiä dekooderin nopeuttamiseen niin, ettei tunnistustarkkuus tämän vuoksi heikkene.
Julkaisun otsikon käännös | Kohti tehokasta ja häiriöitä sietävää automaattista puheentunnistusta: tekniikoita dekoodaukseen ja diskriminatiiviseen opetukseen |
---|---|
Alkuperäiskieli | Englanti |
Pätevyys | Tohtorintutkinto |
Myöntävä instituutio |
|
Valvoja/neuvonantaja |
|
Kustantaja | |
Painoksen ISBN | 978-952-60-5063-8 |
Sähköinen ISBN | 978-952-60-5064-5 |
Tila | Julkaistu - 2013 |
OKM-julkaisutyyppi | G5 Artikkeliväitöskirja |
Tutkimusalat
- puheentunnistus
- dekooderi
- akustinen mallinnus
- diskriminatiivinen opetus