Abstrakti
Automaattisen puheentunnistuksen ja puhesynteesin avulla on mahdollista rakentaa käyttöliittymiä, jotka eivät vaadi käsien tai silmien käyttöä. Näillä käyttöliittymillä voi ohjata sovelluksia tietokoneissa, puhelimissa, kodinelektroniikassa tai puettavassa elektroniikassa. Kuulijan havainnot synteettisen äänen laadusta ja puhujaidentiteetistä ovat olennainen osa käyttäjäkokemusta. Erilaisten puhujaidentiteettien kirjo on käytännössä rajaton, mikäli puhujaidentiteetin siirtoon voidaan käyttää lyhyitä tai muihin tarkoituksiin kerättyjä puheaineistoja.
Tässä väitöskirjassa kuvataan tausta, menetelmät sekä tulokset joukolle tilastollisen parametrisen puhesynteesin ja puheentunnistuken alojen kokeita. Kokeiden pääpaino on puhujamallien adaptoinnissa ja järjestelmien tuotosten laadun arvioinissa.
Kaikki kuvatut järjestelmät nojaavat puhemalleihin, jotka on opetettu suuresta puhe- ja tekstiaineistosta. Puheaineistot on esikäsitelty akustisiksi piirrevektoreiksi vokooderilla. Saatavilla olevan datan määrän ja laadun vaikutuksia tutkitaan väitöskirjassa raportoiduissa kokeissa, jotka koskevat äänitysten taustamelun vaikutuksia puhuja-adaptoitavaan paramtetiseen HMM-GMM puhesynteesiin, kuulijoiden kokemusta puhujaidentiteetistä rajatulla datamäärällä kielen yli adaptoivassa puhesynteesissä ja yksittäisen puhujan ja puhujajoukon adaptaatioiden ketjuttamista puhesynteesin parantamiseksi uudentyyppisille puhujille, jotka eivät ole hyvin edustettuin opetusdatassa.
Puhuja-adaptaation tekemistä kielen yli tutkitaan kokeissa, jotka koskevat probabilistista puhuja-adaptaatiota kun saatavilla ei ole riittävää määrää lähtökielen puhedataa ja kaksikielistä puhesynteesiä lauseensisäisellä koodinvaihdolla kun käytössä ei ole toisen kielen puhedataa puhujalta. Kaikissa näissä kokeissa puhujaidentiteetti onnistuttiin siirtämään synteettiselle äänelle, vaikka adaptaatiodata oli meluisaa, toisella kielellä tai sitä oli hyvin vähän. Kielen yli adaptointia tutkittiin myös kaksikielisten puhujien puheentunnistuksessa, ja sen huomattiin parantavan tunnistustuloksia.
Minkä tahansa järjestelmän kehittäminen vaatii tuotosten laadun mittaamista, ja tässä väitöskirjassa on mukana taustaa synteettisen puheen sekä kielenoppijoiden luonnollisen puheen objektiivisisesta sekä subjektiivisesta arvioinnista, ja myös analyysi erilaisten objektiivisten mittojen käytöstä HMM-GMM-pohjaisen puhesynteesin laadun arviointiin.
Väitöskirjassa esitellään myös puhesynteesi- ja puheentunnistuskomponentteihin perustuva järjestelmä, joka arvioi ja pisteyttää vieraan kielen oppijoiden lausumisyrityksiä. Yksittäisten lausumien automaattinen arvostelu on hankalaa. Järjestelmämme onnistui tekemään riittävän tarkkoja arvioita riittävän nopeasti, jotta sitä voitiin käyttää kielenoppimisen tutkimukseen kehitetyissä tietokonepeleissä.
Julkaisun otsikon käännös | Building personalised speech technology systems with sparse, bad quality or out-of-domain data |
---|---|
Alkuperäiskieli | Englanti |
Pätevyys | Tohtorintutkinto |
Myöntävä instituutio |
|
Valvoja/neuvonantaja |
|
Kustantaja | |
Painoksen ISBN | 978-952-60-8594-4 |
Sähköinen ISBN | 978-952-60-8595-1 |
Tila | Julkaistu - 2019 |
OKM-julkaisutyyppi | G5 Artikkeliväitöskirja |
Tutkimusalat
- tilastollinen parametrinen puhesynteesi
- automaattinen puheentunnistus
- synteettisen puheen laadunarviointi
- tietokoneavusteinen lausumisenopetus
- akustisten mallien adaptointi