Building personalised speech technology systems with sparse, bad quality or out-of-domain data

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Automaattisen puheentunnistuksen ja puhesynteesin avulla on mahdollista rakentaa käyttöliittymiä, jotka eivät vaadi käsien tai silmien käyttöä. Näillä käyttöliittymillä voi ohjata sovelluksia tietokoneissa, puhelimissa, kodinelektroniikassa tai puettavassa elektroniikassa. Kuulijan havainnot synteettisen äänen laadusta ja puhujaidentiteetistä ovat olennainen osa käyttäjäkokemusta. Erilaisten puhujaidentiteettien kirjo on käytännössä rajaton, mikäli puhujaidentiteetin siirtoon voidaan käyttää lyhyitä tai muihin tarkoituksiin kerättyjä puheaineistoja. Tässä väitöskirjassa kuvataan tausta, menetelmät sekä tulokset joukolle tilastollisen parametrisen puhesynteesin ja puheentunnistuken alojen kokeita. Kokeiden pääpaino on puhujamallien adaptoinnissa ja järjestelmien tuotosten laadun arvioinissa. Kaikki kuvatut järjestelmät nojaavat puhemalleihin, jotka on opetettu suuresta puhe- ja tekstiaineistosta. Puheaineistot on esikäsitelty akustisiksi piirrevektoreiksi vokooderilla. Saatavilla olevan datan määrän ja laadun vaikutuksia tutkitaan väitöskirjassa raportoiduissa kokeissa, jotka koskevat äänitysten taustamelun vaikutuksia puhuja-adaptoitavaan paramtetiseen HMM-GMM puhesynteesiin, kuulijoiden kokemusta puhujaidentiteetistä rajatulla datamäärällä kielen yli adaptoivassa puhesynteesissä ja yksittäisen puhujan ja puhujajoukon adaptaatioiden ketjuttamista puhesynteesin parantamiseksi uudentyyppisille puhujille, jotka eivät ole hyvin edustettuin opetusdatassa. Puhuja-adaptaation tekemistä kielen yli tutkitaan kokeissa, jotka koskevat probabilistista puhuja-adaptaatiota kun saatavilla ei ole riittävää määrää lähtökielen puhedataa ja kaksikielistä puhesynteesiä lauseensisäisellä koodinvaihdolla kun käytössä ei ole toisen kielen puhedataa puhujalta. Kaikissa näissä kokeissa puhujaidentiteetti onnistuttiin siirtämään synteettiselle äänelle, vaikka adaptaatiodata oli meluisaa, toisella kielellä tai sitä oli hyvin vähän. Kielen yli adaptointia tutkittiin myös kaksikielisten puhujien puheentunnistuksessa, ja sen huomattiin parantavan tunnistustuloksia. Minkä tahansa järjestelmän kehittäminen vaatii tuotosten laadun mittaamista, ja tässä väitöskirjassa on mukana taustaa synteettisen puheen sekä kielenoppijoiden luonnollisen puheen objektiivisisesta sekä subjektiivisesta arvioinnista, ja myös analyysi erilaisten objektiivisten mittojen käytöstä HMM-GMM-pohjaisen puhesynteesin laadun arviointiin. Väitöskirjassa esitellään myös puhesynteesi- ja puheentunnistuskomponentteihin perustuva järjestelmä, joka arvioi ja pisteyttää vieraan kielen oppijoiden lausumisyrityksiä. Yksittäisten lausumien automaattinen arvostelu on hankalaa. Järjestelmämme onnistui tekemään riittävän tarkkoja arvioita riittävän nopeasti, jotta sitä voitiin käyttää kielenoppimisen tutkimukseen kehitetyissä tietokonepeleissä.
Julkaisun otsikon käännösBuilding personalised speech technology systems with sparse, bad quality or out-of-domain data
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Kurimo, Mikko, Valvoja
  • Kurimo, Mikko, Ohjaaja
Kustantaja
Painoksen ISBN978-952-60-8594-4
Sähköinen ISBN978-952-60-8595-1
TilaJulkaistu - 2019
OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

Tutkimusalat

  • tilastollinen parametrinen puhesynteesi
  • automaattinen puheentunnistus
  • synteettisen puheen laadunarviointi
  • tietokoneavusteinen lausumisenopetus
  • akustisten mallien adaptointi

Sormenjälki Sukella tutkimusaiheisiin 'Building personalised speech technology systems with sparse, bad quality or out-of-domain data'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Laitteet

  • Science-IT

    Mikko Hakala (Manager)

    Perustieteiden korkeakoulu

    Laitteistot/tilat: Facility

  • Siteeraa tätä