Abstrakti
Puhetiedonhaku mahdollistaa tiedon löytämisen puhuttua aineistoa sisältävistä kokoelmista. Puheentunnistusta käytetään muuttamaan puhutut sanat tekstiksi, ja tiedonhakumenetelmiä käytetään tunnistustekstistä etsimiseen. Perinteiset tunnistusjärjestelmät sisältävät ennalta määrätyn sanaston, jolloin sanaston ulkopuoliset sanat jäävät aina tunnistumatta oikein. Yleensä harvinaiset sanat jätetään pois, mikä on ongelmallista tiedonhaun kannalta, koska hakusanat ovat usein harvinaisia sanoja, kuten erisnimiä. Rajoitettu sanasto on erityisen ongelmallista kielille, joissa on runsaasti sanamuotoja, kuten suomelle.
Tässä väitöskirjassa käytetään morfeemien kaltaisia sananosia tunnistukseen ja tiedonhakuun. Nämä morfeiksi kutsutut osat löydetään käyttäen ohjaamatonta menetelmää, joka oppii morfologista rakennetta tekstistä. Yhdistelemällä morfeja on mahdollista tunnistaa puheesta mikä tahansa sana, jopa sana, jota ei tavattu opetusaineistossa. Indeksoinnissa voidaan käyttää perusmuotoja, jotka saadaan sääntöpohjaisella morfologisella analyysaattorilla. Tällaisen analysaattorin käyttämä sanavarasto on kuitenkin rajoitettu, ja lisäksi tunnistusvirheet haittaavat sen toimintaa. Perusmuotojen sijaan tässä työssä käytetään morfeja myös indeksoinnissa.
Suomenkielisissä puhetiedonhakutesteissä verrataan morfimenetelmää perinteisiin sanakielimalleihin tunnistuksessa ja perusmuotoihin tiedonhaussa. Tiedonhakutulosten perusteella morfikielimallit ovat selvästi parempia kuin sanakielimallit. Indeksoinnissa morfien käyttö on likimäärin yhtä tehokasta kuin perusmuotojen käyttö, mutta menetelmien yhdistäminen on tehokkainta, erityisesti silloin, kun opetustekstin ulkopuolisten sanojen osuus hakusanoista on suuri. Lisäksi epäoptimaalisten morfisegmenttien vaikutus vähenee, kun käytetään vaihtoehtoisia morfisegmentaatioita tai latenttia semanttista indeksointia.
Vaikka morfi, joka tunnistimen mielestä on todennäköisin, on virheellinen, voi oikea morfi olla tunnistimen harkitsemien vaihtoehtojen joukossa. Näitä vaihtoehtoja voi hyödyntää haussa. Tässä työssä tunnistusvaihtoehdot esitetään konfuusioverkko-nimisessä rakenteessa. Vaihtoehtojen painottaminen niiden käänteisen paremmuusjärjestyksen mukaan havaitaan paremmaksi kuin painottaminen todennäköisyyden mukaan.
Tässä väitöskirjassa tutkitaan myös evaluointimenetelmiä, joilla voi mitata ohjaamattomien morfologisten analyysimenetelmien toimintaa. Sovellusevaluaatiot, kuten puhetiedonhaku, ovat aikaavieviä eikä niitä voi käyttää kehitysvaiheen aikana. Erilaisia lingvistisiä evaluaatiomenetelmiä on ehdotettu, ja niitä verrataan esimerkiksi korreloimalla niiden tuloksia suorituskykyyn sovelluksissa.
Julkaisun otsikon käännös | Morfeihin perustuva puhetiedonhaku: indeksointimenetelmiä sekä ohjaamattoman morfologisen analyysin evaluaatioita |
---|---|
Alkuperäiskieli | Englanti |
Pätevyys | Tohtorintutkinto |
Myöntävä instituutio |
|
Valvoja/neuvonantaja |
|
Kustantaja | |
Painoksen ISBN | 978-952-60-4717-1 |
Sähköinen ISBN | 978-952-60-4718-8 |
Tila | Julkaistu - 2012 |
OKM-julkaisutyyppi | G5 Artikkeliväitöskirja |
Tutkimusalat
- puhetiedonhaku
- sananosat
- morfeemi
- konfuusioverkko
- morfologinen analyysi