Machine translation into morphologically rich low-resource languages

Julkaisun otsikon käännös: Konekäännös morfologisesti rikkaisiin resurssiniukkoihin kieliin

Stig-Arne Grönroos

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Konekäännös on tärkeä luonnollisten kielten käsittelyn sovellus, joka mahdollistaa entistä laajemman pääsyn tietoon monikielisessä maailmassa, sekä edesauttaa kulttuurista vuorovaikutusta ja liiketoimintaa. Konekäännös on kehittynyt nopeasti viimeaikoina syviin neuroverkkoihin kohdistuvan tutkimuksen ansiosta. Etenkin käännöksen kielellinen sujuvuus on edistynyt. Koska menetelmät edellyttävät suuria datamääriä, kehitys on keskittynyt hyvin resursoiduille kielille. Tämän väitöskirjan tavoitteena on edistää konekäännöstä kun kohdekielenä on morfologisesti rikas kieli, jolle on saatavilla niukasti resursseja. Kielen rikas morfologia johtaa sananmuotojen määrän kombinatoriseen räjähdykseen tuottaen erittäin suuria sanastoja. Harvinaisia sananmuotoja on vaikea mallintaa. Väitöskirjassa näihin haasteisiin vastataan hyödyntäen useaa lähestymistapaa. Pääasiallinen lähestymistapa on sanojen pilkonta osiin. Pilkonnan avulla saadut esitystavat ovat helpompia mallintaa, minkä lisäksi pilkonnalla voidaan parantaa kielten välistä symmetriaa. On tärkeää hyödyntää resursseja läheisistä sovelluksista, esimerkiksi sukulaiskielten rinnakkaista tekstiä sisältävistä aineistoista, sekä yksikielisistä aineistoista. Väitöskirjassa käytetään kieliriippumattomia menetelmiä ja erilaisia koneoppimisasetelmia, kuten ohjaamatonta oppimista. Apuaineistoja hyödynnetään käyttämällä monikielistä oppimista, datan rikastamista,kohinaa poistavaa sekvenssiautoenkooderia, sekä pilkontaregularisointia. Aktiivista koneoppimista käytetään tehokkaampaan annotaatioiden keräämiseen, ja aikataulutettua monen tehtävän oppimista monikielisen oppimisen tehostamiseen. Väitöskirjassa esitellään viisi uutta menetelmää sanojen pilkontaan: Morfessor FlatCat, Omorfi-restricted Morfessor, Cognate Morfessor, Morfessor EM+Prune, sekä puoliohjattu neuroverkkoihin perustuva menetelmä. Morfessor FlatCat -menetelmälle esitellään aktiivisen koneoppimisen strategia. Pilkonnan laatua arvioidaan sekä suorilla että epäsuorilla automaattisilla evaluaatioilla.Morfessor EM+Prunen löytämillä malleilla on sekä alempi kustannusfunktion arvo että parempi pilkonnan laatu kuin Morfessor Baseline -menetelmällä. Aktiivinen koneoppiminen on satunnaista valintaa parempi annotaatoiden keräämiseen. Puoliohjatussa pilkonnassa paras laatu saavutetaan käyttämällä Morfessor FlatCatin pilkontoja piirteinä ehdollisessa satunnaiskentässä. Konekäännöksen menetelminä esitellään kohdekielen puolella tapahtuva monen tehtävän oppiminen sekä aikataulutettu monen tehtävän oppiminen, joka hyödyntää kohinaa poistavaa sekvenssiautoenkooderia. Lisäksi esitellään morfologisesti rikkaille kohdekielille soveltuva evaluaatiomenetelmä, LeBLEU. Konekäännöksen laatua arvioidaan sekä automaattisilla että ihmisarvioihin perustuvilla menetelmillä. Kun tavoitteena olevan käännöstehtävän resurssit ovat vähäisiä,tärkeimmät apuaineistot ovat sukulaiskielet. Myös yksikielisistä aineistoista on hyötyä.
Julkaisun otsikon käännösKonekäännös morfologisesti rikkaisiin resurssiniukkoihin kieliin
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Kurimo, Mikko, Vastuuprofessori
  • Virpioja, Sami, Ohjaaja
Kustantaja
Painoksen ISBN978-952-64-0168-3
Sähköinen ISBN978-952-64-0169-0
TilaJulkaistu - 2020
OKM-julkaisutyyppiG5 Artikkeliväitöskirja

Tutkimusalat

  • konekäännös
  • morfeeemipilkonta
  • ohjaamaton oppiminen
  • puoliohjattu oppiminen
  • siirto-oppiminen
  • monen tehtävän oppiminen
  • aktiivinen koneoppiminen
  • syvät neuroverkot

Sormenjälki

Sukella tutkimusaiheisiin 'Konekäännös morfologisesti rikkaisiin resurssiniukkoihin kieliin'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä