Contributions to Morphology Learning using Conditional Random Fields

Julkaisun otsikon käännös: Kontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentillä

    Tutkimustuotos: Doctoral ThesisCollection of Articles

    Abstrakti

    Luonnollisen kielen käsittelyssä (LKK) tutkitaan järjestelmiä, jotka suorittavat ihmiskieleen liittyviä tehtäviä automaattisesti ilman ihmisen valvontaa. Tässä väitöskirjassa tarkastellaan LKK-järjestelmiä, jotka liittyvät morfologiseen analyysiin eli sanojen sisäisen rakenteen kuvaukseen. Morfologiset kuvaukset ovat tarpeellisia monien sovellusten, kuten hakukoneiden, kielenkääntäjien ja puheentunnistimien, kannalta, jotta kyseiset sovellukset voivat käsitellä harvinaisia ja tuntemattomia sanamuotoja. Työssä keskitytään erityisesti kahteen yleisesti käytettyyn analyysimenetelmään, morfologiseen jäsennykseen ja pilkontaan. Morfologisessa jäsennyksessä sanamuodoille annetaan luokituksia niiden morfologisten ominaisuuksien mukaan. Morfologisessa pilkonnassa sanojen sisäistä rakennetta kuvaillaan pilkkomalla sanamuodot niiden pienimpiin merkitystä sisältäviin osiin, morfeemeihin. Tässä väitöskirjassa morfologista jäsennystä ja pilkontaa lähestytään käyttäen tilastollista koneoppimismetodologiaa eli järjestelmät oppivat suorittamaan analyysin asiantuntijan muodostamien esimerkkien avulla. Erityisesti keskitytään ehdollisten satunnaiskenttien (ESK) soveltamiseen. 2000-luvun alussa julkaistua ESK-mallia on aikaisemmin sovellettu menestyksekkäästi useissa jäsennys- ja pilkontatehtävissä. Väitöskirjan ensimmäisenä pääkontribuutiona työssä tarkastellaan morfologisen pilkonnan oppimista ESK-mallin avulla. Erityisesti tarkastellaan puoliohjattua oppimisasetelmaa, jossa käytettävissä oleva data muodostuu pienestä määrästä annotoituja pilkontaesimerkkejä ja suuresta määrästä annotoimattomia, "raakoja", sanamuotoja. Kokeelliset tulokset kuudella kielellä osoittavat, että ehdotettu puoliohjattu ESK-pohjainen lähestymistapa on erittäin kilpailukykyinen menetelmä aikaisemmin julkaistuihin menetelmiin verrattuna. Erityisesti huomataan, että suljettujen luokkien ilmiöt, kuten suomen kielen suffiksaatio, voidaan oppia jo pienestä määrästä annotoituja esimerkkejä ohjatulla opetuksella. Toisaalta avoimen luokkien ilmiöt, kuten yhdyssanojen muodostaminen suomessa, voidaan oppia hyödyntämällä suurta määrää annotoimattomia sanamuotoja käyttäen puoliohjattua opetusta. Toisena pääkontribuutiona väitöskirjassa esitellään FinnPos, ensimmäinen suomen kielelle julkaistu avoimen lähdekoodin tilastollinen morfologinen jäsennin. ESK-malliin pohjautuvaa FinnPos-järjestelmää voidaan soveltaa suomen kielisen tekstin morfologiseen jäsentämiseen käyttäen Turku Dependency Treebank- ja FinnTreebank-puupankkien avulla opetettuja malleja.
    Julkaisun otsikon käännösKontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentillä
    AlkuperäiskieliEnglanti
    PätevyysTohtorintutkinto
    Myöntävä instituutio
    • Aalto-yliopisto
    Valvoja/neuvonantaja
    • Kurimo, Mikko, Vastuuprofessori
    • Virpioja, Sami, Ohjaaja
    Kustantaja
    Painoksen ISBN978-952-60-6753-7
    Sähköinen ISBN978-952-60-6754-4
    TilaJulkaistu - 2016
    OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

    Tutkimusalat

    • luonnollinen kieli
    • morfologia
    • ehdolliset satunnaiskentät
    • jäsennys
    • pilkonta

    Sormenjälki

    Sukella tutkimusaiheisiin 'Kontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentillä'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

    Siteeraa tätä