Language- and domain-independent text mining

Julkaisun otsikon käännös: Kielestä ja aihealueesta riippumaton tekstinlouhinta

Mari-Sanna Paukkeri

    Tutkimustuotos: Doctoral ThesisCollection of Articles

    Abstrakti

    Luonnollisen kielen käsittely (Natural language processing, NLP) on tieteenalana kasvanut valtavasti viimeisinä vuosikymmeninä. Tekstimuotoista tietoa on tarjolla elektronisessa muodossa jatkuvasti enenevässä määrin. Tämä on kiihdyttänyt myös tilastollisten NLP-menetelmien kehitystä, joissa kielen ominaisuuksia opitaan automaattisesti suurista tekstiaineistoista. Tilastollisia menetelmiä on onnistuneesti sovellettu tiedonhakuun, jossa käyttäjän hakusanojen perusteella palautetaan dokumentteja eri kielillä ja eri aloilta, tilastolliseen konekäännökseen, jota pystytään helposti laajentamaan uusiin kielipareihin, dokumenttien klusterointiin, jossa merkityssisällöltään samankaltaiset dokumentit ryhmitellään yhteen, ja moniin tiedonirrotustehtäviin, kuten avainfraasien hakuun, tekstin referointiin ja tiivistämiseen sekä kielitieteellisten piirteiden hakuun. Valitettavasti suurin osa NLP-tutkimuksesta - myös tilastollisten menetelmien käytöstä - on keskittynyt englannin kieleen ja käyttää kieliriippuvia työkaluja ja resursseja, kuten sanaluokittimia ja ontologioita, joita ei voi suoraan soveltaa muihin kieliin. Menetelmät, jotka on kehitetty pelkästään englannille, eivät välttämättä ollenkaan sovi kielille, joissa on erilainen lauserakenne tai kirjoitusjärjestelmä. Tässä väitöskirjassa tutkitaan ja kehitetään kieliriippumattomia menetelmiä luonnollisen kielen käsittelyyn. Kieliriippumattomia menetelmiä voidaan soveltaa useisiin kieliin ilman tarvetta ylimääräisille kielikohtaisille esikäsittelyvaiheille. Myös murteita, kielten historiallisia muotoja, pieniä kieliä ja erityisalojen kieltä voidaan käsitellä kieliriippumattomilla menetelmillä. Yksi tämän väitöskirjan keskeinen tulos on kieliriippumattoman Likey-menetelmän kehittäminen ja soveltaminen avainfraasien hakuun ja piirrevalintaan. Menetelmää on sovellettu avainfraasien hakuun tietosanakirja- ja tieteellisistä artikkeleista yhdellätoista kielellä ja lisäksi käytetty piirreirrotusmenetelmänä automaattisessa taksonomian oppimisjärjestelmässä sekä uudessa lähestymistavassa käyttäjämallinnukseen dokumenttien vaikeustason analysoinnissa. Toinen väitöskirjan keskeinen tulos liittyy dokumenttien mallinnukseen: työssä on vertailtu dimensionpudotusmenetelmiä ja etäisyysmittoja dokumenttiklusterointitehtävässä, kehitetty uusi kieliriippumaton suora evaluointimenetelmä dokumenttien esitysmuodoille ja käytetty kielitieteellisiä piirteitä dokumenttien klusteroinnissa sanavalintatehtävää varten.
    Julkaisun otsikon käännösKielestä ja aihealueesta riippumaton tekstinlouhinta
    AlkuperäiskieliEnglanti
    PätevyysTohtorintutkinto
    Myöntävä instituutio
    • Aalto-yliopisto
    Valvoja/neuvonantaja
    • Oja, Erkki, Vastuuprofessori
    • Honkela, Timo, Ohjaaja
    • Creutz, Mathias, Ohjaaja
    Kustantaja
    Painoksen ISBN978-952-60-4833-8
    Sähköinen ISBN978-952-60-4834-5
    TilaJulkaistu - 2012
    OKM-julkaisutyyppiG5 Artikkeliväitöskirja

    Tutkimusalat

    • luonnollisen kielen käsittely
    • laskennallinen kielitiede
    • ohjaamaton koneoppiminen
    • kieliriippumattomuus
    • kielen subjektiivinen käyttö
    • avainfraasihaku
    • dokumenttien klusterointi

    Sormenjälki

    Sukella tutkimusaiheisiin 'Kielestä ja aihealueesta riippumaton tekstinlouhinta'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

    Siteeraa tätä