Kielestä ja aihealueesta riippumaton tekstinlouhinta

Mari-Sanna Paukkeri

  Tutkimustuotos: Doctoral ThesisCollection of Articles

  Abstrakti

  Luonnollisen kielen käsittely (Natural language processing, NLP) on tieteenalana kasvanut valtavasti viimeisinä vuosikymmeninä. Tekstimuotoista tietoa on tarjolla elektronisessa muodossa jatkuvasti enenevässä määrin. Tämä on kiihdyttänyt myös tilastollisten NLP-menetelmien kehitystä, joissa kielen ominaisuuksia opitaan automaattisesti suurista tekstiaineistoista. Tilastollisia menetelmiä on onnistuneesti sovellettu tiedonhakuun, jossa käyttäjän hakusanojen perusteella palautetaan dokumentteja eri kielillä ja eri aloilta, tilastolliseen konekäännökseen, jota pystytään helposti laajentamaan uusiin kielipareihin, dokumenttien klusterointiin, jossa merkityssisällöltään samankaltaiset dokumentit ryhmitellään yhteen, ja moniin tiedonirrotustehtäviin, kuten avainfraasien hakuun, tekstin referointiin ja tiivistämiseen sekä kielitieteellisten piirteiden hakuun. Valitettavasti suurin osa NLP-tutkimuksesta - myös tilastollisten menetelmien käytöstä - on keskittynyt englannin kieleen ja käyttää kieliriippuvia työkaluja ja resursseja, kuten sanaluokittimia ja ontologioita, joita ei voi suoraan soveltaa muihin kieliin. Menetelmät, jotka on kehitetty pelkästään englannille, eivät välttämättä ollenkaan sovi kielille, joissa on erilainen lauserakenne tai kirjoitusjärjestelmä. Tässä väitöskirjassa tutkitaan ja kehitetään kieliriippumattomia menetelmiä luonnollisen kielen käsittelyyn. Kieliriippumattomia menetelmiä voidaan soveltaa useisiin kieliin ilman tarvetta ylimääräisille kielikohtaisille esikäsittelyvaiheille. Myös murteita, kielten historiallisia muotoja, pieniä kieliä ja erityisalojen kieltä voidaan käsitellä kieliriippumattomilla menetelmillä. Yksi tämän väitöskirjan keskeinen tulos on kieliriippumattoman Likey-menetelmän kehittäminen ja soveltaminen avainfraasien hakuun ja piirrevalintaan. Menetelmää on sovellettu avainfraasien hakuun tietosanakirja- ja tieteellisistä artikkeleista yhdellätoista kielellä ja lisäksi käytetty piirreirrotusmenetelmänä automaattisessa taksonomian oppimisjärjestelmässä sekä uudessa lähestymistavassa käyttäjämallinnukseen dokumenttien vaikeustason analysoinnissa. Toinen väitöskirjan keskeinen tulos liittyy dokumenttien mallinnukseen: työssä on vertailtu dimensionpudotusmenetelmiä ja etäisyysmittoja dokumenttiklusterointitehtävässä, kehitetty uusi kieliriippumaton suora evaluointimenetelmä dokumenttien esitysmuodoille ja käytetty kielitieteellisiä piirteitä dokumenttien klusteroinnissa sanavalintatehtävää varten.
  Julkaisun otsikon käännösKielestä ja aihealueesta riippumaton tekstinlouhinta
  AlkuperäiskieliEnglanti
  PätevyysTohtorintutkinto
  Myöntävä instituutio
  • Aalto-yliopisto
  Valvoja/neuvonantaja
  • Oja, Erkki, Vastuuprofessori
  • Honkela, Timo, Ohjaaja
  • Creutz, Mathias, Ohjaaja
  Kustantaja
  Painoksen ISBN978-952-60-4833-8
  Sähköinen ISBN978-952-60-4834-5
  TilaJulkaistu - 2012
  OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

  Tutkimusalat

  • luonnollisen kielen käsittely
  • laskennallinen kielitiede
  • ohjaamaton koneoppiminen
  • kieliriippumattomuus
  • kielen subjektiivinen käyttö
  • avainfraasihaku
  • dokumenttien klusterointi

  Sormenjälki

  Sukella tutkimusaiheisiin 'Kielestä ja aihealueesta riippumaton tekstinlouhinta'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  Siteeraa tätä