Multiple hypothesis testing in data mining

Julkaisun otsikon käännös: Monen hypoteesin testaus tiedonlouhinnassa

Sami Hanhijärvi

    Tutkimustuotos: Doctoral ThesisCollection of Articles

    Abstrakti

    Tiedonlouhinnan menetelmillä pyritään löytämään annetusta aineistosta yllättäviä ja mielenkiintoisia säännönmukaisuuksia, joita kutsutaan hahmoiksi. Useat menetelmät kuitenkin löytävät hahmoja kaikista aineistoista, jopa täysin satunnaisista. Näissä tilanteissa voidaan käyttää tilastollista testausta valitsemaan yllättävät hahmot, jotka eivät esiinny yhtä vahvasti satunnaisessa aineistossa. Monen hahmon tilastollista merkittävyyttä testatessa käsitellään samalla yhdenaikaisesti joukkoa tilastollisia hypoteesejä. Usean hypoteesin yhdenaikaista testausta kutsutaan monen hypoteesin testaamiseksi, joka vaatii erityistoimenpiteitä, jotta väärien johtopäätösten todennäköisyyttä voidaan hallita. Kuitenkaan tyypillisiä monen hypoteesin testausmenetelmiä ei voida käyttää tiedonlouhinnassa, koska ne eivät ota huomioon tiedonlouhinnassa tyypillistä vaihtelevan hypoteesijoukon ongelmaa. Tämä väitöskirja esittelee ongelman ja tarkastelee aiheeseen liittyviä julkaisuja. Kirja keskittyy monen hypoteesin testaamiseen erityisesti tiedonlouhinnan tilanteissa. Tyypillisten monen hypoteesin testaamiseen käytettävien menetelmien ongelmia tiedonlouhinnassa käsitellään, ja ongelmiin esitetään ratkaisu. Tämä perustuu satunnaistukseen, jossa luodaan satunnaisia aineistoja ja käytetään tiedonlouhinnan menetelmää näihin aineistoihin. Saatuja tuloksia verrataan alkuperäisestä aineistosta saatuihin tuloksiin. Satunnaistaminen esitellään yleisesti ja käsitellään mahdollisia satunnaistamismenetelmiä erilaisissa tiedonlouhinnan tilanteissa. Esitettyä ratkaisua käytetään iteratiivisessa tiedonlouhinnassa ja kaksoisryhmittelyssä, joissa kokeellisesti myös osoitetaan ratkaisun hyöty.
    Julkaisun otsikon käännösMonen hypoteesin testaus tiedonlouhinnassa
    AlkuperäiskieliEnglanti
    PätevyysTohtorintutkinto
    Myöntävä instituutio
    • Aalto-yliopisto
    Valvoja/neuvonantaja
    • Mannila, Heikki, Vastuuprofessori
    • Rousu, Juho, Vastuuprofessori
    • Puolamäki, Kai, Ohjaaja
    Kustantaja
    Painoksen ISBN978-952-60-4604-4
    Sähköinen ISBN978-952-60-4605-1
    TilaJulkaistu - 2012
    OKM-julkaisutyyppiG5 Artikkeliväitöskirja

    Tutkimusalat

    • tiedonlouhinta
    • monen hypoteesin testaus
    • tilastollinen testaus
    • kaksoisryhmittely

    Sormenjälki

    Sukella tutkimusaiheisiin 'Monen hypoteesin testaus tiedonlouhinnassa'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

    Siteeraa tätä