Partitive Techniques in Bayesian Data Analysis

Julkaisun otsikon käännös: Jaottelevat menetelmät bayesilaisessa data-analytiikassa

Tuomas Sivula

Tutkimustuotos: Doctoral ThesisCollection of Articles

Abstrakti

Tämä väitöskirja käsittelee kahta suosittua bayesilaisessa data-analytiikassa käytettyä menetelmää, joissa data jaetaan pistevieraisiin joukkoihin. Analysoitavat menetelmät ovat odotusarvon välittäminen (expectation propagation, EP), jota sovelletaan hajautettuun päättelyyn, ja jätä-yksi-pois ristiinvalidointi (leave-one-out cross-validation, LOO-CV), jota käytetään mallin evaluointiin ja vertailuun. Työn pääkontribuutio on menetelmien sovellettavuuden ja käyttäytymisen analysointi eri tilanteissa. EP-algoritmi on suosittu menetelmä, jolla voidaan approksimoida osittuva tiheysfunktio. Bayesilaisessa kontekstissa menetelmää on algebrallisen mukautuvuuden vuoksi yleensä sovellettu pisteittäin. Osittamalla useita havaintoja yhteen approksimoitavaan tekijään, menetelmää voidaan soveltaa joustavasti myös hajautettuun laskentaan. Tämän lisäksi sen avulla voidaan pienentää laskennallista dimensionaalisuutta hierarkisissa ongelmissa keskittämällä eri parametrien päättelyt eri yksiköille. LOO-CV on suosittu mallin evaluointi-, vertailu-, ja painotusmenetelmä, jolla voidaan estimoida havaintoaineiston ulkopuolista prediktiivistä suorituskykyä annetun havaintoaineiston perusteella. Joissain tilanteissa tämän estimaatin laskeminen on raskas operaatio. Väitöskirjassa tätä ongelmaa käsitellään Gaussinen latentti muuttuja -mallien (Gaussian latent variable models, GLVM) kontekstissa vertailemalla eri menetelmiä, joilla LOO-CV estimaattia voidaan approksimoida tehokkaammin. Tulosten perusteella esitetään suositellut lähestymistavat ongelman ratkaisemiseksi eri tarkkuuden ja laskennallisen vaativuuden tasoilla. Joissain ongelmissa LOO-CV estimaattorin vaihtelevuus voi olla suuri. Tämän vuoksi on tärkeää arvioida ja huomioida siihen liittyvä epävarmuus sovellettaessa menetelmää käytännössä. Nykyiset suositut menetelmät tämän epävarmuuden estimoimiseksi usein aliarvioivat vaihtelevuuden huomattavasti. Tämä väitöskirja tutkii epävarmuuden käyttäytymistä mallinvertailutilanteessa sekä teoreettisesti että kokeellisesti ja identifioi ongelmallisia tilanteita, joissa estimoitu epävarmuus on huonosti kalibroitu. Havaitut ongelmat esiintyvät tilanteissa, missä havaintojoukko on pieni, mallien ennusteet ovat samankaltaisia, ja mallit kuvaavat ilmiötä huonosti. Lisäksi väitöskirja esittää paremman estimaattorin LOO-CV estimaattorin varianssille bayesilaisen normaalimallin tapauksessa. Esitetty estimaattori toimii esimerkkinä mahdollisuudesta rakentaa parempia mallikohtaisia estimaattoreita LOO-CV estimaattorin epävarmuudelle. Tätä näkökantaa ei ole esitetty kirjallisuudessa aiemmin.
Julkaisun otsikon käännösJaottelevat menetelmät bayesilaisessa data-analytiikassa
AlkuperäiskieliEnglanti
PätevyysTohtorintutkinto
Myöntävä instituutio
  • Aalto-yliopisto
Valvoja/neuvonantaja
  • Vehtari, Aki, Vastuuprofessori
  • Vehtari, Aki, Ohjaaja
Kustantaja
Painoksen ISBN978-952-64-0268-0
Sähköinen ISBN978-952-64-0269-7
TilaJulkaistu - 2021
OKM-julkaisutyyppiG5 Artikkeliväitöskirja

Tutkimusalat

  • bayesilainen data-analytiikka
  • mallinvertailu
  • hajautettu approksimatiivinen päättely
  • Gaussiset prosessit

Sormenjälki

Sukella tutkimusaiheisiin 'Jaottelevat menetelmät bayesilaisessa data-analytiikassa'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

Siteeraa tätä