Kielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä

    Tutkimustuotos: Doctoral ThesisCollection of Articles

    Abstrakti

    Tämä väitöskirja kattaa useita samankaltaisuuteen perustuvia datalähtöisiä menetelmiä, joita käytetään kielen ja merkityksen mallintamiseen. Suuret, sähköisessä muodossa olevat tekstiaineistot mahdollistavat ohjaamattomien datalähtöisten menetelmien käytön. Verrattuna asiantuntijoiden tuottamiin lingvistisiin malleihin, jotka ovat usein kalliita tai joita ei aina ole saatavilla, datalähtöinen analyysi on nopeampaa ja usein joustavampaa. Samat menetelmät sopivat usein kielestä riippumatta. Lisäksi datalähtöinen analyysi voi olla eksploratiivista ja siten tarjota uuden näkökulman aineistoon. Tässä työssä analysoitiin useiden eurooppalaisten kielten syntaktisen ja morfologisen tason kompleksisuutta ohjaamattomilla menetelmillä, jotka perustuvat datan kompressioon ja ohjaamattomaan morfologian oppimiseen. Tulokset osoittavat, että ohjaamattomat menetelmät tuottavat hyödyllisiä tuloksia, jotka vastaavat lingvistisiä malleja. Jakaumiin perustuvat sana-avaruusmallit (Vector Space Models) käyttävät sanojen merkityksen esittämiseen sanojen kontekstia eli sanojen välisiä yhteisesiintymiä, jotka kerätään laajoista tekstiaineistoista. Tässä työssä käytettiin sana-avaruusmalleja, joita evaluoitiin käyttäen lingvistisiä malleja ja semanttisia evaluaatioaineistoja. Työssä käytettiin kahta ohjaamatonta menetelmää, riippumattomien komponenttien analyysia (Independent Component Analysis) sekä latenttia Dirichlet-allokaatiota (Latent Dirichlet Allocation), joilla löydettin semanttisesti samankaltaisia sanajoukkoja, jotka vastasivat kohtuullisen hyvin evaluaatioaineistoja. Evaluaatiotulosten lisäksi tutkimuksessa oli myös eksploratiivinen komponentti. Ohjaamattomat menetelmät löysivät merkitykseltään samankaltaisia sanajoukkoja, jotka puuttuivat evaluaatioaineistoista. Lisäksi menetelmillä löydettiin laadullisia eroja kategorioiden välillä. Agenttisimulaatiomallissa sanojen merkitys liittyi suoraan agentin havaitsemaan kontekstiin. Jokaisella agentilla oli oma subjektiivinen käsitemuisti, jossa assosiaatiot sanojen ja havaintojen välillä muodostuivat. Tässä työssä jaetun kielen syntyä tutkittiin useiden simuloitujen agenttien muodostamassa populaatiossa, jossa agentit kommunikoivat simuloituja kielipelejä käyttäen. Simulaatiokokeiden tuloksena jaettu kieli syntyy agenttipopulaatiossa.
    Julkaisun otsikon käännösKielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä
    AlkuperäiskieliEnglanti
    PätevyysTohtorintutkinto
    Myöntävä instituutio
    • Aalto-yliopisto
    Valvoja/neuvonantaja
    • Oja, Erkki, Valvoja
    • Honkela, Timo, Ohjaaja
    • Creutz, Mathias, Ohjaaja
    Kustantaja
    Painoksen ISBN978-952-60-5643-2
    Sähköinen ISBN978-952-60-5644-9
    TilaJulkaistu - 2014
    OKM-julkaisutyyppiG5 Tohtorinväitöskirja (artikkeli)

    Tutkimusalat

    • leksikaalinen semantiikka
    • kieli
    • merkitys
    • laskennallinen mallintaminen
    • vektoriavaruusmalli
    • kielen kompleksisuus
    • agenttisimulaatio
    • ohjaamaton oppiminen
    • koneoppiminen

    Sormenjälki Sukella tutkimusaiheisiin 'Kielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  • Siteeraa tätä