Computational Modeling and Simulation of Language and Meaning: Similarity-Based Approaches

Julkaisun otsikon käännös: Kielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä

  Tutkimustuotos: Doctoral ThesisCollection of Articles

  Abstrakti

  Tämä väitöskirja kattaa useita samankaltaisuuteen perustuvia datalähtöisiä menetelmiä, joita käytetään kielen ja merkityksen mallintamiseen. Suuret, sähköisessä muodossa olevat tekstiaineistot mahdollistavat ohjaamattomien datalähtöisten menetelmien käytön. Verrattuna asiantuntijoiden tuottamiin lingvistisiin malleihin, jotka ovat usein kalliita tai joita ei aina ole saatavilla, datalähtöinen analyysi on nopeampaa ja usein joustavampaa. Samat menetelmät sopivat usein kielestä riippumatta. Lisäksi datalähtöinen analyysi voi olla eksploratiivista ja siten tarjota uuden näkökulman aineistoon. Tässä työssä analysoitiin useiden eurooppalaisten kielten syntaktisen ja morfologisen tason kompleksisuutta ohjaamattomilla menetelmillä, jotka perustuvat datan kompressioon ja ohjaamattomaan morfologian oppimiseen. Tulokset osoittavat, että ohjaamattomat menetelmät tuottavat hyödyllisiä tuloksia, jotka vastaavat lingvistisiä malleja. Jakaumiin perustuvat sana-avaruusmallit (Vector Space Models) käyttävät sanojen merkityksen esittämiseen sanojen kontekstia eli sanojen välisiä yhteisesiintymiä, jotka kerätään laajoista tekstiaineistoista. Tässä työssä käytettiin sana-avaruusmalleja, joita evaluoitiin käyttäen lingvistisiä malleja ja semanttisia evaluaatioaineistoja. Työssä käytettiin kahta ohjaamatonta menetelmää, riippumattomien komponenttien analyysia (Independent Component Analysis) sekä latenttia Dirichlet-allokaatiota (Latent Dirichlet Allocation), joilla löydettin semanttisesti samankaltaisia sanajoukkoja, jotka vastasivat kohtuullisen hyvin evaluaatioaineistoja. Evaluaatiotulosten lisäksi tutkimuksessa oli myös eksploratiivinen komponentti. Ohjaamattomat menetelmät löysivät merkitykseltään samankaltaisia sanajoukkoja, jotka puuttuivat evaluaatioaineistoista. Lisäksi menetelmillä löydettiin laadullisia eroja kategorioiden välillä. Agenttisimulaatiomallissa sanojen merkitys liittyi suoraan agentin havaitsemaan kontekstiin. Jokaisella agentilla oli oma subjektiivinen käsitemuisti, jossa assosiaatiot sanojen ja havaintojen välillä muodostuivat. Tässä työssä jaetun kielen syntyä tutkittiin useiden simuloitujen agenttien muodostamassa populaatiossa, jossa agentit kommunikoivat simuloituja kielipelejä käyttäen. Simulaatiokokeiden tuloksena jaettu kieli syntyy agenttipopulaatiossa.
  Julkaisun otsikon käännösKielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä
  AlkuperäiskieliEnglanti
  PätevyysTohtorintutkinto
  Myöntävä instituutio
  • Aalto-yliopisto
  Valvoja/neuvonantaja
  • Oja, Erkki, Vastuuprofessori
  • Honkela, Timo, Ohjaaja
  • Creutz, Mathias, Ohjaaja
  Kustantaja
  Painoksen ISBN978-952-60-5643-2
  Sähköinen ISBN978-952-60-5644-9
  TilaJulkaistu - 2014
  OKM-julkaisutyyppiG5 Artikkeliväitöskirja

  Tutkimusalat

  • leksikaalinen semantiikka
  • kieli
  • merkitys
  • laskennallinen mallintaminen
  • vektoriavaruusmalli
  • kielen kompleksisuus
  • agenttisimulaatio
  • ohjaamaton oppiminen
  • koneoppiminen

  Sormenjälki

  Sukella tutkimusaiheisiin 'Kielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.

  Siteeraa tätä