Abstrakti
Kulttuuriperintökokoelmien digitalisointi on avannut tekstiaineistot tietokoneavusteisille menetelmille, kuten luonnollisen kielen käsittelylle. Digitaalisissa ihmistieteissä näitä menetelmiä käytetään laajalti digitoitujen aineistojen ja niiden sisällön tutkimiseen automaattisien prosessien avulla. Semanttisen Webin ja linkitetyn datan teknologiaa hyödynnetään kirjastojen ja museoiden asiakirjakokoelmien sekä niiden metadatan kuvailussa. Ne luovat infrastruktuurin, jonka avulla voidaan yhdistää erilaisia kokoelmia käyttämällä niiden linkityksessä jaettuja sanastoja kuvaamaan aineistojen metadatan arvoja ja kenttiä.
Suomessa linkitetyn datan infrastruktuureja hyödynnetään muun muassa museoissa ja kirjastoissa. Useimmiten sitä käytetään mallintamaan asiakirjojen metadataa, kuten tekijä tai teoksen nimi. Tämän lisäksi tekstiaineistokokoelman teosten sisältöä kuvaillaan usein manuaalisesti tuotetuilla asiasanoilla. Muu informaatio sisällöstä voi olla niukkaa ja teosten löytäminen esimerkiksi sisällössä esiintyvän toimijan perusteella voi olla työlästä. Tässä työssä tutkitaan ja esitellään uusia tietomalleja, työkaluja, ja menetelmiä muuntamaan ja rikastamaan tekstiaineistoja linkitetyksi dataksi. Linkitetyn datan avulla voidaan yhdistää tekstikokoelmien asiakirjat toisiinsa metadatan, kuten tekijän tai kustantajan, perusteella. Sen avulla voidaan myös yhdistää asiakirjoja toisiinsa louhimalla informaatiota sisällöstä, kuten siinä mainitut toimijat.
Tämän työn tavoitteena on tutkia kuinka luonnollisen kielen käsittelyn menetelmien ja linkitetyn datan periaatteiden avulla voidaan tutkia digitoituja tekstidokumenttikokoelmia, kuten biografioita. Tutkimus toteutetaan suunnittelemalla, toteuttamalla, ja arvioimalla prototyyppisovelluksia, työkaluja, ja data-aineistoja todellisen elämän käyttötapauksille. Tämä tutkimus noudattaa suunnittelutieteiden ja toimintatutkimuksen metodologioiden periaatteita.
Tässä työssä esitellään ohjelmistoja, jota voidaan soveltaa biografisten tekstiasiakirjakokoelmien mallinnukseen, muuntamiseen, ja rikastamiseen linkitetyksi dataksi. Näin voidaan parantaa kokoelman teosten keskinäistä linkitystä sekä siihen kohdistuvaa tiedonhakua. Tekstiaineistokokoelman ominaisuuksia ja sisältöä, kuten esimerkiksi asiasanat ja henkilöviittaukset, kuvaava tietomalli luo pohjan linkitettyyn dataan perustuville älykkäille sovelluksille, kuten verkosto- tai kielianalyysille. Näiden sovellusten avulla on mahdollista visualisoida linkitetyn datan muodostama verkosto eri toimijoiden ja teemojen välillä. Tämän lisäksi linkitetyn datan infrastruktuuria voidaan käyttää syötteenä luonnollisen kielen käsittelyn sovelluksille, joita voidaan käyttää luomaan data-analyyttisiä visualisointeja ja sovelluksia. Tätä menetelmää voidaan myös käyttää tekstiaineistokokoelmien laadun ja sisällön arvioimiseen digitaalisten ihmistieteiden tutkimusta varten. Prototyyppisovelluksia, joita on luotu tekstiaineistokokoelmien muuntamista, rikastamista ja tiedon visualisointia varten, voidaan myös soveltaa muihin tekstiaineistokokoelmiin.
Julkaisun otsikon käännös | From Text to Knowledge: Methods, Tools, and Applications for Digital Humanities Based on Linked Data |
---|---|
Alkuperäiskieli | Englanti |
Pätevyys | Tohtorintutkinto |
Myöntävä instituutio |
|
Valvoja/neuvonantaja |
|
Kustantaja | |
Painoksen ISBN | 978-952-64-1150-7 |
Sähköinen ISBN | 978-952-64-1151-4 |
Tila | Julkaistu - 2023 |
OKM-julkaisutyyppi | G5 Artikkeliväitöskirja |
Tutkimusalat
- luonnollisen kielen käsittely
- linkitetty data
- datan mallinnus
- biografiat