Projekteja vuodessa
Abstrakti
This paper presents the OCR pipeline created for ParliamentSampo - Parliament of Finland on the Semantic Web, a Linked Open Data (LOD) service, data infrastructure, and semantic portal for studying Finnish political culture, language, and networks of the Members of Parliament (MP). A knowledge graph of linked data has been created based on ca. 967 000 speeches in all plenary sessions of the Parliament of Finland in 1907—2022; the data is also available in XML format, utilizing the new international Parla- CLARIN format. A central part of the historical debates 1907-1999 was available only as PDF documents of fairly low OCR quality and had to be OCRed first; this paper reports lessons learned from this process.
Alkuperäiskieli | Englanti |
---|---|
Sivut | 287-296 |
Sivumäärä | 10 |
Julkaisu | Digital Humanities in the Nordic and Baltic Countries Publications |
Vuosikerta | 5 |
Numero | 1 |
DOI - pysyväislinkit | |
Tila | Julkaistu - 2023 |
OKM-julkaisutyyppi | A4 Artikkeli konferenssijulkaisussa |
Tapahtuma | Digital Humanities in the Nordic and Baltic Countries - Virtual, Online, Norja Kesto: 8 maalisk. 2023 → 10 maalisk. 2023 Konferenssinumero: 7 |
Sormenjälki
Sukella tutkimusaiheisiin 'An OCR Pipeline for Transforming Parliamentary Debates into Linked Data: Case ParliamentSampo – Parliament of Finland on the Semantic Web'. Ne muodostavat yhdessä ainutlaatuisen sormenjäljen.Projektit
- 1 Päättynyt
-
InTaVia/Tuominen: In/Tangible European Heritage - Visual Analysis, Curation and Communication Note
Koho, M. (Projektin jäsen), Tuominen, J. (Vastuullinen tutkija), Rantala, H. (Projektin jäsen), Hyvönen, E. (Projektin jäsen), Kesäniemi, J. (Projektin jäsen), Tamper, C. (Projektin jäsen) & Poikkimäki, H. (Projektin jäsen)
01/11/2020 → 30/10/2023
Projekti: EU: Framework programmes funding