Digidokumendist tekstikorpuseks: Semperi ja Barbaruse kirjavahetuse töötlemine masinanalüüsitavaks päringusüsteemis KORP
DOI:
https://doi.org/10.12697/jeful.2019.10.2.02Keywords:
kirjandusteadus, erakirjad, digitaalne kultuuripärand, korpuslingvistika, loomuliku keele töötlus, andmekaeve, märgendamine, cultural heritage, literary studies, private letters, corpus linguistics, natural language processing, text and data mining, annotationAbstract
Kirjandusteadlaste ja arvutilingvistide koostöös katseprojektina valminud Johannes Semperi ja Johannes Barbaruse kirjavahetuse korpus on nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuv digitaalandmestik. Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive ja vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele on aga väljakutseks ajaloolise ja isikupärase keelekasutusega, erinevatest keeltest kubiseva ja rohkete koha-, aja- ja isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks. Artikkel peatub üksikasjalikumalt nii käsikirjalise materjali digitaalseks tekstiandmestikuks ettevalmistamise kui ka analüüsi- ja märgendamisprotsessi probleemidel ja nende võimalikel lahendustel. Kasutajatele tutvustatakse ka korpuste päringusüsteemi KORP võimalusi sarnaste tekstide uurimiseks.
Abstract. Marin Laak, Kaarel Veskis, Kadri Vider, Neeme Kahusk, and Olga Gerassimenko: Turning from digital document to text corpus: conversion of correspondence between Semper and Barbarus to a machine-readable unit in KORP. The article describes a joined pilot project of literary scholars and language technologists that resulted in a correspondence corpus of Estonian avant-garde poets Johannes Semper and Johannes Barbarus. The corpus is an inspiring digital dataset both for literary and linguistic researches. Contemporary digital methods allow literary scholars to find new interesting research perspectives and to revise the old research results with computational methods. Corpus linguists can find interesting challenges in historically and personally unique language use of the correspondents, in multiple languages used for citations and language play, in multiple references to places, events and persons in the textual material that was transformed to an annotated corpus. The article describes the preparation of typed-in manuscript material for a digital dataset in detail, problems of annotation and analysis and their possible solutions. The reader will get an insight to the possibilities that corpus query system KORP offers for the research of similar textual material.