Digidokumendist tekstikorpuseks: Semperi ja Barbaruse kirjavahetuse töötlemine masinanalüüsitavaks päringusüsteemis KORP

  • Marin Laak Eesti Kirjandusmuuseum
  • Kaarel Veskis Eesti Kirjandusmuuseum
  • Olga Gerassimenko Arvutiteaduse instituut, Tartu Ülikool
  • Neeme Kahusk Arvutiteaduse instituut, Tartu Ülikool
  • Kadri Vider Arvutiteaduse instituut, Tartu Ülikool
Keywords: kirjandusteadus, erakirjad, digitaalne kultuuripärand, korpuslingvistika, loomuliku keele töötlus, andmekaeve, märgendamine, cultural heritage, literary studies, private letters, corpus linguistics, natural language processing, text and data mining, annotation

Abstract

Kirjandusteadlaste ja arvutilingvistide koostöös katseprojektina valminud Johannes Semperi ja Johannes Barbaruse kirjavahetuse korpus on nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuv digitaalandmestik. Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive ja vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele on aga väljakutseks ajaloolise ja isikupärase keelekasutusega, erinevatest keeltest kubiseva ja rohkete koha-, aja- ja isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks. Artikkel peatub üksikasjalikumalt nii käsikirjalise materjali digitaalseks tekstiandmestikuks ettevalmistamise kui ka analüüsi- ja märgendamisprotsessi probleemidel ja nende võimalikel lahendustel. Kasutajatele tutvustatakse ka korpuste päringusüsteemi KORP võimalusi sarnaste tekstide uurimiseks.

Abstract. Marin Laak, Kaarel Veskis, Kadri Vider, Neeme Kahusk, and Olga Gerassimenko: Turning from digital document to text corpus: conversion of correspondence between Semper and Barbarus to a machine-readable unit in KORP. The article describes a joined pilot project of literary scholars and language technologists that resulted in a correspondence corpus of Estonian avant-garde poets Johannes Semper and Johannes Barbarus. The corpus is an inspiring digital dataset both for literary and linguistic researches. Contemporary digital methods allow literary scholars to find new interesting research perspectives and to revise the old research results with computational methods. Corpus linguists can find interesting challenges in historically and personally unique language use of the correspondents, in multiple languages used for citations and language play, in multiple references to places, events and persons in the textual material that was transformed to an annotated corpus. The article describes the preparation of typed-in manuscript material for a digital dataset in detail, problems of annotation and analysis and their possible solutions. The reader will get an insight to the possibilities that corpus query system KORP offers for the research of similar textual material.

Downloads

Download data is not yet available.

Metrics (links, shares etc)

Metrics Loading ...
Published
2020-02-10
Section
Articles