摘要:Artikkel käsitleb sõnade liigitamisega seotud probleeme, lähtudes eesti vana kirjakeele korpuse poolautomaatse märgendamise pikaajalisest praktikast. Tutvustatakse kasutusel olevat märgendussüsteemi ning põhilisi raskusi selle tegelikul rakendamisel. Universaalsed probleemid on seotud sõnaliikide piirialadega, kuhu kuuluvate sõnade liigi määratlemine saab toimuda vaid üksuse funktsiooni arvestades ja konteksti põhjal. Spetsiifilisemad probleemid on seotud vana kirjakeele tekstide eripäraga – tõlkelisuse ja sellega seotud võõrmõjude, arhailisuse ning välja kujunemata grammatikatraditsiooniga. Sõnaliikide piirialade, eriti adverbide üle otsustamine on välja toonud huvitavaid leksikaliseerumis- ja grammatiseerumisjuhtumeid, mis avavad kirjakeele leksikaalsete üksuste varasemaid arenguetappe. Funktsiooni alusel otsustamine võimaldab arvestada konteksti ning üksuste universaalse taaskasutatavuse seaduspärasust (üks ja sama üksus on ökonoomiaprintsiibile vastavalt kasutusel eri funktsioonides). Artikkel tutvustab korpuse kasutaja jaoks paljude probleemsete sõnaliigiotsustuste tagamaid ja toob esile just vana kirjakeele spetsiifikaga seotud keerukaid juhtumeid. http://dx.doi.org/10.5128/ERYa7.02
关键词:morfosüntaktiline märgendamine;korpuslingvistika;vana kirjakeel;eesti keel