文章基本信息

标题：CUTTING THE TEXT CORPORA: APPLICATIONS WITH SYLLABLES AND SUB-LANGUAGES
其他标题：KORPUSTE TÜKELDAMINE: RAKENDUSI SILPIDE NING ALLKEELTEGA
本地全文：下载
作者：Kairit Sirts ; Leo Võhandu
期刊名称：Eesti Rakenduslingvistika Ühingu Aastaraamat
印刷版ISSN：1736-2563
电子版ISSN：2228-0677
出版年度：2009
卷号：5
页码：251-266
语种：English
出版社：Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
摘要：In this paper we study different aspects of language by using different cuts of language corpora.There are two particular cuts under observation,which are very different by their nature: mincing the text into syllables for developing a statistical language model and dividing the language into sub-languages for identifying the base vocabulary.Our syllable based statistical language model includes the 500 most frequently observed syllables.It is a three-level model consisting of frequency tables for syllables,syllable pairs and syllable triplets.A frequency table is a matrix with syllables,syllable pairs or syllable triplets in rows and syllables in columns.The numbers in matrix cells show how many times the syllable in the column happened to follow the element in the row.The Estonian pseudo language generator is an application of the syllable based statistical language model.Using the Estonian pseudo language generator it is possible to generate a text which is not fully Estonian,but de nitely sounds like one.The purpose of categorizing syllables is to assort the syllables according to their possible locations in a word.We propose an algorithm for automatic syllable grouping using the data in the syllable frequency table.We show experimentally how syllables are grouped into word-initial,word-internal and word- nal syllables.Language can be divided into general language using a base vocabulary and different sub-languages,which contain particular terminology.In this paper we discuss the de nition of general language.We also propose an automatic algorithm for de ning its base vocabulary.
其他摘要：Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada,andes sellega võimaluse uurida keele erinevaid tahkusid.Artiklis uurime kahte oma omadustelt väga erinevat tükeldust: teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil ning keele tükeldamist erinevateks allkeelteks eesmärgiga leida eesti keele põhisõnavara.Silpidel baseeruv statistiline keelemudel hõlmab endas 500 kõige sagedamini esinenud silpi ning on kolmetasandiline,koosnedes silpide,silbipaaride ja silbikolmikute järgnevuse sagedustabelitest.Sagedustabel on oma olemuselt maatriks,mille ridadeks on kas silbid,silbipaarid või silbikolmikud ning veergudeks silbid.Ridade ja veergude ristumispunktides on arv,mis näitab,mitu korda vastav veeru silp esines tekstikorpuses vastava reaelemendi järel.Eesti pseudokeele generaator on silpidel baseeruva statistilise keelemudeli rakendus.Eesti pseudokeele generaatorit kasutades on võimalik genereerida teksti,mis ei ole küll päris eesti keel,aga kahtlemata kõlab eesti keelena.Silpide kategoriseerimise eesmärgiks on rühmitada silbid vastavalt nende võimalikele asukohtadele sõnas.Pakume välja algoritmi silpide automaatseks rühmitamiseks kasutades silpide sagedustabelit.Näitame eksperimentaalselt kümne silbi abil,kuidas silbid jagunevad algus-,lõpu- ja kesksilpideks.
关键词：computational linguistics;syllabi cation;syllable association;graph representation;language model;syllable grouping;general language;sub-languages;Estonian
其他关键词：arvutilingvistika;keelemudel;silbitamine;silbiseostus;graafesitus;silpide rühmitamine;üldkeel;allkeeled;eesti keel