期刊名称:Knjižnica : Revija za Področje Bibliotekarstva in Informacijske Znanosti
印刷版ISSN:0023-2424
电子版ISSN:1581-7903
出版年度:2000
卷号:44
期号:4
页码:7-31
出版社:Zveza Bibliotekarskih Društev Slovenije, Narodna in Univerzitetna Knjižnica
摘要:V prispevku so predstavljeni postopki krnjenja in utemeljeni kot najpomembnejša faza priprave besedila za vključevanje v zbirke polnih dokumentov, še posebno take, ki uporabljajo ne-Boolove iskalne modele. Krnjenje je postopek obdelave besedil z algoritmi za krnjenje, s katerim avtomatsko določamo indeksne izraze, primerne za opisovanje vsebine dokumentov. Predstavljen je statistični pristop h krnjenju, morfološki in semantični vidiki krnjenja ter različne vrste algoritmov za krnjenje. Avtorja govorita tudi o kriterijih za evalvacijo algoritmov in njihovi jezikovni odvisnosti. Na koncu podrobneje predstavita nekatere algoritme, ki so bili razviti za posamezne jezike: angleščino, slovenščino, francoščino, japonščino in arabščino.
其他摘要:The article presents various techniques of stemming, arguing that they are the most important phase in preparing the text for inclusion into full-text databases, especially those using non-Boolean search models. Stemming is a process of text processing us¬ing stemming algorithms, the purpose of which is an automated selection of indexing terms used for content description. The article presents a statistic approach to stemming, morphological and semantical aspects of stemming, and several stemming algorithms. The authors also speak about evaluation criteria and linguistic dependence of such algorithms. At the end, they give more detailed descriptions of some stemming algorithms developed for English, Slovene, French, Japanese and Arabic languages.