摘要:The paper consists of two main parts: (a) In the first part,a typology of multiword expressions (MWE) in Czech is described in a detailed way. This typology is part of the description of MWE database entries in the lexical database LEMUR containing more than 10,500 MWE entries as of June 2020. MWE properties reflected in this typology are accounted for by categories and their values. Each MWE is identified by a unique lemma; a group of related MWEs is assigned a “superlemma”. A MWE is described by the following properties: a MWE definition,characteristic examples,lemmas and morphological features of MWE components (words),as well as the following key categories: MWE style/register,type of usage,syntactic struc?ture (including its representation by a dependency and a phrase-structure tree),aspects of flexibil?ity (variants and fragments,internal modifiability of individual MWE components,possibilities of syntactic transformations of the main MWE components and morphological constraints) and types of idiomaticity on the lexical,morphological,syntactic,semantic and pragmatic level. (b) In the second part of the paper,the authors focus on the frequency of the main features of the adopted typology in the real language material represented by the genre-balanced SYN2015 corpus, containing 100 mil. word forms (excluding punctuation): a type of usage correlated with a syntactic type and frequency of various kinds of idiomaticity. Our paper seems to be the first attempt at ap?proaching the MWE properties from the point of view of MWE frequencies as types rather than to?kens (i.e. frequencies of occurrences of a given MWE).
其他摘要:Příspěvek má dvě hlavní části: (a) V první části je podrobně popsána typologie (vlastnosti) víceslovných lexikálních jednotek (dále VLJ) v češtině,přičemž tato typologie je součástí popisu databázových hesel těchto jednotek v lexikální databázi LEMUR,obsahující k červnu 2020 více než 10 500 hesel.2 Jednotlivé vlastnosti těchto jednotek jsou zachyceny prostřednictvím kategorií a jejich hodnot. U každé jednotky uvádíme její identifikační lemma a tzv. superlemma,definici,typické příklady;dále popisujeme lemmata a mor_tické,sémantické a pragmatické. (b) V druhé,hlavní části příspěvku sledujeme frekvenční zastoupení hlavních aspektů této typo_logie u dosud zpracovaných VLJ: typ užití v korelaci se syntaktickým typem a dále zastoupení růz_ných druhů idiomatičnosti,a to v reálném jazykovém materiálu reprezentovaném žánrově vyváže_ným korpusem SYN2015 (obsahuje sto milionů slovních tvarů mimo interpunkci). Jde patrně vůbec o první pokus zaměřit se na vlastnosti víceslovných lexikálních jednotek z hlediska četnosti jejich výskytů jakožto typů,nikoli tokenů (tj. četností výskytů dané jednotky).
关键词:multiword (lexical) expressions in Czech;typology of multiword expressions;frequency of types of multiword expressions;idiomaticity;lexical database;genre-balanced corpus
其他关键词:víceslovná lexikální jednotka v češtině;typologie víceslovných lexikálních jednotek;frekvence typů víceslovných lexikálních jednotek;idiomaticita;lexikální databáze;žánrově vyvážený korpus