期刊名称:Slovenščina 2.0: empirical, applied and interdisciplinary research
电子版ISSN:2335-2736
出版年度:2020
卷号:8
期号:1
页码:1-34
DOI:10.4312/slo2.0.2020.1.1-34
语种:Slovenian
出版社:Trojina, Institute for Applied Slovene Studies
摘要:Open science is based on freely and openly available scientific publications and data. The latter enable the verification and improvement of previous research. In the context of language technologies and manually annotated language resources,they also enable training of new text processing tools. However,just like scientific publications,research data need to be properly cited,as only this makes reproducibility of experiments possible and is the most important indicator of how interesting and useful researchers’ work is in the community and plays a major role in their success with research grant proposals and career trajectory. In this paper,we survey the landscape of linguistic data,mainly (mainly language corpora) citation in six leading Slovene scientific journals (Jezik in slovstvo,Slavistična revija,Slovenščina 2.0,Linguistica,Slovene Linguistic Studies and Jezikoslovni zapiski) and in the proceedings of two scientific conferences focused on linguistics (Jezikovne tehnologije in digitalna humanistika and Obdobja) for the period of the last seven years,i.e. from 2013 to 2019. We consider 1,074 papers and analyse the results both quantitatively and qualitatively. From the quantitative perspective,we show that,overall,only about a fourth of the papers includes the use of language resources,and that in the later period (2018–2019) the use of language resources is over twice as frequent as it is in the earlier period (2013–2017). We classify the manner of language resource citation into five categories (e.g. citing the hyperlink in the texts or citing the key paper about the resource) and show that how a resource is cited is,to a large extent,dependent on the instructions for authors of the particular publication. Our qualitative analysis focuses mainly on resources deposited in the repository of the CLARIN.SI research infrastructure,where we show that they are,with few exceptions,incorrectly cited. We summarise the finding using the so-called Austin principles,show what has already been achieved in the scope of the CLARIN.SI infrastructure and propose guidelines for citing linguistic research data and how to implement them.
其他摘要:Odprta znanost temelji na prosto in odprto dostopnih znanstvenih publikacijah in podatkih. Slednji omogočajo preverjanje rezultatov predhodnih raziskav in njihovo nadgrajevanje,v kontekstu jezikovnih tehnologij in ročno označenih jezikovnih virov pa tudi šolanje novih orodij za procesiranje besedil. Vendar pa je,tako kot za znanstvene objave,tudi za podatke pomembno,da so korektno citirani,saj šele to omogoča ponovljivost raziskav,citati pa so tudi najpomembnejši pokazatelj zanimivosti in koristnosti delovanja znanstvenikov ter pomembno vplivajo na njihovo priznanost in s tem možnost pridobivanja projektov ter zaposlitev. V prispevku najprej predstavimo ti. »austinska načela« citiranja jezikovnih podatkov in opišemo tovrstne aktivnosti v sklopu infrastrukture CLARIN.SI. Nato analiziramo stanje citiranja jezikovnih podatkov, predvsem korpusov,v šestih vodilnih slovenskih jezikoslovnih znanstvenih revijah (Jezik in slovstvo,Slavistična revija,Slovenščina 2.0,Linguistica,Slovene Linguistic Studies in Jezikoslovni zapiski) ter v zbornikih dveh znanstvenih konferenc z jezikoslovno tematiko (Jezikovne tehnologije in digitalna humanistika ter Obdobja) za obdobje zadnjih sedmih let,tj. 2013–2019. Pregledali smo 1.074 znanstvenih objav in kvantitativno ter kvalitativno analizirali rezultate. S kvantitativnega vidika pokažemo,da v celotnem obdobju zgolj dobra četrtina pregledanih člankov vključuje rabo virov ter da je v poznejšem obdobju (2018–2019) raba virov v objavah več kot dvakrat pogostejša kot v zgodnejšem obdobju (2013–2017). Načine navajanja virov razvrstimo v pet kategorij (npr. navajanje hiperpovezave na vir v besedilu ter navajanje ključne publikacije o viru);pokažemo,da je raba posameznega načina v veliki meri odvisna od navodil avtorjem za posamezno publikacijo. S kvalitativnega vidika se osredotočamo predvsem na vire z vnosom v repozitoriju raziskovalne infrastrukture CLARIN. SI,za katere pokažemo,da so z redkimi izjemami neustrezno citirani. Izsledke povzamemo in po ti. »austinskih načelih« pokažemo,kaj je bilo že narejenega v sklopu infrastrukture CLARIN.SI ter predlagamo smernice za citiranje jezikoslovnih podatkov in načine za njihovo implementacijo.
关键词:Open Science;Research Data Citation;Language Resources;Austin Principles;Slovenian Journals and Conference Proceedings
其他关键词:odprta znanost;citiranje raziskovalnih podatkov;jezikovni viri; austinska načela;slovenske revije in zborniki