文章基本信息
- 标题:Teimark program - obradba transkribirane stare knjižne građe
- 本地全文:下载
- 作者:Essert, Mario ; Cingel, Vlado ; Glumac, Nikola 等
- 期刊名称:Annals of the Institute for Scientific and Art Research in Osijek
- 印刷版ISSN:1332-456X
- 出版年度:2015
- 期号:29
- 页码:197-210
- 语种:Croatian
- 出版社:Croatian Academy of Sciences and Arts
- 摘要:U hrvatskim se institucijama čuva poveći korpus digitalizirane baštine koji je u svrhu predstavljanja često dostupan preko interneta. Digitalizirani dokumenti čuvaju tako istinu o bogatoj hrvatskoj kulturnoj i pisanoj baštini. Nakon izgradnje programa DocMark, čija je svrha označivanje digitaliziranih slikovnih dokumenata u svrhu analize tih oznaka na pojedinačnim dokumentima i/ili njihove usporedbe, kao rezultat trogodišnjeg rada načinjen je TEIMark – program za označivanje teksta: utipkanoga, transliteriranoga ili strojno prepoznatoga. Dok je označivanje u DocMarku izvedeno nad slikom dokumenta (u kojem su zanimljiva i dohvatljiva materijalne osobine/vlastitosti, ali ne i sadržaj teksta), u TEIMarku se označivanje odvija nad stvarnim tekstom, a ne njegovom slikom, čime su omogućena lingvistička i druga istraživanja usmjerena na sadržaj dokumenata. Program je dobio ime po oznakama TEI (Text Encoding Initiative), no za razliku od njihova uobičajenoga unosa (pomoću komercijalnih editora oXygen, XMLSpy, XmlBlueprint i sl.) s XML-elementima i pripadajućim atributima (što stvara poteškoće u čitanju i analizi označenog teksta), ovdje je riječ o jednostavnijem, potpuno novom vizualnom pristupu koji isključuje potrebe poznavanja i čitanja XML-a (eXtensible Markup Language) ili XSLT programa za transformaciju (ali ih niti ne odbacuje u naknadnoj analizi i obradbi označenog teksta). Program ima sve napredne generičke osobine pa se osim TEI označivanja može koristiti za tvorbu Wiki stranica, ReST ili Markdown aplikacija i slično. Označivanje dokumenata može se provoditi lokalno (s tekstom u HTML formatu), ali i preko interneta, pri čemu je, slično kao i kod DocMarka, omogućeno vizualno označivanje u više nezavisnih slojeva. To omogućuje rad više osoba, npr. stručnjaka iz različitih područja, na istom dokumentu. Za rad je potreban samo WEB preglednik. Rezultati označivanja mogu se izvoziti u XML-u i u drugim formatima te naknadno obrađivati poznatim ili novostvorenim programima za analizu (npr. prebrojavanje oznaka, proučavanje pojmovnih klasa, gramatička istraživanja i slično). TEIMark osim ručnog ima ugrađeno i automatsko označivanje, i to na temelju unaprijed zadanih riječi (npr. iz računalne baze), njihovih dijelova pa čak i fraza (raspršenih riječi). Vizualne oznake moguće je definirati po hijerarhijskoj strukturi u dubinu i po pojmovnim domenama u širinu, te prikazivati skupno, pojedinačno ili po slojevima u označenom dokumentu. TEIMark program ugrađen je u novu (petu) inačicu elektroničkog izdanja Biblije (© KS, Zagreb) i predstavljen u knjižnici HAZU-a na označivanju i analizi odabranih digitaliziranih dokumenata Instituta za jezik i jezikoslovlje i on-line enciklopedije Leksikografskoga zavoda Miroslav Krleža.
- 关键词:digitalizirana baština; TEIMark program; stvarni tekst; sadržaj; digitalizirani dokumenti