首页    期刊浏览 2024年11月15日 星期五
登录注册

文章基本信息

  • 标题:Teimark program - obradba transkribirane stare knjižne građe
  • 本地全文:下载
  • 作者:Essert, Mario ; Cingel, Vlado ; Glumac, Nikola
  • 期刊名称:Annals of the Institute for Scientific and Art Research in Osijek
  • 印刷版ISSN:1332-456X
  • 出版年度:2015
  • 期号:29
  • 页码:197-210
  • 语种:Croatian
  • 出版社:Croatian Academy of Sciences and Arts
  • 摘要:U hrvatskim se institucijama čuva poveći korpus digitalizirane baštine koji je u svrhu predstavljanja često dostupan preko interneta. Digitalizirani dokumenti čuvaju tako istinu o bogatoj hrvatskoj kulturnoj i pisanoj baštini. Nakon izgradnje programa DocMark, čija je svrha označivanje digitaliziranih slikovnih dokumenata u svrhu analize tih oznaka na pojedinačnim dokumentima i/ili njihove usporedbe, kao rezultat trogodišnjeg rada načinjen je TEIMark – program za označivanje teksta: utipkanoga, transliteriranoga ili strojno prepoznatoga. Dok je označivanje u DocMarku izvedeno nad slikom dokumenta (u kojem su zanimljiva i dohvatljiva materijalne osobine/vlastitosti, ali ne i sadržaj teksta), u TEIMarku se označivanje odvija nad stvarnim tekstom, a ne njegovom slikom, čime su omogućena lingvistička i druga istraživanja usmjerena na sadržaj dokumenata. Program je dobio ime po oznakama TEI (Text Encoding Initiative), no za razliku od njihova uobičajenoga unosa (pomoću komercijalnih editora oXygen, XMLSpy, XmlBlueprint i sl.) s XML-elementima i pripadajućim atributima (što stvara poteškoće u čitanju i analizi označenog teksta), ovdje je riječ o jednostavnijem, potpuno novom vizualnom pristupu koji isključuje potrebe poznavanja i čitanja XML-a (eXtensible Markup Language) ili XSLT programa za transformaciju (ali ih niti ne odbacuje u naknadnoj analizi i obradbi označenog teksta). Program ima sve napredne generičke osobine pa se osim TEI označivanja može koristiti za tvorbu Wiki stranica, ReST ili Markdown aplikacija i slično. Označivanje dokumenata može se provoditi lokalno (s tekstom u HTML formatu), ali i preko interneta, pri čemu je, slično kao i kod DocMarka, omogućeno vizualno označivanje u više nezavisnih slojeva. To omogućuje rad više osoba, npr. stručnjaka iz različitih područja, na istom dokumentu. Za rad je potreban samo WEB preglednik. Rezultati označivanja mogu se izvoziti u XML-u i u drugim formatima te naknadno obrađivati poznatim ili novostvorenim programima za analizu (npr. prebrojavanje oznaka, proučavanje pojmovnih klasa, gramatička istraživanja i slično). TEIMark osim ručnog ima ugrađeno i automatsko označivanje, i to na temelju unaprijed zadanih riječi (npr. iz računalne baze), njihovih dijelova pa čak i fraza (raspršenih riječi). Vizualne oznake moguće je definirati po hijerarhijskoj strukturi u dubinu i po pojmovnim domenama u širinu, te prikazivati skupno, pojedinačno ili po slojevima u označenom dokumentu. TEIMark program ugrađen je u novu (petu) inačicu elektroničkog izdanja Biblije (© KS, Zagreb) i predstavljen u knjižnici HAZU-a na označivanju i analizi odabranih digitaliziranih dokumenata Instituta za jezik i jezikoslovlje i on-line enciklopedije Leksikografskoga zavoda Miroslav Krleža.
  • 关键词:digitalizirana baština; TEIMark program; stvarni tekst; sadržaj; digitalizirani dokumenti
国家哲学社会科学文献中心版权所有