首页    期刊浏览 2024年10月05日 星期六
登录注册

文章基本信息

  • 标题:Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC
  • 本地全文:下载
  • 作者:Cristiane Namiuti-Temponi ; Aline Silva Costa
  • 期刊名称:Letras & Letras
  • 印刷版ISSN:1981-5239
  • 出版年度:2014
  • 卷号:30
  • 期号:2
  • 页码:82-103
  • DOI:10.14393/LL60-v30n2a2014-5
  • 出版社:EDUFU - Editora da Universidade Federal de Uberlândia
  • 摘要:Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus.Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas.Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML.As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank.O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora.A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus.
  • 关键词:Corpus;XML;XPath;Penn TreeBank
国家哲学社会科学文献中心版权所有