出版社:EDUFU - Editora da Universidade Federal de Uberlândia
摘要:Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus.Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas.Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML.As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank.O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora.A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus.