出版社:Faculdade de Letras da Universidade Federal de Minas Gerais
摘要:Este artigo apresenta o processo empregado no corpus C-ORALBRASIL,bem como os resultados estatísticos da segmentação dafala espontânea encontrados nesse corpus. Exploramos especialmentea validação estatística dos critérios para a segmentação da fala emenunciados e unidades tonais com base na Teoria da Língua em Ato.A validação teve por objetivo assegurar que o produto final tivesse amaior uniformidade possível quanto à segmentação da fala. Apósum ano, realizamos novos testes de validação, para reavaliação dogrupo principal de transcritores no momento da revisão do corpus.Os resultados da validação estatística ao final da fase de treinamentoindicam alta confiabilidade quanto à segmentação do corpus, e areavaliação indicou um grau ainda maior de acordo entre ostranscritores. O principal objetivo deste processo, a confiabilidade euniformidade das transcrições, foi obtido.