首页    期刊浏览 2025年08月24日 星期日
登录注册

文章基本信息

  • 标题:História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL
  • 其他标题:História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL
  • 本地全文:下载
  • 作者:Tony Berber Sardinha
  • 期刊名称:The ESPecialist. Pesquisa em Línguas para Fins Específicos. Descrição, Ensino e Aprendizagem. ISSN 2318-7115
  • 印刷版ISSN:2318-7115
  • 出版年度:2007
  • 卷号:28
  • 期号:2
  • 出版社:PUCSP
  • 摘要:Neste trabalho, apresento o Banco de Português, um corpus grande e variado de português brasileiro, que é armazenado no CEPRIL (Centro de Pesquisa, Recursos e Informação em Linguagem) da Pontifícia Universidade Católica de São Paulo. O objetivo é descrever em detalhe sua natureza, história, estado atual, bem como discutir questões relacionadas ao planejamento e desenvolvimento futuro do corpus. Com cerca de 230 milhões de palavras, é atualmente um dos maiores corpora de português do mundo. O corpus era inicialmente uma coleção de textos em papel e mais tarde tornou-se um corpus eletrônico, à medida que corpora eletrônicos foram sendo disponibilizados por pesquisadores. Subseqüentemente, coletâneas maiores foram adicionadas, como a de um jornal diário. Há problemas com o corpus, como a falta de equilíbrio entre os subcorpora, a impossibilidade de acesso ao corpus completo fora da universidade e a presença de conteúdo desatualizado.
  • 其他摘要:In this paper I describe the Bank of Portuguese, a large registerdiversified corpus of Brazilian Portuguese, which is held at CEPRIL (Center for Language Research, Information and Resources) at Pontifícia Universidade Católica de São Paulo (Pontifical Catholic University of São Paulo, Brazil). The aim is to provide details of its nature, history, current state, as well as of issues related to its planning, development and future prospects. With nearly 230 million words, it is currently one of the largest corpora of Portuguese. The corpus started off as a collection of texts in hard copy and then turned into an electronic collection built around smaller corpora that were collected by individual researchers. Later on, other large subcorpora were added, such as a newspaper collection. There are problems with the corpus, such as register imbalance (the newspaper section is much larger than the others), lack of access to its full contents outside of the university, and the need for updating its contents.
  • 关键词:corpora;DIRECT;CEPRIL;Lingüística de Corpus
  • 其他关键词:corpora;DIRECT;CEPRIL;Corpus Linguistics
国家哲学社会科学文献中心版权所有