摘要:O trabalho apresenta a arquitetura e os critérios de compilação de um corpus de fala espontânea do português angolano. Após uma breve contextualização da realidade linguística de Angola, são apresentados em detalhe as modalidades de gravação e o tratamento das diferentes variações sociolinguísticas documentadas, destacando-se a atenção à variação diafásica. Em seguida, são detalhados os primeiros 27 textos gravados, que formarão um minicorpus de pelo menos 30.000 palavras, segmentado prosodicamente e oferecendo o texto alinhado ao sinal sonoro. A última parte do artigo é dedicada à discussão dos passos metodológicos da compilação do corpus: definição da qualidade acústica, critérios de transcrição, procedimento de segmentação prosódica, revisão, alinhamento e validação estatística.
其他摘要:The paper introduces the architecture and compilation criteria for an Angolan Portuguese spontaneous speech corpus. After a brief introduction about the linguistic scenario in Angola, we present an in-depth description of the recording modalities and treatment related to the multiple sociolinguistic variations documented, with special attention to diaphasic variation. The first twenty-seven recorded texts are then detailed. These will make up a minicorpus, portraying at least 30,000 words. The minicorpus will be prosodically segmented and will display text-to-speech alignment. The last part of the article is dedicated to the methodological steps taken for the corpus compilation: acoustic quality definition, transcription criteria, prosodic segmentation procedures, revision, alignment and statistic validation.