摘要:As construções com verbo‑suporte (CVS) são um tipo de construção nominal, em que o predicador central é o nome, chamado de nome predicativo (Npred), e este é auxiliado por um verbo, chamado verbo-suporte (Vsup). A abordagem utilizada para a descrição e formalização das CVS, neste artigo, é o Léxico‑Gramática. Tendo em vista as diferenças sintáticas e semânticas das CVS em relação a outros tipos de construções, o objetivo deste artigo é apresentar a metodologia e os resultados da construção de um corpus anotado com construções de Vsup e de Npred. Foi construída uma lista com 4.668 CVS, considerando‑se 45 variantes de Vsup e cerca de 3.200 Npred diferentes. A partir dessa lista de CVS, foram extraídas 121.198 frases do corpus PLN.Br Full, das quais foi anotada e revista manualmente uma amostra com 2.646 frases, que constituem o corpus de referência para o tratamento de CVS em Português. Esse corpus de referência poderá ser utilizado como golden standard para avaliar tarefas automáticas de identificação, extração ou classificação de CVS ou ainda para outras aplicações de Processamento Automático de Língua Natural (PLN).
其他摘要:The support verb constructions (SVC) are a type of nominal construction, where the core predicate is the noun, called 'predicative noun' (Npred), which is assisted by a verb, called 'support verb' (Vsup). The Lexicon‑Grammar theoretical and methodological framework was adopted, in this paper, for the linguistic description and formalization of SVC in Portuguese. Considering the syntactic and semantic differences between SVC and other types of constructions, the purpose of this paper is to present the methodology and results of creating a corpus annotated with Vsup and Npred. A list with 4,668 SVC was built, considering 45 variants of Vsup and around 3,200 different Npred. Based on this list, we extracted 121,198 sentences from PLN.Br full corpus, from which 2,646 sentences have been manually annotated. This sample may constitute a reference corpus for the processing of SVC and used as a golden standard for evaluating the automatic tasks of identification, extraction or classification of SVC, as well as for other Natural Language Processing (NLP) applications.
关键词:Teoria e análise linguística;Verbo-suporte;Nome predicativo;Léxico Gramática;Anotação de corpus.
其他关键词:support verb; predicative noun;Lexicon Grammar; corpus annotation;