标题:O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity
出版社:Faculdade de Letras da Universidade Federal de Minas Gerais
摘要:Resumo: Em subáreas do Processamento Automático de Línguas Naturais (PLN), como a Sumarização Automática Multidocumento (SAM), é necessário compreender o comportamento linguístico de determinados fenômenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) é bastante utilizada em estudos do PLN por proporcionar um conjunto de relações semânticas que organizam a informação entre unidades de análise (comumente, pares de sentenças), agrupadas entre conteúdo (a saber, redundância, complementaridade e contradição) e apresentação (a saber, fonte/autoria e estilo). Até então, a caracterização das relações CST baseava-se em atributos genéricos (como a quantidade de palavras em comum entre as sentenças de um par) e específicos (como a presença de advérbios temporais) para as relações de Redundância e Complementaridade. Entretanto, percebe-se que a delimitação de tais atributos ainda é incipiente, pois não inclui atributos semânticos e pragmáticos, níveis linguísticos que são possíveis de recuperar manualmente entre as unidades de análise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodológico de Souza (2019) ao que se refere ao estudo em corpus das relações CST em textos jornalísticos do Português, já que o conjunto de atributos disponíveis, até o momento, ainda produzia equívocos na identificação dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentenças. Como resultado, foram obtidas a descrição detalhada da complementaridade CST e a criação de uma tipologia de sinalizadores das relações que traduzem esse fenômeno, além da proposição de uma metodologia específica para o estudo de relações CST.
关键词:Complementaridade informacional multidocumento; Processamento Automático de Línguas Naturais; Corpus de estudo