首页    期刊浏览 2024年10月01日 星期二
登录注册

文章基本信息

  • 标题:Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s
  • 本地全文:下载
  • 作者:Arnaldo Candido Junior ; Célia Magalhães ; Helena Caseli
  • 期刊名称:Revista de Estudos da Linguagem
  • 印刷版ISSN:2237-2083
  • 出版年度:2015
  • 卷号:23
  • 期号:3
  • 页码:695-726
  • DOI:10.17851/2237-2083.23.3.695-726
  • 语种:English
  • 出版社:Faculdade de Letras da Universidade Federal de Minas Gerais
  • 摘要:Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita , um sistema geral de processamento de corpora , concebido para diferentes pesquisas de Linguística de Corpus . Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools.
  • 其他摘要:Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita , um sistema geral de processamento de corpora , concebido para diferentes pesquisas de Linguística de Corpus . Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools.
  • 关键词:keyword extraction;natural language processing;corpus analysis;WordSmith Tools;Latent Dirichlet Allocation;Portal Min@s
国家哲学社会科学文献中心版权所有