首页    期刊浏览 2024年12月03日 星期二
登录注册

文章基本信息

  • 标题:Approches endogène et exogène pour améliorer la segmentation thématique de documents
  • 本地全文:下载
  • 作者:Olivier Ferret
  • 期刊名称:Traitement Automatique des Langues
  • 印刷版ISSN:1248-9433
  • 电子版ISSN:1965-0906
  • 出版年度:2006
  • 卷号:47
  • 期号:2
  • 出版社:ATALA - Assoc Traitement Automatique Langues
  • 摘要:La segmentation thématique de documents a fait l’objet d’un nombre important de travaux dont il n’est pas toujours facile de dégager des conclusions claires, en particulier en ce qui concerne l’utilisation de connaissances. Dans cet article, nous proposons d’examiner deux voies se situant dans le même cadre pour améliorer une méthode de segmentation fondée sur la simple récurrence lexicale. La première est endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l’identification des similarités thématiques entre unités de discours. La seconde réalise le même but en faisant appel à une ressource externe, en l’occurrence un réseau de cooccurrences lexicales construit à partir d’un large corpus. Ces deux approches sont également combinées. Une évaluation de ces deux approches et de leur combinaison est réalisée dans un même cadre et illustre l’intérêt de cette combinaison.
国家哲学社会科学文献中心版权所有