文章基本信息

标题：Approches endogène et exogène pour améliorer la segmentation thématique de documents
本地全文：下载
作者：Olivier Ferret
期刊名称：Traitement Automatique des Langues
印刷版ISSN：1248-9433
电子版ISSN：1965-0906
出版年度：2006
卷号：47
期号：2
出版社：ATALA - Assoc Traitement Automatique Langues
摘要：La segmentation thématique de documents a fait l’objet d’un nombre important de travaux dont il n’est pas toujours facile de dégager des conclusions claires, en particulier en ce qui concerne l’utilisation de connaissances. Dans cet article, nous proposons d’examiner deux voies se situant dans le même cadre pour améliorer une méthode de segmentation fondée sur la simple récurrence lexicale. La première est endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l’identification des similarités thématiques entre unités de discours. La seconde réalise le même but en faisant appel à une ressource externe, en l’occurrence un réseau de cooccurrences lexicales construit à partir d’un large corpus. Ces deux approches sont également combinées. Une évaluation de ces deux approches et de leur combinaison est réalisée dans un même cadre et illustre l’intérêt de cette combinaison.