首页    期刊浏览 2024年10月01日 星期二
登录注册

文章基本信息

  • 标题:Document indexing with a concept hierarchy
  • 本地全文:下载
  • 作者:Alexander Gelbukh ; Grigori Sidorov ; Adolfo Guzmán-Arenas
  • 期刊名称:Computación y Sistemas
  • 印刷版ISSN:1405-5546
  • 出版年度:2005
  • 卷号:8
  • 期号:4
  • 页码:281-292
  • 语种:English
  • 出版社:Instituto Politécnico Nacional
  • 摘要:Se considera la tarea de la selección de los conceptos que describen el contenido de un documento dado. Los conceptos se eligen de un diccionario jerárquico grande (un tesauro, o bien una ontología). Se propone un método estadístico para crear un índice de los documentos, guiado por tal diccionario. El método es robusto en cuanto a los errores en el diccionario, lo que permite traducir tal diccionario semiautomáticamente en varios lenguajes. Se discute el problema del uso de los nodos no terminales y especialmente de los nodos de alto nivel en la jerarquía. Se presentan los métodos para ponderación automática de los nodos y vínculos en la jerarquía de la manera en que coincide con los criterios del sentido común. Se discute la aplicación del método en el sistema Classifier.
  • 其他摘要:Given a large hierarchical concept dictionary (thesaurus, or ontology), the task of selection of the concepts that describe the contents of a given document is considered. A statistical method of document indexing driven by such a dictionary is proposed. The method is insensible to inaccuracies in the dictionary, which allow for semi-automatic translation of the hierarchy into different languages. The problem of handling non-terminal and especially top-level nodes in the hierarchy is discussed. Common sense-complaint methods of automatically assigning the weights to the nodes and links in the hierarchy are presented. The application of the method in the Classifier system is discussed.
  • 关键词:Caracterización de Documentos; Comparación de Documentos; Ontología; Métodos Estadísticos;Document Characterization; Document Comparison; Ontology; Statistical Methods
国家哲学社会科学文献中心版权所有