文章基本信息

标题：Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información
本地全文：下载
作者：Sergio G. Jiménez V. ; Fabio A. González O.
期刊名称：Revista Avances en Sistemas e Informática
印刷版ISSN：1657-7663
电子版ISSN：1909-0056
出版年度：2008
卷号：5
期号：1
页码：47-50
语种：Spanish
出版社：Universidad Nacional de Colombia
摘要：Este artículo se presenta un método de extracción de información adaptado a documentos ricos en datos, basado en el conocimiento representado en una ontología de dominio. El extractor combina un buscador aproximado de cadenas de caracteres y un algoritmo para desambiguación automática de sentidos de palabras (WSD). El buscador aproximado de cadenas de caracteres encuentra menciones a los términos combinando medidas de similitud a nivel de carácter y de palabra soportando acrónimos no estandarizados y estilos inconsistentes de abreviación. Proponemos una distancia de edición a nivel de caracteres con sensibilidad a prefijos llamada root distance y un nuevo algoritmo de similitud de cadenas a nivel de palabras para detección automática de acrónimos. Adicionalmente se utilizó una estrategia de WSD usando una medida de afinidad semántica basada en ontologías para resolver la ambigüedad inherente de algunos términos. El modulo de WSD encuentra combinaciones de sentidos para todo el documento optimizando la coherencia semántica del discurso. Nuestro enfoque resulta apropiado para la extracción de información en documentos ricos en datos que describen un solo objeto (i.e. producto) por documento. Los experimentos alcanzaron una precisión del 78,9% con una cobertura del 99.5% utilizando documentos y una ontología relacionada con el dominio de las computadoras portátiles.
其他摘要：This paper presents an information extraction method, suitable for data-rich documents, based on the knowledge represented in a domain ontology. The extractor combines a fuzzy string matcher and a word sense disambiguation (WSD) algorithm. The fuzzy string matcher finds mentions of terms combining character-level and token-level similarity measures dealing with non-standardized acronyms and inconsistent abbreviation styles. We propose a new character-level edit distance sensitive to prefixes called root distance and a token-level similarity algorithm for fuzzy acronym detection. Additionally, a WSD strategy using an ontology-based semantic relatedness measure is used to solve the inherent ambiguity of some entities. The WSD module finds a sense combination over all the document length optimizing the document semantic coherence. Our approach seems to be suitable to extract information from data-rich documents describing only one main object (i.e. product) by document. The results showed a precision of 78.9% with 99.5% recall using documents and an ontology related to laptop computers domain.
关键词：Gestión del conocimiento; Extracción de Información; Ontologías; Búsqueda Aproximada de Cadenas; desambiguación automática de sentidos de palabras; Afinidad ...