首页    期刊浏览 2024年11月25日 星期一
登录注册

文章基本信息

  • 标题:Modelo de representación de textos basado en grafo para la minería de texto
  • 本地全文:下载
  • 作者:Aramis Rodríguez Blanco ; Alfredo Simón Cuevas ; Ernesto Guevara Martínez
  • 期刊名称:Ciencias de la Información
  • 印刷版ISSN:0864-4659
  • 电子版ISSN:1606-4925
  • 出版年度:2015
  • 卷号:46
  • 期号:1
  • 页码:63-71
  • 语种:Spanish
  • 出版社:Instituto de Información Científica y Tecnológica
  • 摘要:La Minería de Texto constituye el proceso de descubrimiento de conocimiento, previamente desconocido y potencialmente útil, mediante la extracción automática de información desde diferentes recursos escritos. La estructuración del contenido textual en modelos de representación intermedia constituye un aspecto clave en este proceso. En el trabajo se propone un nuevo modelo de representación basado en grafos para la estructuración de contenidos textuales y un método para su construcción automática. El modelo está basado en la representación de frases conceptuales y las relaciones entre ellas, a partir de análisis de proximidad en el texto, para lo cual fueron definidas varias medidas de distancia. En el método propuesto se combinan técnicas de procesamiento de lenguaje natural, con patrones léxicos y recursos de conocimiento para extraer los conceptos, y fueron definidos dos métodos para identificar las relaciones: distancia más cercana y ventana contextual. Se concibió en tres fases fundamentales: pre- procesamiento, extracción de información, y refinado, y se evaluó experimentalmente con noticias de una colección de referencia. Los experimentos se orientaron a evaluar la cantidad de información contenida en los grafos resultantes, así como la precisión en la extracción automática de conceptos, en los cuales se obtuvieron resultados prometedores.
  • 其他摘要:Text Mining constitutes the process of knowledge discovery, previously unknown and potentially useful, though the automatic information extraction from texts. The structuring of textual content in an intermediate representation models constitutes a key aspect in this process. The more employees’ models are based on a list of significant terms, such as the vector space model, although recently the use of relational models in graph form has been increased. In the work a new graph- based representation model for the structuring of textual contents and a method for it automatic construction are proposed. The model is based on the representation of conceptual sentences and the relationships among them, through proximity analysis in the text, where several distance metrics were defined. It was conceived in three fundamental phases: pre-processing, information extraction, and a refine process, and it was experimentally evaluated with news of a reference collection. The experiments were guided to evaluate the quantity of the information contained in resulting graphs, as well as the precision in the automatic extraction of concepts, in which promising results were obtained.
  • 关键词:Modelos de representación de texto; minería de texto; extracción de información.
  • 其他关键词:Text representation model; tex tmining; information extraction.
国家哲学社会科学文献中心版权所有