摘要:Esta investigación tiene como objetivo analizar y clasificar artículos biomédicos en el ámbito de neurociencias y, en particular, se consideran artículos científicos relacionados con hipoacusia. El proceso de categorización de textos generalmente consta de dos etapas: la primera, consistente en la delimitación de las clases que dividen al tema de nuestro interés, y la segunda, enfocada a la categorización de los textos de interés. En la mayoría de las aplicaciones, la categorización se resuelve basando el modelo en la obtención de clases que se encuentran dispersas, lo cual permite que los algoritmos de categorización existentes tengan buenos resultados dado que entre ellos hay una línea amplia de separación de las clases. El problema radica cuando la evaluación de las clases contiene una línea de separación estrecha entre ellas. En este trabajo se presenta un enfoque diferente al tradicional mediante la integración de dos algoritmos de categorización, el uso de n-gramas de letras para la categorización de clases parcialmente distantes y posteriormente la afinación de la categorización de documentos utilizando los términos de una ontología de dominio. Los resultados obtenidos con este método han sido prometedores.
其他摘要:This study aims to analyze and categorize biomedical articles from the field of neuroscience, specifically, scientific articles related to hearing loss are considered. The text categorization process usually consists of two stages: the first one consists of the division of the classes that divide the object of study, and the second one is focused on the categorization of the texts which make up our corpus. In most applications, the categorization is solved by basing the models on the obtention of dispersed classes; this allows for existing algorithms of categorization to get good results because there are big lines of separation among the classes. But there are problems when these lines of separation are narrow. This paper presents a different approach by integrating two algorithms of categorization: using n-grams of letters for categorizing distant classes, and later refining the categorization of documents partially, using the terms of a domain ontology related with genes, diseases and syndromes. Promising results were obtained with this method.
关键词:Multicatalogación; n-gramas de letras; ontologías; hipoacusia; genes;Multi-cataloguing; n-grams of letters; ontologies; hearing loss; genes