摘要:En este trabajo se presenta un nuevo categorizador de texto para bases de datos documentales. El categorizador propuesto corresponde a una extensión del categorizador Naive Bayes que permite obtener buenos resultados en bases documentales con desbalance en datos de entrenamiento. Resultados experimentales permiten afirmar que el categorizador supera a Naive Bayes y se compara favorablemente con otras técnicas más sofisticadas como máquinas de soporte vectorial y regresión logística sin incurrir en costos computacionales significativos en la fase de entrenamiento.
其他摘要:We introduce a new text categorization method for documentary databases. The proposed method is an extension of the Naive Bayes text categorization model which allows obtaining good performance results in documentary databases with unbalanced training data. Experimental results allow us to conclude that the categorization method overcomes Naïve Bayes and compares favorably with more sophisticated categorization methods such as support vector machines and logistic regression without increasing the use of computational resources in the training phase.
关键词:Categorización de texto; modelos Bayesianos; recuperación de información;Text categorization; Bayesian models; information retrieval