A "Descoberta de Conhecimento em Bases de Dados" (Knowledge Discovery in Databases, KDD) é um processo composto de várias etapas, iniciando com a coleta de dados para o problema em pauta e finalizando com a interpretação e avaliação dos resultados obtidos. O presente trabalho objetiva mostrar a influência da análise exploratória dos dados no desempenho das técnicas de Mineração de Dados (Data Mining) quanto à classificação de novos padrões por meio da sua aplicação a um problema médico, além de comparar o desempenho delas entre si, visando obter a técnica com o maior percentual de acertos. Pelos resultados obtidos, pode-se concluir que a referida análise, se conduzida de forma adequada, pode trazer importantes melhorias nos desempenhos de quase todas as técnicas abordadas, tornando-se, assim, uma importante ferramenta para a otimização dos resultados finais. Para o problema em estudo, a técnica que envolve um modelo de Programação Linear e uma outra que envolve Redes Neurais foram as técnicas que apresentaram os menores percentuais de erros para os conjuntos de testes, apresentando capacidades de generalização satisfatórias.
Knowledge Discovery in Databases - KDD - is a process that consists of several steps, beginning with the collection of data for the problem under analysis and ending with the interpretation and evaluation of the final results. This paper discusses the influence of exploratory data analysis on the performance of Data Mining techniques with respect to the classification of new patterns, based on its application to a medical problem, and compares the performance of these techniques in order to identify the one with the highest percentage of successes. The results of this study lead to the conclusion that, providing this analysis is done properly, it can significantly improve the performance of these techniques and serve as an important tool to optimize the end results. For the problem under study, the techniques involving a Linear Programming model and Neural Networks were the ones showing the lowest percentages of errors for the test sets, presenting good generalization capacities.