摘要:Errores de digitación, datos inconsistentes, valores ausentes o duplicados, son algunos de los problemas que pueden presentar los datos almacenados en las bases y bodegas de datos, deteriorando su calidad y en consecuencia, la calidad de las decisiones que se tomen con base en el nuevo conocimiento obtenido a partir de ellos. Este artículo pone de manifiesto la necesidad de una guía metodológica que apoye a los analistas de datos en la selección de las técnicas de epuración, considerando los diferentes tipos de errores en los datos y la naturaleza de los mismos.
其他摘要:Typing errors, inconsistent data, missing values or duplicates, are some of the problems that can be present in databases and data warehouses, affecting data quality and thus the quality of decision making based on the new knowledge extracted from them. This article highlights the need for a methodological support to data analysts in the selection of cleansing techniques, considering different types of data errors and their nature.
关键词:Bases y bodegas de datos; minería de datos; limpieza de datos; preprocesamiento de datos; calidad de datos. Databases; data warehousing; data mining; data cl...