文章基本信息

标题：Análisis Numérico De Diferentes Criterios De Similitud En Algoritmos De Clustering.
本地全文：下载
作者：A. J. Soto ; Ignacio Ponzoni ; Gustavo E. Vazquez 等
期刊名称：Mecánica Computacional
印刷版ISSN：2591-3522
出版年度：2006
卷号：XXV
期号：11
页码：993-1012
出版社：CIMEC-INTEC-CONICET-UNL
摘要：En el presente trabajo se analizan diferentes metodologías y criterios para realizar análisis de agrupamiento sobre datos multivariados. El análisis de agrupamiento tiene por objetivo formar grupos de elementos, de manera tal que los pertenecientes a un mismo grupo sean parecidos entre sí y distintos a los miembros de los restantes grupos. Se describen consideraciones para los dos grandes tipos de métodos: jerárquicos y de partición. Los primeros proveen una estructura de grupos a diferentes niveles de granularidad según su nivel de similitud, mientras que los segundos dividen el conjunto muestral en grupos internamente homogéneos. En el caso de los métodos jerárquicos, se analiza en detalle las diferentes medidas de asociación y distancia utilizadas por el método, así como también el ligamiento usado para recalcular las distancias. La elección del índice de distancia es de suma importancia, dado que esta medida define el criterio por el cual dos elementos son considerados semejantes. Para los métodos de partición, se analizan las medidas de homogeneidad que definen la selección de los elementos dentro de cada grupo.
Nuestra propuesta tiene como objetivo, a mediano plazo, definir características comunes en los elementos, que nos permitan trabajar con modelos de predicción de propiedades fisicoquímicas, de manera que cada uno de los modelos difiera acorde al grupo sobre el cual fue clasificado. En particular para este trabajo nuestros experimentos se aplicaron sobre información multivariada de compuestos químicos para predicción de la propiedad logP (grado de hidrofobicidad de una sustancia). La técnica empleada en la predicción fueron redes neuronales y su validación fue realizada con otro conjunto de datos sin entrenar. Finalmente, se analiza la importancia de la justificación e interpretación de la clasificación seleccionada, así como también del grado de similaridad que cada grupo presenta