摘要:En el presente trabajo se analizan diferentes metodologías y criterios para
realizar análisis de agrupamiento sobre datos multivariados. El análisis de
agrupamiento tiene por objetivo formar grupos de elementos, de manera tal que
los pertenecientes a un mismo grupo sean parecidos entre sí y distintos a los
miembros de los restantes grupos. Se describen consideraciones para los dos
grandes tipos de métodos: jerárquicos y de partición. Los primeros proveen una
estructura de grupos a diferentes niveles de granularidad según su nivel de
similitud, mientras que los segundos dividen el conjunto muestral en grupos
internamente homogéneos. En el caso de los métodos jerárquicos, se analiza en
detalle las diferentes medidas de asociación y distancia utilizadas por el
método, así como también el ligamiento usado para recalcular las distancias. La
elección del índice de distancia es de suma importancia, dado que esta medida
define el criterio por el cual dos elementos son considerados semejantes. Para
los métodos de partición, se analizan las medidas de homogeneidad que definen la
selección de los elementos dentro de cada grupo. Nuestra propuesta tiene
como objetivo, a mediano plazo, definir características comunes en los
elementos, que nos permitan trabajar con modelos de predicción de propiedades
fisicoquímicas, de manera que cada uno de los modelos difiera acorde al grupo
sobre el cual fue clasificado. En particular para este trabajo nuestros
experimentos se aplicaron sobre información multivariada de compuestos químicos
para predicción de la propiedad logP (grado de hidrofobicidad de una sustancia).
La técnica empleada en la predicción fueron redes neuronales y su validación fue
realizada con otro conjunto de datos sin entrenar. Finalmente, se analiza la
importancia de la justificación e interpretación de la clasificación
seleccionada, así como también del grado de similaridad que cada grupo
presenta