Contenido
El análisis de conglomerados es un método para organizar datos en grupos representativos basados en características similares. Cada miembro del clúster tiene más en común con otros miembros del mismo clúster que con los miembros de los otros grupos. El punto más representativo dentro del grupo se llama centroide. Por lo general, esta es la media de los valores de los puntos de datos en el clúster.
Organizar los datos. Si los datos consisten en una sola variable, un histograma podría ser apropiado. Si hay dos variables involucradas, grafica los datos en un plano de coordenadas. Por ejemplo, si observaba la altura y el peso de los niños en edad escolar en un aula, trace los puntos de datos para cada niño en un gráfico, siendo el peso el eje horizontal y la altura el eje vertical. Si hay más de dos variables involucradas, es posible que se necesiten matrices para mostrar los datos.
Agrupe los datos en grupos. Cada grupo debe constar de los puntos de datos más cercanos a él. En el ejemplo de altura y peso, agrupe los puntos de datos que parezcan estar juntos. El número de grupos, y si cada punto de datos tiene que estar en un grupo, puede depender de los propósitos del estudio.
Para cada clúster, agregue los valores de todos los miembros.Por ejemplo, si un grupo de datos constara de los puntos (80, 56), (75, 53), (60, 50) y (68,54), la suma de los valores sería (283, 213).
Divida el total por el número de miembros del grupo. En el ejemplo anterior, 283 dividido entre cuatro es 70.75, y 213 dividido entre cuatro es 53.25, entonces el centroide del grupo es (70.75, 53.25).
Grafique los centroides del grupo y determine si algún punto está más cerca de un centroide de otro grupo que del centroide de su propio grupo. Si algún punto está más cerca de un centroide diferente, redistribuirlo al grupo que contiene el centroide más cercano.
Repita los pasos 3, 4 y 5 hasta que todos los puntos de datos estén en el grupo que contiene el centroide al que están más cercanos.