Análisis Cluster
Short Description
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en g...
Description
“ANÁLISIS CLUSTER” Estudio de Caso: 14-1.sav
UNIVERSIDAD GALILEO FACULTAD DE CIENCIA, TECNOLOGÍA E INDUSTRIA DOCTORADO EN ADMINISTRACIÓN CON ESPECIALIDAD EN FINANZAS
ARQ. ALVARO COUTIÑO G. Carnet 1300-4393
“ANÁLISIS CLUSTER” Contenido
INTRODUCCIÓN ..............................................................................................................................
2
1.
INFORMACIÓN CASO DE ESTUDIO ..................................................................................... 3
2.
ANÁLISIS ...................................................................................................................................
3
DECRIPTIVOS .......................................................................................................................
3
2.1.1.
Estadísticos descriptivos .....................................................................................................
3
2.1.2.
Estadísticos descriptivos .....................................................................................................
4
3.
Gráfico de dispersión ..................................................................................................................
4
4.
Correlaciones: .............................................................................................................................
5
2.1.
A. ANÁLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5.
Conglomerado .............................................................................................................................
5.1. 6.
5 6
Resumen del procesamiento de los casos ................................................................................ 6 Vinculación promedio (inter-grupos) .......................................................................................... 7
6.1.
Historial de conglomeración ...................................................................................................
7
6.2.
Conglomerado de pertenencia .................................................................................................
8
6.3.
Dendograma: ...........................................................................................................................
9
B. ANÁLISIS NO JERÁRQUICO DE CONGLOMERADOS: .............................................. 10 7.
Análisis de conglomerados y K-medias ....................................................................................
10
7.1.
Centros iniciales de los conglomerados ................................................................................
10
7.2.
Historial de relaciones ...........................................................................................................
10
7.3.
Pertenencia a los conglomerados ..........................................................................................
10
7.3.1.
Pertenencia conglomerados ordenados por grupo (Realizado en excel) ........................... 11
7.4.
Centros de los conglomerados finales ................................................................................... 11
7.5.
Distancias entre los centros de los conglomerados finales .................................................... 12
7.6.
ANOVA ................................................................................................................................
7.7.
Número de casos en cada conglomerado conglomerado ..............................................................................
12 12
8.
CONCLUSIONES: ...................................................................................................................
12
9.
BIBLIOGRAFÍA .......................................................................................................................
13
1
“ANÁLISIS CLUSTER” INTRODUCCIÓN El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio y de agrupación. En el campo de los bienes raíces y construcción, es de utilidad cuando la empresa desea clasificar a sus consumidores en tipos según sus distintas percepciones de determinados atributos del proyecto: Calidad,
precio, servicios, especificaciones, entorno, acceso,
distancias a puntos estratégicos de conveniencia, áreas de la ciudad, zonas, niveles de violencia, entre otras. Para ello, se diseña una muestra con 100 clientes a los que se cuestiona sobre su percepción, en una escala de intervalos, de las anteriores características de los productos de la empresa. El resultado final consiste en diseñar diferentes estrategias de promoción en función de sus diversos perfiles. En el siguiente análisis, se procede a realizar un estudio de caso mediante el análisis clúster, el cual está dividido en el proceso de análisis, resultados, conceptos y conclusiones.
2
“ANÁLISIS CLUSTER” 1. INFORMACIÓN CASO DE ESTUDIO 1. Con la técnica de Análisis de conglomerados clasificar a los jóvenes (base de datos 14-1) según:
Número de veces que van anualmente al futbol (futbol) ( futbol)
La paga semanal que reciben (paga2)
El número de horas semanales que ven la televisión.
Preguntas 1. Utilizar análisis clúster jerárquico y no jerárquico (con todos los conglomerados).Para homogenizar las variables, estandarícelas por medio del procedimiento “descriptivos” pidiendo que “guarde los valores tipificados como variables”.
2. Utilice estas variables tipificadas (en la base de datos original). 3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos: 3.1. jerárquico 3.1. jerárquico 3.2. no jerárquico. 4. Proponga un nombre para cada conglomerado.
Como primer paso, Cargue en SPSS el archivo de nombre 14-1.sav, (archivo → abrir → datos) se trata de clasificar a los jóvenes por el número de veces que van anualmente al futbol, la pagas semanal que reciben y el número de horas que ven la televisión.
2. ANÁLISIS 2.1. DECRIPTIVOS 2.1.1. Estadísticos descriptivos Estadísticos descriptivos N
Mínimo
Máximo
Media
Desv. típ.
ASISTENCIA ANUAL AL FUTBOL
14
0
8
3.71
3.429
PAGA SEMANAL EN PTAS
14
1000
2500
1557.14
730.347
HORAS SEMANALES TV
14
5
22
15.86
5.051
N válido (según lista) lista)
14
3
“ANÁLISIS CLUSTER” Como paso siguiente, se procede a tipificar1 las variables, ya que, al trabajar con distancias, todas las variables han de venir medidas en las mismas unidades. Para éste análisis realizamos los siguientes pasos: 1. Analizar 1.1. Estadísticos descriptivos 1.1.1. Descriptivos 1.1.1.1.
Guardar valores tipificados como variables
2.1.2. Estadísticos descriptivos Estadísticos descriptivos N
Mínimo
Máximo
Media
Desv. típ.
Puntuación Z: ASISTENCIA ANUAL AL FUTBOL
14
-1.08319
1.24983
.0000000
1.00000000
Puntuación Z: PAGA SEMANAL EN PTAS
14
-.76285
1.29097
.0000000
1.00000000
Puntuación Z: HORAS SEMANALES TV
14
-2.14934
1.21607
.0000000 .0000000
1.00000000
N válido (según lista)
14
El siguiente paso, es realizar gráficos de dispersión2 en tres dimensiones para las tres variables tipificadas con el objeto de observar los posibles grupos. Para éste análisis realizamos los siguientes pasos: 1. Gráficos 1.1. Dispersión 1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z: TV)
3. Gráfico de dispersión
1
Tipificar las variables: Procedimiento para estandarizar las variables y que exista así una comparabilidad entre las variables. (Pérez López, 2004, pág. 447) 2 Gráfico de dispersión: Observa la relación entre dos o más variables. (Pérez López, 2004, pág. 82)
4
“ANÁLISIS CLUSTER” Interpretación: Se observa que se podría agrupar a los individuos en tres grupos.
Es siguiente paso es realizar un análisis de correlaciones bivariadas3: Para éste análisis realizamos los siguientes pasos: 1. analizar 1.1. Correlaciones 1.1.1. Bivariadas
4. Correlaciones: Correlaciones
Puntuación Z: ASISTENCIA ANUAL ANUAL AL FUTBOL
Puntuación Z: ASISTENCIA ANUAL AL FUTBOL
Puntuación Z: PAGA SEMANAL EN PTAS
Puntuación Z: HORAS SEMANALES TV
1
-.291
-.229
.313
.431
14
14
14
Correlación de Pearson
-.291
1
.025
Sig. (bilateral)
.313
Correlación de Pearson Sig. (bilateral) N
Puntuación Z: PAGA SEMANAL EN PTAS
N Puntuación Z: HORAS SEMANALES SEMANALES TV
14
14
14
Correlación de Pearson
-.229
.025
1
Sig. (bilateral)
.431
.932
14
14
N
.932
14
Se observa que existen tres grupos.
A. ANÁLISIS JERARQUICO4 DE CONGLOMERADOS El siguiente paso es realizar un análisis de jerárquico Para éste análisis realizamos los siguientes pasos: 1. Analizar 1.1. Clasificar 1.1.1. Conglomerado jerárquico 1.1.1.1. Variables: Tipificadas 1.1.1.1.1. Estadísticos
3
Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Pérez López, 2004, pág. 446) 4 Análisis jerárquico: Procedimiento que intenta identificar grupos relativamente homogéneos de casos o de variables basándose en características seleccionadas, mediante un algoritmo que comienza con cada caso o cada variable en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. (Pérez López, 2004, pág. 440)
5
“ANÁLISIS CLUSTER” a.
Historial de conglomeración
b.
Rangos 2 – 4 4
1.1.1.1.2.
Gráficos
a.
Dendograma
b.
Horizontal
1.1.1.1.3.
Método
1.1.1.1.4.
Guardar
1.1.1.1.5. Rango 2 – 4 4 5. Conglomerado 5.1. Resumen del procesamiento de los casos Resumen del procesamiento de los casosa,b Casos Válidos N
Perdidos
Total
Porcentaje
N
Porcentaje
N
Porcentaje
14 100.0 a. distancia euclídea euclídea al cuadrado usada
0
.0
14
100.0
b. Vinculación promedio promedio (Inter-grupos) (Inter-grupos)
Interpretación:
Se muestran el número de porcentaje de casos válidos analizados, el número y porcentaje de casos con valores perdidos per didos en alguna de las variables incluidas en los análisis y el tamaño total de la muestra, que no es otra cosa que la suma de los casos válidos y los perdidos. (Análiss de conglomerados, 2014, pág. 477)
En la tabla siguiente, se muestra el historial del proceso de conglomeración, etapa por etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen 14 casos sólo se realizan 13 etapas de fusión.
6
“ANÁLISIS CLUSTER” 6. Vinculación promedio (inter-grupos) 6.1. Historial de conglomeración5 Historial de conglomeración Etapa
Conglomerado que se combina
Coeficientes
Etapa en la que el conglomerado aparece
Próxima etapa
por primera vez Conglomerado 1
Conglomerado 2
Conglomerado 1
Conglomerado 2
1
3
9
.000
0
0
8
2
2
8
.000
0
0
9
3
7
10
.104
0
0
6
4
5
11
.379
0
0
5
5
5
13
.575
4
0
9
6
7
14
.679
3
0
10
7
1
6
1.065
0
0
11
8
3
4
1.065
1
0
10
9
2
5
1.640
2
5
12
10
3
7
5.138
8
6
12
11
1
12
5.157
7
0
13
12
2
3
6.565
9
10
13
13
1
2
8.378
11
12
0
Interpretación
RANGO DE SOLUCIONES 3 O 4 CLUSTER
La columna conglomerado que se combina informa sobre los conglomerados o casos fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de datos. Como el análisis se inicia con todos los casos separados en conglomerados individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas posteriores. La Columna “Coeficientes”, ofrece el valor de la distancia la que se encuentran encu entran los casos
antes de la fusión. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9 vale 0, lo que significa que se trata de casos con idénticas puntuaciones. La columna “Etapa en la que el conglomerado conglomerado aparece por primera vez” recoge la etapa
en la que se han formado los conglomerados que se están fundiendo en cada momento. El 5
Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último ni vel del proceso de aglomeración en el que cada caso o variable se unió a su conglomerado correspondiente. (Pérez López, 2004, pág. 441)
7
“ANÁLISIS CLUSTER” valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor que o indica el el número de etapa en la que se formó el conglomerado. En nuestro caso, el valor 0 nos indica que los conglomerados son casos individuales, lo que significa el surgimiento de 4 conglomerados. La columna “Próxima etapa”, indica la etapa en la que el conglomerado que se acaba de
formar volverá a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9 respectivamente.
6.2. Conglomerado de pertenencia6 Conglomerado de pertenencia
Caso
4 conglomerados
3 conglomerados
2 conglomerados
1
1
1
1
2
2
2
2
3
3
3
2
4
3
3
2
5
2
2
2
6
1
1
1
7
3
3
2
8
2
2
2
9
3
3
2
10
3
3
2
11
2
2
2
12
4
1
1
13
2
2
2
14
3
3
2
Interpretación:
Se refiere al conglomerado de pertenencia al que pertenece cada caso.
6
Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única o un rango de soluciones. Las variables pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos. (Pérez López, 2004, pág. 442)
8
“ANÁLISIS CLUSTER” 6.3. Dendograma7:
Interpretación: Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos considerando sus características. Por lo tanto, tener un solo grupo no aporta información. En consecuencia, sabiendo que a menor distancia los conglomerados son más homogéneos, es conveniente detener el proceso de unión cuando las líneas horizontales sean muy largas: en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters. Se observa en el dendograma la conformación de 4 grupos:
Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)
Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)
Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es indiferente, si les gasta la TV)
Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV)
El siguiente paso es el realizar un análisis no jerárquico
7
Dendograma: Se usan para evaluar la cohesión de los conglomerados que se han formado y proporcionar información sobre el número adecuado de conglomerados que deben conservarse. (Pérez López, 2004, pág. 443)
9
“ANÁLISIS CLUSTER” B. ANÁLISIS NO JERÁRQUICO8 DE CONGLOMERADOS: Para éste análisis realizamos los siguientes pasos: 2. Analizar 2.1. Clasificar 2.1.1. Conglomerado de K-medias 2.1.1.1.
Variables: Tipificadas
2.1.1.2. Numero de conglomerados 4 2.1.2. Opciones 2.1.2.1. Información de conglomerados de cada caso 7. Análisis de conglomerados y K-medias 7.1. Centros iniciales de los conglomerados Centros iniciales de los conglomerados 1
Conglomerado 2
3
Puntuación Z(fútbol) Z(fútbol) ASISTENCIA ANUAL ANUAL AL FUTBOL
1.24983
-.79156
.95821
Puntuación Z(paga2) PAGA SEMANAL EN PTAS
-.76285
1.29097
-.76285
Puntuación Z: Puntuación Z: HORAS SEMANALES TV
-2.14934
-.56562
1.21607
7.2. Historial de relaciones
Historial de iteracionesa Cambio en los centros de los conglomerados
Iteración
1
2
3
1
.516
.753
.754
2
.000
.261
.243
3
.000
.000
.000
a. Se ha logrado la c onvergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de .000. La iteración actual es 3. La distancia mínima entre los centros iniciales es de 3.233.
7.3. Pertenencia a los conglomerados Pertenencia a los conglomerados Número de caso
Conglomerado
Distancia
1
1
.516
2
2
.984
3
3
1.281
4
3
.990
5
2
.828
6
1
.516
8
Análisis no jerárquico: Procedimiento que intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que pueden gestionar un gran número de casos. (Pérez López, 2004, pág. 437)
10
“ANÁLISIS CLUSTER” 7
3
.990
8
2
.984
9
3
1.281
10
3
1.258
11
2
.397
12
2
2.070
13
2
.591
14
3
1.216
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel) Pertenencia a los conglomerados Número de caso
Conglomerado
Distancia
1
1
.516
6 2 5 8 11 12 13 3 4 7 9 10 14
1 2 2 2 2 2 2 3 3 3 3 3 3
.516 .984 .828 .984 .397 2.070 .591 1.281 .990 .990 1.281 1.258 1.216
Interpretación: Se observa en la tabla tabla de pertenencia la conformación de 3 grupos:
Grupo A: 1, 6 (Poco interés, en el futbol, poco interés en TV, poco dinero para esos fines, prefieren otro tipo de entretenimiento y diversión)
Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)
Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los partidos en vivo y si les interesa ver el futbol por la TV)
7.4. Centros de los conglomerados finales Centros de los conglomerados finales Conglomerado 1
2
3
Puntuación Z(fútbol) Z(fútbol) ASISTENCIA ANUAL AL FUTBOL FUTBOL
1.10402
-.45133
.08332
Puntuación Z(paga2) PAGA SEMANAL EN PTAS
-.76285
.97149
-.71721
Puntuación Z: Z: Puntuación Z: HORAS SEMANALES SEMANALES TV
-1.65443
-.20268
.75415
11
“ANÁLISIS CLUSTER” 7.5. Distancias entre los centros de los conglomerados finales Distancias entre los centros de los conglomerados finales Conglomerado Conglomera do
1
1 2
2.745
3
2.616
2
3
2.745
2.616 2.013
2.013
7.6. ANOVA ANOVA Conglomerado
Error
F
Sig.
Media cuadrática gl Media cuadrática gl Puntuación Z(fútbol) ASISTENCIA ANUAL AL 1.851 2 .845 11 2.189 .158 FUTBOL Puntuación Z(paga2) PAGA 4.956 2 .281 11 17.661 .000 SEMANAL EN PTAS Puntuación Z: Puntuación Z: Z: 4.567 2 .352 11 12.991 .001 HORAS SEMANALES TV Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis hipótesis de que los centros centros de los conglomerados conglomerados son iguales.
7.7. Número de casos en cada conglomerado Número de casos en cada conglomerado
Conglomerado
1
2.000
2
6.000
3
6.000
Válidos
14.000
Perdidos
.000
Interpretaciones.
8. CONCLUSIONES: El clúster es una técnica de clasificación que sirve para poder detectar y describir subgrupos de sujetos o variables homogéneas en función de los valores observados dentro de un conjunto aparentemente heterogéneo. Se fundamenta en el estudio de las distancias entre ellos, permitiendo en el análisis, cuantificar el grado de similitud, en el caso de las proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado aparecen agrupaciones homogéneas. A diferencia de otras pruebas de clasificación, el investigador no tiene conocimiento de la existencia de los subgrupos o conglomerados, ni del número resultante, ni de las
12
“ANÁLISIS CLUSTER” características que los definen. Por lo tanto, es una técnica exploratoria y descriptiva sin variables dependientes. El objetivo fundamental de esta técnica es la configuración de grupos similares y homogéneos para poder entender y estudiar mejor los fenómenos sociales y educativos. En el campo de los bienes raíces e inmobiliario, nos ayuda en estudiar a los diferentes grupos de clientes para los proyectos según sus características, así como también puede ayudar en el área urbanística donde nos puede orientar en el crecimiento de las poblaciones en las ciudades.
9. BIBLIOGRAFÍA (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina nte.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf Google. (Ayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved= 0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p pt&ei=DpaHU6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w
13
“ANÁLISIS CLUSTER” Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=IYg0npCrSGw You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=07lCKn6EEMQ De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/ CONGLOMERADOS/conglomerados.pdf IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadística aplicada a los negocios y la economía. México D. F.: McGraw-Hill Interamericana.
Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Madrid: PEARSON EDUCACIÓN, S. A. villardón, J. L. (Mayo de 2014). Google. Obtenido de http://benjamindespensa.tripod.com/spss/AC.pdf
14
View more...
Comments