ESTADÍSTICA APLICADA CON SPSS
Alfonso García Pérez María Yolanda Cabrero Ortega
2
ESTADÍSTICA APLICADA CON SPPS
Copyright © 2011 Alfonso García Pérez María Yolanda Cabrero Ortega ``No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisión además de las correspondientes indemnizaciones para quien lo plagiara"
Edita: Universidad Nacional de Educación a Distancia
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
3
Contenido
Prólogo………………………………………………………. 5 Capítulo 1: Introducción al SPSS ……………………… 7 Capítulo 2: Estadística Descriptiva ……………………. 11 Capítulo 3: Intervalos y Contrastes básicos .………… 17 Capítulo 4: Análisis de la Varianza ……..………........... 19 Capítulo 5: Regresión Lineal y Correlación ..………… 31 Capítulo 6: Tablas de Contingencia …………............... 37 Capítulo 7: Análisis de Componentes Principales ….. 47 Capítulo 8: Análisis de Correspondencias …..……….. 51 Capítulo 9: Análisis de Discriminante …………............ 57 Capítulo 10: Análisis de Conglomerados………..…….. 63 Capítulo 11: Análisis de Series Temporales….…......... 71 Capítulo 12: Regresión Logística ……..…………….......79 Capítulo 13: Regresión Poisson …....….…………......... 85 Capítulo 14: Anál. Supervivencia sin covariables ……93 Capítulo 15: Anál. Supervivencia con covariables ….103
4
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
5
Prólogo
El presente texto es dedicado al estudio de Paquete estadístico SPSS para el curso Técnicas Actuales de Estadística Aplicada. No obstante, ya adelantamos que no es exhaustivo en cuanto al análisis de todos los Métodos a los que dicho paquete se puede aplicar, ya que la mejor manera de aprenderlo es utilizarlo y, en la mayoría de las ocasiones, los comentarios resultan redundantes ante la sencillez de manejo de este software. Dado que los ejemplos que analizaremos en este texto son los de los libros Estadística Aplicada: Conceptos Básicos, Métodos Avanzados de Estadística Aplicada. Técnicas Avanzadas y Técnicas Actuales de Estadística Aplicada, no repetiremos aquí los enunciados de dichos ejemplos, indicándolos con las abreviaturas CB, TA y TAEA, respectivamente, y el número del ejemplo correspondiente. Por último, le recordamos que puede ver más grandes la reproducciones de la pantalla, es decir, las ventanas, utilizando el zoom de su pdf.
Alfonso García Pérez María Yolanda Cabrero Ortega
[email protected]
6
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
7
Capítulo 1
Introducción al SPSS
1.1. Introducción Una de las características más destacadas de SPSS (en especial con respecto a R o SAS) es que no es necesario conocer un lenguaje de programación para utilizarlo (aunque lo tiene). Su exitosa presentación de “Métodos Estadísticos a ejecutar” en forma de persianas, permite comenzar a utilizarlo casi sin conocimientos previos del paquete. Por esta razón, este texto será simple y breve ya que, sin duda, la mejor manera de aprende a manejar SPSS es utilizarlo.
1.2. El editor de datos Lo primero que analizaremos es cómo introducir los datos de nuestro problema, definiendo las variables a analizar con posterioridad. Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1, en el que, si queremos ir tecleando los datos, elegiremos la opción Introducir datos, apareciendo, a continuación el editor de datos en blanco en el que debemos introducir los datos observados en el primer individuo de la primera variable en la primera fila de la primera columna. Para ir viendo cómo funciona el editor de datos, vamos a considerar un ejemplo Ejemplo 1.1 _____________________________________________ Se eligió al azar una muestra de 56 individuos de una población a los que se clasificó según su Edad, su Sexo y según si era o no Fumador, obteniéndose los siguientes datos:
8
ESTADÍSTICA APLICADA CON SPPS
Menores de 20 años Hombre Mujer Sí fuma 11 3 No fuma 1 7 Entre 20 y 50 años Hombre Mujer Sí fuma 1 4 No fuma 2 5 Mayores de 50 años Hombre Mujer Sí fuma 13 1 No fuma 2 6 En determinados modelos, las variables deben ser categóricas; es decir, deben definir categorías en las que clasificar los datos. Nosotros, de momento, utilizaremos datos de tipo numérico. Para ello, lo más simple es ir introduciendo los datos y más tarde, modificar, si es necesario, sus propiedades.
Figura 1.1 Para el ejemplo en cuestión, incluiremos (por este orden) datos de las tres variables: la variable Edad, con tres valores, 1 para los individuos menores de 20 años, 2 para los individuos entre 20 y 50 años y 3 para los individuos mayores de 50 años. Para la variable Sexo, dos valores, 0 para los hombres y 1 para las mujeres. Y, finalmente, la variable Fumador, con dos valores, 0 para los individuos que no fuman y 1 para los que sí fuman. Así, los datos de los individuos de la tabla anterior serán los de la Figura 1.2.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
9
Figura 1.2 Con objeto de introducir el nombre de las variables, pincharemos con el Ratón la pestaña de abajo Vista de variables, apareciendo un panel como el de la Figura 1.3. Pinchando el 1, podremos teclear el nombre de las tres variables así como sus principales características. Volveremos al editor de datos pinchando en la pestaña inferior, Vista de datos.
Figura 1.3 En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos. Si nuestros datos están ya en un archivo, debemos incluirlos en el Editor de datos con la opción: Archivo → Abrir → Datos (Figura 1.4)
10
ESTADÍSTICA APLICADA CON SPPS
Figura 1.4
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
11
Capítulo 2
Estadística Descriptiva 2.1. Distribuciones de Frecuencias, Representaciones Gráficas, Medidas de Posición y Dispersión El estudio de las técnicas estudiadas aquí, puede seguirse en el Capítulo 2 del texto CB. Una de las ventajas de SPSS es que, de una vez, obtenemos la mayoría de los resultados en los que estamos interesados. Ejemplo 2.1-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar → Estadísticos Descriptivos → Frecuencias
Figura 2.1
12
ESTADÍSTICA APLICADA CON SPPS
apareciéndonos una ventana de diálogo como la de la Figura 2.2
Figura 2.2 Ahora, pasamos la variable en estudio, nivel, al cuadro de la derecha, completamos lo estadísticos que queremos calcule en el botón Estadísticos, que en nuestro caso hemos elegido según la Figura 2.3
Figura 2.3 cerrando la ventana con el botón Continuar. Lo mismo hacemos con el botón Gráficos, con el que, en este caso, hemos elegido las opciones que aparecen en la Figura 2.4,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
13
Figura 2.4 Ya podemos ejecutar nuestras elecciones efectuadas con las anteriores ventanas de diálogo, presionando el botón Aceptar. No obstante, queremos señalar que, todo lo que hemos ido seleccionando, se ha ido traduciendo al lenguaje SPSS dentro de lo que aparece en el botón Pegar, que si lo presionamos aparecerá, en este ejemplo, FREQUENCIES VARIABLES=nivel /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER= ANALYSIS .
Ésta es la denominada Sintaxis SPSS o Lenguaje de Programación SPSS, que podemos salvar, guardar, modificar y ejecutar en lugar de utilizar las persianas que aparecen arriba del Editor de Datos. No obstante, como precisamente éstas son la ventaja de SPSS, no utilizaremos la sintaxis de este paquete sino dichas persianas, pero queremos que el lector tenga presente siempre la existencia subyacente de estos programas. O bien mediante los menús o bien con la sintaxis, para este ejemplo obtendríamos los siguientes resultados:
ESTADÍSTICA APLICADA CON SPPS
14 Estadísticos nivel N
Válidos
34
Perdidos
0
Media
11,3529
Mediana
11,4500
Moda
12,50
Desv. típ.
1,87459
Varianza
3,514
Asimetría
,536
Error típ. de asimetría
,403
Curtosis
,876
Error típ. de curtosis
,788
Rango
8,70
Mínimo
7,80
Máximo
16,50
Percentiles
25
10,0500
50
11,4500
75
12,4000
nivel
Frecuencia Válidos
Porcentaje
Porcentaje válido
Porcentaje acumulado
7,80
1
2,9
2,9
2,9
8,50
1
2,9
2,9
5,9
8,60
1
2,9
2,9
8,8
9,10
1
2,9
2,9
11,8
9,20
1
2,9
2,9
14,7
9,30
1
2,9
2,9
17,6
9,70
1
2,9
2,9
20,6
9,90
1
2,9
2,9
23,5
10,10
1
2,9
2,9
26,5
10,20
1
2,9
2,9
29,4
10,30
1
2,9
2,9
32,4
10,60
1
2,9
2,9
35,3
10,80
1
2,9
2,9
38,2
11,10
2
5,9
5,9
44,1
11,30
1
2,9
2,9
47,1
11,40
1
2,9
2,9
50,0
11,50
1
2,9
2,9
52,9
11,60
1
2,9
2,9
55,9
11,80
1
2,9
2,9
58,8
11,90
1
2,9
2,9
61,8
12,00
1
2,9
2,9
64,7
12,20
1
2,9
2,9
67,6
12,30
2
5,9
5,9
73,5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
15
12,40
2
5,9
5,9
79,4
12,50
3
8,8
8,8
88,2
12,70
1
2,9
2,9
91,2
14,90
1
2,9
2,9
94,1
15,00
1
2,9
2,9
97,1
16,50
1
2,9
2,9
100,0
Total
34
100,0
100,0
Histograma
8
Frecuencia
6
4
2
Media =11,3529 Desviación típica =1, 87459 N =34
0 8,00
10,00
12,00
14,00
16,00
18,00
nivel
El histograma final se puede editar y cambiar los colores, el título, etc. Con la secuencia Gráficos → Histograma podemos volver a obtener el histograma anterior, pero lo que queremos señalar es que la persiana de Gráficos, permite obtener gráficos de ata calidad sin tener que realizar análisis estadístico alguno.
16
ESTADÍSTICA APLICADA CON SPPS
Figura 2.5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
17
Capítulo 3
Intervalos y Contrastes básicos
3.1. Intervalos y tests t-Student SPSS calcula, básicamente, intervalos y tests de la t de Student. Aunque en CB resolvimos este ejemplo con un intervalo basado en la normal, lo ejecutaremos a continuación con uno basado en la t de Student. Dado que se consideran 35 observaciones, las diferencias apenas si existe entre ambas metodologías. Ejemplo 6.2-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar → Comparar medias → Prueba T para una muestra
Figura 3.1
ESTADÍSTICA APLICADA CON SPPS
18
A continuación aparece (Figura 3.2) el siguiente cuadro de diálogo en donde hemos trasladado la variable en estudio al cuadro de la derecha. El 0 de la ventana Valor de Prueba es la hipótesis nula a contrastar. Con el botón Opciones podemos solicitar el intervalo de confianza para el coeficiente de confianza deseado.
Figura 3.2 El resultado obtenido es el siguiente: Estadísticos para una muestra
N Actividad
Desviación típ.
Media 35
,75300
,518283
Error típ. de la media ,087606
Prueba para una muestra
Valor de prueba = 0 95% Intervalo de confianza para la diferencia
Actividad
t 8,595
gl 34
Sig. (bilateral) ,000
Diferencia de medias ,753000
Inferior ,57496
Superior ,93104
Al final del segundo cuadro vemos el intervalo de confianza de confianza 0’95.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
19
Capítulo 4
Análisis de la Varianza
4.1. Un Factor: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.2 del texto CB. Ejemplo 8.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Cajas mediante la secuencia (Figura 4.1) Gráficos → Diagramas de Cajas
Figura 4.1 con lo que se abre la ventana de diálogo de la Figura 4.2
20
ESTADÍSTICA APLICADA CON SPPS
Figura 4.2 en la que seleccionamos definir, haciéndolo según la Figura 4.3
Figura 4.3 Ahora, con el botón Aceptar obtenemos los siguientes resultados,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
21
dieta Resumen del procesamiento de los casos Casos Válidos dieta 1
peso
N
Perdidos
Porcentaje
N
Total
Porcentaje
N
Porcentaje
5
100,0%
0
,0%
5
100,0%
2
5
100,0%
0
,0%
5
100,0%
3
5
100,0%
0
,0%
5
100,0%
peso
peso
36,00
33,00
30,00
1
2
3
dieta
en donde destaca el último gráfico, el Diagrama de Cajas buscado, en donde se puede apreciar que puede aceptarse una dispersión parecida en los tres “tratamientos” del factor dieta.
22
ESTADÍSTICA APLICADA CON SPPS
El Análisis de la Varianza para un factor puede hacerse ahora con la secuencia Analizar → Comparar medias → ANOVA de un factor pero preferimos seguir la secuencia (Figura 4.4) Analizar → Modelo lineal general → Univariante por ser este análisis el más simple de Modelo Lineal General
Figura 4.4 La ventana de diálogo que aparece a continuación se completa como se indica
Figura 4.5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
23
en la Figura 4.5. Con el botón Aceptar obtendríamos ahora los siguientes resultados Factores inter-sujetos
N dieta
1
5
2
5
3
5
Pruebas de los efectos inter-sujetos Variable dependiente: peso
Fuente Modelo corregido
Suma de cuadrados tipo III
Media cuadrática
gl
F
Significación
20,133(a)
2
10,067
1,144
,351
16800,267
1
16800,267
1909,121
,000
20,133
2
10,067
1,144
,351
Error
105,600
12
8,800
Total
16926,000
15
Intersección dieta
Total corregida
125,733 14 a R cuadrado = ,160 (R cuadrado corregida = ,020)
de donde destaca el último cuadro que es la tabla de Análisis de la Varianza Ejemplo 8.2-CB ___________________________________________ Después de introducir los datos y de ver con un diagrama de cajas que puede admitirse la hipótesis de homocedasticidad, correríamos un Análisis de la Varianza como antes, obteniendo la tabla final Pruebas de los efectos inter-sujetos Variable dependiente: insulina
Fuente Modelo corregido
Suma de cuadrados tipo III 154,920(a)
Intersección
957,071
estimula
4
Media cuadrática 38,730
F 29,755
Significación ,000
1
957,071
735,281
,000
29,755
,000
gl
154,920
4
38,730
Error
45,557
35
1,302
Total
1157,548
40
Total corregida
200,477 39 a R cuadrado = ,773 (R cuadrado corregida = ,747)
ESTADÍSTICA APLICADA CON SPPS
24
que indica rechazar la hipótesis nula de igualdad de los efectos medios de los cinco estimulantes. Para ejecutar test de comparaciones múltiples elegimos el botón Post hoc y completamos el cuadro de diálogo con varios de estos tests, una vez trasladada la variable en estudio al cuadro de la derecha (Figura 4.6)
Figura 4.6 Los resultados así obtenidos (además de la tabla ANOVA anterior) aparecen a continuación,
Pruebas post hoc estimula Comparaciones múltiples Variable dependiente: insulina Intervalo de confianza al 95%.
DHS de Tukey
(I) estimula 1
2
3
Diferencia entre medias (I-J) -,0263 -2,2800(*)
Error típ. ,57045 ,57045
Significación 1,000 ,003
Límite inferior -1,6663 -3,9201
Límite superior 1,6138 -,6399
4
-4,3900(*)
,57045
,000
-6,0301
-2,7499
5
-4,4363(*)
,57045
,000
-6,0763
-2,7962
1
,0263
,57045
1,000
-1,6138
1,6663
3 4 5
-2,2538(*) -4,3638(*) -4,4100(*)
,57045 ,57045 ,57045
,003 ,000 ,000
-3,8938 -6,0038 -6,0501
-,6137 -2,7237 -2,7699
1
2,2800(*)
,57045
,003
,6399
3,9201
2
2,2538(*)
,57045
,003
,6137
3,8938
4
-2,1100(*)
,57045
,006
-3,7501
-,4699
(J) estimula 2 3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
5 4
5
Scheffe
1
2
3
4
5
25
1 2
-2,1563(*) 4,3900(*) 4,3638(*)
,57045 ,57045 ,57045
3
2,1100(*)
,57045
5
-,0463
,57045
1
4,4363(*)
,57045
2 3 4
4,4100(*) 2,1563(*) ,0463
2 3 4 5
,005 ,000 ,000
-3,7963 2,7499 2,7237
-,5162 6,0301 6,0038
,006
,4699
3,7501
1,000
-1,6863
1,5938
,000
2,7962
6,0763
,57045 ,57045 ,57045
,000 ,005 1,000
2,7699 ,5162 -1,5938
6,0501 3,7963 1,6863
-,0263
,57045
1,000
-1,8805
1,8280
-2,2800(*)
,57045
,009
-4,1342
-,4258
-4,3900(*)
,57045
,000
-6,2442
-2,5358
1 3 4
-4,4363(*) ,0263 -2,2538(*) -4,3638(*)
,57045 ,57045 ,57045 ,57045
,000 1,000 ,010 ,000
-6,2905 -1,8280 -4,1080 -6,2180
-2,5820 1,8805 -,3995 -2,5095
5
-4,4100(*)
,57045
,000
-6,2642
-2,5558
1
2,2800(*)
,57045
,009
,4258
4,1342
2
2,2538(*)
,57045
,010
,3995
4,1080
4 5 1
-2,1100(*) -2,1563(*) 4,3900(*)
,57045 ,57045 ,57045
,018 ,015 ,000
-3,9642 -4,0105 2,5358
-,2558 -,3020 6,2442
2
4,3638(*)
,57045
,000
2,5095
6,2180
3
2,1100(*)
,57045
,018
,2558
3,9642
5
-,0463
,57045
1,000
-1,9005
1,8080
1 2 3
4,4363(*) 4,4100(*) 2,1563(*)
,57045 ,57045 ,57045
,000 ,000 ,015
2,5820 2,5558 ,3020
6,2905 6,2642 4,0105
4
,0463
,57045
1,000
-1,8080
1,9005
Basado en las medias observadas. * La diferencia de medias es significativa al nivel ,05.
Subconjuntos homogéneos insulina Subconjunto estimula 1 DHS de Tukey(a,b)
N 8
1 2,6650
2
8
2,6913
3
8
4
8
5
8
Significación
Scheffe(a,b)
3
4,9450 7,0550 7,1013 1,000
1
8
2,6650
2
8
2,6913
3
8
4
8
5
8
Significación
2
1,000
1,000
4,9450 7,0550 7,1013 1,000
1,000
Se muestran las medias para los grupos en subconjuntos homogéneos.
1,000
26
ESTADÍSTICA APLICADA CON SPPS
Basado en la suma de cuadrados tipo III El término error es la Media cuadrática (Error) = 1,302. a Usa el tamaño muestral de la media armónica = 8,000 b Alfa = ,05.
observándose en la última tabla los mismos grupos de tratamientos homogénenos obtenidos en el texto CB.
4.2. Un Factor: Diseño por Bloques Aleatorizados El estudio del test analizado aquí, puede estudiar en la Sección 8.3 del texto CB. Ejemplo 8.3-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia (Figura 4.7) Analizar → Modelo lineal general → Univariante
Figura 4.7 para completar luego el cuadro de diálogo como se indica en la Figura 4.8
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
27
Figura 4.8 Ahora con el botón Modelo elegimos la opción Personalizado y, pasando las variables a la ventana de la derecha, la opción de Efectos principales, ya que en el diseño por bloques no consideramos la posibilidad de interacción entre las variables. Con los botones Continuar y Aceptar obtenemos los siguientes resultados, Factores inter-sujetos
N Vitamina
Raza
1
4
2
4
3
4
1
3
2
3
3
3
4
3
Pruebas de los efectos inter-sujetos Variable dependiente: Peso
Fuente Modelo corregido
Suma de cuadrados tipo III
Media cuadrática
gl
F
Significación
165,000(a)
5
33,000
3,062
,103
94696,333
1
94696,333
8786,258
,000
Vitamina
84,667
2
42,333
3,928
,081
Raza
80,333
3
26,778
2,485
,158
Error
64,667
6
10,778
Total
94926,000
12
Intersección
28
ESTADÍSTICA APLICADA CON SPPS
Total corregida
229,667 11 a R cuadrado = ,718 (R cuadrado corregida = ,484)
en donde la última tabla es la de Análisis de la Varianza obtenida en CB.
4.3. Dos Factores: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.5 del texto CB. Ejemplo 8.5-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia Analizar → Modelo lineal general → Univariante y completando después la ventana de diálogo como se indica en la Figura 4.9
Figura 4.9
Hay muchas semejanzas con el caso anterior del diseño por bloques pero ahora sí se admite la interacción entre variables, por lo que no hace falta modificar el modelo; ahora lo requerimos completo. Por eso, presionando ya el botón Aceptar, obtenemos los siguientes resultados, en donde la última tabla es la misma de ANOVA obtenida en CB
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
29
Factores inter-sujetos
N Estación
Fármaco
1
12
2
12
3
12
4
12
1
16
2
16
3
16
Pruebas de los efectos inter-sujetos Variable dependiente: Alergia
Fuente Modelo corregido
Suma de cuadrados tipo III
Media cuadrática
gl
F
Significación
10488,167(a)
11
953,470
44,781
,000
93633,333
1
93633,333
4397,652
,000
Estación
4132,167
3
1377,389
64,691
,000
Fármaco
6017,167
2
3008,583
141,303
,000
338,833
6
56,472
2,652
,031
Error
766,500
36
21,292
Total
104888,000
48
11254,667
47
Intersección
Estación * Fármaco
Total corregida
a R cuadrado = ,932 (R cuadrado corregida = ,911)
30
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
31
Capítulo 5
Regresión Lineal y Correlación
5.1. Regresión Lineal Simple El estudio del test analizado aquí, puede estudiar en las Secciones 9.2 y 9.3 del texto CB. Como allí destacábamos, hay dos aspectos de interés: la representación gráfica de los datos y el Análisis de la Regresión Ejemplo 9.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Dispersión mediante la secuencia (Figura 5.1) Gráficos → Interactivos → Diagrama de dispersión
Figura 5.1
ESTADÍSTICA APLICADA CON SPPS
32
La cantidad de oxígeno se pasa a la dependiente y la profundidad a la independiente, obteniéndose el siguiente gráfico en donde puede verse también la correlación entre ambas variables.
Regresión lineal
6,00
cont_oxi
4,00
2,00
1cont_oxi = 8,63 + -0,11 * profund R-cuadrado = 0,80
0,00 20,00
30,00
40,00
50,00
60,00
70,00
profund
La segunda cuestión importante es contrastar, mediante la tabla de Análisis de la Varianza para la Regresión Lineal, si puede admitirse la hipótesis nula de que la variable independiente no es significativa a la hora de predecir a la variable dependiente. Para ello ejecutamos la secuencia Analizar → Regresión → Lineal completando la ventana de diálogo que aparece como se indica en la Figura 5.2, en donde. A demás de indicar cuál es la variable independiente y dependiente, hemos seleccionado el Método Hacia atrás. El resto de las opciones, como la de que nos dé los estimadores o el nivel de significación del test de la F de Snedecor de la tabla de Análisis de la Varianza para la Regresión Lineal, ya vienen dadas por defecto.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
33
Figura 5.2 Los resultados así obtenidos son los siguientes, en donde de nuevo destaca la penúltima tabla ANOVA y las estimaciones de los coeficientes de regresión de la última tabla.
Regresión Variables introducidas/eliminadas(b)
Modelo 1
Variables introducidas profund(a)
Variables eliminadas
Método Introducir
.
a Todas las variables solicitadas introducidas b Variable dependiente: cont_oxi
Resumen del modelo
Modelo 1
R
R cuadrado
R cuadrado corregida
,896(a) ,803 a Variables predictoras: (Constante), profund
,763
Error típ. de la estimación 1,20444
ANOVA(b)
Modelo 1
Suma de cuadrados Regresión Residual Total
Media cuadrática
gl
29,481
1
29,481
7,253
5
1,451
36,734
6
a Variables predictoras: (Constante), profund
F
Sig.
20,322
,006(a)
ESTADÍSTICA APLICADA CON SPPS
34 b Variable dependiente: cont_oxi
Coeficientes(a) Coeficientes estandarizado s
Coeficientes no estandarizados Modelo 1
B
Error típ.
(Constante)
8,631
1,077
profund
-,108
,024
Beta -,896
t
Sig.
8,010
,000
-4,508
,006
a Variable dependiente: cont_oxi
5.2. Regresión Lineal Múltiple El estudio del test analizado aquí, puede estudiar en las Secciones 10.2 y 10.3 del texto CB. Las opciones a ejecutar son las mismas que en la sección anterior, con la diferencia de que debemos incluir más de una variable independiente. Ejemplo 10.1-CB __________________________________________ Después de introducir los datos, ejecutamos Regresión → Lineal completando el cuadro de diálogo como se indica en la Figura 5.3
Figura 5.3 Las tres últimas tablas que así se obtienen,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
35
ANOVA(c)
Modelo 1
2
Media cuadrática 1251,195
440,543
12
36,712
Total
2942,933
14
Regresión
2502,373
1
2502,373
440,561
13
33,889
2942,933
14
Regresión Residual
2
Residual Total
Suma de cuadrados 2502,390
gl
F 34,081
Sig. ,000(a)
73,840
,000(b)
a Variables predictoras: (Constante), X2, X1 b Variables predictoras: (Constante), X2 c Variable dependiente: Y
Coeficientes(a) Coeficientes estandarizado s
Coeficientes no estandarizados Modelo 1
2
B 2,086
Error típ. 6,739
,309
Sig. ,762
X1
,057
2,613
,006
,022
,983
X2
1,050
,326
,916
3,219
,007
(Constante)
1,977 1,057
4,373 ,123
,922
,452 8,593
,659 ,000
(Constante)
X2 a Variable dependiente: Y
Beta
t
Variables excluidas(b) Estadísticos de colinealidad Modelo 2
Beta dentro X1
t
Sig.
,006(a) ,022 a Variables predictoras en el modelo: (Constante), X2 b Variable dependiente: Y
Correlación parcial
,983
,006
Tolerancia ,154
indican considerar a X2 como única covariable independiente significativa y concluir con la recta ajustada Y = 1’977 + 1’057 X2
36
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
37
Capítulo 6
Tablas de Contingencia
6.1. Contraste de homogeneidad de varias muestras El estudio del test analizado aquí, puede estudiar en la Sección 12.3 del texto CB. Ejemplo 12.8-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.1) Datos → Ponderar casos
Figura 6.1
38
ESTADÍSTICA APLICADA CON SPPS
y, en el cuadro de diálogo resultante, ponderamos los datos con la variable frecu (Figura 6.2)
Figura 6.2 Ahora ya podemos realizar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.3) Analizar → Estadísticos descriptivos → Tablas de contingencia
Figura 6.3 Ahora debemos completar el cuadro de diálogo que se abre, teniendo en cuenta cuál variable forma las filas y cuál las columnas. Además, con el botón Estadísticos, le pedimos el Chi-cuadrado de Pearson, que es el utilizado en CB (Figura 6.4)
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
39
Figura 6.4 Por último, en el botón Casillas le podemos pedir no sólo las frecuencias observadas sino las esperadas de cada casilla. (Figura 6.5)
Figura 6.5
Los resultados así obtenidos son los siguientes:
ESTADÍSTICA APLICADA CON SPPS
40
Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N Comunidad * Fumador
300
Perdidos
Porcentaje 100,0%
N 0
Total
Porcentaje ,0%
N 300
Porcentaje 100,0%
Tabla de contingencia Comunidad * Fumador Fumador 1 Comunidad
1
Recuento Frecuencia esperada
2
Recuento Frecuencia esperada
3
Recuento Frecuencia esperada
Total
Recuento Frecuencia esperada
13
2 87
Total 100
16,0
84,0
100,0
17
83
100
16,0
84,0
100,0
18
82
100
16,0
84,0
100,0
48
252
300
48,0
252,0
300,0
Pruebas de chi-cuadrado
Valor Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos
1,042(a) 1,069 ,927
Sig. asintótica (bilateral)
gl 2 2 1
,594 ,586 ,336
300
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 16,00.
destacando la última tabla en la que aparece el valor del estadístico chicuadrado de Pearson, 1’042 y el p-valor del test, 0’594, los mismos valores que en CB.
6.2. Contraste de independencia de caracteres El estudio del test analizado aquí, puede estudiar en la Sección 12.4 del texto CB. El análisis con SPSS es idéntico al de la sección anterior. Ejemplo 12.9-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.6)
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
41
Datos → Ponderar casos
Figura 6.6 ponderándolos en este caso con la variable frecuen. Ahora ya podemos ejecutar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.7) Analizar → Estadísticos descriptivos → Tablas de contingencia
Figura 6.7
ESTADÍSTICA APLICADA CON SPPS
42
sin olvidar completar, como antes, los botones Estadísticos y Celdas. Los resultados así obtenidos son los siguientes:
Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N deterior * depresio
100
Perdidos
Porcentaje 100,0%
N 0
Total
Porcentaje ,0%
N 100
Porcentaje 100,0%
Tabla de contingencia deterior * depresio depresio ,00 deterior
,00
Recuento Frecuencia esperada
1,00
Recuento Frecuencia esperada
Total 31
53
16,4
36,6
53,0
9
38
47
14,6
32,4
47,0
Recuento Frecuencia esperada
Total
1,00 22
31
69
100
31,0
69,0
100,0
Pruebas de chi-cuadrado
Valor Chi-cuadrado de Pearson
Sig. asintótica (bilateral)
gl
5,823(b)
1
,016
Corrección por continuidad(a)
4,824
1
,028
Razón de verosimilitudes
5,975
1
,015
Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos
Sig. exacta (bilateral)
,018 5,764
1
Sig. exacta (unilateral)
,013
,016
100
a Calculado sólo para una tabla de 2x2. b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 14,57.
observando en la última tabla los valores del estadístico de Pearson, 5’823 y el p-valor del test asociado, 0’016, los mismos que los obtenidos en CB.
6.3. Contraste de bondad del ajuste El estudio del test analizado aquí, puede estudiar en la Sección 12.2 del texto CB.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
43
Ejemplo 12.4-CB __________________________________________ Primero incorporamos los datos como aparece en la Figura 6.8
Figura 6.8 y ponderamos los datos de la variable CLASES con la variable FRECU. Ahora ejecutamos la secuencia Analizar -> Pruebas no paramétricas -> chi-cuadrado apareciendo el cuadro de diálogo de la Figura 6.9 que completamos según se indica en ella,
ESTADÍSTICA APLICADA CON SPPS
44
Figura 6.9 Presionado el botón Aceptar se obtiene el valor del estadístico de Pearson, 0’47 como en el texto CB,
Prueba de chi-cuadrado Frecuencias CLASES N observado
N esperado
Residual
1
315
312,8
2,3
2
108
104,3
3,8
3
101
104,3
-3,3
4
32
34,8
-2,8
Total
556
Estadísticos de contraste CLASES Chi-cuadrado Gl Sig. asintót.
,470
a
3 ,925
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
Estadísticos de contraste CLASES Chi-cuadrado Gl Sig. asintót.
,470
a
3 ,925
a. 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 34,8.
45
46
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
47
Capítulo 7
Análisis de Componentes Principales
7.1. Análisis de Componentes Principales El Análisis de Componentes Principales se obtiene ejecutando la secuencia: Analizar → Reducción de datos → Análisis Factorial (Figura 2.1).
Figura 7.1 Una vez incluidas todas las variables a utilizar en el Análisis, incluyéndolas en el cuadro de la derecha con la flecha, es importante comprobar que en Extracción se utilice la opción Componentes Principales y Gráfico de sedimentación (Figura 7.2). Una vez seleccionadas éstas, SPSS se ejecuta con el botón Aceptar que aparece en dicha Figura 7.2.
ESTADÍSTICA APLICADA CON SPPS
48
Ejemplo 2.1-TA ___________________________________________ Si ejecutamos la secuencia anterior con los datos del Ejemplo 2.1 del texto Técnicas Avanzadas, se obtienen los siguientes resultados. En [1] y [2] puede verse la variación explicada por cada componente principal. A continuación aparece lo que SPSS denomina Gráfico de sedimentación y que en TA denominamos Gráfico de desmoronamiento. Por último, en [3] aparecen las Componentes Principales, con coeficientes algo distintos de los que obteníamos en TA pero, por supuesto, con la misma interpretación.
Figura 7.2
A. factorial Comunalidades Inicial
Extracción
X1
1,000
,973
X2
1,000
,747
X3
1,000
,817
X4
1,000
,862
X5
1,000
,945
X6
1,000
,597
X7
1,000
,781
X8
1,000
,969
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
49
Método de extracción: Análisis de Componentes principales. Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción
Autovalores iniciales Total 2,686
% de la varianza 33,577
% acumulado 33,577
Total 2,686
% de la varianza 33,577
% acumulado 33,577
2
1,862
23,275
56,852
1,862
23,275
56,852
3
1,112
13,905
70,757
1,112
13,905
70,757
4
1,030
12,881
83,637
1,030
12,881
83,637
5
,619
7,740
91,377
6
,367
4,591
95,968
7
,277
3,467
99,436
Componente 1
8
,045 ,564 100,000 Método de extracción: Análisis de Componentes principales. [1]
[2]
Gráfico de sedimentación
3,0
2,5
Autovalor
2,0
1,5
1,0
0,5
0,0 1
2
3
4
5
6
Número de componente
7
8
ESTADÍSTICA APLICADA CON SPPS
50
Matriz de componentes(a) Componente 1
2
3
4
X1
,753
,450
,445
-,070
X2
-,704
,363
,093
-,332
X3
-,113
,872
-,176
,118
X4
,064
,764
-,443
,279
X5
,803
,273
,470
-,078
X6
,629
-,159
-,392
,149
X7
-,719
,255
,445
,026
X8
-,222
-,140
,326
,891
Método de extracción: Análisis de componentes principales. a 4 componentes extraídos [3]
Los resultados obtenidos al ejecutar SPSS son ficheros que pueden ser salvados y reutilizados.
7.2. Sintaxis de SPSS Aunque la forma habitual de utilizar SPPS (al menos en una primera aproximación al paquete) es mediante las persianas de la barra de comandos superior, SPSS puede ser utilizado a través de un lenguaje de programación como lo era SAS o BMDP. Este lenguaje SPSS se llama Sintaxis SPSS. Si observamos de nuevo la Figura 7.2, vemos un botón denominado Pegar. Si lo hubiéramos seleccionado, obtendríamos el Programa FACTOR /VARIABLES X1 X2 X3 X4 X5 X6 X7 X8 /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 X8 /PRINT INITIAL EXTRACTION /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .
Este Programa SPSS ejecuta lo mismo que el botón Aceptar de dicha Figura 7.2 y puede ser salvado, modificado y reutilizado, de manera que una forma de ejecutar SPSS reiteradamente sin tener que ir completando las diversas ventanas de diálogo de las persianas SPSS, es utilizar directamente Sintaxis SPSS. Además, esta Sintaxis puede modificarse adecuándola precisamente a aquello en lo que estamos interesados, pudiendo unirse varios Programas en una sola Sintaxis.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
51
Capítulo 8
Análisis de Correspondencias
8.1. Análisis de Correspondencias La explicación detallada de este tipo de análisis aparece en el capítulo 3 del texto TA. Explicaremos su ejecución siguiendo el ejemplo 3.2 de dicho texto. Ejemplo 3.2-TA ___________________________________________ La primera observación que debemos hacer es sobre el manejo de los datos. SPSS requiere que los “valores” de las dos variables sean de tipo numérico pero, por otro lado, éstas tienen un marcado acento de “etiqueta”. Además, como los datos se refieren a tablas de frecuencia, no vamos a introducir los, para este ejemplo, 6851 datos uno a uno.
Figura 8.1
52
ESTADÍSTICA APLICADA CON SPPS
Lo haremos mediante una variable de frecuencia a la que hemos denominado Pondera. De ahí que el Editor de datos para este ejemplo sea el de la Figura 8.1. Pero observemos cómo hemos trabajado la opción de la pestaña Vista de variables en la Figura 8.2, dando nombres a los valores de las variables.
Figura 8.2 Ahora ya tenemos preparados los datos para realizar un Análisis de Correspondencias. Para ello ejecutaremos la secuencia: Analizar → Reducción de datos → Análisis de correspondencias (Figura 8.3).
Figura 8.3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
53
En el análisis hemos utilizado las opciones que aparecen en la Figura 8.4. Resaltamos que debemos codificar las variables que forman la tabla, como se indica en el panel de la izquierda, y que con el botón Modelo obtenemos el cuadro de diálogo de la derecha, en donde se ve que la solución que buscamos es de dos dimensiones y que utilizamos una distancia chi-cuadrado.
Figura 8.4 Con estas opciones obtenemos los siguientes resultados,
Correspondencias
Tabla de correspondencias Bebe Madre jnf jf mnf mf Margen activo
pm
pv
Gcm 24
gcv 4012
Margen activo 4401
50
315
9
40
6
459
514
41
147
14
1594
1796
4
11
1
124
140
104
513
45
6189
6851
[1]
ESTADÍSTICA APLICADA CON SPPS
54
Resumen
Proporción de inercia
Confianza para el Valor
Corre Dimensión 1
Valor propio
Inercia
Chi-cuadrado
Sig.
Explicada
,050
,003
,908
2
,016
,000
3
,004
,000
Total
,003
19,109
,024(a)
Desviación típica
Acumulada ,908
,013
,087
,995
,015
,005
1,000
1,000
1,000
a 9 grados de libertad
[2]
Examen de los puntos de fila(a)
Puntuación en la dimensión
Contribución De los puntos a la inercia de la dimensión
Madre jnf
Masa
1
2
,642
-,165
jf
,075
mnf
,262
mf
,020
Total activo
Inercia
1
2
De la dimensión a la inercia del 1
2
-,015
,001
,347
,009
,997
,003
,190
,418
,000
,054
,840
,400
,599
,313
-,063
,001
,511
,066
,986
,012
,465
-,253
,000
,088
,084
,877
,081
,003
1,000
1,000
1,000
a Normalización Simétrica
Examen de los puntos columna(a)
Puntuación en la dimensión
Contribución De los puntos a la inercia de la dimensión
Bebe pm
Masa
1
2
,015
1,562
pv
,075
gcm
,007 ,903
gcv Total activo
1,000
a Normalización Simétrica
Inercia
1
2
De la dimensión a la inercia del 1
2
-,360
,002
,736
,126
,983
,016
,265
-,008
,000
,105
,000
,960
,000
,899
1,441
,000
,106
,873
,556
,443
-,055
-,004
,000
,054
,001
,994
,001
,003
1,000
1,000
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
55
Puntos de columna y de fila
Simétrica Normalización 1,5
gcm
Bebe Madre
Dimensión 2
1,0
0,5
jf
jnf gcv
0,0
pv mnf mf pm
-0,5 -0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
Dimensión 1 [3] En [1] puede comprobarse que la tabla de doble entrada ha sido bien creada. La inercia acumulada puede verse en [2] . A continuación aparecen las coordenadas suministradas pos SPSS (algo distintas que las obtenidas con el software del curso) y, por último, en [3] , el gráfico, principal objetivo del Análisis, ampliamente comentado en TA.
56
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
57
Capítulo 9
Análisis Discriminante
9.1. Análisis Discriminante El Tratamiento Informático de Análisis Discriminante que ejecuta SPSS es algo distinto que el estudiado en el capítulo 6 de TA.
Figura 9.1 Ejemplo 6.1-TA ___________________________________________ Después de introducir los datos ejecutamos la secuencia que aparece en la Figura 9.1: Analizar → Clasificar → Discriminante
58
ESTADÍSTICA APLICADA CON SPPS
Apareciendo el cuadro de diálogo que aparece en la Figura 9.2, en donde se ha incluido la variable X6 en Variable de agrupación por ser ésta la que determina los dos grupos que componen los datos.
Figura 9.2 Las otras variables, X1, …,X5 se incluyen en la ventana Independientes. Si se quiere obtener la Función Discriminante lineal de Fisher, se debe seleccionar esta opción en el botón Estadísticos (Figura 9.3).
Figura 9.3 Con esta selección obtendríamos los siguientes resultados,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
59
Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos
N Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos
Casos Totales
Estadísticos de grupo
x6 1,0
2,0
Total
N válido (según lista) No ponderados Ponderados x1
17
17,000
x2
17
17,000
x3
17
17,000
x4
17
17,000
x5
17
17,000
x1
15
15,000
x2
15
15,000
x3
15
15,000
x4
15
15,000
x5
15
15,000
x1
32
32,000
x2
32
32,000
x3
32
32,000
x4
32
32,000
x5
32
32,000
32
Porcentaje 100,0
0
,0
0
,0
0
,0
0
,0
32
100,0
ESTADÍSTICA APLICADA CON SPPS
60
Análisis 1 Resumen de las funciones canónicas discriminantes Autovalores
Función 1
Autovalor
% de varianza
Correlación canónica
% acumulado
,930(a) 100,0 100,0 ,694 a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis. Lambda de Wilks Contraste de las funciones 1
Lambda de Wilks ,518
Chi-cuadrado 18,083
gl 5
Sig. ,003
Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 x1
,367
x2
-,578
x3
-,017
x4
,405
x5
,627
Matriz de estructura Función 1 x4
,830
x1
,759
x5
,578
x3
,246
x2
-,048 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. Funciones en los centroides de los grupos Función x6 1,0
1 -,877
2,0
,994
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
61
Estadísticos de clasificación Coeficientes de la función de clasificación x6 1,0
2,0
x1
1,468
1,558
x2
2,361
2,205
x3
2,752
2,747
x4
,775
,952
x5 (Constante)
,195
,372
-514,956
-545,419
Funciones discriminantes lineales de Fisher
[1] Al final de dichos resultados, en [1] , aparecen los coeficientes cuya diferencia son los obtenidos en TA: 1,468-1,558 = -0’09, 2,361-2,205=0’156, 2,752-2,747=0’005, 0,775-0,952=-0’177, 0,195-0,372=-0’177.
62
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
63
Capítulo 10
Análisis de Conglomerados
10.1. Introducción Como sabemos, existen, básicamente, dos métodos de Análisis Cluster: uno es el Análisis Jerárquico y otro el Algoritmo k-medias. Analizaremos estos dos métodos en dos secciones separadas.
10.2. Análisis Jerárquico Con SPSS es posible realizar los cinco métodos de agrupamiento estudiados en TA: Agrupamiento simple, Agrupamiento completo, Agrupamiento promedio, Agrupamiento centroide, y el Método de Ward, así como utilizar las diversas distancias allí estudiadas. También podemos obtener el dendograma.
Figura 10.1
64
ESTADÍSTICA APLICADA CON SPPS
Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos como aparece en la Figura 10.1, ejecutamos la secuencia que también aparece en dicha Figura: Analizar → Clasificar → Conglomerados jerárquicos apareciendo un cuadro de diálogo como el de la Figura 10.2, en donde hemos incluido las dos variables en análisis. También aparecen allí los cuatro botones en donde tendremos que seleccionar nuestras opciones.
Figura 10.2 Para formar los clusters utilizando un Agrupamiento centroide, seleccionamos en el botón Método las tres opciones que aparecen en la Figura 10.3,
Figura 10.3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
65
Agrupación de centroides, Distancia Euclídea y que no estandarice los datos con la opción de Ninguno. Para este ejemplo, no es necesario pinchar en el botón Estadísticos ni en Guardar, puesto que las opciones que vienen por defecto son adecuadas. En el botón Gráficos es necesario indicarle que nos ejecute el Dendograma. Como en situaciones anteriores, salimos de las ventanas con Continuar. Después de nuestras selecciones, como siempre, pinchando en el botón Aceptar, obtenemos los resultados que vienen a continuación,
Conglomerados jerárquicos Advertencia La medida euclídea al cuadrado debería emplearse cuando se solicite el método de conglomeración CENTROID, MEDIAN o WARD.
Resumen del procesamiento de los casos(a,b) Casos Válidos N
Perdidos
Porcentaje
N
5 100,0 a distancia euclídea usada b Vinculación de centroides
Total
Porcentaje 0
N
Porcentaje
,0
5
100,0
Vinculación de centroides Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez
Conglomerado que se combina
Etapa 1
Conglomer ado 1
Conglomer ado 2
Coeficientes
Conglomer ado 1
Conglomer ado 2
Próxima etapa
4
5
10,770
0
0
4
2
1
3
11,180
0
0
3
3
1
2
10,701
2
0
4
4
1
4
62,556
3
1
0
[1]
[3]
ESTADÍSTICA APLICADA CON SPPS
66
Diagrama de témpanos vertical Caso
Número de conglomerados 1
5
4
X
X
X
2
X
X
3
X
X
4
X
X
2 X
3
1
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Dendrograma * * * * * * H I E R A R C H I C A L * * * * *
C L U S T E R
A N A L Y S I S *
Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
4
5
1
3
2
En ellos se observa, en [1] , en la tabla Historial de conglomeración, como en la Etapa 1, se unen los elementos 4 y 5. En el paso segundo, Etapa 2, se unen los elementos 1 y 3. Luego, en la Etapa 3, se une el elemento 2 al elemento 1; mejor dicho, al cluster en el que está el elemento 1, uniéndose finalmente el cluster donde está el elemento 4 (primer cluster formado) al cluster donde está el elemento 1. El Dendograma que aparece en [2] , corresponde a esa aglomeración y en él parece que se unen aal principio los elementos casi a la vez. Lo que ocurre es que las distancias a las que se van uniendo son muy inferiores a la de aglomeración final, como puede verse en [3] .
10.3. Algoritmo k-medias El proceso para realizar el algoritmo k-medias es similar al realizado para ejecutar el análisis jerárquico. Esta vez (Figura 10.4) deberemos ejecutar la secuencia Analizar → Clasificar → Conglomerados de K medias
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
67
Figura 10.4 Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos y ejecutar la secuencia anterior, incluimos las dos variables en análisis (Figura 10.5)
Figura 10.5
68
ESTADÍSTICA APLICADA CON SPPS
Con el botón Guardar seleccionamos las dos opciones que permite (Figura 10.6)
Figura 10.6 Con el botón Opciones seleccionamos las marcadas en la Figura 10.7
Figura 10.7
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
69
Pulsando los botones Continuar y, finalmente, Aceptar, obtenemos los resultados que aparecen a continuación, los cuales, lógicamente, son los mismos que los comentados en TA.
Análisis de conglomerados de K medias Centros iniciales de los conglomerados Conglomerado talla
1 189,00
2 170,00
sueldo
100,00
180,00
Historial de iteraciones(a) Cambio en los centros de los conglomerados Iteración 1
1
2
5,385
8,333
2
,000 ,000 a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es de 82,225.
Centros de los conglomerados finales Conglomerado 1
2
talla
187,00
175,00
sueldo
105,00
173,33
ANOVA
talla sueldo
Conglomerado Media cuadrática gl 172,800 5603,333
1 1
Error Media cuadrática 19,333 55,556
gl 3
F 8,938
Sig. ,058
3
100,860
,002
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.
Número de casos en cada conglomerado
ESTADÍSTICA APLICADA CON SPPS
70
Conglomerad o Válidos Perdidos
1
2,000
2
3,000 5,000 ,000
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
71
Capítulo 11
Análisis de Series Temporales
11.1. Introducción El Análisis de Series Temporales se estudia en el Capítulo 13 de TA y en el 7 de TAEA.
11.2. Identificación del modelo Los gráficos necesarios para identificar el modelo se obtienen ejecutando la secuencia Gráficos → Serie temporal → Autocorrelación Ejemplo 13.1-TA __________________________________________ Ejecutando la secuencia anterior (Figura 11.1)
Figura 11.1
ESTADÍSTICA APLICADA CON SPPS
72
Obtenemos los siguientes resultados en donde se observa que los dos últimos gráficos se corresponden exactamente con las Figuras 13.2 y 13.4 del texto TA, funciones ACF y PACF respectivamente, con la excepción del primer valor que, como allí dijimos, es siempre igual a 1 y que aquí desaparece.
Autocorrelaciones simples MODEL:
MOD_2.
Autocorrelations:
niveles
Auto- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Ljung Prob. 1 ,576 ,140 16,914 ,000 2 ,182 ,138 18,639 ,000 3 -,145 ,137 19,756 ,000 4 -,175 ,135 21,423 ,000 5 -,150 ,134 22,673 ,000 6 -,021 ,132 22,698 ,001 7 -,020 ,131 22,722 ,002 8 -,004 ,129 22,723 ,004 9 -,136 ,127 23,856 ,005 10 -,154 ,126 25,351 ,005 11 -,097 ,124 25,964 ,007 12 ,049 ,122 26,124 ,010 13 ,120 ,121 27,104 ,012 14 ,087 ,119 27,635 ,016 15 ,119 ,117 28,663 ,018 16 ,151 ,115 30,374 ,016 Plot Symbols: Total cases:
.
*****.******
.
**** . . ***
.
. ***
.
. ***
.
.
*
.
.
*
.
.
*
.
. ***
.
. ***
.
.
.
.
*
.
.
**
.
.
**
.
.
**
.
.
*** .
Autocorrelations * 48
**
Box-
Two Standard Error Limits .
Computable first lags:
47
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
Partial Autocorrelations: Lag
73
niveles
Pr-Aut- Stand. Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 *****.******
1
,576
,144
.
2
-,223
,144
. ****
3
-,227
,144
.*****
4
,103
,144
.
5
-,076
,144
.
6
,068
,144
.
*
.
7 8 9 10 11
-,104 ,012 -,188 ,003 ,066
,144 ,144 ,144 ,144 ,144
. ** . * . **** . * . *
. . . . .
12 13 14
,032 ,022 -,093
,144 ,144 ,144
. . .
* * **
. . .
15
,230
,144
.
*****.
16
,044
,144
.
*
Plot Symbols: Total cases:
Autocorrelations * 48
. .
** **
. .
. Two Standard Error Limits .
Computable first lags:
47
ESTADÍSTICA APLICADA CON SPPS
74
niveles
Coeficiente
1,0
Límite superior de confianza Límite inferior de confianza
ACF
0,5
0,0
-0,5
-1,0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
No de retardos
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
75
niveles
Coeficiente
1,0
Límite superior de confianza Límite inferior de confianza
ACF parcial
0,5
0,0
-0,5
-1,0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
No de retardos
11.3. Estimación de parámetros La estimación de los parámetros del modelo ARIMA(p,d,q) seleccionado en la sección anterior se lleva a cabo con la secuencia Analizar → Series temporales → ARIMA Ejemplo 13.1-TA(continuación) ________________________________ Ejecutando la secuencia anterior a los datos del Ejemplo 13.1 del texto, como se indica en la Figura 11.2 aparece la ventana de diálogo de la Figura 11.3 en donde incluimos la variable en estudio como variable Dependiente según se indica en la Figura 11.3, así como los valores del modelo ARIMA a ajustar
76
ESTADÍSTICA APLICADA CON SPPS
Figura 11.2
Figura 11.3 Antes de preceder a ejecutar el Análisis, es conveniente modificar un tanto las Opciones, eligiendo las que aparecen en la Figura 11.4. En concreto, en lo que se refiere al número de iteraciones (aumentándolo), a los niveles de tolerancia (disminuyéndolos) y a la eliminación de los cálculos intermedios, de manera que sólo nos dé las estimaciones finales.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
77
Figura 11.4 Con estas selecciones, pulsando los botones Continuar y luego Aceptar, se obtuvieron los siguientes resultados, en donde pueden verse, en [1] , los valores de las estimaciones obtenidas, las mismas que en TA pero con el signo cambiado la del coeficiente de la Media Móvil. En [2] aparece el valor del logaritmo de la verosimilitud alcanzada y, en [3] , el de la cantidad de información de Akaike.
Arima MODEL:
MOD_1
Split group number: 1 Series length: 48 No missing data. Melard's algorithm will be used for estimation.
Conclusion of estimation phase. Estimation terminated at iteration number 68 because: Sum of squares decreased by less than ,0001 percent. FINAL PARAMETERS: Number of residuals Standard error Log likelihood AIC SBC
48 ,45291761 -28,798731 63,597462 69,211065
[2] [3]
ESTADÍSTICA APLICADA CON SPPS
78
Analysis of Variance:
Residuals
DF
Adj. Sum of Squares
Residual Variance
45
9,3163187
,20513437
Variables in the Model:
AR1 MA1 CONSTANT
B
SEB
T-RATIO
APPROX. PROB.
,4478397 -,2041347 2,4100066
,22299179 ,24527657 ,13973742
2,008324 -,832263 17,246680
,05063335 ,40965538 ,00000000
[1] The following new variables are being created: Name FIT_1 ERR_1 LCL_1 UCL_1 SEP_1
Label Fit for niveles from ARIMA, MOD_1 CON Error for niveles from ARIMA, MOD_1 CON 95% LCL for niveles from ARIMA, MOD_1 CON 95% UCL for niveles from ARIMA, MOD_1 CON SE of fit for niveles from ARIMA, MOD_1 CON
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
79
Capítulo 12
Regresión Logística
12.1. Regresión Logística Este Método Estadístico se estudia en el Capítulo 9 del texto TA y en el 6 de TAEA. Su tratamiento con SPSS se basa en ejecutar la secuencia Analizar → Regresión → Logística binaria Ejemplo 9.1-TA ___________________________________________ Después de introducir los datos, ejecutamos la secuencia anterior, como puede verse en la Figura 12.1
Figura 12.1
ESTADÍSTICA APLICADA CON SPPS
80
Entonces se abre una ventana de diálogo como la de la Figura 12.2 en donde deberemos incluir la variable dependiente (necesariamente dicotómica) en la ventana Dependiente; el resto de las covariables en Covariables, marcando las que sean cualitativas con el botón Categórica.
Figura 12.2 Al correr ahora el programa, presionando el botón Aceptar, se obtienen los siguientes resultados
Regresión logística Resumen del procesamiento de los casos Casos no ponderados(a) Casos seleccionados
N Incluidos en el análisis Casos perdidos Total
Casos no seleccionados Total
50
Porcentaje 100,0
0
,0
50
100,0
0
,0
50
100,0
a Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos.
Codificación de la variable dependiente Valor original ,00 1,00
Valor interno 0 1
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
81
[1]
Codificaciones de variables categóricas Codificación de parámetros activi
presion angina
Frecuencia 9
(1) 1,000
(2) ,000
1,00
12
,000
1,000
,000
2,00
19
,000
,000
1,000
3,00
10
,000
,000
,000
,00
24
1,000
1,00
26
,000
,00
7
1,000
1,00
43
,000
,00
(3) ,000
Bloque 0: Bloque inicial Tabla de clasificación(a,b) Observado
Pronosticado infarto ,00
Paso 0
infarto
Porcentaje correcto
1,00
,00
0
17
,0
1,00
0
33
100,0
Porcentaje global
66,0
a En el modelo se incluye una constante. b El valor de corte es ,500
Variables en la ecuación B Paso 0
Constante
E.T. ,299
,663
Wald 4,936
gl 1
Sig. ,026
Exp(B) 1,941
Variables que no están en la ecuación
Paso 0
Variables
3
Sig. ,398
activi(1)
2,273
1
,132
activi(2)
,570
1
,450
activi(3)
,806
1
,369
angina(1)
1,410
1
,235
presion(1)
3,566
1
,059
,230
1
,632
7,395
6
,286
Activi
Edad Estadísticos globales
Puntuación 2,957
Bloque 1: Método = Por pasos hacia atrás (Wald)
gl
ESTADÍSTICA APLICADA CON SPPS
82
Pruebas omnibus sobre los coeficientes del modelo Chi-cuadrado Paso 1
Paso 2(a) Paso 3(a) Paso 4(a)
gl
Sig.
Paso
8,441
6
,208
Bloque
8,441
6
,208
Modelo
8,441
6
,208
-2,171
3
,538
Bloque
6,270
3
,099
Modelo
6,270
3
,099
Paso
-,707
1
,400
Bloque
5,563
2
,062
Modelo
5,563
2
,062
Paso
Paso
-1,912
1
,167
Bloque
3,650
1
,056
Modelo
3,650
1
,056
a Un valor de chi-cuadrado negativo indica que ha disminuido el valor de chi-cuadrado con respecto al paso anterior.
Resumen de los modelos
-2 log de la verosimilitud 55,662(a)
R cuadrado de Cox y Snell ,155
R cuadrado de Nagelkerke ,215
2
57,834(a)
,118
,163
3
58,541(a)
,105
,146
Paso 1
4
60,453(b) ,070 ,097 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de ,001. b La estimación ha finalizado en el número de iteración 4 porque las estimaciones de los parámetros han cambiado en menos de ,001. Tabla de clasificación(a) Observado
Pronosticado infarto ,00
Paso 1
infarto
Porcentaje correcto
1,00
,00
5
12
29,4
1,00
1
32
97,0
Porcentaje global Paso 2
infarto
74,0 ,00
7
10
41,2
1,00
4
29
87,9
Porcentaje global Paso 3
infarto
72,0 ,00
12
5
70,6
1,00
10
23
69,7
,00
0
17
,0
1,00
0
33
100,0
Porcentaje global Paso 4
infarto Porcentaje global
a El valor de corte es ,500
70,0
66,0
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
83
Variables en la ecuación B Paso 1(a)
gl 3
Sig. ,559
Exp(B)
-1,221
1,127
1,174
1
,279
,295
activi(2)
,017
1,036
,000
1
,987
1,017
activi(3)
,088
,919
,009
1
,924
1,092
2,111
1,408
2,248
1
,134
8,260
1,178
,703
2,812
1
,094
3,249
-,038
,039
,978
1
,323
,962
2,083
2,223
,877
1
,349
8,026
1,633
1,204
1,840
1
,175
5,120
1,328
,671
3,916
1
,048
3,773
-,030
,036
,691
1
,406
,971
1,429
1,808
,625
1
,429
4,174
1
,218
4,148
1
,054
3,500
1
,931
,964
1
,064
3,257
1
,695
1,167
presion(1 ) edad
Paso 3(a)
Wald 2,063
activi(1)
angina(1)
Paso 2(a)
E.T.
activi
Constant e angina(1) presion(1 ) edad Constant e angina(1)
1,423 1,154 1,520 presion(1 1,253 ,651 3,699 ) Constant -,036 ,421 ,007 e Paso presion(1 1,181 ,638 3,423 4(a) ) Constant ,154 ,393 ,154 e a Variable(s) introducida(s) en el paso 1: activi, angina, presion, edad. Variables que no están en la ecuación Puntuación Paso 2(a)
Variables
2,187
3
,534
2,171
1
,141
activi(2)
,099
1
,753
,462
1
,497
Estadísticos globales
2,187
3
,534
Variables
Activi
1,894
3
,595
activi(1)
1,744
1
,187
activi(2)
,177
1
,674
activi(3)
,512
1
,474
Edad
,706
1
,401
2,816
4
,589
Activi
1,567
3
,667
activi(1)
1,163
1
,281
activi(2)
,153
1
,696
activi(3)
,631
1
,427
1,699
1
,192
,281
1
,596
4,107
5
,534
Estadísticos globales Paso 4(c)
Sig.
activi(1) activi(3) Paso 3(b)
gl
Activi
Variables
angina(1) Edad Estadísticos globales a Variable(s) eliminada(s) en el paso 2: activi.
ESTADÍSTICA APLICADA CON SPPS
84 b Variable(s) eliminada(s) en el paso 3: edad. c Variable(s) eliminada(s) en el paso 4: angina.
[2]
Es muy interesante la codificación que realiza SPSS, la cual hemos marcado más arriba con [1], que indica cuál será el modelo finalmente ajustado, la cual aparentemente lleva a ajustes de modelos distintos a los obtenidos con BMDP ó SAS. En la última tabla hemos marcado con [2] el lugar en el que podemos observar que la única covariable de las 4 con lo que nos quedamos será la que no aparece allí, es decir, Presión. Volviendo a correr el programa ahora sólo con Presión obtendríamos el modelo final que se ajusta, log (p/(1-p)) = 0’154 + 1’181 Presión en donde apuntamos de nuevo la diferencia de codificaciones en las variables para explicar la aparente diferencia con los resultados de otros paquetes estadísticos.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
85
Capítulo 13
Regresión Poisson
13.1. Regresión Poisson El estudio de este tipo de modelos puede seguirse en el Capítulo 10 del texto TA y en el 6 de TAEA. Su ejecución con SPSS consiste en la secuencia Analizar → Loglineal → General Ejemplo 10.1-TA __________________________________________ Después de introducir los datos y ejecutar la secuencia anterior, Figura 13.1,
Figura 13.1
86
ESTADÍSTICA APLICADA CON SPPS
En la ventana que se abra después de hacer dicha selección deberemos incluir (Figura 13.2) la variable dependiente (es decir, la Tasa) en la ventana Estructura de las casillas y las covariables cualitativas, Edad y Sexo, en Factores.
. Figura 13.2 A continuación, en el botón Modelo, elegimos la opción Personalizado y completamos la ventana de la derecha desplazando las dos covariables como Efectos principales (Figura 13.3).
Figura 13.3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
87
Después de aceptar esas selecciones con el botón Continuar, volvemos a la ventana de diálogo anterior, en donde elegimos las Opciones que aparecen en la Figura 13.4.
Figura 13.4 Una vez aceptadas éstas con el botón Continuar y ejecutando todas las selecciones con el botón Aceptar de la ventana de diálogo principal, obtenemos los resultados que aparecen a continuación,
Loglineal general Información sobre los datos N Casos
Válidos
6
Perdidos
0
Casillas
Válidos ponderados Casillas definidas
Categorías
Ceros estructurales Ceros de muestreo edad
6 6 0 0 3
sexo
2
Información sobre la convergencia(a,b) Número máximo de iteraciones Tolerancia de convergencia
20 ,00100
ESTADÍSTICA APLICADA CON SPPS
88 Máxima diferencia absoluta final
,00013(c)
Máxima diferencia relativa final
,00078
Número de iteraciones
3
a Modelo: Poisson b Diseño: Constante + edad + sexo c La iteración ha convergido ya que el máximo de cambios absolutos de las estimaciones de los parámetros es inferior al criterio de convergencia especificado. Contrastes de bondad de ajuste(a,b)
Razón de verosimilitudes
Valor ,004
Chi-cuadrado de Pearson
,004
gl 2
Sig. ,998
2
,998
[3]
a Modelo: Poisson b Diseño: Constante + edad + sexo
Residuos y recuentos de casillas(a,b) Observado edad 1,00 2,00 3,00
Esperado
sexo ,00
Recuento 1
% 16,7%
Recuento ,976
% 16,3%
Residual ,024
Residuo tipificado ,024
Residuo corregido ,041
1,00
1
16,7%
1,024
17,1%
-,024
-,023
-,041
-,023
,00
1
16,7%
1,038
17,3%
-,038
-,037
-,066
-,038
1,00
1
16,7%
,962
16,0%
,038
,039
,066
,039
,00
1
16,7%
,985
16,4%
,015
,015
,025
,015
16,7%
1,015
16,9%
-,015
-,014
-,025
-,014
1,00
1 a Modelo: Poisson b Diseño: Constante + edad + sexo
Estimaciones de los parámetros(b,c) Intervalo de confianza al 95% Parámetro Constante
Estimación
Error típico
Z
Sig.
Límite superior
Límite inferior
2,540
,814
3,122
,002
,946
4,135
[edad = 1,00]
-,328
1,000
-,328
,743
-2,288
1,632
[edad = 2,00]
-,171
1,000
-,171
,864
-2,131
1,789
[edad = 3,00]
0(a)
.
.
.
.
.
[sexo = ,00]
-,029
,817
-,036
,972
-1,630
1,572
[sexo = 1,00]
0(a)
.
.
.
.
.
[1]
[2]
a Este parámetro se ha definido como cero ya que es redundante. b Modelo: Poisson c Diseño: Constante + edad + sexo Correlaciones de las estimaciones de los parámetros(a,b,c) Constante
[edad = 1,00]
[edad = 2,00]
[sexo = ,00]
Desviación ,024
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
Constante [edad = 1,00] [edad = 2,00]
1
89
-,616
-,604
-,616
1
,500
,004
-,604
,500
1
-,022
-,022
1
[sexo = ,00]
-,495 ,004 a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.
-,495
Covarianzas de las estimaciones de los parámetros(a,b,c) Constante ,662
[edad = 1,00] -,501
[edad = 1,00]
-,501
1,000
,500
,003
[edad = 2,00]
-,491
,500
1,000
-,018
[sexo = ,00]
-,329
,003
-,018
,667
Constante
[edad = 2,00] -,491
[sexo = ,00] -,329
a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.
Residuos corregidos
Frecuencias ...
Frecuencias ...
Modelo de Poisson
Frecuencias ...
Frecuencias ...
Residuos corregidos
ESTADÍSTICA APLICADA CON SPPS
90
Gráfico Q-Q normal de residuos corregidos
1,5
Valor normal esperado
1,0
0,5
0,0
-0,5
-1,0
-1,5 -0,075
-0,050
-0,025
0,000
0,025
0,050
0,075
Residuos corregidos
Gráfico Q-Q normal de residuos corregidos
0,3
Desviación de normal
0,2
0,1
0,0
-0,1
-0,2
-0,3 -0,075
-0,050
-0,025
0,000
0,025
0,050
0,075
Residuos corregidos
En la mencionada salida se observa, marcado con [1] , la codificación que da SPSS a los parámetros del modelo, haciendo iguales a cero [Edad=3] y [Sexo=1] ya que de las covariables cualitativas hay que construir el Modelo con tantas variables indicadoras como clases tengan las covariables cualitativas menos una. En [2] aparecen las estimaciones obtenidas, las cuales proporcionan el Modelo log Tasa = 2'540 - 0'328 [Edad=1] -0'171 [Edad=2] -0'029 [Sexo=0] Esto hace que para un Hombre ([Sexo=0]) de 50 a 70 años ([Edad=2]) se obtenga una predicción en su tasa de supervivencia igual a log Tasa} = 2'540 - 0'328 * 0 - 0'171 * 1 - 0'029 * 1 = 2'34.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
91
Observemos que en TA obtuvimos, en esta misma situación, prácticamente el mismo valor pero con signo menos; la razón es que SPSS ajusta un modelo de la forma ∑ β Xi en donde la variable dependiente que supuestamente sigue la distribución de Poisson (habitualmente una tasa de fallo) es de la forma r = exp{- ∑ β Xi
}
Por tanto, deberemos cambiar el signo de la tasas ajustadas con SPSS, quedando, en este caso igual a -2'34, como en TA. Por último, en [3], observamos el contraste del modelo ajustado que claramente puede admitirse.
92
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
93
Capítulo 14
Análisis de Supervivencia sin covariables
14.1. Introducción Para realizar cualquier análisis, primero debemos incluir los datos en el Editor de Datos de la forma habitual Ejemplo 2.1. Cuadernos de Estadística Aplicad: Área de la Salud (ratas.sav) Primero incorporamos los datos utilizando tres variables: los Días, que es la variable en observación, el Grupo, 1 ó 2, y el Estatus, de valores, 2 para los individuos no censurados y el 1 para los censurados, como puede apreciarse en la Figura 14.1.
Figura 14.1
ESTADÍSTICA APLICADA CON SPPS
94
14.2. Tablas de Mortalidad Para obtener las Tablas de Mortalidad, que no son más que las distribuciones de frecuencias de las observaciones, ejecutamos la secuencia (Figura 14.2) Analizar → Supervivencia → Tablas de mortalidad
Figura 14.2 con lo que nos aparecerá el cuadro de diálogo de la Figura 14.3, que hemos completado incluyendo en Hora, la variable en observación Días. En Intervalos de Tiempo elegimos el extremo superior, 400, y pedimos que los intervalos tengan amplitud 5
Figura 14.3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
95
En Estado le indicamos cuál es la variable que nos indica si el datos es censurado o no y le señalamos el valor de las que queremos obtener las distribuciones de frecuencias. En el botón Opciones elegimos las dadas por la Figura 14.4 para obtener todas las gráficas y el test de comparación de ambas poblaciones
Figura 14.4 Finalmente, con el botón Aceptar, obtenemos los siguientes resultados
Variable de supervivencia: Tiempos
Tabla de mortalidad
Momento de inicio del Controles de primer orden
intervalo
Grupo
0
1
Número que
Número que
Número
Número de
entra en el
sale en el
expuesto a
eventos
Proporción que
intervalo
intervalo
riesgo
terminales
termina
19
0
19,000
0
Proporci
sobre ,00
ESTADÍSTICA APLICADA CON SPPS
96
2
30
19
0
19,000
0
,00
60
19
0
19,000
0
,00
90
19
0
19,000
0
,00
120
19
0
19,000
1
,05
150
18
0
18,000
1
,06
180
17
0
17,000
6
,35
210
11
1
10,500
6
,57
240
4
1
3,500
2
,57
270
1
0
1,000
0
,00
300
1
0
1,000
1
1,00
0
21
0
21,000
0
,00
30
21
0
21,000
0
,00
60
21
0
21,000
0
,00
90
21
0
21,000
0
,00
120
21
0
21,000
1
,05
150
20
0
20,000
2
,10
180
18
1
17,500
2
,11
210
15
0
15,000
7
,47
240
8
0
8,000
2
,25
270
6
0
6,000
4
,67
300
2
0
2,000
1
,50
330
1
1
,500
0
,00
Mediana del tiempo de supervivencia Controles de primer orden Grupo
Tiempo med. 1
217,159
2
231,947
Control de primer orden: Grupo
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
97
98
ESTADÍSTICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
99
Comparaciones para la variable de control: Grupo
Comparaciones globales
a
Estadístico de Wilcoxon (Gehan)
gl 2,571
Sig. 1
,109
a. Las comparaciones son exactas.
14.3. Estimador de Kaplan-Meier y Comparación de Curvas de Supervivencia El otro método utilizado para estimar la distribución de la variable Tiempo de Fallo es el estimador de Kaplan-Meier. Si queremos determinar estos estimadores en las poblaciones en las que se han dividido las observaciones y, además, comparar éstas, ejecutamos la secuencia (Figura 1.5) Analizar → Supervivencia → Kaplan-Meier
Figura 14.5 con lo que aparece el cuadro de diálogo de la Figura 14.6, en el que hemos
100
ESTADÍSTICA APLICADA CON SPPS
Figura 14.6 incorporado en la ventana Horas la variable en observación Días; en la ventana Estado hemos incluido la variable que nos indica si el dato es censurado o no, es decir, la variable Estatus, indicando que es 2 el valor de ésta que nos proporciona los Datos no censurados. Finalmente, en la ventana Factor, hemos incorporado la variable que forma los grupos a comparar. Con el botón Comparar Factores indicamos los estadísticos a utilizar en la comparación de los dos grupos. Hemos elegido los tres posibles (Figura 14.7).
Figura 14.7 Después de elegir el botón Continuar, en el botón Opciones, le marcamos sólo la opción de los Gráficos de Supervivencia (Figura 14.8).
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
101
Figura 14.8 Ahora, presionando los botones Continuar, Aceptar, obtenemos los siguientes resultados:
Resumen del procesamiento de los casos Censurado Grupo
Nº total
Nº de eventos
Nº
Porcentaje
1
19
17
2
10,5%
2
21
19
2
9,5%
Global
40
36
4
10,0%
Comparaciones globales Chi-cuadrado
Gl
Sig.
Log Rank (Mantel-Cox)
3,123
1
,077
Breslow (Generalized Wilcoxon)
2,651
1
,103
Tarone-Ware
2,977
1
,084
Prueba de igualdad de distribuciones de supervivencia para diferentes niveles de Grupo.
102
ESTADÍSTICA APLICADA CON SPPS
en donde se observa primero un resumen de los datos, a continuación los tres tests de comparación de las dos poblaciones, siendo los dos primeros tests los considerados en el texto de teoría, indicando una aceptación de la igualdad de ambas poblaciones. Finalmente aparece el gráfico de las dos curvas de supervivencia de Kaplan-Meier.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
103
Capítulo 15
Análisis de Supervivencia con covariables
15.1. Introducción Para realizar cualquier análisis, primero debemos incluir los datos en el Editor de Datos de la forma habitual. Ejemplo 2.2. Cuadernos de Estadística Aplicad: Área de la Salud (globulos.sav) Primero incorporamos los datos como puede apreciarse en la Figura 15.1.
Figura 15.1
ESTADÍSTICA APLICADA CON SPPS
104
Si queremos realizar una Regresión de Cox ejecutaremos la secuencia Analizar -> Supervivencia -> Regresión de Cox Como puede verse en la Figura 15.2
Figura 15.2 Completamos en cuadro de diálogo como se indica en la Figura 15.3
Figura 15.3
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
105
Si alguna de las covariables fuera categórica habría que indicárselo. Presionando el botón Aceptar se obtendrían los siguientes resultados,
Regresión de Cox Notas Resultados creados
27-abr-2011 20:21:47
Comentarios Entrada
Datos
G:\charlas\globulos.sav
Conjunto de datos activo
Conjunto_de_datos1
Filtro
Peso
Segmentar archivo
Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos
Definición de perdidos
33 Los valores perdidos definidos por el usuario se consideran perdidos.
Sintaxis
COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) globulos /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).
Recursos
Tiempo de procesador
00 00:00:00,016
Tiempo transcurrido
00 00:00:00,015
[Conjunto_de_datos1] G:\charlas\globulos.sav
Resumen del proceso de casos N Casos disponibles en el análisis
Eventoa
33
100,0%
0
,0%
33
100,0%
Casos con valores perdidos
0
,0%
Casos con tiempo negativo
0
,0%
Casos censurados antes del evento
0
,0%
0
,0%
33
100,0%
Censurado Total Casos excluidos
Porcentaje
más temprano en un estrato Total Total
ESTADÍSTICA APLICADA CON SPPS
106
Resumen del proceso de casos N Eventoa
Casos disponibles en el análisis
33
100,0%
0
,0%
33
100,0%
Casos con valores perdidos
0
,0%
Casos con tiempo negativo
0
,0%
Casos censurados antes del evento
0
,0%
0
,0%
33
100,0%
Censurado Total Casos excluidos
Porcentaje
más temprano en un estrato Total Total a. Variable dependiente: Tiempos
Estado del estratoa Estrato
Evento
Censurado
Porcentaje censurado
1
17
0
,0%
2
16
0
,0%
Total
33
0
,0%
a. La variable de estratos es: Poblacion
Bloque 0: Bloque inicial
Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129,705
Bloque 1: Método = Por pasos hacia atrás (Wald)
Pruebas omnibus sobre los coeficientes del modeloc -2 log de la Paso
verosimilitud
a
127,593
b
129,705
1 2
Global (puntuación) Chi-cuadrado 2,338
gl
Cambio desde el paso anterior Sig.
1
Chi-cuadrado ,126
gl
Cambio desd Sig.
Chi-cuadrado
2,112
1
,146
2,112
2,112
1
,146
,000
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
107
Pruebas omnibus sobre los coeficientes del modelo Global (puntuación)
-2 log de la Paso
verosimilitud
1a
127,593
b
129,705
2
Chi-cuadrado
gl
2,338
c
Cambio desde el paso anterior Sig.
1
Chi-cuadrado ,126
gl
Cambio desd Sig.
Chi-cuadrado
2,112
1
,146
2,112
2,112
1
,146
,000
a. Variables introducidas en el paso número 1: globulos b. Variable eliminada en el paso número 2: globulos c. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)
Variables en la ecuación B Paso 1
globulos
ET ,008
Wald ,005
gl
2,275
Sig. 1
Exp(B) ,132
1,008
Variables que no están en la ecuacióna Puntuación Paso 2
globulos
2,338
gl
Sig. 1
,126
a. Chi-cuadrado residual = 2,338 con 1 gl Sig. = ,126
Medias de las covariables Media globulos
29,165
Destacamos el contraste sobre la significación de la covariable glóbulos que indica que no es significativa para explicar a la variable tiempo de fallo, al ser el p-valor del test, 0’126. No obstante, si consideramos la variable log(glóbulos) veamos lo que pasa. Primero la creamos con la secuencia Transformar -> Calcular variable como indicamos en la Figura 15.4, presionando el botón Aceptar
108
ESTADÍSTICA APLICADA CON SPPS
Figura 15.4 con lo que la matriz de datos es la de la Figura 15.5
Figura 15.5 Ahora repetimos el proceso anterior analizando si la nueva variable es significativa para explicar la variable Tiempos. Primero completamos el cuadro de diálogo, Figura 15.6,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
109
Figura 15.6 obteniendo ahora los siguientes resultados, en donde se aprecia en el último test que sí es significativa esta nueva covariable. Regresión de Cox Notas Resultados creados
27-abr-2011 20:32:32
Comentarios Entrada
Datos
G:\charlas\globulos.sav
Conjunto de datos activo
Conjunto_de_datos1
Filtro
Peso
Segmentar archivo
Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos
Definición de perdidos
33 Los valores perdidos definidos por el usuario se consideran perdidos.
Sintaxis
COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) logglo /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).
Recursos
Tiempo de procesador
00 00:00:00,016
Tiempo transcurrido
00 00:00:00,014
ESTADÍSTICA APLICADA CON SPPS
110
[Conjunto_de_datos1] G:\charlas\globulos.sav Resumen del proceso de casos N a
Casos disponibles en el análisis
Evento
33
100,0%
0
,0%
33
100,0%
Casos con valores perdidos
0
,0%
Casos con tiempo negativo
0
,0%
Casos censurados antes del evento
0
,0%
0
,0%
33
100,0%
Censurado Total Casos excluidos
Porcentaje
más temprano en un estrato Total Total a. Variable dependiente: Tiempos
Estado del estratoa Estrato
Evento
Censurado
Porcentaje censurado
1
17
0
,0%
2
16
0
,0%
Total
33
0
,0%
a. La variable de estratos es: Poblacion
Bloque 0: Bloque inicial
Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129,705
Bloque 1: Método = Por pasos hacia atrás (Wald)
Pruebas omnibus sobre los coeficientes del modelob -2 log de la Paso a
1
verosimilitud 122,403
Global (puntuación) Chi-cuadrado
Gl
7,424
Cambio desde el paso anterior Sig.
1
a. Variables introducidas en el paso número 1: logglo b. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)
Variables en la ecuación
Chi-cuadrado ,006
7,302
gl
Cambio desd Sig.
1
Chi-cuadrado ,007
7,302
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
B Paso 1
logglo
111
ET ,378
Wald ,142
gl
7,056
Sig. 1
Exp(B) ,008
1,459
Medias de las covariables Media logglo
2,616
Si queremos analizar si hay diferencias entre las dos poblaciones, podríamos utilizar esta variable como covariable y analizar si es significativa cumplimentando el cuadro de diálogo como se indica en la Figura 15.7
Figura 15.7 obteniendo los siguientes resultados, Regresión de Cox Notas Resultados creados
27-abr-2011 20:58:25
Comentarios Entrada
Datos
G:\charlas\globulos.sav
Conjunto de datos activo
Conjunto_de_datos1
Filtro
ESTADÍSTICA APLICADA CON SPPS
112
Peso
Segmentar archivo
Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos
Definición de perdidos
33 Los valores perdidos definidos por el usuario se consideran perdidos.
Sintaxis
COXREG Tiempos /STATUS=estatus(2) /CONTRAST (Poblacion)=Indicator /METHOD=BSTEP(WALD) Poblacion logglo /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).
Recursos
Tiempo de procesador
00 00:00:00,015
Tiempo transcurrido
00 00:00:00,016
[Conjunto_de_datos1] G:\charlas\globulos.sav Resumen del proceso de casos N Casos disponibles en el análisis
a
Evento
33
100,0%
0
,0%
33
100,0%
Casos con valores perdidos
0
,0%
Casos con tiempo negativo
0
,0%
Casos censurados antes del evento
0
,0%
0
,0%
33
100,0%
Censurado Total Casos excluidos
Porcentaje
más temprano en un estrato Total Total a. Variable dependiente: Tiempos
Codificaciones de variables categóricasb Frecuencia Poblaciona
(1)
1
17
1
2
16
0
a. Codificación de parámetros de indicador b. Variable de categoría: Poblacion
Bloque 0: Bloque inicial Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 171,994
Bloque 1: Método = Por pasos hacia atrás (Wald)
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
113
Pruebas omnibus sobre los coeficientes del modelo Global (puntuación)
-2 log de la Paso
verosimilitud
a
1
Chi-cuadrado
157,363
Gl
15,325
b
Cambio desde el paso anterior Sig.
2
Chi-cuadrado ,000
gl
14,631
Cambio desd Sig.
2
Chi-cuadrado ,001
a. Variables introducidas en el paso número 1: Poblacion logglo b. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)
Variables en la ecuación B Paso 1
Poblacion logglo
ET
Wald
gl
Sig.
Exp(B)
-1,018
,423
5,775
1
,016
,361
,360
,136
7,068
1
,008
1,434
Medias de las covariables Media Poblacion Logglo
,515 2,616
Los p-valores 0’016 y 0’008 indican que la población sí es significativa (hay diferencias) y que log(globulos) también influye. Si elegimos la opción del botón de gráficos del cuadro de diálogo de la Figura 15.8, en donde le pedimos la representación de las dos curvas de supervivencia de ambas poblaciones,
14,631
114
ESTADÍSTICA APLICADA CON SPPS
Figura 15.8 vemos gráficamente la diferencia significativa en la Figura 15.9
Figura 15.9