Estadística aplicada con SPSS

August 27, 2017 | Author: Jacobo García | Category: Analysis Of Variance, Spss, Multivariate Statistics, Regression Analysis, Statistical Analysis
Share Embed Donate


Short Description

Descripción: estadística...

Description

ESTADÍSTICA APLICADA CON SPSS

Alfonso García Pérez María Yolanda Cabrero Ortega

2

ESTADÍSTICA APLICADA CON SPPS

Copyright © 2011 Alfonso García Pérez María Yolanda Cabrero Ortega ``No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisión además de las correspondientes indemnizaciones para quien lo plagiara"

Edita: Universidad Nacional de Educación a Distancia

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

3

Contenido

Prólogo………………………………………………………. 5 Capítulo 1: Introducción al SPSS ……………………… 7 Capítulo 2: Estadística Descriptiva ……………………. 11 Capítulo 3: Intervalos y Contrastes básicos .………… 17 Capítulo 4: Análisis de la Varianza ……..………........... 19 Capítulo 5: Regresión Lineal y Correlación ..………… 31 Capítulo 6: Tablas de Contingencia …………............... 37 Capítulo 7: Análisis de Componentes Principales ….. 47 Capítulo 8: Análisis de Correspondencias …..……….. 51 Capítulo 9: Análisis de Discriminante …………............ 57 Capítulo 10: Análisis de Conglomerados………..…….. 63 Capítulo 11: Análisis de Series Temporales….…......... 71 Capítulo 12: Regresión Logística ……..…………….......79 Capítulo 13: Regresión Poisson …....….…………......... 85 Capítulo 14: Anál. Supervivencia sin covariables ……93 Capítulo 15: Anál. Supervivencia con covariables ….103

4

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

5

Prólogo

El presente texto es dedicado al estudio de Paquete estadístico SPSS para el curso Técnicas Actuales de Estadística Aplicada. No obstante, ya adelantamos que no es exhaustivo en cuanto al análisis de todos los Métodos a los que dicho paquete se puede aplicar, ya que la mejor manera de aprenderlo es utilizarlo y, en la mayoría de las ocasiones, los comentarios resultan redundantes ante la sencillez de manejo de este software. Dado que los ejemplos que analizaremos en este texto son los de los libros Estadística Aplicada: Conceptos Básicos, Métodos Avanzados de Estadística Aplicada. Técnicas Avanzadas y Técnicas Actuales de Estadística Aplicada, no repetiremos aquí los enunciados de dichos ejemplos, indicándolos con las abreviaturas CB, TA y TAEA, respectivamente, y el número del ejemplo correspondiente. Por último, le recordamos que puede ver más grandes la reproducciones de la pantalla, es decir, las ventanas, utilizando el zoom de su pdf.

Alfonso García Pérez María Yolanda Cabrero Ortega [email protected]

6

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

7

Capítulo 1

Introducción al SPSS

1.1. Introducción Una de las características más destacadas de SPSS (en especial con respecto a R o SAS) es que no es necesario conocer un lenguaje de programación para utilizarlo (aunque lo tiene). Su exitosa presentación de “Métodos Estadísticos a ejecutar” en forma de persianas, permite comenzar a utilizarlo casi sin conocimientos previos del paquete. Por esta razón, este texto será simple y breve ya que, sin duda, la mejor manera de aprende a manejar SPSS es utilizarlo.

1.2. El editor de datos Lo primero que analizaremos es cómo introducir los datos de nuestro problema, definiendo las variables a analizar con posterioridad. Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1, en el que, si queremos ir tecleando los datos, elegiremos la opción Introducir datos, apareciendo, a continuación el editor de datos en blanco en el que debemos introducir los datos observados en el primer individuo de la primera variable en la primera fila de la primera columna. Para ir viendo cómo funciona el editor de datos, vamos a considerar un ejemplo Ejemplo 1.1 _____________________________________________ Se eligió al azar una muestra de 56 individuos de una población a los que se clasificó según su Edad, su Sexo y según si era o no Fumador, obteniéndose los siguientes datos:

8

ESTADÍSTICA APLICADA CON SPPS

Menores de 20 años Hombre Mujer Sí fuma 11 3 No fuma 1 7 Entre 20 y 50 años Hombre Mujer Sí fuma 1 4 No fuma 2 5 Mayores de 50 años Hombre Mujer Sí fuma 13 1 No fuma 2 6 En determinados modelos, las variables deben ser categóricas; es decir, deben definir categorías en las que clasificar los datos. Nosotros, de momento, utilizaremos datos de tipo numérico. Para ello, lo más simple es ir introduciendo los datos y más tarde, modificar, si es necesario, sus propiedades.

Figura 1.1 Para el ejemplo en cuestión, incluiremos (por este orden) datos de las tres variables: la variable Edad, con tres valores, 1 para los individuos menores de 20 años, 2 para los individuos entre 20 y 50 años y 3 para los individuos mayores de 50 años. Para la variable Sexo, dos valores, 0 para los hombres y 1 para las mujeres. Y, finalmente, la variable Fumador, con dos valores, 0 para los individuos que no fuman y 1 para los que sí fuman. Así, los datos de los individuos de la tabla anterior serán los de la Figura 1.2.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

9

Figura 1.2 Con objeto de introducir el nombre de las variables, pincharemos con el Ratón la pestaña de abajo Vista de variables, apareciendo un panel como el de la Figura 1.3. Pinchando el 1, podremos teclear el nombre de las tres variables así como sus principales características. Volveremos al editor de datos pinchando en la pestaña inferior, Vista de datos.

Figura 1.3 En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos. Si nuestros datos están ya en un archivo, debemos incluirlos en el Editor de datos con la opción: Archivo → Abrir → Datos (Figura 1.4)

10

ESTADÍSTICA APLICADA CON SPPS

Figura 1.4

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

11

Capítulo 2

Estadística Descriptiva 2.1. Distribuciones de Frecuencias, Representaciones Gráficas, Medidas de Posición y Dispersión El estudio de las técnicas estudiadas aquí, puede seguirse en el Capítulo 2 del texto CB. Una de las ventajas de SPSS es que, de una vez, obtenemos la mayoría de los resultados en los que estamos interesados. Ejemplo 2.1-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar → Estadísticos Descriptivos → Frecuencias

Figura 2.1

12

ESTADÍSTICA APLICADA CON SPPS

apareciéndonos una ventana de diálogo como la de la Figura 2.2

Figura 2.2 Ahora, pasamos la variable en estudio, nivel, al cuadro de la derecha, completamos lo estadísticos que queremos calcule en el botón Estadísticos, que en nuestro caso hemos elegido según la Figura 2.3

Figura 2.3 cerrando la ventana con el botón Continuar. Lo mismo hacemos con el botón Gráficos, con el que, en este caso, hemos elegido las opciones que aparecen en la Figura 2.4,

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

13

Figura 2.4 Ya podemos ejecutar nuestras elecciones efectuadas con las anteriores ventanas de diálogo, presionando el botón Aceptar. No obstante, queremos señalar que, todo lo que hemos ido seleccionando, se ha ido traduciendo al lenguaje SPSS dentro de lo que aparece en el botón Pegar, que si lo presionamos aparecerá, en este ejemplo, FREQUENCIES VARIABLES=nivel /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER= ANALYSIS .

Ésta es la denominada Sintaxis SPSS o Lenguaje de Programación SPSS, que podemos salvar, guardar, modificar y ejecutar en lugar de utilizar las persianas que aparecen arriba del Editor de Datos. No obstante, como precisamente éstas son la ventaja de SPSS, no utilizaremos la sintaxis de este paquete sino dichas persianas, pero queremos que el lector tenga presente siempre la existencia subyacente de estos programas. O bien mediante los menús o bien con la sintaxis, para este ejemplo obtendríamos los siguientes resultados:

ESTADÍSTICA APLICADA CON SPPS

14 Estadísticos nivel N

Válidos

34

Perdidos

0

Media

11,3529

Mediana

11,4500

Moda

12,50

Desv. típ.

1,87459

Varianza

3,514

Asimetría

,536

Error típ. de asimetría

,403

Curtosis

,876

Error típ. de curtosis

,788

Rango

8,70

Mínimo

7,80

Máximo

16,50

Percentiles

25

10,0500

50

11,4500

75

12,4000

nivel

Frecuencia Válidos

Porcentaje

Porcentaje válido

Porcentaje acumulado

7,80

1

2,9

2,9

2,9

8,50

1

2,9

2,9

5,9

8,60

1

2,9

2,9

8,8

9,10

1

2,9

2,9

11,8

9,20

1

2,9

2,9

14,7

9,30

1

2,9

2,9

17,6

9,70

1

2,9

2,9

20,6

9,90

1

2,9

2,9

23,5

10,10

1

2,9

2,9

26,5

10,20

1

2,9

2,9

29,4

10,30

1

2,9

2,9

32,4

10,60

1

2,9

2,9

35,3

10,80

1

2,9

2,9

38,2

11,10

2

5,9

5,9

44,1

11,30

1

2,9

2,9

47,1

11,40

1

2,9

2,9

50,0

11,50

1

2,9

2,9

52,9

11,60

1

2,9

2,9

55,9

11,80

1

2,9

2,9

58,8

11,90

1

2,9

2,9

61,8

12,00

1

2,9

2,9

64,7

12,20

1

2,9

2,9

67,6

12,30

2

5,9

5,9

73,5

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

15

12,40

2

5,9

5,9

79,4

12,50

3

8,8

8,8

88,2

12,70

1

2,9

2,9

91,2

14,90

1

2,9

2,9

94,1

15,00

1

2,9

2,9

97,1

16,50

1

2,9

2,9

100,0

Total

34

100,0

100,0

Histograma

8

Frecuencia

6

4

2

Media =11,3529 Desviación típica =1, 87459 N =34

0 8,00

10,00

12,00

14,00

16,00

18,00

nivel

El histograma final se puede editar y cambiar los colores, el título, etc. Con la secuencia Gráficos → Histograma podemos volver a obtener el histograma anterior, pero lo que queremos señalar es que la persiana de Gráficos, permite obtener gráficos de ata calidad sin tener que realizar análisis estadístico alguno.

16

ESTADÍSTICA APLICADA CON SPPS

Figura 2.5

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

17

Capítulo 3

Intervalos y Contrastes básicos

3.1. Intervalos y tests t-Student SPSS calcula, básicamente, intervalos y tests de la t de Student. Aunque en CB resolvimos este ejemplo con un intervalo basado en la normal, lo ejecutaremos a continuación con uno basado en la t de Student. Dado que se consideran 35 observaciones, las diferencias apenas si existe entre ambas metodologías. Ejemplo 6.2-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar → Comparar medias → Prueba T para una muestra

Figura 3.1

ESTADÍSTICA APLICADA CON SPPS

18

A continuación aparece (Figura 3.2) el siguiente cuadro de diálogo en donde hemos trasladado la variable en estudio al cuadro de la derecha. El 0 de la ventana Valor de Prueba es la hipótesis nula a contrastar. Con el botón Opciones podemos solicitar el intervalo de confianza para el coeficiente de confianza deseado.

Figura 3.2 El resultado obtenido es el siguiente: Estadísticos para una muestra

N Actividad

Desviación típ.

Media 35

,75300

,518283

Error típ. de la media ,087606

Prueba para una muestra

Valor de prueba = 0 95% Intervalo de confianza para la diferencia

Actividad

t 8,595

gl 34

Sig. (bilateral) ,000

Diferencia de medias ,753000

Inferior ,57496

Superior ,93104

Al final del segundo cuadro vemos el intervalo de confianza de confianza 0’95.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

19

Capítulo 4

Análisis de la Varianza

4.1. Un Factor: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.2 del texto CB. Ejemplo 8.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Cajas mediante la secuencia (Figura 4.1) Gráficos → Diagramas de Cajas

Figura 4.1 con lo que se abre la ventana de diálogo de la Figura 4.2

20

ESTADÍSTICA APLICADA CON SPPS

Figura 4.2 en la que seleccionamos definir, haciéndolo según la Figura 4.3

Figura 4.3 Ahora, con el botón Aceptar obtenemos los siguientes resultados,

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

21

dieta Resumen del procesamiento de los casos Casos Válidos dieta 1

peso

N

Perdidos

Porcentaje

N

Total

Porcentaje

N

Porcentaje

5

100,0%

0

,0%

5

100,0%

2

5

100,0%

0

,0%

5

100,0%

3

5

100,0%

0

,0%

5

100,0%

peso

peso

36,00

33,00

30,00

1

2

3

dieta

en donde destaca el último gráfico, el Diagrama de Cajas buscado, en donde se puede apreciar que puede aceptarse una dispersión parecida en los tres “tratamientos” del factor dieta.

22

ESTADÍSTICA APLICADA CON SPPS

El Análisis de la Varianza para un factor puede hacerse ahora con la secuencia Analizar → Comparar medias → ANOVA de un factor pero preferimos seguir la secuencia (Figura 4.4) Analizar → Modelo lineal general → Univariante por ser este análisis el más simple de Modelo Lineal General

Figura 4.4 La ventana de diálogo que aparece a continuación se completa como se indica

Figura 4.5

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

23

en la Figura 4.5. Con el botón Aceptar obtendríamos ahora los siguientes resultados Factores inter-sujetos

N dieta

1

5

2

5

3

5

Pruebas de los efectos inter-sujetos Variable dependiente: peso

Fuente Modelo corregido

Suma de cuadrados tipo III

Media cuadrática

gl

F

Significación

20,133(a)

2

10,067

1,144

,351

16800,267

1

16800,267

1909,121

,000

20,133

2

10,067

1,144

,351

Error

105,600

12

8,800

Total

16926,000

15

Intersección dieta

Total corregida

125,733 14 a R cuadrado = ,160 (R cuadrado corregida = ,020)

de donde destaca el último cuadro que es la tabla de Análisis de la Varianza Ejemplo 8.2-CB ___________________________________________ Después de introducir los datos y de ver con un diagrama de cajas que puede admitirse la hipótesis de homocedasticidad, correríamos un Análisis de la Varianza como antes, obteniendo la tabla final Pruebas de los efectos inter-sujetos Variable dependiente: insulina

Fuente Modelo corregido

Suma de cuadrados tipo III 154,920(a)

Intersección

957,071

estimula

4

Media cuadrática 38,730

F 29,755

Significación ,000

1

957,071

735,281

,000

29,755

,000

gl

154,920

4

38,730

Error

45,557

35

1,302

Total

1157,548

40

Total corregida

200,477 39 a R cuadrado = ,773 (R cuadrado corregida = ,747)

ESTADÍSTICA APLICADA CON SPPS

24

que indica rechazar la hipótesis nula de igualdad de los efectos medios de los cinco estimulantes. Para ejecutar test de comparaciones múltiples elegimos el botón Post hoc y completamos el cuadro de diálogo con varios de estos tests, una vez trasladada la variable en estudio al cuadro de la derecha (Figura 4.6)

Figura 4.6 Los resultados así obtenidos (además de la tabla ANOVA anterior) aparecen a continuación,

Pruebas post hoc estimula Comparaciones múltiples Variable dependiente: insulina Intervalo de confianza al 95%.

DHS de Tukey

(I) estimula 1

2

3

Diferencia entre medias (I-J) -,0263 -2,2800(*)

Error típ. ,57045 ,57045

Significación 1,000 ,003

Límite inferior -1,6663 -3,9201

Límite superior 1,6138 -,6399

4

-4,3900(*)

,57045

,000

-6,0301

-2,7499

5

-4,4363(*)

,57045

,000

-6,0763

-2,7962

1

,0263

,57045

1,000

-1,6138

1,6663

3 4 5

-2,2538(*) -4,3638(*) -4,4100(*)

,57045 ,57045 ,57045

,003 ,000 ,000

-3,8938 -6,0038 -6,0501

-,6137 -2,7237 -2,7699

1

2,2800(*)

,57045

,003

,6399

3,9201

2

2,2538(*)

,57045

,003

,6137

3,8938

4

-2,1100(*)

,57045

,006

-3,7501

-,4699

(J) estimula 2 3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

5 4

5

Scheffe

1

2

3

4

5

25

1 2

-2,1563(*) 4,3900(*) 4,3638(*)

,57045 ,57045 ,57045

3

2,1100(*)

,57045

5

-,0463

,57045

1

4,4363(*)

,57045

2 3 4

4,4100(*) 2,1563(*) ,0463

2 3 4 5

,005 ,000 ,000

-3,7963 2,7499 2,7237

-,5162 6,0301 6,0038

,006

,4699

3,7501

1,000

-1,6863

1,5938

,000

2,7962

6,0763

,57045 ,57045 ,57045

,000 ,005 1,000

2,7699 ,5162 -1,5938

6,0501 3,7963 1,6863

-,0263

,57045

1,000

-1,8805

1,8280

-2,2800(*)

,57045

,009

-4,1342

-,4258

-4,3900(*)

,57045

,000

-6,2442

-2,5358

1 3 4

-4,4363(*) ,0263 -2,2538(*) -4,3638(*)

,57045 ,57045 ,57045 ,57045

,000 1,000 ,010 ,000

-6,2905 -1,8280 -4,1080 -6,2180

-2,5820 1,8805 -,3995 -2,5095

5

-4,4100(*)

,57045

,000

-6,2642

-2,5558

1

2,2800(*)

,57045

,009

,4258

4,1342

2

2,2538(*)

,57045

,010

,3995

4,1080

4 5 1

-2,1100(*) -2,1563(*) 4,3900(*)

,57045 ,57045 ,57045

,018 ,015 ,000

-3,9642 -4,0105 2,5358

-,2558 -,3020 6,2442

2

4,3638(*)

,57045

,000

2,5095

6,2180

3

2,1100(*)

,57045

,018

,2558

3,9642

5

-,0463

,57045

1,000

-1,9005

1,8080

1 2 3

4,4363(*) 4,4100(*) 2,1563(*)

,57045 ,57045 ,57045

,000 ,000 ,015

2,5820 2,5558 ,3020

6,2905 6,2642 4,0105

4

,0463

,57045

1,000

-1,8080

1,9005

Basado en las medias observadas. * La diferencia de medias es significativa al nivel ,05.

Subconjuntos homogéneos insulina Subconjunto estimula 1 DHS de Tukey(a,b)

N 8

1 2,6650

2

8

2,6913

3

8

4

8

5

8

Significación

Scheffe(a,b)

3

4,9450 7,0550 7,1013 1,000

1

8

2,6650

2

8

2,6913

3

8

4

8

5

8

Significación

2

1,000

1,000

4,9450 7,0550 7,1013 1,000

1,000

Se muestran las medias para los grupos en subconjuntos homogéneos.

1,000

26

ESTADÍSTICA APLICADA CON SPPS

Basado en la suma de cuadrados tipo III El término error es la Media cuadrática (Error) = 1,302. a Usa el tamaño muestral de la media armónica = 8,000 b Alfa = ,05.

observándose en la última tabla los mismos grupos de tratamientos homogénenos obtenidos en el texto CB.

4.2. Un Factor: Diseño por Bloques Aleatorizados El estudio del test analizado aquí, puede estudiar en la Sección 8.3 del texto CB. Ejemplo 8.3-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia (Figura 4.7) Analizar → Modelo lineal general → Univariante

Figura 4.7 para completar luego el cuadro de diálogo como se indica en la Figura 4.8

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

27

Figura 4.8 Ahora con el botón Modelo elegimos la opción Personalizado y, pasando las variables a la ventana de la derecha, la opción de Efectos principales, ya que en el diseño por bloques no consideramos la posibilidad de interacción entre las variables. Con los botones Continuar y Aceptar obtenemos los siguientes resultados, Factores inter-sujetos

N Vitamina

Raza

1

4

2

4

3

4

1

3

2

3

3

3

4

3

Pruebas de los efectos inter-sujetos Variable dependiente: Peso

Fuente Modelo corregido

Suma de cuadrados tipo III

Media cuadrática

gl

F

Significación

165,000(a)

5

33,000

3,062

,103

94696,333

1

94696,333

8786,258

,000

Vitamina

84,667

2

42,333

3,928

,081

Raza

80,333

3

26,778

2,485

,158

Error

64,667

6

10,778

Total

94926,000

12

Intersección

28

ESTADÍSTICA APLICADA CON SPPS

Total corregida

229,667 11 a R cuadrado = ,718 (R cuadrado corregida = ,484)

en donde la última tabla es la de Análisis de la Varianza obtenida en CB.

4.3. Dos Factores: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.5 del texto CB. Ejemplo 8.5-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia Analizar → Modelo lineal general → Univariante y completando después la ventana de diálogo como se indica en la Figura 4.9

Figura 4.9

Hay muchas semejanzas con el caso anterior del diseño por bloques pero ahora sí se admite la interacción entre variables, por lo que no hace falta modificar el modelo; ahora lo requerimos completo. Por eso, presionando ya el botón Aceptar, obtenemos los siguientes resultados, en donde la última tabla es la misma de ANOVA obtenida en CB

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

29

Factores inter-sujetos

N Estación

Fármaco

1

12

2

12

3

12

4

12

1

16

2

16

3

16

Pruebas de los efectos inter-sujetos Variable dependiente: Alergia

Fuente Modelo corregido

Suma de cuadrados tipo III

Media cuadrática

gl

F

Significación

10488,167(a)

11

953,470

44,781

,000

93633,333

1

93633,333

4397,652

,000

Estación

4132,167

3

1377,389

64,691

,000

Fármaco

6017,167

2

3008,583

141,303

,000

338,833

6

56,472

2,652

,031

Error

766,500

36

21,292

Total

104888,000

48

11254,667

47

Intersección

Estación * Fármaco

Total corregida

a R cuadrado = ,932 (R cuadrado corregida = ,911)

30

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

31

Capítulo 5

Regresión Lineal y Correlación

5.1. Regresión Lineal Simple El estudio del test analizado aquí, puede estudiar en las Secciones 9.2 y 9.3 del texto CB. Como allí destacábamos, hay dos aspectos de interés: la representación gráfica de los datos y el Análisis de la Regresión Ejemplo 9.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Dispersión mediante la secuencia (Figura 5.1) Gráficos → Interactivos → Diagrama de dispersión

Figura 5.1

ESTADÍSTICA APLICADA CON SPPS

32

La cantidad de oxígeno se pasa a la dependiente y la profundidad a la independiente, obteniéndose el siguiente gráfico en donde puede verse también la correlación entre ambas variables.

Regresión lineal  

6,00 



cont_oxi



4,00

2,00 

1cont_oxi = 8,63 + -0,11 * profund R-cuadrado = 0,80 

0,00 20,00

30,00

40,00

50,00

60,00

70,00

profund

La segunda cuestión importante es contrastar, mediante la tabla de Análisis de la Varianza para la Regresión Lineal, si puede admitirse la hipótesis nula de que la variable independiente no es significativa a la hora de predecir a la variable dependiente. Para ello ejecutamos la secuencia Analizar → Regresión → Lineal completando la ventana de diálogo que aparece como se indica en la Figura 5.2, en donde. A demás de indicar cuál es la variable independiente y dependiente, hemos seleccionado el Método Hacia atrás. El resto de las opciones, como la de que nos dé los estimadores o el nivel de significación del test de la F de Snedecor de la tabla de Análisis de la Varianza para la Regresión Lineal, ya vienen dadas por defecto.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

33

Figura 5.2 Los resultados así obtenidos son los siguientes, en donde de nuevo destaca la penúltima tabla ANOVA y las estimaciones de los coeficientes de regresión de la última tabla.

Regresión Variables introducidas/eliminadas(b)

Modelo 1

Variables introducidas profund(a)

Variables eliminadas

Método Introducir

.

a Todas las variables solicitadas introducidas b Variable dependiente: cont_oxi

Resumen del modelo

Modelo 1

R

R cuadrado

R cuadrado corregida

,896(a) ,803 a Variables predictoras: (Constante), profund

,763

Error típ. de la estimación 1,20444

ANOVA(b)

Modelo 1

Suma de cuadrados Regresión Residual Total

Media cuadrática

gl

29,481

1

29,481

7,253

5

1,451

36,734

6

a Variables predictoras: (Constante), profund

F

Sig.

20,322

,006(a)

ESTADÍSTICA APLICADA CON SPPS

34 b Variable dependiente: cont_oxi

Coeficientes(a) Coeficientes estandarizado s

Coeficientes no estandarizados Modelo 1

B

Error típ.

(Constante)

8,631

1,077

profund

-,108

,024

Beta -,896

t

Sig.

8,010

,000

-4,508

,006

a Variable dependiente: cont_oxi

5.2. Regresión Lineal Múltiple El estudio del test analizado aquí, puede estudiar en las Secciones 10.2 y 10.3 del texto CB. Las opciones a ejecutar son las mismas que en la sección anterior, con la diferencia de que debemos incluir más de una variable independiente. Ejemplo 10.1-CB __________________________________________ Después de introducir los datos, ejecutamos Regresión → Lineal completando el cuadro de diálogo como se indica en la Figura 5.3

Figura 5.3 Las tres últimas tablas que así se obtienen,

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

35

ANOVA(c)

Modelo 1

2

Media cuadrática 1251,195

440,543

12

36,712

Total

2942,933

14

Regresión

2502,373

1

2502,373

440,561

13

33,889

2942,933

14

Regresión Residual

2

Residual Total

Suma de cuadrados 2502,390

gl

F 34,081

Sig. ,000(a)

73,840

,000(b)

a Variables predictoras: (Constante), X2, X1 b Variables predictoras: (Constante), X2 c Variable dependiente: Y

Coeficientes(a) Coeficientes estandarizado s

Coeficientes no estandarizados Modelo 1

2

B 2,086

Error típ. 6,739

,309

Sig. ,762

X1

,057

2,613

,006

,022

,983

X2

1,050

,326

,916

3,219

,007

(Constante)

1,977 1,057

4,373 ,123

,922

,452 8,593

,659 ,000

(Constante)

X2 a Variable dependiente: Y

Beta

t

Variables excluidas(b) Estadísticos de colinealidad Modelo 2

Beta dentro X1

t

Sig.

,006(a) ,022 a Variables predictoras en el modelo: (Constante), X2 b Variable dependiente: Y

Correlación parcial

,983

,006

Tolerancia ,154

indican considerar a X2 como única covariable independiente significativa y concluir con la recta ajustada Y = 1’977 + 1’057 X2

36

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

37

Capítulo 6

Tablas de Contingencia

6.1. Contraste de homogeneidad de varias muestras El estudio del test analizado aquí, puede estudiar en la Sección 12.3 del texto CB. Ejemplo 12.8-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.1) Datos → Ponderar casos

Figura 6.1

38

ESTADÍSTICA APLICADA CON SPPS

y, en el cuadro de diálogo resultante, ponderamos los datos con la variable frecu (Figura 6.2)

Figura 6.2 Ahora ya podemos realizar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.3) Analizar → Estadísticos descriptivos → Tablas de contingencia

Figura 6.3 Ahora debemos completar el cuadro de diálogo que se abre, teniendo en cuenta cuál variable forma las filas y cuál las columnas. Además, con el botón Estadísticos, le pedimos el Chi-cuadrado de Pearson, que es el utilizado en CB (Figura 6.4)

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

39

Figura 6.4 Por último, en el botón Casillas le podemos pedir no sólo las frecuencias observadas sino las esperadas de cada casilla. (Figura 6.5)

Figura 6.5

Los resultados así obtenidos son los siguientes:

ESTADÍSTICA APLICADA CON SPPS

40

Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N Comunidad * Fumador

300

Perdidos

Porcentaje 100,0%

N 0

Total

Porcentaje ,0%

N 300

Porcentaje 100,0%

Tabla de contingencia Comunidad * Fumador Fumador 1 Comunidad

1

Recuento Frecuencia esperada

2

Recuento Frecuencia esperada

3

Recuento Frecuencia esperada

Total

Recuento Frecuencia esperada

13

2 87

Total 100

16,0

84,0

100,0

17

83

100

16,0

84,0

100,0

18

82

100

16,0

84,0

100,0

48

252

300

48,0

252,0

300,0

Pruebas de chi-cuadrado

Valor Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos

1,042(a) 1,069 ,927

Sig. asintótica (bilateral)

gl 2 2 1

,594 ,586 ,336

300

a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 16,00.

destacando la última tabla en la que aparece el valor del estadístico chicuadrado de Pearson, 1’042 y el p-valor del test, 0’594, los mismos valores que en CB.

6.2. Contraste de independencia de caracteres El estudio del test analizado aquí, puede estudiar en la Sección 12.4 del texto CB. El análisis con SPSS es idéntico al de la sección anterior. Ejemplo 12.9-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.6)

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

41

Datos → Ponderar casos

Figura 6.6 ponderándolos en este caso con la variable frecuen. Ahora ya podemos ejecutar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.7) Analizar → Estadísticos descriptivos → Tablas de contingencia

Figura 6.7

ESTADÍSTICA APLICADA CON SPPS

42

sin olvidar completar, como antes, los botones Estadísticos y Celdas. Los resultados así obtenidos son los siguientes:

Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N deterior * depresio

100

Perdidos

Porcentaje 100,0%

N 0

Total

Porcentaje ,0%

N 100

Porcentaje 100,0%

Tabla de contingencia deterior * depresio depresio ,00 deterior

,00

Recuento Frecuencia esperada

1,00

Recuento Frecuencia esperada

Total 31

53

16,4

36,6

53,0

9

38

47

14,6

32,4

47,0

Recuento Frecuencia esperada

Total

1,00 22

31

69

100

31,0

69,0

100,0

Pruebas de chi-cuadrado

Valor Chi-cuadrado de Pearson

Sig. asintótica (bilateral)

gl

5,823(b)

1

,016

Corrección por continuidad(a)

4,824

1

,028

Razón de verosimilitudes

5,975

1

,015

Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos

Sig. exacta (bilateral)

,018 5,764

1

Sig. exacta (unilateral)

,013

,016

100

a Calculado sólo para una tabla de 2x2. b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 14,57.

observando en la última tabla los valores del estadístico de Pearson, 5’823 y el p-valor del test asociado, 0’016, los mismos que los obtenidos en CB.

6.3. Contraste de bondad del ajuste El estudio del test analizado aquí, puede estudiar en la Sección 12.2 del texto CB.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

43

Ejemplo 12.4-CB __________________________________________ Primero incorporamos los datos como aparece en la Figura 6.8

Figura 6.8 y ponderamos los datos de la variable CLASES con la variable FRECU. Ahora ejecutamos la secuencia Analizar -> Pruebas no paramétricas -> chi-cuadrado apareciendo el cuadro de diálogo de la Figura 6.9 que completamos según se indica en ella,

ESTADÍSTICA APLICADA CON SPPS

44

Figura 6.9 Presionado el botón Aceptar se obtiene el valor del estadístico de Pearson, 0’47 como en el texto CB,

Prueba de chi-cuadrado Frecuencias CLASES N observado

N esperado

Residual

1

315

312,8

2,3

2

108

104,3

3,8

3

101

104,3

-3,3

4

32

34,8

-2,8

Total

556

Estadísticos de contraste CLASES Chi-cuadrado Gl Sig. asintót.

,470

a

3 ,925

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

Estadísticos de contraste CLASES Chi-cuadrado Gl Sig. asintót.

,470

a

3 ,925

a. 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 34,8.

45

46

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

47

Capítulo 7

Análisis de Componentes Principales

7.1. Análisis de Componentes Principales El Análisis de Componentes Principales se obtiene ejecutando la secuencia: Analizar → Reducción de datos → Análisis Factorial (Figura 2.1).

Figura 7.1 Una vez incluidas todas las variables a utilizar en el Análisis, incluyéndolas en el cuadro de la derecha con la flecha, es importante comprobar que en Extracción se utilice la opción Componentes Principales y Gráfico de sedimentación (Figura 7.2). Una vez seleccionadas éstas, SPSS se ejecuta con el botón Aceptar que aparece en dicha Figura 7.2.

ESTADÍSTICA APLICADA CON SPPS

48

Ejemplo 2.1-TA ___________________________________________ Si ejecutamos la secuencia anterior con los datos del Ejemplo 2.1 del texto Técnicas Avanzadas, se obtienen los siguientes resultados. En [1] y [2] puede verse la variación explicada por cada componente principal. A continuación aparece lo que SPSS denomina Gráfico de sedimentación y que en TA denominamos Gráfico de desmoronamiento. Por último, en [3] aparecen las Componentes Principales, con coeficientes algo distintos de los que obteníamos en TA pero, por supuesto, con la misma interpretación.

Figura 7.2

A. factorial Comunalidades Inicial

Extracción

X1

1,000

,973

X2

1,000

,747

X3

1,000

,817

X4

1,000

,862

X5

1,000

,945

X6

1,000

,597

X7

1,000

,781

X8

1,000

,969

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

49

Método de extracción: Análisis de Componentes principales. Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción

Autovalores iniciales Total 2,686

% de la varianza 33,577

% acumulado 33,577

Total 2,686

% de la varianza 33,577

% acumulado 33,577

2

1,862

23,275

56,852

1,862

23,275

56,852

3

1,112

13,905

70,757

1,112

13,905

70,757

4

1,030

12,881

83,637

1,030

12,881

83,637

5

,619

7,740

91,377

6

,367

4,591

95,968

7

,277

3,467

99,436

Componente 1

8

,045 ,564 100,000 Método de extracción: Análisis de Componentes principales. [1]

[2]

Gráfico de sedimentación

3,0

2,5

Autovalor

2,0

1,5

1,0

0,5

0,0 1

2

3

4

5

6

Número de componente

7

8

ESTADÍSTICA APLICADA CON SPPS

50

Matriz de componentes(a) Componente 1

2

3

4

X1

,753

,450

,445

-,070

X2

-,704

,363

,093

-,332

X3

-,113

,872

-,176

,118

X4

,064

,764

-,443

,279

X5

,803

,273

,470

-,078

X6

,629

-,159

-,392

,149

X7

-,719

,255

,445

,026

X8

-,222

-,140

,326

,891

Método de extracción: Análisis de componentes principales. a 4 componentes extraídos [3]

Los resultados obtenidos al ejecutar SPSS son ficheros que pueden ser salvados y reutilizados.

7.2. Sintaxis de SPSS Aunque la forma habitual de utilizar SPPS (al menos en una primera aproximación al paquete) es mediante las persianas de la barra de comandos superior, SPSS puede ser utilizado a través de un lenguaje de programación como lo era SAS o BMDP. Este lenguaje SPSS se llama Sintaxis SPSS. Si observamos de nuevo la Figura 7.2, vemos un botón denominado Pegar. Si lo hubiéramos seleccionado, obtendríamos el Programa FACTOR /VARIABLES X1 X2 X3 X4 X5 X6 X7 X8 /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 X8 /PRINT INITIAL EXTRACTION /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .

Este Programa SPSS ejecuta lo mismo que el botón Aceptar de dicha Figura 7.2 y puede ser salvado, modificado y reutilizado, de manera que una forma de ejecutar SPSS reiteradamente sin tener que ir completando las diversas ventanas de diálogo de las persianas SPSS, es utilizar directamente Sintaxis SPSS. Además, esta Sintaxis puede modificarse adecuándola precisamente a aquello en lo que estamos interesados, pudiendo unirse varios Programas en una sola Sintaxis.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

51

Capítulo 8

Análisis de Correspondencias

8.1. Análisis de Correspondencias La explicación detallada de este tipo de análisis aparece en el capítulo 3 del texto TA. Explicaremos su ejecución siguiendo el ejemplo 3.2 de dicho texto. Ejemplo 3.2-TA ___________________________________________ La primera observación que debemos hacer es sobre el manejo de los datos. SPSS requiere que los “valores” de las dos variables sean de tipo numérico pero, por otro lado, éstas tienen un marcado acento de “etiqueta”. Además, como los datos se refieren a tablas de frecuencia, no vamos a introducir los, para este ejemplo, 6851 datos uno a uno.

Figura 8.1

52

ESTADÍSTICA APLICADA CON SPPS

Lo haremos mediante una variable de frecuencia a la que hemos denominado Pondera. De ahí que el Editor de datos para este ejemplo sea el de la Figura 8.1. Pero observemos cómo hemos trabajado la opción de la pestaña Vista de variables en la Figura 8.2, dando nombres a los valores de las variables.

Figura 8.2 Ahora ya tenemos preparados los datos para realizar un Análisis de Correspondencias. Para ello ejecutaremos la secuencia: Analizar → Reducción de datos → Análisis de correspondencias (Figura 8.3).

Figura 8.3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

53

En el análisis hemos utilizado las opciones que aparecen en la Figura 8.4. Resaltamos que debemos codificar las variables que forman la tabla, como se indica en el panel de la izquierda, y que con el botón Modelo obtenemos el cuadro de diálogo de la derecha, en donde se ve que la solución que buscamos es de dos dimensiones y que utilizamos una distancia chi-cuadrado.

Figura 8.4 Con estas opciones obtenemos los siguientes resultados,

Correspondencias

Tabla de correspondencias Bebe Madre jnf jf mnf mf Margen activo

pm

pv

Gcm 24

gcv 4012

Margen activo 4401

50

315

9

40

6

459

514

41

147

14

1594

1796

4

11

1

124

140

104

513

45

6189

6851

[1]

ESTADÍSTICA APLICADA CON SPPS

54

Resumen

Proporción de inercia

Confianza para el Valor

Corre Dimensión 1

Valor propio

Inercia

Chi-cuadrado

Sig.

Explicada

,050

,003

,908

2

,016

,000

3

,004

,000

Total

,003

19,109

,024(a)

Desviación típica

Acumulada ,908

,013

,087

,995

,015

,005

1,000

1,000

1,000

a 9 grados de libertad

[2]

Examen de los puntos de fila(a)

Puntuación en la dimensión

Contribución De los puntos a la inercia de la dimensión

Madre jnf

Masa

1

2

,642

-,165

jf

,075

mnf

,262

mf

,020

Total activo

Inercia

1

2

De la dimensión a la inercia del 1

2

-,015

,001

,347

,009

,997

,003

,190

,418

,000

,054

,840

,400

,599

,313

-,063

,001

,511

,066

,986

,012

,465

-,253

,000

,088

,084

,877

,081

,003

1,000

1,000

1,000

a Normalización Simétrica

Examen de los puntos columna(a)

Puntuación en la dimensión

Contribución De los puntos a la inercia de la dimensión

Bebe pm

Masa

1

2

,015

1,562

pv

,075

gcm

,007 ,903

gcv Total activo

1,000

a Normalización Simétrica

Inercia

1

2

De la dimensión a la inercia del 1

2

-,360

,002

,736

,126

,983

,016

,265

-,008

,000

,105

,000

,960

,000

,899

1,441

,000

,106

,873

,556

,443

-,055

-,004

,000

,054

,001

,994

,001

,003

1,000

1,000

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

55

Puntos de columna y de fila

Simétrica Normalización 1,5

gcm

Bebe Madre

Dimensión 2

1,0

0,5

jf

jnf gcv

0,0

pv mnf mf pm

-0,5 -0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

Dimensión 1 [3] En [1] puede comprobarse que la tabla de doble entrada ha sido bien creada. La inercia acumulada puede verse en [2] . A continuación aparecen las coordenadas suministradas pos SPSS (algo distintas que las obtenidas con el software del curso) y, por último, en [3] , el gráfico, principal objetivo del Análisis, ampliamente comentado en TA.

56

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

57

Capítulo 9

Análisis Discriminante

9.1. Análisis Discriminante El Tratamiento Informático de Análisis Discriminante que ejecuta SPSS es algo distinto que el estudiado en el capítulo 6 de TA.

Figura 9.1 Ejemplo 6.1-TA ___________________________________________ Después de introducir los datos ejecutamos la secuencia que aparece en la Figura 9.1: Analizar → Clasificar → Discriminante

58

ESTADÍSTICA APLICADA CON SPPS

Apareciendo el cuadro de diálogo que aparece en la Figura 9.2, en donde se ha incluido la variable X6 en Variable de agrupación por ser ésta la que determina los dos grupos que componen los datos.

Figura 9.2 Las otras variables, X1, …,X5 se incluyen en la ventana Independientes. Si se quiere obtener la Función Discriminante lineal de Fisher, se debe seleccionar esta opción en el botón Estadísticos (Figura 9.3).

Figura 9.3 Con esta selección obtendríamos los siguientes resultados,

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

59

Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos

N Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos

Casos Totales

Estadísticos de grupo

x6 1,0

2,0

Total

N válido (según lista) No ponderados Ponderados x1

17

17,000

x2

17

17,000

x3

17

17,000

x4

17

17,000

x5

17

17,000

x1

15

15,000

x2

15

15,000

x3

15

15,000

x4

15

15,000

x5

15

15,000

x1

32

32,000

x2

32

32,000

x3

32

32,000

x4

32

32,000

x5

32

32,000

32

Porcentaje 100,0

0

,0

0

,0

0

,0

0

,0

32

100,0

ESTADÍSTICA APLICADA CON SPPS

60

Análisis 1 Resumen de las funciones canónicas discriminantes Autovalores

Función 1

Autovalor

% de varianza

Correlación canónica

% acumulado

,930(a) 100,0 100,0 ,694 a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis. Lambda de Wilks Contraste de las funciones 1

Lambda de Wilks ,518

Chi-cuadrado 18,083

gl 5

Sig. ,003

Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 x1

,367

x2

-,578

x3

-,017

x4

,405

x5

,627

Matriz de estructura Función 1 x4

,830

x1

,759

x5

,578

x3

,246

x2

-,048 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. Funciones en los centroides de los grupos Función x6 1,0

1 -,877

2,0

,994

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

61

Estadísticos de clasificación Coeficientes de la función de clasificación x6 1,0

2,0

x1

1,468

1,558

x2

2,361

2,205

x3

2,752

2,747

x4

,775

,952

x5 (Constante)

,195

,372

-514,956

-545,419

Funciones discriminantes lineales de Fisher

[1] Al final de dichos resultados, en [1] , aparecen los coeficientes cuya diferencia son los obtenidos en TA: 1,468-1,558 = -0’09, 2,361-2,205=0’156, 2,752-2,747=0’005, 0,775-0,952=-0’177, 0,195-0,372=-0’177.

62

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

63

Capítulo 10

Análisis de Conglomerados

10.1. Introducción Como sabemos, existen, básicamente, dos métodos de Análisis Cluster: uno es el Análisis Jerárquico y otro el Algoritmo k-medias. Analizaremos estos dos métodos en dos secciones separadas.

10.2. Análisis Jerárquico Con SPSS es posible realizar los cinco métodos de agrupamiento estudiados en TA: Agrupamiento simple, Agrupamiento completo, Agrupamiento promedio, Agrupamiento centroide, y el Método de Ward, así como utilizar las diversas distancias allí estudiadas. También podemos obtener el dendograma.

Figura 10.1

64

ESTADÍSTICA APLICADA CON SPPS

Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos como aparece en la Figura 10.1, ejecutamos la secuencia que también aparece en dicha Figura: Analizar → Clasificar → Conglomerados jerárquicos apareciendo un cuadro de diálogo como el de la Figura 10.2, en donde hemos incluido las dos variables en análisis. También aparecen allí los cuatro botones en donde tendremos que seleccionar nuestras opciones.

Figura 10.2 Para formar los clusters utilizando un Agrupamiento centroide, seleccionamos en el botón Método las tres opciones que aparecen en la Figura 10.3,

Figura 10.3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

65

Agrupación de centroides, Distancia Euclídea y que no estandarice los datos con la opción de Ninguno. Para este ejemplo, no es necesario pinchar en el botón Estadísticos ni en Guardar, puesto que las opciones que vienen por defecto son adecuadas. En el botón Gráficos es necesario indicarle que nos ejecute el Dendograma. Como en situaciones anteriores, salimos de las ventanas con Continuar. Después de nuestras selecciones, como siempre, pinchando en el botón Aceptar, obtenemos los resultados que vienen a continuación,

Conglomerados jerárquicos Advertencia La medida euclídea al cuadrado debería emplearse cuando se solicite el método de conglomeración CENTROID, MEDIAN o WARD.

Resumen del procesamiento de los casos(a,b) Casos Válidos N

Perdidos

Porcentaje

N

5 100,0 a distancia euclídea usada b Vinculación de centroides

Total

Porcentaje 0

N

Porcentaje

,0

5

100,0

Vinculación de centroides Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez

Conglomerado que se combina

Etapa 1

Conglomer ado 1

Conglomer ado 2

Coeficientes

Conglomer ado 1

Conglomer ado 2

Próxima etapa

4

5

10,770

0

0

4

2

1

3

11,180

0

0

3

3

1

2

10,701

2

0

4

4

1

4

62,556

3

1

0

[1]

[3]

ESTADÍSTICA APLICADA CON SPPS

66

Diagrama de témpanos vertical Caso

Número de conglomerados 1

5

4

X

X

X

2

X

X

3

X

X

4

X

X

2 X

3

1

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

Dendrograma * * * * * * H I E R A R C H I C A L * * * * *

C L U S T E R

A N A L Y S I S *

Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

4



5





1





3



2



En ellos se observa, en [1] , en la tabla Historial de conglomeración, como en la Etapa 1, se unen los elementos 4 y 5. En el paso segundo, Etapa 2, se unen los elementos 1 y 3. Luego, en la Etapa 3, se une el elemento 2 al elemento 1; mejor dicho, al cluster en el que está el elemento 1, uniéndose finalmente el cluster donde está el elemento 4 (primer cluster formado) al cluster donde está el elemento 1. El Dendograma que aparece en [2] , corresponde a esa aglomeración y en él parece que se unen aal principio los elementos casi a la vez. Lo que ocurre es que las distancias a las que se van uniendo son muy inferiores a la de aglomeración final, como puede verse en [3] .

10.3. Algoritmo k-medias El proceso para realizar el algoritmo k-medias es similar al realizado para ejecutar el análisis jerárquico. Esta vez (Figura 10.4) deberemos ejecutar la secuencia Analizar → Clasificar → Conglomerados de K medias

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

67

Figura 10.4 Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos y ejecutar la secuencia anterior, incluimos las dos variables en análisis (Figura 10.5)

Figura 10.5

68

ESTADÍSTICA APLICADA CON SPPS

Con el botón Guardar seleccionamos las dos opciones que permite (Figura 10.6)

Figura 10.6 Con el botón Opciones seleccionamos las marcadas en la Figura 10.7

Figura 10.7

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

69

Pulsando los botones Continuar y, finalmente, Aceptar, obtenemos los resultados que aparecen a continuación, los cuales, lógicamente, son los mismos que los comentados en TA.

Análisis de conglomerados de K medias Centros iniciales de los conglomerados Conglomerado talla

1 189,00

2 170,00

sueldo

100,00

180,00

Historial de iteraciones(a) Cambio en los centros de los conglomerados Iteración 1

1

2

5,385

8,333

2

,000 ,000 a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es de 82,225.

Centros de los conglomerados finales Conglomerado 1

2

talla

187,00

175,00

sueldo

105,00

173,33

ANOVA

talla sueldo

Conglomerado Media cuadrática gl 172,800 5603,333

1 1

Error Media cuadrática 19,333 55,556

gl 3

F 8,938

Sig. ,058

3

100,860

,002

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

Número de casos en cada conglomerado

ESTADÍSTICA APLICADA CON SPPS

70

Conglomerad o Válidos Perdidos

1

2,000

2

3,000 5,000 ,000

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

71

Capítulo 11

Análisis de Series Temporales

11.1. Introducción El Análisis de Series Temporales se estudia en el Capítulo 13 de TA y en el 7 de TAEA.

11.2. Identificación del modelo Los gráficos necesarios para identificar el modelo se obtienen ejecutando la secuencia Gráficos → Serie temporal → Autocorrelación Ejemplo 13.1-TA __________________________________________ Ejecutando la secuencia anterior (Figura 11.1)

Figura 11.1

ESTADÍSTICA APLICADA CON SPPS

72

Obtenemos los siguientes resultados en donde se observa que los dos últimos gráficos se corresponden exactamente con las Figuras 13.2 y 13.4 del texto TA, funciones ACF y PACF respectivamente, con la excepción del primer valor que, como allí dijimos, es siempre igual a 1 y que aquí desaparece.

Autocorrelaciones simples MODEL:

MOD_2.

Autocorrelations:

niveles

Auto- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Ljung Prob.  1 ,576 ,140 16,914 ,000 2 ,182 ,138 18,639 ,000 3 -,145 ,137 19,756 ,000 4 -,175 ,135 21,423 ,000 5 -,150 ,134 22,673 ,000 6 -,021 ,132 22,698 ,001 7 -,020 ,131 22,722 ,002 8 -,004 ,129 22,723 ,004 9 -,136 ,127 23,856 ,005 10 -,154 ,126 25,351 ,005 11 -,097 ,124 25,964 ,007 12 ,049 ,122 26,124 ,010 13 ,120 ,121 27,104 ,012 14 ,087 ,119 27,635 ,016 15 ,119 ,117 28,663 ,018 16 ,151 ,115 30,374 ,016 Plot Symbols: Total cases:

.

*****.******

.

**** . . ***

.

. ***

.

. ***

.

.

*

.

.

*

.

.

*

.

. ***

.

. ***

.

.

.

.

*

.

.

**

.

.

**

.

.

**

.

.

*** .

Autocorrelations * 48

**

Box-

Two Standard Error Limits .

Computable first lags:

47

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

Partial Autocorrelations: Lag

73

niveles

Pr-Aut- Stand. Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1  *****.******

1

,576

,144

.

2

-,223

,144

. ****

3

-,227

,144

.*****

4

,103

,144

.

5

-,076

,144

.

6

,068

,144

.

*

.

7 8 9 10 11

-,104 ,012 -,188 ,003 ,066

,144 ,144 ,144 ,144 ,144

. ** . * . **** . * . *

. . . . .

12 13 14

,032 ,022 -,093

,144 ,144 ,144

. . .

* * **

. . .

15

,230

,144

.

*****.

16

,044

,144

.

*

Plot Symbols: Total cases:

Autocorrelations * 48

. .

** **

. .

. Two Standard Error Limits .

Computable first lags:

47

ESTADÍSTICA APLICADA CON SPPS

74

niveles

Coeficiente

1,0

Límite superior de confianza Límite inferior de confianza

ACF

0,5

0,0

-0,5

-1,0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16

No de retardos

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

75

niveles

Coeficiente

1,0

Límite superior de confianza Límite inferior de confianza

ACF parcial

0,5

0,0

-0,5

-1,0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16

No de retardos

11.3. Estimación de parámetros La estimación de los parámetros del modelo ARIMA(p,d,q) seleccionado en la sección anterior se lleva a cabo con la secuencia Analizar → Series temporales → ARIMA Ejemplo 13.1-TA(continuación) ________________________________ Ejecutando la secuencia anterior a los datos del Ejemplo 13.1 del texto, como se indica en la Figura 11.2 aparece la ventana de diálogo de la Figura 11.3 en donde incluimos la variable en estudio como variable Dependiente según se indica en la Figura 11.3, así como los valores del modelo ARIMA a ajustar

76

ESTADÍSTICA APLICADA CON SPPS

Figura 11.2

Figura 11.3 Antes de preceder a ejecutar el Análisis, es conveniente modificar un tanto las Opciones, eligiendo las que aparecen en la Figura 11.4. En concreto, en lo que se refiere al número de iteraciones (aumentándolo), a los niveles de tolerancia (disminuyéndolos) y a la eliminación de los cálculos intermedios, de manera que sólo nos dé las estimaciones finales.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

77

Figura 11.4 Con estas selecciones, pulsando los botones Continuar y luego Aceptar, se obtuvieron los siguientes resultados, en donde pueden verse, en [1] , los valores de las estimaciones obtenidas, las mismas que en TA pero con el signo cambiado la del coeficiente de la Media Móvil. En [2] aparece el valor del logaritmo de la verosimilitud alcanzada y, en [3] , el de la cantidad de información de Akaike.

Arima MODEL:

MOD_1

Split group number: 1 Series length: 48 No missing data. Melard's algorithm will be used for estimation.

Conclusion of estimation phase. Estimation terminated at iteration number 68 because: Sum of squares decreased by less than ,0001 percent. FINAL PARAMETERS: Number of residuals Standard error Log likelihood AIC SBC

48 ,45291761 -28,798731 63,597462 69,211065

[2] [3]

ESTADÍSTICA APLICADA CON SPPS

78

Analysis of Variance:

Residuals

DF

Adj. Sum of Squares

Residual Variance

45

9,3163187

,20513437

Variables in the Model:

AR1 MA1 CONSTANT

B

SEB

T-RATIO

APPROX. PROB.

,4478397 -,2041347 2,4100066

,22299179 ,24527657 ,13973742

2,008324 -,832263 17,246680

,05063335 ,40965538 ,00000000

[1] The following new variables are being created: Name FIT_1 ERR_1 LCL_1 UCL_1 SEP_1

Label Fit for niveles from ARIMA, MOD_1 CON Error for niveles from ARIMA, MOD_1 CON 95% LCL for niveles from ARIMA, MOD_1 CON 95% UCL for niveles from ARIMA, MOD_1 CON SE of fit for niveles from ARIMA, MOD_1 CON

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

79

Capítulo 12

Regresión Logística

12.1. Regresión Logística Este Método Estadístico se estudia en el Capítulo 9 del texto TA y en el 6 de TAEA. Su tratamiento con SPSS se basa en ejecutar la secuencia Analizar → Regresión → Logística binaria Ejemplo 9.1-TA ___________________________________________ Después de introducir los datos, ejecutamos la secuencia anterior, como puede verse en la Figura 12.1

Figura 12.1

ESTADÍSTICA APLICADA CON SPPS

80

Entonces se abre una ventana de diálogo como la de la Figura 12.2 en donde deberemos incluir la variable dependiente (necesariamente dicotómica) en la ventana Dependiente; el resto de las covariables en Covariables, marcando las que sean cualitativas con el botón Categórica.

Figura 12.2 Al correr ahora el programa, presionando el botón Aceptar, se obtienen los siguientes resultados

Regresión logística Resumen del procesamiento de los casos Casos no ponderados(a) Casos seleccionados

N Incluidos en el análisis Casos perdidos Total

Casos no seleccionados Total

50

Porcentaje 100,0

0

,0

50

100,0

0

,0

50

100,0

a Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos.

Codificación de la variable dependiente Valor original ,00 1,00

Valor interno 0 1

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

81

[1]

Codificaciones de variables categóricas Codificación de parámetros activi

presion angina

Frecuencia 9

(1) 1,000

(2) ,000

1,00

12

,000

1,000

,000

2,00

19

,000

,000

1,000

3,00

10

,000

,000

,000

,00

24

1,000

1,00

26

,000

,00

7

1,000

1,00

43

,000

,00

(3) ,000

Bloque 0: Bloque inicial Tabla de clasificación(a,b) Observado

Pronosticado infarto ,00

Paso 0

infarto

Porcentaje correcto

1,00

,00

0

17

,0

1,00

0

33

100,0

Porcentaje global

66,0

a En el modelo se incluye una constante. b El valor de corte es ,500

Variables en la ecuación B Paso 0

Constante

E.T. ,299

,663

Wald 4,936

gl 1

Sig. ,026

Exp(B) 1,941

Variables que no están en la ecuación

Paso 0

Variables

3

Sig. ,398

activi(1)

2,273

1

,132

activi(2)

,570

1

,450

activi(3)

,806

1

,369

angina(1)

1,410

1

,235

presion(1)

3,566

1

,059

,230

1

,632

7,395

6

,286

Activi

Edad Estadísticos globales

Puntuación 2,957

Bloque 1: Método = Por pasos hacia atrás (Wald)

gl

ESTADÍSTICA APLICADA CON SPPS

82

Pruebas omnibus sobre los coeficientes del modelo Chi-cuadrado Paso 1

Paso 2(a) Paso 3(a) Paso 4(a)

gl

Sig.

Paso

8,441

6

,208

Bloque

8,441

6

,208

Modelo

8,441

6

,208

-2,171

3

,538

Bloque

6,270

3

,099

Modelo

6,270

3

,099

Paso

-,707

1

,400

Bloque

5,563

2

,062

Modelo

5,563

2

,062

Paso

Paso

-1,912

1

,167

Bloque

3,650

1

,056

Modelo

3,650

1

,056

a Un valor de chi-cuadrado negativo indica que ha disminuido el valor de chi-cuadrado con respecto al paso anterior.

Resumen de los modelos

-2 log de la verosimilitud 55,662(a)

R cuadrado de Cox y Snell ,155

R cuadrado de Nagelkerke ,215

2

57,834(a)

,118

,163

3

58,541(a)

,105

,146

Paso 1

4

60,453(b) ,070 ,097 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de ,001. b La estimación ha finalizado en el número de iteración 4 porque las estimaciones de los parámetros han cambiado en menos de ,001. Tabla de clasificación(a) Observado

Pronosticado infarto ,00

Paso 1

infarto

Porcentaje correcto

1,00

,00

5

12

29,4

1,00

1

32

97,0

Porcentaje global Paso 2

infarto

74,0 ,00

7

10

41,2

1,00

4

29

87,9

Porcentaje global Paso 3

infarto

72,0 ,00

12

5

70,6

1,00

10

23

69,7

,00

0

17

,0

1,00

0

33

100,0

Porcentaje global Paso 4

infarto Porcentaje global

a El valor de corte es ,500

70,0

66,0

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

83

Variables en la ecuación B Paso 1(a)

gl 3

Sig. ,559

Exp(B)

-1,221

1,127

1,174

1

,279

,295

activi(2)

,017

1,036

,000

1

,987

1,017

activi(3)

,088

,919

,009

1

,924

1,092

2,111

1,408

2,248

1

,134

8,260

1,178

,703

2,812

1

,094

3,249

-,038

,039

,978

1

,323

,962

2,083

2,223

,877

1

,349

8,026

1,633

1,204

1,840

1

,175

5,120

1,328

,671

3,916

1

,048

3,773

-,030

,036

,691

1

,406

,971

1,429

1,808

,625

1

,429

4,174

1

,218

4,148

1

,054

3,500

1

,931

,964

1

,064

3,257

1

,695

1,167

presion(1 ) edad

Paso 3(a)

Wald 2,063

activi(1)

angina(1)

Paso 2(a)

E.T.

activi

Constant e angina(1) presion(1 ) edad Constant e angina(1)

1,423 1,154 1,520 presion(1 1,253 ,651 3,699 ) Constant -,036 ,421 ,007 e Paso presion(1 1,181 ,638 3,423 4(a) ) Constant ,154 ,393 ,154 e a Variable(s) introducida(s) en el paso 1: activi, angina, presion, edad. Variables que no están en la ecuación Puntuación Paso 2(a)

Variables

2,187

3

,534

2,171

1

,141

activi(2)

,099

1

,753

,462

1

,497

Estadísticos globales

2,187

3

,534

Variables

Activi

1,894

3

,595

activi(1)

1,744

1

,187

activi(2)

,177

1

,674

activi(3)

,512

1

,474

Edad

,706

1

,401

2,816

4

,589

Activi

1,567

3

,667

activi(1)

1,163

1

,281

activi(2)

,153

1

,696

activi(3)

,631

1

,427

1,699

1

,192

,281

1

,596

4,107

5

,534

Estadísticos globales Paso 4(c)

Sig.

activi(1) activi(3) Paso 3(b)

gl

Activi

Variables

angina(1) Edad Estadísticos globales a Variable(s) eliminada(s) en el paso 2: activi.

ESTADÍSTICA APLICADA CON SPPS

84 b Variable(s) eliminada(s) en el paso 3: edad. c Variable(s) eliminada(s) en el paso 4: angina.

[2]

Es muy interesante la codificación que realiza SPSS, la cual hemos marcado más arriba con [1], que indica cuál será el modelo finalmente ajustado, la cual aparentemente lleva a ajustes de modelos distintos a los obtenidos con BMDP ó SAS. En la última tabla hemos marcado con [2] el lugar en el que podemos observar que la única covariable de las 4 con lo que nos quedamos será la que no aparece allí, es decir, Presión. Volviendo a correr el programa ahora sólo con Presión obtendríamos el modelo final que se ajusta, log (p/(1-p)) = 0’154 + 1’181 Presión en donde apuntamos de nuevo la diferencia de codificaciones en las variables para explicar la aparente diferencia con los resultados de otros paquetes estadísticos.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

85

Capítulo 13

Regresión Poisson

13.1. Regresión Poisson El estudio de este tipo de modelos puede seguirse en el Capítulo 10 del texto TA y en el 6 de TAEA. Su ejecución con SPSS consiste en la secuencia Analizar → Loglineal → General Ejemplo 10.1-TA __________________________________________ Después de introducir los datos y ejecutar la secuencia anterior, Figura 13.1,

Figura 13.1

86

ESTADÍSTICA APLICADA CON SPPS

En la ventana que se abra después de hacer dicha selección deberemos incluir (Figura 13.2) la variable dependiente (es decir, la Tasa) en la ventana Estructura de las casillas y las covariables cualitativas, Edad y Sexo, en Factores.

. Figura 13.2 A continuación, en el botón Modelo, elegimos la opción Personalizado y completamos la ventana de la derecha desplazando las dos covariables como Efectos principales (Figura 13.3).

Figura 13.3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

87

Después de aceptar esas selecciones con el botón Continuar, volvemos a la ventana de diálogo anterior, en donde elegimos las Opciones que aparecen en la Figura 13.4.

Figura 13.4 Una vez aceptadas éstas con el botón Continuar y ejecutando todas las selecciones con el botón Aceptar de la ventana de diálogo principal, obtenemos los resultados que aparecen a continuación,

Loglineal general Información sobre los datos N Casos

Válidos

6

Perdidos

0

Casillas

Válidos ponderados Casillas definidas

Categorías

Ceros estructurales Ceros de muestreo edad

6 6 0 0 3

sexo

2

Información sobre la convergencia(a,b) Número máximo de iteraciones Tolerancia de convergencia

20 ,00100

ESTADÍSTICA APLICADA CON SPPS

88 Máxima diferencia absoluta final

,00013(c)

Máxima diferencia relativa final

,00078

Número de iteraciones

3

a Modelo: Poisson b Diseño: Constante + edad + sexo c La iteración ha convergido ya que el máximo de cambios absolutos de las estimaciones de los parámetros es inferior al criterio de convergencia especificado. Contrastes de bondad de ajuste(a,b)

Razón de verosimilitudes

Valor ,004

Chi-cuadrado de Pearson

,004

gl 2

Sig. ,998

2

,998

[3]

a Modelo: Poisson b Diseño: Constante + edad + sexo

Residuos y recuentos de casillas(a,b) Observado edad 1,00 2,00 3,00

Esperado

sexo ,00

Recuento 1

% 16,7%

Recuento ,976

% 16,3%

Residual ,024

Residuo tipificado ,024

Residuo corregido ,041

1,00

1

16,7%

1,024

17,1%

-,024

-,023

-,041

-,023

,00

1

16,7%

1,038

17,3%

-,038

-,037

-,066

-,038

1,00

1

16,7%

,962

16,0%

,038

,039

,066

,039

,00

1

16,7%

,985

16,4%

,015

,015

,025

,015

16,7%

1,015

16,9%

-,015

-,014

-,025

-,014

1,00

1 a Modelo: Poisson b Diseño: Constante + edad + sexo

Estimaciones de los parámetros(b,c) Intervalo de confianza al 95% Parámetro Constante

Estimación

Error típico

Z

Sig.

Límite superior

Límite inferior

2,540

,814

3,122

,002

,946

4,135

[edad = 1,00]

-,328

1,000

-,328

,743

-2,288

1,632

[edad = 2,00]

-,171

1,000

-,171

,864

-2,131

1,789

[edad = 3,00]

0(a)

.

.

.

.

.

[sexo = ,00]

-,029

,817

-,036

,972

-1,630

1,572

[sexo = 1,00]

0(a)

.

.

.

.

.

[1]

[2]

a Este parámetro se ha definido como cero ya que es redundante. b Modelo: Poisson c Diseño: Constante + edad + sexo Correlaciones de las estimaciones de los parámetros(a,b,c) Constante

[edad = 1,00]

[edad = 2,00]

[sexo = ,00]

Desviación ,024

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

Constante [edad = 1,00] [edad = 2,00]

1

89

-,616

-,604

-,616

1

,500

,004

-,604

,500

1

-,022

-,022

1

[sexo = ,00]

-,495 ,004 a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.

-,495

Covarianzas de las estimaciones de los parámetros(a,b,c) Constante ,662

[edad = 1,00] -,501

[edad = 1,00]

-,501

1,000

,500

,003

[edad = 2,00]

-,491

,500

1,000

-,018

[sexo = ,00]

-,329

,003

-,018

,667

Constante

[edad = 2,00] -,491

[sexo = ,00] -,329

a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.

Residuos corregidos

Frecuencias ...

Frecuencias ...

Modelo de Poisson

Frecuencias ...

Frecuencias ...

Residuos corregidos

ESTADÍSTICA APLICADA CON SPPS

90

Gráfico Q-Q normal de residuos corregidos

1,5

Valor normal esperado

1,0

0,5

0,0

-0,5

-1,0

-1,5 -0,075

-0,050

-0,025

0,000

0,025

0,050

0,075

Residuos corregidos

Gráfico Q-Q normal de residuos corregidos

0,3

Desviación de normal

0,2

0,1

0,0

-0,1

-0,2

-0,3 -0,075

-0,050

-0,025

0,000

0,025

0,050

0,075

Residuos corregidos

En la mencionada salida se observa, marcado con [1] , la codificación que da SPSS a los parámetros del modelo, haciendo iguales a cero [Edad=3] y [Sexo=1] ya que de las covariables cualitativas hay que construir el Modelo con tantas variables indicadoras como clases tengan las covariables cualitativas menos una. En [2] aparecen las estimaciones obtenidas, las cuales proporcionan el Modelo log Tasa = 2'540 - 0'328 [Edad=1] -0'171 [Edad=2] -0'029 [Sexo=0] Esto hace que para un Hombre ([Sexo=0]) de 50 a 70 años ([Edad=2]) se obtenga una predicción en su tasa de supervivencia igual a log Tasa} = 2'540 - 0'328 * 0 - 0'171 * 1 - 0'029 * 1 = 2'34.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

91

Observemos que en TA obtuvimos, en esta misma situación, prácticamente el mismo valor pero con signo menos; la razón es que SPSS ajusta un modelo de la forma ∑ β Xi en donde la variable dependiente que supuestamente sigue la distribución de Poisson (habitualmente una tasa de fallo) es de la forma r = exp{- ∑ β Xi

}

Por tanto, deberemos cambiar el signo de la tasas ajustadas con SPSS, quedando, en este caso igual a -2'34, como en TA. Por último, en [3], observamos el contraste del modelo ajustado que claramente puede admitirse.

92

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

93

Capítulo 14

Análisis de Supervivencia sin covariables

14.1. Introducción Para realizar cualquier análisis, primero debemos incluir los datos en el Editor de Datos de la forma habitual Ejemplo 2.1. Cuadernos de Estadística Aplicad: Área de la Salud (ratas.sav) Primero incorporamos los datos utilizando tres variables: los Días, que es la variable en observación, el Grupo, 1 ó 2, y el Estatus, de valores, 2 para los individuos no censurados y el 1 para los censurados, como puede apreciarse en la Figura 14.1.

Figura 14.1

ESTADÍSTICA APLICADA CON SPPS

94

14.2. Tablas de Mortalidad Para obtener las Tablas de Mortalidad, que no son más que las distribuciones de frecuencias de las observaciones, ejecutamos la secuencia (Figura 14.2) Analizar → Supervivencia → Tablas de mortalidad

Figura 14.2 con lo que nos aparecerá el cuadro de diálogo de la Figura 14.3, que hemos completado incluyendo en Hora, la variable en observación Días. En Intervalos de Tiempo elegimos el extremo superior, 400, y pedimos que los intervalos tengan amplitud 5

Figura 14.3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

95

En Estado le indicamos cuál es la variable que nos indica si el datos es censurado o no y le señalamos el valor de las que queremos obtener las distribuciones de frecuencias. En el botón Opciones elegimos las dadas por la Figura 14.4 para obtener todas las gráficas y el test de comparación de ambas poblaciones

Figura 14.4 Finalmente, con el botón Aceptar, obtenemos los siguientes resultados

Variable de supervivencia: Tiempos

Tabla de mortalidad

Momento de inicio del Controles de primer orden

intervalo

Grupo

0

1

Número que

Número que

Número

Número de

entra en el

sale en el

expuesto a

eventos

Proporción que

intervalo

intervalo

riesgo

terminales

termina

19

0

19,000

0

Proporci

sobre ,00

ESTADÍSTICA APLICADA CON SPPS

96

2

30

19

0

19,000

0

,00

60

19

0

19,000

0

,00

90

19

0

19,000

0

,00

120

19

0

19,000

1

,05

150

18

0

18,000

1

,06

180

17

0

17,000

6

,35

210

11

1

10,500

6

,57

240

4

1

3,500

2

,57

270

1

0

1,000

0

,00

300

1

0

1,000

1

1,00

0

21

0

21,000

0

,00

30

21

0

21,000

0

,00

60

21

0

21,000

0

,00

90

21

0

21,000

0

,00

120

21

0

21,000

1

,05

150

20

0

20,000

2

,10

180

18

1

17,500

2

,11

210

15

0

15,000

7

,47

240

8

0

8,000

2

,25

270

6

0

6,000

4

,67

300

2

0

2,000

1

,50

330

1

1

,500

0

,00

Mediana del tiempo de supervivencia Controles de primer orden Grupo

Tiempo med. 1

217,159

2

231,947

Control de primer orden: Grupo

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

97

98

ESTADÍSTICA APLICADA CON SPPS

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

99

Comparaciones para la variable de control: Grupo

Comparaciones globales

a

Estadístico de Wilcoxon (Gehan)

gl 2,571

Sig. 1

,109

a. Las comparaciones son exactas.

14.3. Estimador de Kaplan-Meier y Comparación de Curvas de Supervivencia El otro método utilizado para estimar la distribución de la variable Tiempo de Fallo es el estimador de Kaplan-Meier. Si queremos determinar estos estimadores en las poblaciones en las que se han dividido las observaciones y, además, comparar éstas, ejecutamos la secuencia (Figura 1.5) Analizar → Supervivencia → Kaplan-Meier

Figura 14.5 con lo que aparece el cuadro de diálogo de la Figura 14.6, en el que hemos

100

ESTADÍSTICA APLICADA CON SPPS

Figura 14.6 incorporado en la ventana Horas la variable en observación Días; en la ventana Estado hemos incluido la variable que nos indica si el dato es censurado o no, es decir, la variable Estatus, indicando que es 2 el valor de ésta que nos proporciona los Datos no censurados. Finalmente, en la ventana Factor, hemos incorporado la variable que forma los grupos a comparar. Con el botón Comparar Factores indicamos los estadísticos a utilizar en la comparación de los dos grupos. Hemos elegido los tres posibles (Figura 14.7).

Figura 14.7 Después de elegir el botón Continuar, en el botón Opciones, le marcamos sólo la opción de los Gráficos de Supervivencia (Figura 14.8).

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

101

Figura 14.8 Ahora, presionando los botones Continuar, Aceptar, obtenemos los siguientes resultados:

Resumen del procesamiento de los casos Censurado Grupo

Nº total

Nº de eventos



Porcentaje

1

19

17

2

10,5%

2

21

19

2

9,5%

Global

40

36

4

10,0%

Comparaciones globales Chi-cuadrado

Gl

Sig.

Log Rank (Mantel-Cox)

3,123

1

,077

Breslow (Generalized Wilcoxon)

2,651

1

,103

Tarone-Ware

2,977

1

,084

Prueba de igualdad de distribuciones de supervivencia para diferentes niveles de Grupo.

102

ESTADÍSTICA APLICADA CON SPPS

en donde se observa primero un resumen de los datos, a continuación los tres tests de comparación de las dos poblaciones, siendo los dos primeros tests los considerados en el texto de teoría, indicando una aceptación de la igualdad de ambas poblaciones. Finalmente aparece el gráfico de las dos curvas de supervivencia de Kaplan-Meier.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

103

Capítulo 15

Análisis de Supervivencia con covariables

15.1. Introducción Para realizar cualquier análisis, primero debemos incluir los datos en el Editor de Datos de la forma habitual. Ejemplo 2.2. Cuadernos de Estadística Aplicad: Área de la Salud (globulos.sav) Primero incorporamos los datos como puede apreciarse en la Figura 15.1.

Figura 15.1

ESTADÍSTICA APLICADA CON SPPS

104

Si queremos realizar una Regresión de Cox ejecutaremos la secuencia Analizar -> Supervivencia -> Regresión de Cox Como puede verse en la Figura 15.2

Figura 15.2 Completamos en cuadro de diálogo como se indica en la Figura 15.3

Figura 15.3

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

105

Si alguna de las covariables fuera categórica habría que indicárselo. Presionando el botón Aceptar se obtendrían los siguientes resultados,

Regresión de Cox Notas Resultados creados

27-abr-2011 20:21:47

Comentarios Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro



Peso



Segmentar archivo



Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos

Definición de perdidos

33 Los valores perdidos definidos por el usuario se consideran perdidos.

Sintaxis

COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) globulos /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,016

Tiempo transcurrido

00 00:00:00,015

[Conjunto_de_datos1] G:\charlas\globulos.sav

Resumen del proceso de casos N Casos disponibles en el análisis

Eventoa

33

100,0%

0

,0%

33

100,0%

Casos con valores perdidos

0

,0%

Casos con tiempo negativo

0

,0%

Casos censurados antes del evento

0

,0%

0

,0%

33

100,0%

Censurado Total Casos excluidos

Porcentaje

más temprano en un estrato Total Total

ESTADÍSTICA APLICADA CON SPPS

106

Resumen del proceso de casos N Eventoa

Casos disponibles en el análisis

33

100,0%

0

,0%

33

100,0%

Casos con valores perdidos

0

,0%

Casos con tiempo negativo

0

,0%

Casos censurados antes del evento

0

,0%

0

,0%

33

100,0%

Censurado Total Casos excluidos

Porcentaje

más temprano en un estrato Total Total a. Variable dependiente: Tiempos

Estado del estratoa Estrato

Evento

Censurado

Porcentaje censurado

1

17

0

,0%

2

16

0

,0%

Total

33

0

,0%

a. La variable de estratos es: Poblacion

Bloque 0: Bloque inicial

Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129,705

Bloque 1: Método = Por pasos hacia atrás (Wald)

Pruebas omnibus sobre los coeficientes del modeloc -2 log de la Paso

verosimilitud

a

127,593

b

129,705

1 2

Global (puntuación) Chi-cuadrado 2,338

gl

Cambio desde el paso anterior Sig.

1

Chi-cuadrado ,126

gl

Cambio desd Sig.

Chi-cuadrado

2,112

1

,146

2,112

2,112

1

,146

,000

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

107

Pruebas omnibus sobre los coeficientes del modelo Global (puntuación)

-2 log de la Paso

verosimilitud

1a

127,593

b

129,705

2

Chi-cuadrado

gl

2,338

c

Cambio desde el paso anterior Sig.

1

Chi-cuadrado ,126

gl

Cambio desd Sig.

Chi-cuadrado

2,112

1

,146

2,112

2,112

1

,146

,000

a. Variables introducidas en el paso número 1: globulos b. Variable eliminada en el paso número 2: globulos c. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)

Variables en la ecuación B Paso 1

globulos

ET ,008

Wald ,005

gl

2,275

Sig. 1

Exp(B) ,132

1,008

Variables que no están en la ecuacióna Puntuación Paso 2

globulos

2,338

gl

Sig. 1

,126

a. Chi-cuadrado residual = 2,338 con 1 gl Sig. = ,126

Medias de las covariables Media globulos

29,165

Destacamos el contraste sobre la significación de la covariable glóbulos que indica que no es significativa para explicar a la variable tiempo de fallo, al ser el p-valor del test, 0’126. No obstante, si consideramos la variable log(glóbulos) veamos lo que pasa. Primero la creamos con la secuencia Transformar -> Calcular variable como indicamos en la Figura 15.4, presionando el botón Aceptar

108

ESTADÍSTICA APLICADA CON SPPS

Figura 15.4 con lo que la matriz de datos es la de la Figura 15.5

Figura 15.5 Ahora repetimos el proceso anterior analizando si la nueva variable es significativa para explicar la variable Tiempos. Primero completamos el cuadro de diálogo, Figura 15.6,

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

109

Figura 15.6 obteniendo ahora los siguientes resultados, en donde se aprecia en el último test que sí es significativa esta nueva covariable. Regresión de Cox Notas Resultados creados

27-abr-2011 20:32:32

Comentarios Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro



Peso



Segmentar archivo



Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos

Definición de perdidos

33 Los valores perdidos definidos por el usuario se consideran perdidos.

Sintaxis

COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) logglo /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,016

Tiempo transcurrido

00 00:00:00,014

ESTADÍSTICA APLICADA CON SPPS

110

[Conjunto_de_datos1] G:\charlas\globulos.sav Resumen del proceso de casos N a

Casos disponibles en el análisis

Evento

33

100,0%

0

,0%

33

100,0%

Casos con valores perdidos

0

,0%

Casos con tiempo negativo

0

,0%

Casos censurados antes del evento

0

,0%

0

,0%

33

100,0%

Censurado Total Casos excluidos

Porcentaje

más temprano en un estrato Total Total a. Variable dependiente: Tiempos

Estado del estratoa Estrato

Evento

Censurado

Porcentaje censurado

1

17

0

,0%

2

16

0

,0%

Total

33

0

,0%

a. La variable de estratos es: Poblacion

Bloque 0: Bloque inicial

Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129,705

Bloque 1: Método = Por pasos hacia atrás (Wald)

Pruebas omnibus sobre los coeficientes del modelob -2 log de la Paso a

1

verosimilitud 122,403

Global (puntuación) Chi-cuadrado

Gl

7,424

Cambio desde el paso anterior Sig.

1

a. Variables introducidas en el paso número 1: logglo b. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)

Variables en la ecuación

Chi-cuadrado ,006

7,302

gl

Cambio desd Sig.

1

Chi-cuadrado ,007

7,302

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

B Paso 1

logglo

111

ET ,378

Wald ,142

gl

7,056

Sig. 1

Exp(B) ,008

1,459

Medias de las covariables Media logglo

2,616

Si queremos analizar si hay diferencias entre las dos poblaciones, podríamos utilizar esta variable como covariable y analizar si es significativa cumplimentando el cuadro de diálogo como se indica en la Figura 15.7

Figura 15.7 obteniendo los siguientes resultados, Regresión de Cox Notas Resultados creados

27-abr-2011 20:58:25

Comentarios Entrada

Datos

G:\charlas\globulos.sav

Conjunto de datos activo

Conjunto_de_datos1

Filtro



ESTADÍSTICA APLICADA CON SPPS

112

Peso



Segmentar archivo



Núm. de filas del archivo de trabajo Tratamiento de los datos perdidos

Definición de perdidos

33 Los valores perdidos definidos por el usuario se consideran perdidos.

Sintaxis

COXREG Tiempos /STATUS=estatus(2) /CONTRAST (Poblacion)=Indicator /METHOD=BSTEP(WALD) Poblacion logglo /CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Recursos

Tiempo de procesador

00 00:00:00,015

Tiempo transcurrido

00 00:00:00,016

[Conjunto_de_datos1] G:\charlas\globulos.sav Resumen del proceso de casos N Casos disponibles en el análisis

a

Evento

33

100,0%

0

,0%

33

100,0%

Casos con valores perdidos

0

,0%

Casos con tiempo negativo

0

,0%

Casos censurados antes del evento

0

,0%

0

,0%

33

100,0%

Censurado Total Casos excluidos

Porcentaje

más temprano en un estrato Total Total a. Variable dependiente: Tiempos

Codificaciones de variables categóricasb Frecuencia Poblaciona

(1)

1

17

1

2

16

0

a. Codificación de parámetros de indicador b. Variable de categoría: Poblacion

Bloque 0: Bloque inicial Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 171,994

Bloque 1: Método = Por pasos hacia atrás (Wald)

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA

113

Pruebas omnibus sobre los coeficientes del modelo Global (puntuación)

-2 log de la Paso

verosimilitud

a

1

Chi-cuadrado

157,363

Gl

15,325

b

Cambio desde el paso anterior Sig.

2

Chi-cuadrado ,000

gl

14,631

Cambio desd Sig.

2

Chi-cuadrado ,001

a. Variables introducidas en el paso número 1: Poblacion logglo b. Bloque inicial número 1. Método = Por pasos hacia atrás (Wald)

Variables en la ecuación B Paso 1

Poblacion logglo

ET

Wald

gl

Sig.

Exp(B)

-1,018

,423

5,775

1

,016

,361

,360

,136

7,068

1

,008

1,434

Medias de las covariables Media Poblacion Logglo

,515 2,616

Los p-valores 0’016 y 0’008 indican que la población sí es significativa (hay diferencias) y que log(globulos) también influye. Si elegimos la opción del botón de gráficos del cuadro de diálogo de la Figura 15.8, en donde le pedimos la representación de las dos curvas de supervivencia de ambas poblaciones,

14,631

114

ESTADÍSTICA APLICADA CON SPPS

Figura 15.8 vemos gráficamente la diferencia significativa en la Figura 15.9

Figura 15.9

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF