Contraste ANOVA

Share Embed Donate


Short Description

Descripción: Contiene ejemplos y definiciones sobre ANOVA Simple...

Description

EC302: Estadística II.

Análisis de la varianza (ANOVA)

Marcelo Avalos Mayo de 2013 Fuente: Newbold, 1998. Cap. 15. Amón, 1996. Cap. 15.

Introducción • Los modelos de ANOVA (ANalysis Of VAriance) son un conjunto de modelos estadísticos donde se analiza la relación entre una o más variables independientes con una o más variables dependientes. • Las variables dependientes son siempre métricas y las independientes son siempre no métricas. • Cuando hay dos o más variables dependientes se les denomina MANOVA (Multivariate ANalysis Of VAriance). • Si se introduce una o más variables independientes métricas (manteniendo al menos una independiente no métrica), nos encontramos ante modelos de ANCOVA (ANalysis Of COVAriance), que no veremos en este curso.

Introducción • El análisis se realiza descomponiendo la varianza de la(s) variable(s) dependiente(s). • Estos componentes corresponden a la varianza explicada por la(s) independientes(s), su interacción (opcionalmente) y el error (o residuo). • Para el contraste de hipótesis se utiliza el estadístico F puesto que es un contraste de razón de varianzas. • Se realizan contrastes independientes para cada variable independiente y para su interacción. • Los resultados se presentan en una tabla de ANOVA que tiene siempre las mismas columnas, pero el número de filas depende del modelo específico.

Primer criterio de clasificación Según n° de variables independientes: • Simple: se define sólo una variable independiente. En este contexto, puede entenderse el ANOVA como una generalización de las pruebas 𝑍 y 𝑡 para diferencias de dos poblaciones. En la siguiente sección utilizaremos el ANOVA para contrastar la hipótesis nula de igualdad de medias de 𝑘 poblaciones (𝑘 ≥ 2). • Múltiple (o factorial): se definen dos o más variables independientes. En ocasiones también se analiza la interacción entre ellas. Esta interacción se operacionaliza como el conjunto de las combinaciones de los valores (o niveles) de las variables independientes.

Segundo criterio de clasificación Según grado de aleatorización: • Completamente aleatorizado: el comportamiento de la variable dependiente sólo se ve afectado por la(s) independiente(s), por lo que es posible hacer un muestreo aleatorio en cada nivel de estas últimas. • Aleatorizado en bloque: existen variables que afectan la relación entre la dependiente y la independiente, pero no se consideran independientes sino intervinientes, por lo que debe controlarse a través de un muestreo estratificado en cada nivel de la(s) variable(s) independiente(s).

Tercer criterio de clasificación Según tipo de efectos: • Efectos fijos: todos los valores de la(s) independiente(s) (poblaciones a comparar) son considerados en el análisis. • Efectos aleatorios: en el análisis se considera un subconjunto (una muestra aleatoria) de los valores de la(s) independiente(s). • Efectos mixtos: una o más independientes presentan efectos fijos y una o más presentan efectos aleatorios.

ANOVA simple, completamente aleatorizado y efectos fijos

ANOVA simple, completamente aleatorizado y efectos fijos La variable independiente presenta i niveles, de tal manera que el valor de Y en el sujeto j de la muestra i se puede entender como la suma de los efectos de la media global (𝜇), del nivel i de la variable independiente y de un error idiosincrático del sujeto (𝜀𝑖𝑗): 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 • La hipótesis nula a contrastar es la de igualdad de todas las i medias. • De ser rechazada, sabemos que al menos una de las i medias es significativamente distinta de las demás, pero no sabemos cuál. • Para averiguarlo debemos realizar contrastes posteriores (post hoc) que indican qué diferencia en particular resulta significativa (puede haber más de una).

ANOVA simple • En este caso la hipótesis nula es de igualdad de 𝑘 medias para todo poblacionales: 𝑯𝟎: 𝜇𝑖 = 𝜇𝑗 ∀ 𝑖 ≠ 𝑗 • Mientras que la hipótesis alternativa es que al menos una media tal que es distinta de las demás. 𝑯𝟏: ∃ 𝑖 ≠ 𝑗 | 𝜇𝑖 ≠ 𝜇𝑗 • Si 𝑌 se distribuye normalmente y las varianzas de las poblaciones son similares (homocedásticas), la variable 𝑀𝐶𝐺 𝐹= 𝑀𝐶𝐷 Se distribuye según una 𝐹 de Snedecor con (𝑘 − 1) y (𝑛 − 𝑘) grados de libertad. Donde 𝑘 es la cantidad de poblaciones a comparar y 𝑛 el número de observaciones de la muestra total.

ANOVA simple Los términos 𝑀𝐶𝐺 (media cuadrática entre grupos) y 𝑀𝐶𝐷 (media cuadrática dentro de los grupos) se obtienen a partir de las sumas de cuadrados entre los grupos y dentro de los grupos, respectivamente, que definiremos a continuación. Denominando 𝒙 a la media de la muestra total, 𝒙𝒊 a la media de la i-ésima muestra, 𝒏 al tamaño de la muestra total, 𝒏𝒊 al tamaño de la i-ésima muestra y 𝒙𝒊𝒋 a la j-ésima observación de la i-ésima muestra, definimos las siguientes sumas de cuadrados 𝑘

𝐸𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠: 𝑆𝐶𝐺 =

𝑛𝑖 𝑥 𝑖 − 𝑥 𝑖=1 𝑘

𝑛𝑖

𝐷𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠: 𝑆𝐶𝐷 = 𝑘

𝑛𝑖

𝑇𝑜𝑡𝑎𝑙: 𝑆𝐶𝑇 =

𝑥𝑖𝑗 − 𝑥 𝑖 𝑖=1 𝑗=1

𝑥𝑖𝑗 − 𝑥 𝑖=1 𝑗=1

2

2

2

ANOVA simple Estas sumas de cuadrado las disponemos en una tabla ANOVA para obtener las medias cuadráticas entre los grupos (𝑀𝐶𝐺 ) y dentro de los grupos (𝑀𝐶𝐷). Con ellas calculamos el estadístico 𝐹 para contrastar la hipótesis nula. Fuente de variación Entre grupos (factor)

Suma de cuadrados

Grados de libertad

𝑆𝐶𝐺

𝑘−1

Intragrupo (error)

𝑆𝐶𝐷

𝑛−𝑘

Total

𝑆𝐶𝑇

𝑛−1

Rechazamos H0 si 𝐹 > 𝐹𝑘−1;𝑛−𝑘;𝛼

Medias cuadráticas 𝑆𝐶𝐺 𝑀𝐶𝐺 = 𝑘−1 𝑆𝐶𝐷 𝑀𝐶𝐷 = 𝑛−𝑘

𝐹

𝐹=

𝑀𝐶𝐺 𝑀𝐶𝐷

ANOVA simple Ejemplo 15.1 (pp 523): El índice fog se utiliza para medir la dificultad de lectura de un texto escrito: a mayor valor del índice, mayor dificultad de lectura. Se tomó una muestra aleatoria independiente de seis anuncios en las revistas Scientific American, Fortune y New Yorker, y se midieron los índices fog para los 18 anuncios, como se recoge en la tabla siguiente. Scientific American (1) Fortune (2) New Yorker (3) 𝑥1𝑗 𝑥1𝑗 − 𝑥 1 2 𝑥2𝑗 𝑥2𝑗 − 𝑥 2 2 𝑥3𝑗 𝑥3𝑗 − 𝑥 3 2 15,75 22,8484 12,63 3,8025 9,27 3,7636 11,55 0,3364 11,46 0,6084 8,28 0,9025 11,16 0,0361 10,77 0,0081 8,15 0,6724 9,92 1,1025 9,93 0,5625 6,37 0,9216 9,23 3,0276 9,87 0,6561 6,37 0,9216 8,2 7,6729 9,42 1,5876 5,56 3,1329 SUMAS: 65,81 35,0239 64,08 7,2252 44,00 10,3146 MEDIAS: 𝑥 1=10,97 𝑥 2=10,68 𝑥 3=7,33 MEDIA GLOBAL (𝑥 )=9,66

ANOVA simple Ejemplo 15.1, continuación (pp 523): La media total (𝑥 ) es 9,66 y 𝑛1 = 𝑛2 = 𝑛3 = 6. además, 𝑘 = 3 y 𝑛 = 18. Calculamos las sumas de cuadrados y las disponemos en la tabla de ANOVA. 𝑆𝐶𝐺 = 6 10,97 − 9,66 2 + 6 10,68 − 9,66 2 + 6 7,33 − 9,66 2 = 𝟒𝟗, 𝟏𝟏𝟐𝟒 𝑆𝐶𝐷 = 35,0239 + 7,2232 + 10,3146 = 𝟓𝟐, 𝟓𝟔𝟏𝟕 𝑆𝐶𝑇 = 49,1124 + 52,5617 = 𝟏𝟎𝟏, 𝟔𝟕𝟒𝟏 Fuente de variación

Suma de cuadrados

Grados de libertad

Entre grupos

𝑆𝐶𝐺 = 49,1124

3−1

Intragrupo

𝑆𝐶𝐷 = 52,5617

18 − 3

Total

𝑆𝐶𝑇 = 101,6741

18 − 1

Medias cuadráticas

𝐹

49,1124 2 52,5617 𝑀𝐶𝐷 = 15

24,5562 𝐹= = 𝟕, 𝟎𝟎𝟖 3,50411

𝑀𝐶𝐺 =

Considerando un 99% de confianza tenemos: 𝐹3−1;18−3;0,01 = 6,36 Entonces, rechazamos H0 dado que 7,008 > 6,36.

ANOVA simple • En el ejemplo anterior hemos rechazado la hipótesis nula de igualdad de medias entre las 𝑘 poblaciones. • Sabemos, entonces, que existe al menos una diferencia significativa entre dos muestras. • Esta diferencia será la existente entre la media más alta (𝑥 1 = 10,97) y la más baja (𝑥 3 = 7,33). • Sin embargo, no podemos saber si las otras diferencias son significativas o no. En este caso 𝑥 1 − 𝑥 2 y 𝑥 2 − 𝑥 3. • Para averiguarlo se realizan los contrastes posteriores o post hoc. • Estos contrastes se utilizan siempre que 𝑘 > 2, ya que si 𝑘 = 2 bastará con identificar la media más alta y/o la media más baja.

ANOVA simple • Se han diseñado distintos contrastes posteriores, de los cuales revisaremos el propuesto por Scheffé (1953) que puede utilizarse si las varianzas son homocedásticas. • Rechazaremos que la diferencia entre dos muestras es nula con un riesgo de error 𝛼 si 𝑥𝑖 − 𝑥𝑗 𝑀𝐶𝐷

1 1 + 𝑛𝑖 𝑛𝑗



(𝑘 − 1)𝐹

𝑘−1 ; 𝑛−𝑘 ;𝛼

Donde 𝑥 𝑖 y 𝑥 𝑗 son las medias y 𝑛𝑖 y 𝑛𝑗 son los tamaños de las muestras i-ésima y j-ésima, respectivamente. Por su parte, 𝐹 𝑘−1 ; 𝑛−𝑘 ;𝛼 es el ya utilizado en el contraste de ANOVA.

ANOVA simple • Debemos, entonces, obtener el estadístico de contraste para las tres diferencias: 1

𝑥1 − 𝑥2 𝑀𝐶𝐷

2

𝑥2 − 𝑥3 𝑀𝐶𝐷

3

1 1 + 𝑛1 𝑛2

1 1 + 𝑛2 𝑛3

𝑥3 − 𝑥1 𝑀𝐶𝐷

1 1 + 𝑛3 𝑛1

=

=

=

10,97 − 10,68 1 1 3,50424 + 6 6

10,68 − 7,33 1 1 3,50424 + 6 6 7,33 − 10,97 1 1 3,50424 + 6 6

=

=

=

0,29 1,168

3,35 1,168 3,64 1,168

= 𝟎, 𝟐𝟔𝟖

= 𝟑, 𝟎𝟗𝟗

= 𝟑, 𝟑𝟔𝟕

ANOVA simple • Debemos ahora obtener el estadístico crítico para este contrate post hoc (𝑘 − 1)𝐹

𝑘−1 ; 𝑛−𝑘 ;𝛼

=

(3 − 1)𝐹

3−1 ; 18−3 ;0,01

=

2 ∗ 6,36 = 𝟑, 𝟓𝟔𝟔

• Curiosamente, el contraste posterior no detecta diferencias significativas, ya que 0,268 < 3,566; 3,099 < 3,566; y 3,367 < 3,566. • Esto es un resultado poco común, aunque posible, dejándonos en la necesidad de realizar un nuevo muestreo y repetir el análisis para poder concluir respecto de la semejanza o igualdad de las medias poblacionales. • También es posible hallar contrastes posteriores significativos en ANOVA’s no significativos, aunque sólo corresponde realizarlos si el ANOVA ha resultado significativo.

ANOVA factorial doble, completamente aleatorizado y efectos fijos

ANOVA factorial doble, completamente aleatorizado y efectos fijos Se plantean dos variables independientes: una presenta i niveles y la otra j niveles. Se considera, además, la interacción entre ambas como un factor más, de tal manera que el valor de Y en el sujeto l de la muestra ij se puede entender como la suma de los efectos de la media global (𝜇), del nivel i de una variable independiente, del nivel j de la otra, de la combinación de los niveles i y j de ambas y de un error idiosincrático del sujeto (𝜀𝑖𝑗𝑙): 𝑦𝑖𝑗𝑙 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝐼𝑖𝑗 + 𝜀𝑖𝑗𝑙 • Existen tres hipótesis nulas a contrastar, independientes entre sí: – La de igualdad de todas las i medias de la primera V.I. – La de igualdad de todas las h medias de la segunda V.I. – La de igualdad de todas las ih medias de la interacción entre Vs.Is.

ANOVA factorial doble, completamente aleatorizado y efectos fijos • De ser rechazadas las dos primeras hipótesis, se procede de la misma forma que en el ANOVA simple. • Sin embargo, si la interacción es significativa las anteriores pierden importancia y el análisis e interpretación se centra sobre la interacción (ejemplos desarrollados de tal análisis pueden consultarse en Garrido (2008) La interacción entre factores en el análisis de varianza: errores de interpretación. Tesis doctoral. Madrid: UAM. Disponible en línea.).

ANOVA factorial doble Para este diseño de ANOVA, los datos se disponen en una tabla de doble entrada, donde una variable independiente se distribuye por filas (grupo) y la otra por columnas (bloque), de tal manera que la interacción entre ambas queda capturada por las intersecciones entre filas y columnas (celdas) . La variación total de la variable dependiente se descompone en cuatro componentes: • La debida a la primera variable independiente (grupos/filas). • La debida a la segunda variable independiente (bloques/columnas). • La debida a la interacción entre ambas (intersección/celda). • La debida al error (o intragrupo). Denotamos con K el número grupos, con H el número de bloques y con L el número de observaciones en cada celda. El número de celdas es KH, y si L es constante, el tamaño de la muestra será KHL.

ANOVA factorial doble Para realizar el contraste debemos obtener la media global y las medias marginales de grupos, bloques y celdas. La media marginal del i-ésimo grupo será 𝐻 𝐿 𝑗=1 𝑙=1 𝑥𝑖𝑗𝑙 𝑥𝑖.. = 𝐻𝐿 La media marginal del j-ésimo bloque será 𝐾 𝐿 𝑖=1 𝑙=1 𝑥𝑖𝑗𝑙 𝑥.𝑗. = 𝐾𝐿 La media marginal de la celda (i,j)será 𝐿 𝑙=1 𝑥𝑖𝑗𝑙 𝑥𝑖𝑗. = 𝐻𝐿 La media global será 𝐾 𝐻 𝐿 𝑖=1 𝑗=1 𝑙=1 𝑥𝑖𝑗𝑙 𝑥= 𝐾𝐻𝐿

ANOVA factorial doble Una vez obtenidas las media podemos definir las sumas de cuadrados de la siguiente forma: 𝐾

𝐺𝑟𝑢𝑝𝑜𝑠 (𝑓𝑖𝑙𝑎𝑠): 𝑆𝐶𝐺 = 𝐻𝐿

𝑥𝑖.. − 𝑥

2

𝑥.𝑗. − 𝑥

2

𝑖=1 𝐻

𝐵𝑙𝑜𝑞𝑢𝑒𝑠 (𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠): 𝑆𝐶𝐵 = 𝐾𝐿 𝑖=1 𝐾 𝐻

𝐼𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 ∶ 𝑆𝐶𝐼 = 𝐿

𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥 𝑖=1 𝑗=1

𝐸𝑟𝑟𝑜𝑟 ∶ 𝑆𝐶𝐸 =

𝑥𝑖𝑗𝑙 − 𝑥𝑖𝑗. 𝑖

𝑗

𝑙

𝑇𝑜𝑡𝑎𝑙 ∶ 𝑆𝐶𝑇 =

𝑥𝑖𝑗𝑙 − 𝑥 𝑖

𝑗

𝑙

2

2

2

ANOVA factorial doble Estas sumas de cuadrado las disponemos en una tabla ANOVA para obtener las medias cuadráticas correspondientes y calculamos los estadísticos 𝐹 para contrastar cada hipótesis nula. Fuente de variación

Suma de cuadrados

Grados de libertad

Entre grupos (filas)

𝑆𝐶𝐺

𝐾−1

Entre bloques (columnas)

𝑆𝐶𝐵

𝐻−1

Interacción (celdas)

𝑆𝐶𝐼

(𝐾 − 1)(𝐻 − 1)

Error

𝑆𝐶𝐸

𝐾𝐻(𝐿 − 1)

Total

𝑆𝐶𝑇

𝐾𝐻𝐿 − 1

Medias cuadráticas

𝐹𝑜

𝑆𝐶𝐺 𝐾−1 𝑆𝐶𝐵 𝑀𝐶𝐵 = 𝐻−1 𝑆𝐶𝐼 𝑀𝐶𝐼 = (𝐾 − 1)(𝐻 − 1) 𝑆𝐶𝐸 𝑀𝐶𝐸 = 𝐾𝐻(𝐿 − 1)

𝑀𝐶𝐺 𝑀𝐶𝐸 𝑀𝐶𝐵 𝐹′′ = 𝑀𝐶𝐸 𝑀𝐶𝐼 𝐹′′′ = 𝑀𝐶𝐸

𝑀𝐶𝐺 =

𝐹′ =

En cada caso, rechazamos H0 si 𝐹𝑜 > 𝐹𝑔𝑙1;𝑔𝑙2;𝛼 ; donde gl1 y gl2 son los grados de libertad del numerador y del denominador, respectivamente.

ANOVA factorial doble La siguiente tabla presenta los datos del consumo de gasolina de tres tipos de coches (columnas/bloques) para cinco tipos de conductores clasificados según su edad (filas/grupos). Para cada combinación entre tipo de coche y tipo de conductor hay tres observaciones. Se presentan en la tabla la media global y las medias marginales de grupos, bloques y celdas.

Coche Conductor

X

𝑥𝑖𝑗.

Y

𝑥𝑖𝑗.

Z

𝑥𝑖𝑗.

𝑥𝑖..

1

25,0 25,4 25,2 25,2 24,0 24,4 23,9 24,1 25,9 25,8 25,4 25,7 25,00

2

24,8 24,8 24,5 24,7 23,5 23,8 23,8 23,7 25,2 25,0 25,4 25,2 24,53

3

26,1 26,3 26,2 26,2 24,6 24,9 24,9 24,8 25,7 25,9 25,5 25,7 25,57

4

24,1 24,4 24,4 24,3 23,9 24,0 23,8 23,9 24,0 23,6 23,5 23,7 23,97

5

24,0 23,6 24,1 23,9 24,4 24,4 24,1 24,3 25,1 25,2 25,3 25,2 24,47

𝑥.𝑗.

24,86

24,16

25,10

24,71

ANOVA factorial doble Con los datos de la tabla anterior procedemos a calcular las sumas de cuadrados: 𝐾

𝑮𝒓𝒖𝒑𝒐𝒔 ∶ 𝑆𝐶𝐺 = 𝐻𝐿

𝑥𝑖.. − 𝑥

2

𝑖=1

SCG=

3*3*[(25,00-24,71)2+(24,53-24,71)2+(25,57-24,71)2 +(23,97-24,71)2+(24,47-24,71)2]≅7,1565 𝐻

𝑩𝒍𝒐𝒒𝒖𝒆𝒔 ∶ 𝑆𝐶𝐵 = 𝐾𝐿

𝑥.𝑗. − 𝑥

2

𝑖=1

SCB=5*3*[(24,86-24,71)2+(24,16-24,71)2+(25,10-24,71)2]≅ 13,1517 𝐾

𝐻

𝑰𝒏𝒕𝒆𝒓𝒂𝒄𝒄𝒊ó𝒏 ∶ 𝑆𝐶𝐼 = 𝐿

𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥 𝑖=1 𝑗=1

SCI=

3*[(25,2-25,00-24,86-24,71)2+… +(24,8-25,57-24,16-24,71)2+… +(25,2-24,47-25,10-24,71)2]≅ 6,6045

2

ANOVA factorial doble 𝐸𝑟𝑟𝑜𝑟 ∶ 𝑆𝐶𝐸 =

𝑥𝑖𝑗𝑙 − 𝑥𝑖𝑗. 𝑖

SCE=

𝑗

𝑙

(25,0-25,2)2+…+(26,1-26,2)2+…+(24,0-23,9)2+… +(24,0-24,1)2+…+(24,6-24,8)2+…+(24,4-24,3)2+… +(25,9-25,7)2+…+(25,7-25,7)2+…+(25,1-25,2)2 ≅ 1,1600 𝑇𝑜𝑡𝑎𝑙 ∶ 𝑆𝐶𝑇 =

𝑥𝑖𝑗𝑙 − 𝑥 𝑖

SCT=

2

𝑗

2

𝑙

(25,0-24,71)2+…+(26,1-24,71)2+…+(24,0-24,71)2+… +(24,0-24,71)2+…+(24,6-24,71)2+…+(24,4-24,71)2+… +(25,9-24,71)2+…+(25,7-24,71)2+…+(25,1-24,71)2 ≅28,0727

ANOVA factorial doble Como vimos, las sumas de cuadrados se obtienen con la simple aplicación de sus definiciones. En la tabla de ANOVA siguiente se presentan estas sumas para el ejemplo dado, las medias cuadráticas (redondeadas al cuarto decimal) y los estadísticos 𝐹𝑜 para cada contraste (redondeados al segundo decimal). Fuente de variación

Suma de cuadrados

Grados de libertad

Medias cuadráticas

𝐹𝑜

Entre grupos (filas)

7,1565

5−1=4

𝑀𝐶𝐺 ≅ 1,7891

𝐹′ ≅ 𝟒𝟔, 𝟐𝟑

Entre bloques (columnas)

13,1517

3−1=2

𝑀𝐶𝐵 ≅ 6,5759

𝐹 ′′ ≅ 𝟏𝟔𝟗, 𝟗

Interacción (celdas)

6,6045

2 4 =8

𝑀𝐶𝐼 ≅ 0,8256

𝐹′′′ ≅ 𝟐𝟏, 𝟑𝟑

Error

1,1600

3 ∗ 5 3 − 1 = 30

Total

28,0727

3 ∗ 5 ∗ 3 − 1 = 44

𝑀𝐶𝐸 ≅ 0,0387

ANOVA factorial doble • En cada caso, rechazamos H0 si 𝐹𝑜 > 𝐹𝑔𝑙1;𝑔𝑙2;𝛼 ; donde gl1 y gl2 son los grados de libertad del numerador y del denominador, respectivamente. • Debemos contrastar todas las hipótesis nulas con el mismo riesgo de error, en este caso fijaremos 𝛼 = 0,01. • Como el denominador es el mismo para cada contraste, las diferencias en el estadístico crítico será producto de los grados de libertad de los numeradores. • En este caso, tenemos tres estadísticos críticos distintos: 𝐹′4;30;0,01 = 4,02 ; 𝐹′′2;30;0,01 = 5,39 ; 𝐹′′′8;30;0,01 = 3,17 • Apreciamos que se rechazan las tres hipótesis nulas: 46,23 > 4,02 ; 169,9 > 5,39 ; 21,33 > 3,17

ANOVA factorial doble  Decíamos anteriormente que si resultaba significativa la interacción, debíamos ignorar las otras hipótesis.  Sin embargo, y sólo con fines didácticos, procederemos aquí a interpretar cada hipótesis:

25,3

25,1

24,9

24,7

24,5

24,3

24,1

X Y Z

• El gráfico y la tabla a la izquierda presentan las medias de cada tipo de vehículo. La tabla además muestra (bajo la diagonal principal) las diferencias absolutas entre las medias y (sobre ella) si estas diferencias resultan significativas o no. X Y Z • Apreciamos que los coches Z y X presentan las X Y Z medias más altas (en ese orden) y su diferencia no es significativa. 24,86 24,16 25,10 • Asimismo, la media más baja es del coche tipo Y, 24,86 Sí No que presenta diferencias significativas tanto con Z como con X. 24,16 0,70 Sí • Resumiendo: El coche tipo Y gasta menos que los 25,10 0,24 0,94 coches tipo Z y X, que son equivalentes en gasto.

ANOVA factorial doble 25,8 25,6 25,4 25,2 25,0 24,8 24,6 24,4 24,2

24,0 23,8 1

1 2 3 4 5

2

25,00 24,53 25,57 23,97 24,47

3

4

5

1 2 3 4 5 25,00 24,53 25,57 23,97 24,47 Sí Sí Sí Sí 0,47 Sí Sí No 0,57 1,03 Sí Sí 1,03 0,57 1,60 Sí 0,53 0,07 1,10 0,50

• El gráfico y la tabla a la izquierda presentan las medias de cada tipo de conductor. La tabla además muestra (bajo la diagonal principal) las diferencias absolutas entre las medias y (sobre ella) si estas diferencias resultan significativas o no.  Considerando tanto el valor de las medias como la significación de las diferencias, apreciamos lo siguiente: 1. Los conductores “3” presentan la media más alta, seguidos por los conductores “1”. 2. Empatados en el tercer lugar (al no ser su diferencia estadísticamente significativa) se encuentran los conductores “2” y “5”. 3. Los conductores “4” son los que menos gasolina consumen.

ANOVA factorial doble • Interpretaremos ahora el efecto de la interacción con ayuda de dos gráficos. • El gráfico abajo representa las medias esperadas si la hipótesis de interacción nula fuese cierta. • En esta situación, el patrón de comportamiento de los conductores hubiese sido el mismo, diferenciándose sólo en el nivel según el tipo de coche. 26,5 • Así, bastaría describir el efecto de cada variable 26,0 independiente para hacerse una idea ajustada 25,5 de su comportamiento conjunto. 25,0 • Recordemos que se rechazó la hipótesis nula para la interacción, por lo 24,5 que esta interpretación no 24,0 es correcta. • Veremos a continuación 23,5 cómo cambian nuestras conclusiones cuando la Medias esperadas interacción es significativa. 23,0 1

2

3

4

5

X Y Z

ANOVA factorial doble • El gráfico de más abajo presenta las medias observadas. • Notamos que el patrón de comportamiento entre los conductores “1” y “2” es similar, pero sus diferencias mayores, a lo esperado bajo la hipótesis nula. • A partir de ese punto, los tipos de coche intercambian posiciones, siendo el coche X el que más consume en los conductores “3” y “4” y el que menos lo hace en los “5”. 26,5 • Por su parte, el coche Z es el que menos consume en los conductores “4” y 26,0 vuelve a ser el que más 25,5 consume en los “5”. • Vemos así que de ser 25,0 significativa la interacción, pierde 24,5 sentido interpretar los contrastes anteriores, 24,0 • Esto ya que las variables independientes por 23,5 separado no dan cuenta de su comportamiento Medias observadas 23,0 conjunto. 1

2

3

4

5

X Y Z



ANOVA factorial doble Notar que de realizarse todas las comparaciones de medias entre las interacciones,

en este caso serían 15(15-1)/2=105 comparaciones. De ellas 57 son significativas. • El procedimiento gráfico resulta más intuitivo, por lo que es preferible a la hora de reportar los resultados.

X1 X2 X3 X4 X5 Y1 Y2 Y3 Y4 Y5 Z1 Z2 Z3 Z4 Z5

25,2 24,7 26,2 24,3 23,9 24,1 23,7 24,8 23,9 24,3 25,7 25,2 25,7 23,7 25,2

X1 X2 X3 25,2 24,7 26,2 No Sí 0,5 Sí 1,0 1,5 0,9 0,4 1,9 1,3 0,8 2,3 1,1 0,6 2,1 1,5 1,0 2,5 0,4 0,1 1,4 1,3 0,8 2,3 0,9 0,4 1,9 0,5 1,0 0,5 0,0 0,5 1,0 0,5 1,0 0,5 1,5 1,0 2,5 0,0 0,5 1,0

X4 X5 Y1 24,3 23,9 24,1 Sí Sí Sí No No No Sí Sí Sí No No 0,4 No 0,2 0,2 0,6 0,2 0,4 0,5 0,9 0,7 0,4 0,0 0,2 0,0 0,4 0,2 1,4 1,8 1,6 0,9 1,3 1,1 1,4 1,8 1,6 0,6 0,2 0,4 0,9 1,3 1,1

Y2 23,7 Sí Sí Sí No No No 1,1 0,2 0,6 2,0 1,5 2,0 0,0 1,5

Y3 24,8 No No Sí No Sí No Sí 0,9 0,5 0,9 0,4 0,9 1,1 0,4

Y4 23,9 Sí No Sí No No No No Sí 0,4 1,8 1,3 1,8 0,2 1,3

Y5 24,3 Sí No Sí No No No No No No 1,4 0,9 1,4 0,6 0,9

Z1 25,7 No Sí No Sí Sí Sí Sí Sí Sí Sí 0,5 0,0 2,0 0,5

Z2 25,2 No No Sí Sí Sí Sí Sí No Sí Sí No 0,5 1,5 0,0

Z3 25,7 No Sí No Sí Sí Sí Sí Sí Sí Sí No No 2,0 0,5

Z4 23,7 Sí Sí Sí No No No No Sí No No Sí Sí Sí 1,5

Z5 25,2 No No Sí Sí Sí Sí Sí No Sí Sí No No No Sí

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF