Unidad 2. Estadistica
Short Description
Descripción: unidad 2 de estadistica...
Description
Estadística II Unidad II “Pruebas de la bondad del ajuste y análisis de varianza”
UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. 2.1 ANÁLISIS JI-CUADRADA. (X es la minúscula de la letra griega ji). Propiedades de las distribuciones ji-cuadrada 1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribución X 2 depende del grado de libertad=n-1. En consecuencia, hay un número infinito de distribuciones X2. 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribución X2 se da en el valor (n-3).
2.1.1 PRUEBA DE INDEPENDENCIA. Una aplicación importante de la distribución Ji cuadrada se relaciona con el uso de datos de muestras para indicar la independencia entre dos variables. La prueba de independencia utiliza el formato de la tabla de contingencias, y por esta razón a veces se le llama prueba de tabla de contingencia o prueba con tabla de contingencia. Pasos para realizar una prueba de independencia: 1. Plantear las hipótesis nula y alternativa. H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada celda de la tabla de contingencias. 3. Aplicar la ecuación
para calcular la frecuencia
esperada para cada celda. Sea eij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencias, suponiendo independencias. 4. Aplicar la ecuación
2 X i j
f e
2
ij
ij
e
para calcular un valor de X 2 como
ij
estadístico. Donde fij= frecuencia observada para la categoría en el renglón i y la columna j. eij=frecuencia esperada para la categoría en el renglón i y la columna j de la tabla de contingencias, basadas en las hipótesis de independencia. En la ecuación se usa la doble sumatoria para indicar que se deben hacer los cálculos para todas las celdas de la tabla de contingencia. 5. Regla de rechazo Con el estadístico de prueba: Rechazar H0 si X2 > X2 Con el valor p: Rechazar H0 si el valor p < Siendo el nivel de significancia para la prueba; si hay n renglones y m columnas en la tabla de contingencias, el estadístico de prueba tiene una distribución ji cuadrada con (n-1)(m-1)
ITESCO
Estadística II Unidad II “Pruebas de la bondad del ajuste y análisis de varianza” grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías.
2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. La prueba de bondad de ajuste se basa en una comparación entre la muestra de los resultados observados y los resultados esperados suponiendo que la hipótesis nula es verdadera. La prueba de bondad de ajuste se enfoca hacia las diferencias entre las frecuencias observadas y las frecuencias esperadas. Una diferencia grande entre las frecuencias observadas y esperadas hace dudar que las proporciones supuestas sean correctas. El que las diferencias entre las frecuencias observadas y las esperadas sean grandes o pequeñas es un asunto que se define con ayuda del siguiente estadístico de prueba.
Estadístico de prueba para bondad de ajuste
2 X i 1 k
f e i
2
i
e
i
Donde fi= frecuencia observada para la categoría i ei= frecuencia esperada para la categoría i k= cantidad de categorías
Nota. El estadístico de prueba tiene distribución ji cuadrada con k-1 grados de libertad, siempre que las frecuencias esperadas sean 5 o más para todas las categorías. Resumen de la prueba de bondad de ajuste para la distribución multinomial. 1. Enunciar las hipótesis nula y alternativa. H0: La población se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. H1: La población no se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas, f i, para cada categoría. 3. Suponiendo que la hipótesis nula es cierta, determinar la frecuencia esperada, e j, en cada categoría, multiplicando la probabilidad de la categoría por el tamaño de la muestra. 4. Calcular el valor del estadístico de prueba. 5. Regla de rechazo: Con el estadístico de prueba: Rechazar H0 si x2 > xα2 Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-1 Resumen de la prueba de bondad de ajuste para la distribución de Poisson. 1. Plantear las hipótesis nula y alternativa. H0: La población tiene una distribución de probabilidad Poisson. H1: La población no tiene una distribución de probabilidad Poisson. 2. Tomar una muestra aleatoria y a) anotar las frecuencias observadas, fi, para cada valor de la variable aleatoria de Poisson. b) calcular la media del número de ocurrencias µ. 3. Calcular las frecuencias esperadas de ocurrencias, e i, para cada valor de la variable aleatoria de Poisson. Multiplicar el tamaño de la muestra mediante la probabilidad de Poisson de ocurrencia para cada valor de la variable aleatoria de Poisson. Si hay menos de 5 ocurrencias esperadas para ciertos valores, combinar esos valores con los adyacentes y reducir la cantidad de categorías que sea necesario. 2 4. Calcular el valor del estadístico de prueba.
X i 1 2
k
f e i
i
e
i
ITESCO
Estadística II Unidad II “Pruebas de la bondad del ajuste y análisis de varianza” 5. Regla de rechazo: Con el estadístico de prueba: Rechazar H0 si x2 > xα2 Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-2
2.1.3 TABLAS DE CONTINGENCIA. En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa, nominales u ordinales.
Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo: Hombre Mujer TOTAL
Diestro Zurdo TOTAL 43 9 52 44 4 48 87 13 100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por φ = √(χ2 / N) donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.
2.2 ANÁLISIS DE VARIANZA. En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). El procedimiento del análisis de varianza en una dirección se ocupa de la prueba para diferencias entre k medias muestrales cuando los sujetos son asignados de manera aleatoria a cada uno de los diferentes grupos de tratamiento. La ecuación lineal, o modelo, que representa el diseño completamente aleatorizado de un factor es: X ij= µ + αk + ik Donde: ITESCO
Estadística II Unidad II “Pruebas de la bondad del ajuste y análisis de varianza” Xij = Valor de la observación i para el tratamiento j µ= La media general de todas las k poblaciones en tratamiento αk= Efecto del tratamiento en el grupo k del cual se tomó la muestra ik= Error aleatorio debido al proceso de muestreo ( es la letra griega épsilon) En el análisis de varianza en una dirección, las hipótesis nula y alternativa se plantean como sigue: H0: µ1 = µ2 = … = µk H1: no todas las medias de población son iguales O lo que es equivalente H0: αk = 0 H1: αk ≠ 0 Las formulas de la media y la varianza del tratamiento j son las siguientes.
nj
x
j
x
x ij x j nj
ij
2
s
i 1
nj
j
i 1
2
nj 1
La media general de las muestras, representada por
x , es la suma de todas las k
observaciones dividida entre el número total de observaciones. Esto es
x
nj
x j 1 i 1
ij
nT
Donde nT= n1 + n2 + … + nK Si el tamaño de cada muestra es n, n T = kn, en ese caso, la ecuación se reduce a k
x
nj
x j 1 i 1
k
ij
nT
x j 1
j
k
En otras palabras, cuando los tamaños de las muestras son iguales, la media muestral general es justamente el promedio de las medias de las k muestras. nj= número de observaciones para el j-ésimo tratamiento Media de la muestra del j-ésimo tratamiento S2j= Varianza de la muestra del j-ésimo tratamiento Sj= Desviación estándar de la muestra del j-ésimo tratamiento Cuadrado medio debido a tratamientos MSTR Donde SSTR
k
n j 1
j
x j x
SSTR k 1
2
SSTR= Suma de cuadrados debido a tratamientos Cuadrado medio debido al error MSE Donde SSE
k
n j 1
SSE nT k
1 s j
2
j
SSE= Sumas de cuadrados debido al error Estadístico de prueba F
MSTR MSE
Regla de rechazo: con el estadístico de prueba: Rechazar H 0 si F>Fα Grados de libertad k – 1 en el numerador y nT – k en el denominador ITESCO
Estadística II Unidad II “Pruebas de la bondad del ajuste y análisis de varianza”
ITESCO
View more...
Comments