Prueba t de Student

August 7, 2018 | Author: Wilson Mayta Machaca | Category: Student's T Test, Normal Distribution, Probability And Statistics, Probability Theory, Scientific Method
Share Embed Donate


Short Description

Download Prueba t de Student...

Description

Prueba t de Student En estadística, una prueba t de t de Student, Student, prueba t-Student, t-Student, o Test-T es cualquier prueba cualquier prueba en la que el estadístico utilizado tiene una distribución distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor  real. Es utilizado en analisis discriminante. Cálculos Las expresiones explícitas que pueden ser utilizadas para obtener varias pruebas t se t se dan a continuación. En cada caso, se muestra la fórmula para una prueba estadística que o bien siga exactamente o aproxime a una distribución t de t de Student bajo la hipótesis nula. Además, se dan los apropiados grados de libertad en cada caso. Cada una de estas estadísticas se se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas. Una vez que se ha determinado un valor t  valor  t , es posible encontrar un valor P asociado utilizando para ello una tabla de valores de distribución t de Student. Si el valor P calulado es menor al límite elegido por significancia estadística (usualmente a niveles de significancia 0,10; 0,05 o 0,01), entonces la hipótesis nula se rechaza en favor de la hipótesis alternativa.

Prueba t para t para muestra única En esta prueba se evalúa la hipótesis nula de que la media de la población estudiada es igual a un valor especificado μ0, se hace uso del estadístico:

donde es la media muestral, s es la desviación estándar muestral estándar  muestral y n es el tamaño de la muestra. Los grados de libertad utilizados en esta prueba se corresponden al valor  n − 1.

Pendiente de una regresión lineal Supóngase que se está ajustando el modelo:

donde x  donde x i i,  i = i = 1, ..., n son conocidos, α  y  β son desconocidos, y ε i i  es el error aleatorio en los residuales que se encuentra normalmente distribuido, distribuido, con un valor esperado 0 y una varianza desconocida σ 2, e Y i i,  i = i = 1, ..., n son las observaciones. Se desea probar la hipótesis nula de que la pendiente  β es igual a algún valor especificado  β0 (a menudo toma el valor 0, en cuyo caso la hipótesis es que  x e  x e y no y no están relacionados).

sea

Luego

tiene una distribución t con n − 2 grados de libertad si la hipótesis nula es verdadera. El error  estándar de la pendiente:

puede ser reescrito en términos de los residuales:

Luego

se encuentra dado por:

Prueba t para dos muestras independientes Iguales tamaños muestrales, iguales varianzas Esta prueba se utiliza sólamente cuando: 



los dos tamaños muestrales (esto es, el número, n, de participantes en cada grupo) son iguales; se puede asumir que las dos distribuciones poseen la misma varianza.

Las violaciones a estos presupuestos se discuten mas abajo. El estadístico t a probar si las medias son diferentes se puede calcular como sigue:

Donde

 Aquí es la desviación estándar combinada, 1 = grupo uno, 2 = grupo 2. El denominador  de t es el error estándar de la diferencia entre las dos medias. Por prueba de significancia, los grados de libertad de esta prueba se obtienen como 2 n − 2 donde n es el número de participantes en cada grupo. Diferentes tamaños muestrales, iguales varianzas Esta prueba se puede utilizar únicamente si se puede asumir que las dos distribuciones poseen la misma varianza. (Cuando este presupuesto se viola, mirar mas abajo). El estadístico t si las medias son diferentes puede ser calculado como sigue:

Donde

Nótese que las fórmulas de arriba, son generalizaciones del caso que se da cuando ambas muestras poseen igual tamaño (sustituyendo n por n1 y n2). es un estimador de la desviación estándar común de ambas muestras: esto se define así para que su cuadrado sea un estimador sin sesgo de la varianza comun sea o no la media iguales. En esta fórmula, n = número de participantes, 1 = grupo uno, 2 = grupo dos. n − 1 es el número de grados de libertad para cada grupo, y el tamaño muestral total menos dos (esto es, n1 + n2 − 2) es el número de grados de libertad utilizados para la prueba de significancia. Diferentes tamaños muestrales, diferentes varianzas Esta prueba es también conocida como prueba t de Welch y es utilizada únicamente cuando se puede asumir que las dos varianzas poblacionales son diferentes (los tamaños muestrales pueden o no ser iguales) y por lo tanto deben ser estimadas por separado. El estadístico t a probar cuando las medias poblacionales son distintas puede ser calculado como sigue:

Donde

 Aquí s2 es el estimador sin sesgo de la varianza de las dos muestras, n = número de participantes, 1 = grupo uno, 2 = grupo dos. Nótese que en este caso, no es la varianza combinada. Para su utilización en pruebas de significancia, la distribución de este estadístico es aproximadamente igual a una distribución t ordinaria con los grados de libertad calculados según:

Esta ecuación es llamada la ecuación Welch –Satterthwaite. Nótese que la verdadera distribución de este estadístico de hecho depende (ligeramente) de dos varianzas desconocidas.

Prueba t dependiente para muestras apareadas Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de una única muestra que ha sido evaluada dos veces (muestras repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este es un ejemplo de un test de diferencia apareada.

Para esta ecuación, la diferencia entre todos los pares tiene que ser calculada. Los pares se han formado ya sea con resultados de una persona antes y después de la evaluación o entre pares de personas emparejadas en grupos de significancia (por ejemplo, tomados de la misma familia o grupo de edad: véase la tabla). La media ( X D) y la desviación estándar ( sD) de tales diferencias se han utilizado en la ecuación. La constante μ0 es diferente de cero si se desea probar si la media de las diferencias es significativamente diferente de μ0. Los grados de libertad utilizados son n − 1. Ejemplo de pares emparejados

Ejemplo de muestras repetidas Número Nombre Test 1 Test 2

Par

Nombre

Edad

Test

1

Miguel

35%

67%

1

Juan

35

250

2

Melanie

50%

46%

1

Joana

36

340

3

Melisa

90%

86%

2

Jaimito

22

460

4

Michell

78%

91%

2

Jesica

21

200

PRUEBAS CHI-CUADRADA Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por  ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan exactamente estos resultados. Supóngase que en una determinada muestra se observan una serie de posibles sucesos E 1, E2, E3, . . . , EK, que ocurren con frecuencias o 1, o2, o3, . . ., oK, llamadas frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias e 1, e 2, e 3, . . . ,e K llamadas frecuencias teóricas o esperadas.  A menudo se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E 1 y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con los métodos de las unidades anteriores. En esta unidad se considera el problema general. Definición de X 2 Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es suministrada por el estadístico X 2, dado por:

donde si el total de frecuencias es N,

Si X2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si X2>0, no coinciden exactamente. A valores mayores de X 2, mayores son las discrepancias entre las frecuencias observadas y esperadas. Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores superiores. El número de grados de libertad

está dado por:

= k – 1 – m en donde: K = número de clasificaciones en el problema. m = número de parámetros estimados a partir de los datos muestrales para obtener los valores esperados.

Ensayo de Hipótesis En la práctica, las frecuencias esperadas se calculan de acuerdo con la hipótesis H o. Si bajo esta hipótesis el valor calculado de X 2 dado es mayor que algún valor crítico, se deduce que las frecuencias observadas difieren significativamente de las esperadas y se rechaza H o al nivel de significación correspondiente. En caso contrario, no se rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la hipótesis. Debe advertirse que en aquellas circunstancias en que X 2 esté muy próxima a cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el valor  calculado de X 2 es menor que las X 2 críticas o de tabla (ensayo unilateral izquierdo), en cuyos casos se decide que la concordancia es bastante buena. Ejemplos: 1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces. Ensayar la hipótesis de que el dado está bien hecho al nivel de significación del 0.05. Cara

1

2

3

4

5

6

Frecuencia Observada

25

17

15

23

24

16

Solución: Ensayo de Hipótesis: Ho; Las frecuencias observadas y esperadas son significativamente iguales (dado bien hecho) H1; Las frecuencias observadas y esperadas son diferentes (dado cargado). Primero se procede a calcular los valores esperados. Como es bien sabido por todos la probabilidad de que caiga cualquier número en un dado no cargado es de 1/6. Como la suma de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20 para cada clasificación. Cara

1

2

3

4

5

6

Total

Frecuencia Observada

25

17

15

23

24

16

120

Frecuencia esperada

20

20

20

20

20

20

Grados de libertad = k-1-m = 6-1-0 = 5 No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.

Regla de decisión: Si X2R

11.1 no se rechaza H o.

Si X2R >11.1 se rechaza H o. Cálculos:

Justificación y decisión: Como 5 es menor a 11.1 no se rechaza H o y se concluye con una significación de 0.05 que el dado está bien hecho.

Distribución binomial La distribución binomial es típica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1) El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo. 2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binómica o de Bernouilli, es decir, sólo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como éxito y fracaso. 3) La probabilidad del ‚éxito (o del fracaso) es constante en todas las pruebas. P(éxito) = p ; P(fracaso) = 1 - p = q 4) Las pruebas son estadísticamente independientes, En estas condiciones, la variable aleatoria X que cuenta el número de ‚éxitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral estar compuesto por los números enteros del 0 al n. Se suele decir que una variable binómica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento. La función de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el número de pruebas y p la probabilidad del ‚éxito. n y p son lo s parámetros de la distribución.

La manera más fácil de calcular de valor de números combinatorios, como los incluidos en la expresión anterior, es utilizando el triángulo de Tartaglia

La media y la varianza de la variable binomial se calculan como: Media = μ = n p Varianza = σ2 = n p q Gráficamente el aspecto de la distribución depende de que sea o no simétrica Por  ejemplo, el caso en que n = 4:

Distribución normal o de Gauss La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor  importancia en el campo de la estadística. Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal. Las variables normales tienen una función de densidad con forma de campana a la que se llama campana de Gauss. Su función de densidad es la siguiente:

Los parámetros de la distribución son la media y la desviación típica, μ y σ, respectivamente. Como consecuencia, en una variable normal, media y desviación típica no deben estar correlacionadas en ningún caso (como desgraciadamente ocurre en la inmensa mayoría de las variables aleatorias reales que se asemejan a la normal. La curva normal cumple las siguientes propiedades: 1)

El máximo de la curva coincide con la media.

2)

Es perfectamente simétrica respecto a la media (g 1 = 0).

3)

La curva tiene dos puntos de inflexión situados a una desviación típica de la media. Es convexa entre ambos puntos de inflexión y cóncava en ambas colas.

4)

Sus colas son asintóticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habría que integrar  la función de densidad entre los extremos del intervalo. por desgracia (o por suerte), la función de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a tablas de la función de distribución de la variable (calculadas por integración numérica) Estas tablas tendrían que ser de triple entrada (μ, σ, valor) y el asunto tendría una complejidad enorme.  Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribución normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuación:

La función de distribución de la variable normal tipificada está tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese. De forma análoga a lo pasaba con las variables Poisson, la suma de variables normales independientes es otra normal.

Histograma de una normal idealizada

Histograma de una muestra de una variable normal

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF