Tema5 TM 2020 PDF

September 2, 2024 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Tema5 TM 2020 PDF...

Description

Teoría de Muestras – Año 2020

TEMA 5 TEORÍA DE MUESTRAS 1. Introducción El propósito de un estudio estadístico suele ser, en la mayoría de los casos, extraer conclusiones acerca de la naturaleza de una población. Cuando la población es grande y no se puede estudiar en su integridad las conclusiones obtenidas deben basarse en el estudio de solamente una parte de ésta, es decir, de una muestra. Por lo tanto es necesario analizar los estadísticos (estadísticos) muestrales para dar respuesta a la pregunta, “¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo se conoce una muestra?” Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relación entre el consumir bebidas alcohólicas y el cáncer de hígado e intentamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población. La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir de una muestra extraída de la misma.

El valor de los estadísticos (o estadígrafos)

depende de los valores de los

elementos que constituyen la muestra, y varían si se toma una muestra diferente. En cambio, los parámetros toman un valor que se obtiene a partir de los elementos de la población, y poseen un único valor fijo (pues en la población se consideran todos los elementos de interés, mientras que en la muestra sólo algunos) Las ventajas de utilizar muestras es que se reducen costos y hay mayor rapidez para obtener conclusiones. 1

Teoría de Muestras – Año 2020

Las formas de recolectar la información y seleccionar las muestras se denomina Técnicas de Muestreo o simplemente Muestras. El objetivo principal en esta unidad es estudiar los estadígrafos y la distribución de probabilidades asociada a los mismos. Notación Población

Muestra

Parámetro

Estadígrafo

Medio de la población E[X ]→ µ

̅ Media de una muestra → 𝒙

Varianza de la población V(X) → 2

Varianza de una muestra → S2

Desviación estándar de

Desviación estándar de

la población → σ

una muestra → S

2. Estudio de Estadígrafos Ejemplo 1. En un estudio sobre el rendimiento de los estudiantes se define la variable X: Nota final en el último examen que rindieron los alumnos del curso de estadística. Del grupo de estudiantes (población: las notas de todos los alumnos) se seleccionan aleatoriamente cuatro alumnos y se les pregunta la nota que obtuvieron en el último examen que rindieron. Este procedimiento se repite cinco veces, es decir, que se toman cinco muestras distintas, en forma independiente, de tamaño 4. Se calcula los estadígrafos, media y varianza, en cada muestra. Un esquema del experimento es el siguiente, Tamaño n

Muestras

n=4











𝑥1

8

6

9

6

10

𝑥2

7

10

5

9

8

𝑥3

7

8

6

8

5

𝑥4

9

4

6

8

4

𝑥̅ 𝑆2

𝑥̅1 = 7,75 𝑥̅ 2 = 7 𝑥̅ 3 = 6,5 𝑥̅ 4 = 7,75 𝑥̅ 5 = 6,75 𝑆12

𝑆22

𝑆32

𝑆42

𝑆52

Una muestra aleatoria se puede pensar como el resultado de un procedimiento (experimento) aleatorio y cada observación de la muestra es el valor observado de

2

Teoría de Muestras – Año 2020

una variable aleatoria.

Cada observación de la muestra se obtiene de manera

independiente, bajo las mismas condiciones n veces Definición. Sea una población cualquiera cuya característica de interés se expresa a través de una variable aleatoria X con cierta distribución de probabilidad de valor esperado E[X] y varianza V[X], Sea el conjunto X1,.

. . . ,

Xn, variables aleatorias

independientes, es una muestra aleatoria de la población, de tamaño n, si tienen la misma distribución de probabilidad que la población (X). ̅  Media Muestral 𝒙 Sea X1, X2, … Xn una muestra aleatoria, de tamaño n, tomada de una población dada por X, con media 𝐸 [𝑋] = 𝜇, y 𝑉 (𝑋) = 𝜎 2 entonces 𝐸 [𝑥̅ ] = 𝜇 y 𝑉 (𝑥̅ ) =

𝜎2 𝑛

Demostración: Dada la población X donde EX   y VX   2 Sea 𝑥1 , 𝑥2 , 𝑥3 , … . . , 𝑥𝑛 una muestra aleatoria de tamaño n, tal que  n   Xi  1 n 1 X  i 1 E X   E  i  n    E X i   n      E X   n n  n  n i 1   Este resultado es muy importante e indica que el valor esperado de la media n

 Xi

muestral es la media poblacional. Por otro lado,  n   Xi  1 n 2 1 2 V X   V X   V  i 1   2 V X i   2 n  2   n n n  n  n i 1   Se destaca el hecho de que la varianza de la media muestral es inversamente

proporcional al tamaño de la muestra. Cuanto más grande sea el tamaño de la muestra (n), existe mayor información o más observaciones de la misma distribución por lo que se puede esperar que los valores de X se encuentren menos dispersos (o sea mas cercanos a  ,). Definición: La desviación estándar de las medias muestrales de muestras de tamaño n recibe el nombre de error estándar de la media, 𝐸𝐸(𝑥̅ ) y es igual a, 𝜎 𝐸𝐸 (𝑥̅ ) = √𝑉 (𝑥̅ ) = √𝑛 3

Teoría de Muestras – Año 2020

Teorema Central del Límite Sea X una variable aleatoria con esperanza  y varianza finita  2 . Sea X1, X2, … Xn una muestra aleatoria, de tamaño n, con X la media muestral entonces la distribución de X se aproxima a la distribución normal con parámetros  y

2 n

,

cuando n tiende a infinito. Esto es, si n   entonces X





2



n 



 N  , 

Lo que es equivalente a decir, si 𝑛 → ∞ entonces 𝑧 = Luego, para 𝑛 → ∞

𝑧=

𝑥̅ − 𝜇 𝜎 ⁄ 𝑛 √

𝑥̅ −𝐸[𝑥̅ ] √𝑉(𝑥̅ )

~ 𝑁(0, 1)

~ 𝑁(0, 1)

Este resultado asegura que, con el solo supuesto de muestreo aleatorio y la existencia de la media y varianza, la media muestral tienden a una distribución Normal, y esta aproximación es mejor al aumentar n.

Ejemplo 2. El tiempo que se reinicia una máquina luego de una baja de tensión es de principal interés. Se sabe que hay un 0.5 de probabilidad de que una máquina vuelva a reiniciarse entre 4 y 6 segundos. Si se toma una muestra aleatoria de 40 máquinas ¿cuál es la probabilidad de que el tiempo medio de reinicio de las máquinas sea menos de 4.5 segundos? Variable X: “Tiempo de reinicio en una máquina (segundos)” Variable continua con función de densidad 𝒇(𝒙) = 𝟎. 𝟓 para 𝟒 ≤ 𝒙 ≤ 𝟔 𝟏

Es decir que 𝑿 ~ 𝑼(𝟒, 𝟔)  𝝁 = 𝑬[𝑿] = 𝟓 y 𝝈𝟐 = 𝑽(𝑿) = 𝟑. ¿P(tiempo medio de reinicio menor que 5 segundos)? ̅ ≤ 𝟓) P(tiempo medio de reinicio menor que 5 segundos)  𝑷(𝒙 Como n 40 se considera “grande”, entonces por teorema central del límite 𝒛= 

̅− 𝝁 𝒙 𝝈 ⁄ 𝒏 √

~ 𝑵(𝟎, 𝟏)  𝒛 =

̅ ≤ 𝟒. 𝟓) = 𝑷 (𝒛 ≤ 𝑷(𝒙

̅− 𝟓 𝒙 𝟎.𝟓𝟕𝟕⁄ √𝟒𝟎

𝟒.𝟓− 𝟓 𝟎.𝟓𝟕𝟕⁄ √𝟒𝟎

~ 𝑵(𝟎, 𝟏)

) = 𝑭(−𝟓. 𝟒𝟖) ≅ 𝟎

4

Teoría de Muestras – Año 2020

 Varianza muestral S2 A la hora de elegir un estimador de σ 2 = V[X] (varianza poblacional), podemos tomar S

2

S

2

 (x  x)  i

n 1

2

 fi

(varianza muestral) como el estimador más natural. Donde:

  ( xi  x ) 2    1 E  xi2  nx 2  1 E ( X 12 )  E ( X 22 )  ....  E ( X n2 )  E (S )  E   n 1 n 1 n 1   1 (n  1) 2  n 2  n 2   2  n 2   2 n 1 n 1



2











Ya que V ( X i )  E( X i2 )  E 2 ( X i )  E( X i2 )  V ( X i )  E 2 ( X i )   2   2 y V ( X )  E( X 2 )  E 2 ( X )  E( X 2 )  V ( X )  E 2 ( X ) 



2 n

 2

Definición de la distribución chi cuadrado. Construcción a partir de distribución normales estándar.

Sean 𝑋1 , 𝑋2 , 𝑋3 , … . . , 𝑋𝑛 variables aleatorias normales estándar independientes entonces la suma de los cuadrados de estas Xi, tiene una distribución chi cuadrado con “n” grados de libertad. Esto es, si Xi~N(0;1), i = 1……n, tal que si 𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2 



Y~𝑿𝟐(𝒏)

Propiedad reproductiva de chi cuadrado.

Suma de distribuciones chi cuadrado generan una distribución chi cuadrado. Sean 𝑋1 , 𝑋2 , 𝑋3 , … . . , 𝑋𝑛 variables aleatorias mutuamente independientes las cuales se distribuyen Chi-cuadrado con v1, v2 , . . . , vn grados de libertad, entonces la variable aleatoria Y = X1 + X2 + · · · + Xn tiene una distribución chi cuadrado con grados de libertad: v = v1 + v2 + · · · vn. Esto es, Si 𝑋𝑖 ~ 𝜒𝑣2𝑖 con i = 1, 1, 2, 3, …, n  𝑌 = ∑𝑛𝑖=1 𝑋𝑖 ~ 𝜒𝑣2 donde 𝑣 = ∑𝑛𝑖0 1 𝑣𝑖 3. Distribuciones muestrales El ejemplo 1 presenta como para cada muestra se calcula un valor distinto para los estadígrafos (o no), esto indica la aleatoriedad de los mismos y por lo tanto tienen asociada una distribución de probabilidad. 5

Teoría de Muestras – Año 2020

3.1.

Distribución de la Media Muestral

De acuerdo a la información que se posea acerca de las características de la población y al tamaño de la muestra a tomar se determinará cuál es la distribución de X . Existen las siguientes posibilidades.

1. Si se sabe que la población de la cual vamos a extraer la muestra tiene una distribución de probabilidades Normal, con varianza poblacional (σ2) conocida, entonces la propiedad reproductiva de la normal me asegura que la media muestral, que es una combinación de variables aleatorias con la misma distribución que la población, también tendrá una distribución de probabilidades Normal.

Es decir,

Si 𝑋 ~ 𝑁(𝜇, 𝜎 2 )  𝑥̅ ~ 𝑁(𝜇,

𝜎2 𝑛

)  𝑧=

𝑥̅ − 𝜇 𝜎 ⁄ 𝑛 √

~ 𝑁(0, 1)

2. Si tenemos cualquier distribución poblacional) y varianza poblacional conocida con donde el tamaño de muestra es grande (n ≥50), el teorema central del límite nos asegura que la media muestral tendrá una distribución de probabilidades aproximadamente normal. Es decir, Si X cualquier población con 𝜎 2 conocida y n “grande” (n>30)  por TCL 𝑥̅ ~ 𝑁(𝜇,

𝜎2 𝑛

)  𝑧=

𝑥̅ − 𝜇 𝜎 ⁄ 𝑛 √

~ 𝑁(0, 1)

3. Si tenemos cualquier población (conocida o no), desconocemos el valor de la varianza poblacional y n ≥ 30, podemos aplicar el teorema central del límite, por lo que la media muestral tendrá una distribución de probabilidades aproximadamente normal. Es decir Si X cualquier población con 𝜎 2 conocida y n “grande” (n>30)  por TCL 𝑥̅ ~ 𝑁(𝜇,

𝜎2 𝑛

)

Pero dado que desconocemos la varianza de la población deberemos estimarla con la varianza muestral ( S 2 ), entonces:  𝑧=

𝑥̅ − 𝜇 𝑆⁄ √𝑛

~ 𝑁(0, 1)

4. Si se sabe que la población de la cual vamos a extraer la muestra tiene una distribución de probabilidades normal, con varianza poblacional (σ2) desconocida, y el tamaño de muestra a extraer es pequeño (n < 30), entonces se deberá emplear la distribución t de Student: 6

Teoría de Muestras – Año 2020

Resultados y construcción de la distribución t-Student 2 Definición. Sean las variables aleatorias independientes: Z~ N(0,1) y U~𝑋(𝑛) ,

𝑻=

entonces

𝒁 √𝑼⁄𝒏

~ 𝒕(𝒏)

Esta definición muestra cómo se define la distribución “t” a partir de otras distribuciones.  “Sea 𝑋̅ la media de una muestra aleatoria de tamaño “n” proveniente de una población normal con una media µ y varianza desconocida, entonces: 𝑥̅ − µ 𝑡= 𝑠 ~ 𝑡(𝑛−1) ⁄ 𝑛 √ Se puede demostrar la expresión de “t” teniendo en cuenta la definición anterior. Observación. La distribución “t” → N(0;1), cuando los grados de libertad tienden a infinito. Por ello la expresión anterior se aplica en general cuando n≤30.

Ejemplo 3. Se sabe que el peso de envase de cartón para llenar con un líquido sigue una distribución normal con media de 9 onzas. Se toma una muestra aleatoria de tamaño 20 cuya media es 8.5 onzas y una desviación estándar de 0.89 onzas. Calcular la probabilidad de que la media muestral sea por lo menos 9.5 onzas. Datos  Población normal. µ=9 ; n=20; 𝑥̅ = 8.5; s= 0.89 Em el cálculo se aplica  9.5−9

𝑃(𝑥̅ ≥ 9.5) = 𝑃 (𝑡 ≥ 0.89

⁄ √20

𝑥̅ −µ

𝑡=𝑠

⁄ 𝑛 √

~ 𝑡(19)

) = 𝑃(𝑡 ≥ 2.51) = 0.0106

Nota. La probabilidad se obtiene utilizando la App “Probability Distributions” en la distribución t.

3.2.

Distribución de la varianza muestral

Resultado. Si X1, X2, . . . , Xn son variables aleatorias independientes que tienen distribuciones normales con media μ y varianza σ2, entonces se prueba que (

𝑋𝑖 − µ 𝜎

) ~N(0;1), para i =1, 2, …., n.

Y por lo tanto la variable 𝑌 = ∑𝑛𝑖=1 (

𝑋𝑖 − µ 2 𝜎

) tiene una distribución chi cuadrado con “n”

grados de libertad. Es la suma de los cuadrados de “n” normales estándar [N(0;1)]. 7

Teoría de Muestras – Año 2020

Esto establece una relación entre la distribución chi cuadrado y la distribución normal. “la variable aleatoria Y surge de la suma de cuadrados de distribuciones normales

estándar (N(0;1))”.

Esto es, 𝑌 = ∑𝑛𝑖=1 (

𝑋𝑖 − 𝜇 2 𝜎

)

~ 𝜒2 𝑛

Distribución de la varianza muestral Sean X1, X2, . . . , Xn una m.a. de una población normal con media μ y varianza σ2. Si la varianza de la muestra mencionada es s 2, 𝑛

𝑛

𝑖=1

𝑖=1

𝑋𝑖 − 𝑥̅ 2 1 𝑌 = ∑( ) = 2 ∑(𝑥𝑖 − 𝑥̅ 2 ~ 𝜒 2 (𝑛−1) 𝜎 𝜎 Tiene una distribución chi cuadrado con (n − 1) grados de libertad, ya que se ha utilizado la media muesral 𝑥̅ para estimar la media poblacional 𝜇,. Luego, 𝑛

2

(𝑛 − 1) 𝑠 2 (𝑋𝑖 − 𝑋) 2 𝑈= = ∑ ~𝜒𝑛−1 2 2 𝜎 𝜎 𝑖=1

Ejemplo 4. Las edades de los alumnos de segundo año de una facultad siguen una distribución normal con una media de 20.1 años y una varianza de 3.2 (años) 2. Se toma una muestra aleatoria de 7 alumnos que da una varianza de las edades de 3.9 (años) 2. Calcular la probabilidad de que la varianza muestral sea superior a 4 años. Datos 

X” edades de los alumnos de segundo año”

X ~N(20.1; 3.2) Se utiliza: 𝑈 =

; n= 7; s2= 3.9

(𝑛−1) 𝑠 2 𝜎2

2 ~𝜒𝑛−1

Para calcular: P(s2 >4) = P(

(𝑛−1) 𝑠 2 𝜎2

>

6 ×4 3.2

) =P ( U > 7.5)= 0.28

Nota. La probabilidad se obtiene utilizando la App “Probability Distribution” en la distribución chi-cuadrado.

4. Distribuciones muestrales. Dos poblaciones . 4.1.

Distribuciones muestral de la diferencia de medias.

Sean dos poblaciones X1 y X2 independientes, con medias µ1 y µ2, varianzas 𝜎12 y 𝜎22 , respectivamente. Se extraen al azar muestras independientes de tamaños n 1 y n2 de las dos 8

Teoría de Muestras – Año 2020

poblaciones X1 y X2, respectivamente, entonces la distribución muestral de las ̅𝟏 − 𝑿 ̅ 𝟐 , está distribuida aproximadamente de forma 𝑿

diferencias de las medias,

normal con media y varianza dadas por: 𝐸 (𝑋̅1 − 𝑋̅2 ) = µ𝑋̅1 −𝑋̅2 = µ1 − µ2

2

2

1

2

𝜎 𝜎 𝑉 (𝑋̅1 − 𝑋̅2 ) = 𝜎 2 𝑋̅1 −𝑋̅2 = 𝑛1 + 𝑛2

y

Por lo tanto: 𝒁=

̅𝟏− 𝑿 ̅ 𝟐 ) − (µ𝟏 −µ𝟐 ) (𝑿

~ 𝑵(𝟎; 𝟏)

𝝈𝟐 𝝈𝟐 √ 𝟏+ 𝟐 𝒏𝟏 𝒏𝟐

Es decir, es aproximadamente una variable normal estándar. Si tanto n1 como n2 son mayores o iguales a 30, la aproximación normal para la distribución de 𝑋̅1 − 𝑋̅2 es muy buena. Por supuesto, si ambas poblaciones son normales, entonces 𝑋̅1 − 𝑋̅2 tiene una distribución normal sin importar cuáles son los tamaños de n1 y n2.

Ejemplo 5. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de pintura. Se pintan 36 especímenes con el tipo A y en cada uno se registra el tiempo de secado en horas. Lo mismo se hace con el tipo B. Se sabe que las desviaciones estándar de la población son ambas 1.0. Suponiendo que el tiempo medio de secado es igual para los dos tipos de pintura, encuentre la probabilidad de que la diferencia de medias muestrales de A menos B sea superior a 1. Datos  𝜎𝐴2 = 𝜎𝐵2 =1;

μA= μB;

nA = nB = 36

La distribución muestral a utilizar es: 𝑍=

Para calcular:

(𝑋̅𝐴 − 𝑋̅𝐵 ) − (µ𝐴 −µ𝐵 ) 𝜎2 √ 𝐴 𝑛𝐴

𝜎2 + 𝐵 𝑛𝐵

𝑃(𝑋̅𝐴 − 𝑋̅𝐵 > 1) = 𝑃 (𝑍 >

1 1 1 36 36

~ 𝑁(0; 1)

)= P(Z>0.236)= 0.407

√ +

La diferencia de medias muestrales de los dos tiempos de secado de pinturas es superior a 1 en un 40.7%. 4.2.

Distribución de cociente de varianzas

El estadístico F se define como la razón de dos variables aleatorias chi cuadradas

9

Teoría de Muestras – Año 2020

independientes, dividida cada una entre su número de grados de libertad. De aquí, se puede escribir: 𝑭 =

𝑼⁄ 𝒏𝟏 𝑽⁄ 𝒏𝟐

donde U y V son variables aleatorias independientes que tienen distribución chi cuadrado con 𝑛1 y 𝑛2 grados de libertad, respectivamente. Distribución muestral de F. Sean 𝑆12 𝑦 𝑆22 las varianzas de dos muestras aleatorias independientes de tamaños n1 y n2 respectivamente, tomadas de dos poblaciones normales X 1 y X2 con varianzas 𝜎12 y 𝜎22 , respectivamente, entonces: 𝑺𝟐𝟏 ⁄ 𝟐 𝝈 𝑭 = 𝟐 𝟏 ~ 𝑭(𝒏𝟏−𝟏 ; 𝒏𝟐 −𝟏) 𝑺𝟐 ⁄ 𝟐 𝝈𝟐 Nota: La expresión del estadístico F se puede deducir siguiendo la definición anterior. En “F” es muy importante “respetar el orden” de lo que se refiere a “numerador” y denominador”. Ejemplo 6. La resistencia a la rotura de cierto remache que se utiliza en un motor tiene una media de 5000 psi y una desviación estándar de 400 psi. Otro tipo de remaches que se utilizan para la misma función tiene una media de 4800 psi y una desviación estándar de 450 psi. Se toman muestras aleatorias de tamaños n1= 30 y n2= 45, respectivamente. ¿Cuál es la probabilidad de que la varianza muestral del primer tipo de remaches sea a lo sumo la mitad de la varianza muestral del segundo tipo de remaches? (Suponer población normal en la resistencia a la rotura de cada tipo de remaches) Datos: X1: “resistencia a la rotura de remaches tipo 1”; población normal; μ 1= 5000; 𝜎1 = 400; n1=30 X2: “resistencia a la rotura de remaches tipo 2”; población normal; μ 2= 4800; 𝜎2 = 450 ; n2=45 𝑃(𝑆12 < 0,5 . 𝑆22 ) = 𝑃(

𝑆12 𝑆22

< 0,5)

(A)

10

Teoría de Muestras – Año 2020

Como queda la probabilidad de un cociente de varianzas muestrales se utiliza la distribución muestral F. 𝑺𝟐𝟏 ⁄ 𝟐 𝝈𝟏

𝑭 = 𝑺𝟐

𝟐⁄

𝑺𝟐 . 𝝈𝟐𝟐 𝟐 𝟐 . 𝝈𝟏

~ 𝑭(𝟐𝟗; 𝟒𝟒)  𝑭 = 𝑺𝟐𝟏

𝝈𝟐𝟐

Operando en la expresión (A) queda: 𝑆 2 . 𝜎22 2 2 . 𝜎1

𝑃 (𝑆12

4502

< 0,5. 4002 ) = 𝑃 (𝐹 < 0,63) = 0,0956

La probabilidad de que la varianza muestral del primer tipo de remaches sea a lo sumo la mitad de la varianza muestral del segundo tipo de remaches es del 9,5%.

11

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF