U3 Estadistica Angel Borgna Fernandez
Short Description
Download U3 Estadistica Angel Borgna Fernandez...
Description
3 Inferencia estadística estadística
Ob jeti jetivos vos • Estudiar las relaciones entre los estadísticos muestrales y los parámetros poblacionales. • Desarrollar procedimientos relativos a dos de los problemas fundamentales de la inferencia estadística: estimación de parámetros y prueba de hipótesis.
3.1. Distribución de estadísticos muestrales En el estudio de una población es factible observar que los individuos que la conforman presentan diferencias entre sí y como reflejo de ello todas las muestras posibles de cierto tamaño n , seleccionadas al azar de esa población, poblac ión, también presentarán variaciones entre ellas en su conformación. Tales variaciones se transmiten al compotamiento de las medidas muestrales también denominadas estadísticos muestrales calculados muestrales calculados a partir de cada una de las muestras, dando origen a nuevas poblaciones de naturaleza teórica, las pobla- ciones de los estadísticos muestrales . La importancia del estudio de la distribución de los estadísticos muestrales radica en el hecho de que ellos son los estimadores de estimadores de los parámetros poblacionales. Dada una población conocida de tamaño N con N con media poblacional µ y µ y proporción poblacional P(e P(e ) = P de algún algún valor valor e elegido como éxito, si de ella se seleccionan aleatoriamente todas las muestras posibles de tamaño n y n y para cada una de ellas se calcula la media aritmética X i y la proporción de éxito pi(e )= )= pi, se tendrán m muestras m muestras y consecuentemente la misma cantidad m de medias aritméticas y de proporciones muestrales.
87
Universidad Virtual de Quilmes
El mejor estimador de un parámetro poblacional es aquel que cumple con ciertas cualidades (insesgabilidad, consistencia, eficiencia y suficiencia) que aquí no se analizarán.
Las dos últimas columnas constituyen las poblaciones de las variables alea- torias media muestral y proporción muestral . Por su importancia conceptual, seguidamente trataremos las distribuciones teóricas de las poblaciones de los estadísticos estadísticos media muestral muestral (como mejor estimador estimador de µ) y proporción proporción muestral (como mejor estimador de P).
3.1.1. Distribución del estadístico media muestral Los gráficos que se presentan a continuación se refieren a la distribución de dos poblaciones, la primera corresponde a una población original conformada por las edades de los 497 empleados de una empresa –gráfico.3.1– mientras que la segunda –gráfico 3.2– representa a la distribución de la población teórica de las edades medias de todas las muestras de tamaño 2 que se extrajeron de la población original. Gráfico 3.1. Distribución de la población original 0,17
a v i t a l e r
a i c n e u c e r f
0,14 0,11 0,08 0,06 0,03 0,00 22
35
48
62
X
Los parámetros de la población original (de edades) son: 2
µ = 35 años y σ = 82,90 años
2
Gráfico 3.2. Distribución de la población de las medias muestrales (muestras de tamaño 2) 0,20
a v i t a l
0,10
e r
a i c n e u c e r f
0,10
0,05
0,00 22
35
48
62
Medias muestrales
88
Estadistica
Los parámetros de la población teórica de las medias muestrales de todas las muestras de tamaño 2 son: x
=
35 años
y
2 x
=
41,45 años2
Si se tomaran muestras de tamaño n=1 el gráfico resultante para la población teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el Gráfico.3.1. (porque cada media es el elemento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.
x
=
35 años
y
2 x
=
82,90 años2
Como se puede obser var, todas las medias de las poblaciones teóricas, aún variando n , coinciden con la media de la población de donde se extrajeron las muestras. Conclusión: x
=
Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.
2 x
=
2
n
Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –Gráfico.3.3.– aproximadamente normal. Gráfico 3.3.
Distribución de la población de las medias muestras (n>30)
35
Medias muestrales
89
Universidad Virtual de Quilmes
Propiedades de la variable aleatoria media muestral Si en una determinada población se define una variable aleatoria X: {x 1, x2, x3 2 ,…, . xm,…….} con esperanza E(X) = µ y varianza V(X) = s y se selecciona sólo una muestra aleatoria de tamaño n de dicha población para la cual su media muestral X es un elemento de la población teórica de X’s se verifican las siguientes propiedades: Esta propiedad está relacionada con la cualidad de insesgabilidad del estimador X.
P.1
P.2
E(
) = X
V(
)=
=
2
=
X
2
n
DS(
)=
X
=
n
El desvío estándar σ x también se denomina error estándar de la media muestral respecto de la media poblacional. Estas propiedades se desprenden inmediatamente de las propiedades enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera como se puede verificar a continuación.
n X i P.1 1 n 1 n 1 1 1 E(X ) E E . X i . E(X i ) . n . n n n i 1 n i 1 n X i 1 n 1 n P.2 1 2 V . X V(X ) V 1 1 . V(X i ) . n . i 2 2 n n n i 1 n i 1 =
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
2
n
3.1.2. Distribución del estadístico proporción muestral En el gráfico 3.4. se representa la distribución de la población teórica de las proporciones de empleados mayores a 45 años de todas las muestras de un cierto tamaño n superior a 100. Gráfico 3.4. Distribución de la población de las proporciones muestras (n>100)
0
0,11
1 Proporciones muestrales
90
Estadistica
En la población original, la proporción de los empleados mayores a 45 años es: P(>45) = 0,11 y los parámetros de la distribución –gráfico 3.4.– de las proporciones muestrales son: �p=0,11
2
y
σ p =0,0002
Conclusión: �p=P
Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra. 2 p
P.(1- P) =
n
Además, si las muestras extraídas de la población fueran chicas, la distribución de la población de las proporciones muestrales no necesariamente resultaría aproximadamente normal.
Propiedades de la variable aleatoria proporción muestral Si en una determinada población caracterizada por una variable aleatoria X, se efectúa un experimento binomial con parámetros n y P y en consecuencia con 2 esperanza µ = n.P y varianza σ = n . P. ( 1 - P ) , se selecciona sólo una muestra aleatoria de tamaño n de dicha población para la cual su proporción muestral de éxito p verifica las siguientes propiedades:
P.1
E(p) = P = P
P.2
V(p) =
2 p
P.(1- P) =
n
DS(x)
=
P
P.(1- P) =
n
El desvío estándar σ p también se denomina error estándar de la proporción muestral respecto de la proporción poblacional. Estas propiedades, al igual que las de la media muestral, se desprenden inmediatamente de las enunciadas anteriormente en el apar tado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera.
3.1.3. Teorema central del límite El teorema central del límite formaliza el comportamiento asintóticamente normal, bajo determinadas condiciones, de la distribución de una variable aleatoria, en particular el de las variables aleatorias media y proporción muestrales. También denominado teorema del límite central, el Teorema central del límite –TCL– como resultante de una construcción colectiva es factible de enunciarse, siguiendo a Meyer (1986) de la siguiente manera.
Teorema Central del Límite o Teorema del Límite Central de De Moivre (1733) –Laplace (~1810) y otros.
91
Universidad Virtual de Quilmes
Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes con 2 E(Xi) = µi y V(Xi) = σ i , i = 1, 2, … Sea X = X1 + X2 + …+ Xn. Luego, para n tendiendo a infinito, la X tiene distribución asintóticamente normal con n
=
µ y i
i 1 =
n
2
=
2 i
i 1 =
Este teorema nos está diciendo que si una variable aleatoria es la suma de n variables aleatorias independientes entonces esa variable aleatoria suma tendrá distribución normal, para n grande. En particular si tales n variables aleatorias independientes tienen todas distribución normal entonces se verifica que su suma tiene distribución normal, para cualquier valor de n.
Como corolario, se concluye que bajo determinadas condiciones, las distribuciones de la media y proporción muestral son normales.
Ejemplos Teniendo en cuenta la información poblacional de las edades de los 497 empleados de una empresa (ver apartados 3.1.1. y 3.1.2.) a saber: la edad media poblacional es de 35 años con un desvío estándar de 9,105 años y una proporción de empleados mayores a 45 años del 11%, si se proyectara abrir un anexo cercano a la empresa con parte del personal y para ello se van a elegir al azar 119 empleados, podemos formularnos las siguientes preguntas: 1) a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119 empleados que trabajarán en el nuevo anexo sea inferior a los 34 años? Como n = 119 es una muestra grande entonces
N
9,105 35, 119
Por lo tanto
34-35 = P(z < 1,198 ) = F (1,20 ) = 0,1151 P(X < 34 años) = P z < 9,105 119
92
Estadistica
La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151. b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?
37-35 = P(z > 2, 40) = 1 F (2,40 ) = 1 0,9918 = 0,0082 P(X > 37 años) = P z > 9,105 119 La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082. 2) ¿Cuál será la probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10%?
0,10 0,11 = P(z < -0,35) = F(-0,35 ) = 0,3632 P(p < 0,10) = P z < 0,11.0,89 119 La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.
1. a. Una carpintería recibe periódicamente grandes partidas de postes de madera de longitud media de 4 metros procedentes de un aserradero. Sabiendo que la precisión del proceso de cortado de los postes está dada por un desvío estándar de 3,5 cm. i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre 3,98 y 4,03 metros? ii. Si se elige una muestra de 80 postes de la última partida recibida, ¿cuál es la probabilidad de que la longitud media de la muestra esté comprendida entre 3,98 y 4,03 metros? iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique. b. Una inmobiliaria de Quilmes ha cambiado su política de alquileres introduciendo una opción de alquiler a sola firma. Actualmente el 55% de los departamentos que ofrece son con esta modalidad. Del archivo de alquileres de la inmobiliaria se tomó una muestra aleatoria de 180 fichas. ¿Cuál es la probabilidad de que la proporción de inquilinos sin garante esté comprendida entre el 48% y el 60%?
93
Universidad Virtual de Quilmes
3.2. Problemas fundamentales de la inferencia estadística En la vida cotidiana, como en el campo científico o profesional, surgen situaciones caracterizadas por la incer tidumbre pese a lo cual deben tomarse decisiones sustentadas usualmente en los modelos teóricos elaborados con base en observaciones previas de fenómenos similares. Los dos problemas fundamentales que atañen a la inferencia estadística son la estimación de un parámetro desconocido y las pruebas de hipótesis cuyas soluciones se basan necesariamente en la evidencia muestral.
3.2.1. Estimación por intervalo de confianza
La estimación por intervalo de confianza de un parámetro desconocido consiste en construir –a partir de la evidencia muestral– un intervalo o rango continuo de valores que contendría, con una cierta probabilidad asociada, el verdadero valor del parámetro poblacional.
Por ejemplo, toda persona que realiza una rutina diaria de su casa al trabajo de hecho está colectando evidencia muestral sobre el tiempo que le insume el viaje. A partir de las veces que anteriormente hizo el recorrido casa-traba jo (lo que constituye un muestreo) estima un cierto intervalo de tiempo que emplearía un día cualquiera en llegar a su trabajo (se entiende, siguiendo la rutina cotidiana), con una cierta probabilidad. En el relato anterior se pueden identificar casi completamente todos los elementos necesarios para la construcción de un intervalo de confianza, a saber: la evidencia muestral , el nivel de confianza –la probabilidad– de la estimación y el parámetro –tiempo esperado– a estimar. La construcción de intervalos de confianza se basa en las distribuciones que tienen los estadísticos muestrales, o estimadores de los parámetros poblacionales, ya vistas en el apartado 3.1.
Intervalos de confianza para la media poblacional Antes de abocarnos al cálculo de intervalos desarrollaremos los fundamentos de su construcción. Mantengamos por el m omento la pauta del apartado anterior de contar con una población cuyos µ y σ son conocidos y que de ella se extraerá una muestra de tamaño n . La distribución de los X alrededor de µ bajo las condiciones generales expuestas en 3.1.3., se representa de la siguiente forma:
94
Estadistica
Gráfico 3.5.
X
µ
Si en vez de interesarnos en preguntas como P(X>a) ó P(X
View more...
Comments