apuntesclaseestadisticaiitsz-090603183802-phpapp01
Short Description
Download apuntesclaseestadisticaiitsz-090603183802-phpapp01...
Description
MII. ING. EDGAR JAVIER SILVA
Forma de calificar:
Examen. 70% Practicas, tareas, avance proyecto final 30% Para poder aprobar, necesariamente debes pasar los tres parciales con calificación mínima de 70, en caso de reprobar alguno se registra cero de calificación en el parcial correspondiente. Unidades aprobadas necesarias para presentar examen de NIVELACION / REGULARIZACION 2 Unidades aprobadas necesarias para presentar examen de EXTRAORDINARIO 4
Bibliografía
Probabilidad y Estadística Douglas C. Montgomery Mc Graw Hill Probabilidad y Estadística para Ingeniería y Ciencias Mendenhall Prentice Hall Estadística para Administradores
Levin Rubin
Limusa
http://mathworld.wolfram.com/classroom/classes/Probabilityand Statistics.html
Haber aprobado, necesariamente las materias de : Calculo Integral Calculo diferencial Probabilidad.
Distribuciones
de probabilidad de una variable aleatoria continua. Media y varianza de una variable aleatoria continua. Distribución de probabilidad t-student. Distribución de probabilidad tipo Gamma. Distribución de probabilidad tipo Beta. Distribución de probabilidad X2 y F Distribución de probabilidad Weibull
Distinguir entre las variables aleatorias continuas y discretas y sus respectivas distribuciones de probabilidad; presentar algunas distribuciones de probabilidad continuas útiles y mostrar cómo se pueden utilizar para resolver problemas prácticos.
¿Qué es una distribución probabilística? 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
blanco Serie1 Serie2 azul
0
1
amarillo
2
3
4
Son aquellas en las que la variable puede pude tomar un número determinado de valores: Ejemplo: si se lanza una moneda al aire puede salir cara o cruz; si se tira un dado puede salir un número de 1 al 6; en una ruleta el número puede tomar un valor del 1 al 32.
Son aquellas que presentan un número infinito de posibles soluciones: Ejemplo: El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 Kg., 42,3764 Kg., 42, 376541kg, etc.); la esperanza media de vida de una población (72,5 años, 7,513 años, 72, 51234 años).
La distribución de probabilidad de este tipo de distribución sigue el siguiente modelo:
¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces? " k " es el número de aciertos " n" es el número de ensayos " p " es la probabilidad de éxito
" k " es el número de aciertos. En este ejemplo " k " igual a 6 (en cada acierto decíamos que la variable toma el valor 1: como son 6 aciertos, entonces k = 6) " n" es el número de ensayos. En nuestro ejemplo son 10 " p " es la probabilidad de éxito, es decir, que salga "cara" al lanzar la moneda. Por lo tanto p = 0,5 La fórmula quedaría:
Solución:
¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado ocho veces? Solución n= K= p=
" k " (número de aciertos) toma el valor 4 " n" toma el valor 8 " p " (probabilidad de que salga un 3 al tirar el dado) es 1 / 6 (= 0,1666)
P (x = 4) = 0,026
Las distribución de Poisson parte de la distribución binomial: Cuando en una distribución binomial se realiza el experimento un número "n" muy elevado de veces y la probabilidad de éxito "p" en cada ensayo es reducida, entonces se aplica el modelo de distribución de Poisson: Se tiene que cumplir que: " p " < 0,10 " p * n " < 10
La distribución de Poisson sigue el siguiente modelo.
Percentil: por ejemplo, si su calificación en un curso de ingeniería industrial estuvo en el 84° percentil, entonces el 84% de las calificaciones fueron inferiores a la suya y el 16% fueron mayores.
Cuartil inferior: Ql, de un conjunto de datos es el 25° percentil.
Cuartil superior: Qu, de un conjunto de datos es el 75° percentil
Rango intercuartilico: es la distancia entre los cuartiles superior e inferior. (IQR)
La función de densidad normal (o gausiana) fue propuesta por C. F. Gauss (1777-1855) como modelo para la distribución de frecuencia relativa de errores, como los errores de medición. Resulta sorprendente que esta curva con forma de campana sea un modelo adecuado para las distribuciones de frecuencia relativa de datos recabados de muchas áreas científicas diferentes.
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.
La nueva variable z se distribuye como una NORMAL con media = 0 y desviación típica = 1 Una regla empírica indica que en cualquier distribución normal las probabilidades delimitadas entre : 1 68 %
2 95 % 3 99 %
68% 95% -3
-2
-1
99% 0
z 1
2
3
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,... Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
Distribución de edades 19
20
23
24
25
26
27
31
32
33
36
41
45
47
Frecuencia
14
29
30
29
12 10
28
8 6 4 2
28
27
25 19 20
24
30 31
26
32
23
3336
0 Edades
41
45
47
En un salón de clases la media del grupo es de 29 años y su desviación estándar es de 4 años ¿Cuál es la probabilidad de encontrar alumnos de mas de 34 años?
Primero entender que la distribución normal se asemeja a la distribución de las edades. Para esto hay que convertir los valores que te dan a valores estándar. ¿Cómo hacemos esto? Z=(X-µ) /σ
X = valor dado a convertir
Z=(X-µ) /σ
µ = media σ = desviación estándar 14 29 12 10 28
30
8 31 6
27 25
4 24 2
26
32
19 20
41 23
33 36
0 Edades
47 45
En un salón de clases la media del grupo es de 29 años y su desviación estándar es de 4 años ¿Cuál es la probabilidad de encontrar alumnos de mas de 34 años?
X = valor dado a convertir = µ = media = σ = desviación estándar =
29
Después de cometido un delito la media en horas de encontrar al responsable del delito es de 45 hrs. Con un desviación estándar de 10 hrs.¿Encontrar la probabilidad de encontrar al responsable del delito a mas tardar 24 hrs. después de realizado este? X = valor dado a convertir µ = media σ = desviación estándar
45
El tiempo promedio que emplea un empleado para atender una demanda es de 42 minutos, suponga que la desviación estándar es de 16 minutos, y que los tiempos de atención tienen una distribución normal. ¿Cuál es la probabilidad de que una persona tarde cuando menos 1 hora en poner su demanda? ¿Cuál es la probabilidad de que una persona no tarde mas de 30 minutos en poner su demanda?
Suponga que “y” es una variable aleatoria de distribución normal con media de 10 y desviación estándar de 2.1 ◦ Calcule P (y≥11) ◦ Calcule P(7.6 ≤ y≤ 12.2)
Un tubo fluorescente estándar tiene una duración distribuida normalmente con una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo compacto tiene una duración distribuida normalmente con una media de 7500 horas y una desviación estándar de 1200 horas. ◦ ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9000 horas? ◦ ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5000 horas?
Calcule el intervalo intercuartilico IQR y la desviación estándar, s, para la muestra, y luego calcule el cociente IQR/s. Si los datos son aproximadamente normales, IQR/s ≈1.3
Variable aleatoria discreta Variable aleatoria continuo
Muchas variables aleatorias que se observan en la vida real no son variables aleatorias discretas porque la cantidad de valores que pueden asumir no se puede contar. Por ejemplo, el tiempo de espera y (en minutos) para completar un trabajo de procesamiento de datos 0 < y < infinito.
La función de densidad para una variable aleatoria continua “y” , que modela alguna población de datos de la vida real, por lo regular es una curva continua como lo que se muestra la siguiente figura: y
F ( y)
f (t )dt
El área acumulativa bajo la curva entre menos infinito y un punto y0 es igual a F(y0)
f(y) ≥ 0
f ( y)dy F () 1
b
P(a y b) f ( y )dy a
Donde a y b son constantes.
Ejemplo 1: Sea c una constante y consideremos la función de densidad. cy _ si _ 0 y 1 f ( y) 0 ___ en _ cualquier _ otro _ caso
a.- Calcule el valor de c b.- Calcule P (0.2 < y < 0.5
2 1
y f ( y)dy 0 cydy c 2 1
1
0 C=2
0.5
P(0.2 y 0.5) f ( y )dy 0.2
= 0.21
Ejemplo2: Obtenga la función de distribución acumulativa para la variable aleatoria y. Después, calcule F(0.2) y F(0.7)
y
F ( y)
f (t )dt 2tdt y
Entonces F(0.2) = P(
y
2
0
la integral es de cero a y , porque el problema así lo plantea y>0
Ejercicios 1: 1.- Sea c una constante y consideremos la función de densidad
cy 2 _ si _ 0 y 2 f ( y) 0 ___ en _ cualquier _ otro _ caso a.- Calcule el valor de c. b.- Obtenga la función de distribución acumulativa F(y) c.- Calcule F(1) d.- Calcule F(0.5) e.- Calcule P (1 ≤y≤ 1.5)
Ejercicio2 Sea c una constante y consideremos la función de densidad
c(2 y) _ si _ 0 y 1 f ( y) 0 ___ en _ cualquier _ otro _ caso a.-Calcule el valor de c b.-Obtenga la función de distribución acumulativa F(y) c.-Calcule F(0.4) d.-Calcule P (0.1 ≤y≤ 0.6)
Ejercicio3 Sea c una constante y consideremos la función de densidad
ce y _ si _ y 0 f ( y) 0 ___ en _ cualquier _ otro _ caso a.-Calcule el valor de c b.-Obtenga la función de distribución acumulativa F(y) c.-Calcule F(2.6) = d.-Calcule P (1 ≤y≤ 5)
En estudios anteriores se inicio el estudio de las pruebas de hipótesis. Se utilizo la distribución normal estándar, la distribución z, como estadístico de prueba. Para emplear dicha distribución la población debe ser normal y conocerse la desviación estándar poblacional. En muchas situaciones del mundo real, la población es aproximadamente normal, pero se desconoce la desviación estándar de la población. En este caso “s” se utiliza la desviación estándar muestral en vez de σ . Si el tamaño de la muestra es de al menos de 30, los resultados se consideran satisfactorios. (Tamaño de muestra de menor o igual a 30, n≤30)
Esta distribución tiene la característica de que puede ser usada en aquellos casos en los que el tamaño de muestra esta limitado, debido a las características del experimento a realizar. Por ejemplo. En la industria es común encontrarse con productos que debido a los materiales y/o proceso son sumamente caros y para realizar la prueba es necesario destruirlos. En estos casos el tamaño de la muestra debe ser pequeño cinco a ocho partes. Una limitación en la aplicación de este estadístico es que la población de la que se toma la muestra tiene una distribución normal.
Para estos proyectos de investigación , la distribución z no es el estadístico de prueba adecuado. La t de Student, o la distribución t, como se denomina comúnmente se utiliza como estadístico de prueba.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la distribución t es similar a la de la distribución normal estándar: ambas son simétricas y unimodales, y el valor máximo de la ordenada se alcanza en la media = 0. Sin embargo, la distribución t tiene colas más amplias que la normal; esto es, la probabilidad de las colas es mayor que en la distribución normal. A medida que el número de grados de libertad tiende a infinito, la forma límite de la distribución t es la distribución normal estándar.
Si deseas, la probabilidad de dos colas, multiplica por dos esta fila
Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl.
1. 2.
3.
4.
Como la distribución z, es una distribución continua. Como la distribución z, es de forma de campana y simétrica. No hay una distribución t, sino mas bien una “familia” de distribuciones t, todas tienen la misma media igual a cero, pero sus desviaciones estándares difieren de acuerdo con el tamaño de muestra (n). Hay una distribución t para un tamaño de muestra 20, otra para un tamaño de muestra 22, y así sucesivamente. La distribución t es más extendida y menos aguda en el centro que la distribución normal. Sin embargo, a medida que aumenta el tamaño de la muestra, la curva de la distribución t se aproxima a la distribución normal estándar.
La experiencia en la investigación de demandas por accidente en una institución aseguradora revela que en promedio cuesta $60 dólares la realización de todos los trámites. Este costo se considero exorbitante comparado con el de otras compañías aseguradoras y se instauraron medidas para abatir los costos. A fin de evaluar el impacto de estas nuevas medidas se selecciono aleatoriamente una muestra de 26 demandas recientes y se realizó un estudio de costos. Se encontró que la media muestral de $57 y una desviación estándar de la muestra de 10. En el nivel de significación 0.01, ¿hay una reducción en el costo promedio, o la diferencia de $3 ($60 -$57) puede atribuirse al azar?
Paso 1: plantear la hipótesis nula y la hipótesis alternativa. . hipótesis nula, Ho, es que la media poblacional es 60. La hipótesis alternativa, H1 es que la media poblacional vale menos de 60. Esto se expresa como sigue: Ho: μ=60 H1: μ0 f ( y ) ( ) 0 ___ en _ cualquier _ otro _ punto Donde α
( ) y 1e y dy 0
La media y la varianza de una variable aleatoria tipo gamma son, respectivamente: μ=αβ
σ2 =αβ2
Algunas propiedades
( ) ( 1)( 1) ( ) ( 1)! Cuando α es un entero positivo
Ejercicio para laboratorio Dibujar la función de distribución Gamma, para para valores enteros de α Considera los valores de y, a partir de 1 en adelante. Realizarla con formula, para que cuando cambie el valor de alfa o beta, cambie automáticamente la grafica.
y
f(y)
α= β= г=
Aplicación 1 (distribución Gamma) Investigadores han descubierto que el nivel creciente máximo (en millones de pies cúbicos por segundo) durante un periodo de cuatro años para el Rio Susquehanna, Pennsylvania, sigue aproximadamente una distribución gamma con α=3 y β=0.07 Calcule la media y la varianza del nivel creciente máximo durante un periodo de cuatro años para el Rio Susquehanna. Los investigadores llegaron a sus conclusiones acerca de la distribución de nivel creciente máximo observando los niveles de creciente máximos durante 20 periodos de cuatro años, desde 1890 hasta 1969. Suponga que durante el periodo de cuatro años 19821985 se observo que el nivel de creciente máximo fue de y=0.60 millones de pies cúbicos por segundo. Esperaría usted observar un nivel tan alto en una distribución gamma con α=3 y β=0.07 ¿Qué puede usted inferir acerca de la distribución del nivel de creciente máximo para el periodo de cuatro años 1982-1985?
La media y la varianza de una variable aleatoria tipo gamma son, respectivamente: μ=αβ =3(0.07)= 0.21 σ2 =αβ2 =3(0.07)2 =0.0147 σ=0.1212 μ+ 3σ =0.21 +3(0.1212)=0.57 Se puede inferir que 0.60 es un valor que se sale del modelo matemático.
Por experiencia anterior, un fabricante sabe que la distribución de frecuencia relativa del tiempo (en meses) que transcurre entre dos quejas de clientes importantes insatisfechos con sus productos se puede modelar mediante una función de densidad gamma con α=2 y β=4. Quince meses después de que el fabricante hizo más estrictos sus requisitos de control de calidad, llego la primera queja. ¿sugiere esto que el tiempo medio entre quejas de clientes importantes podría haber aumentado?
μ =αβ = (2)(4) σ2 =αβ2 =(2)(4)2 =32 σ=5.7 Puesto que y =15 meses queda un poco más de una desviación estándar de la media (8 + 5.7=13.7), no podemos considerar a 15 meses como un valor desusadamente grande de y. Conclusión, no hay suficientes pruebas que indiquen que el programa de control de calidad de la compañía ha logrado incrementar el tiempo medio entre quejas.
Una variable aleatoria tipo gamma que desempeña un papel importante en estadística es la variable aleatoria ji cuadrada. Una variable aleatoria ji cuadrada (X2) es una variable aleatoria tipo gamma con α=v/2 y β=2 v 1 2 2
f ( ) c( ) 2
c
1 v 2
v 2 ( ) 2
e
2 2
0 2
La media y la varianza de una variable aleatoria ji cuadrada son, respectivamente. μ=v σ2=2v El parámetro v es el número de grados de libertad de la distribución ji cuadrada.
Aplicaciones:
Ji cuadrada como prueba de independencia. Ji cuadrada como prueba de la bondad de ajuste: prueba de lo apropiado de una distribución.
Esta distribución se aplica en los análisis de fiabilidad, para establecer, por ejemplo, el periodo de vida de un componente hasta que presenta una falla. La ecuación para la función de distribución acumulada de Weibull es: La función de densidad de probabilidad es: Cuando α= 1 la distribución de Weibull devuelve la distribución exponencial con: La función de densidad Weibull contiene dos parámetros α y β.. es parámetro de escala, β, refleja el tamaño de las unidades en que se mide la variable aleatoria y el parámetro α, es el parámetro de forma. Si se cambia el valor del parámetro α, es posible generar un conjunto con una amplia variedad de curvas que modelan distribuciones de tiempo hasta falla de la vida real. A demás de proporcionar un buen modelo para las distribuciones del tiempo hasta falla de muchos componentes fabricados, la distribución Weibull es fácil de usar.
y 1e f ( y) 0
y
1 1
Si 0≤y0 ; β>0 En cualquier otro punto
“y” es el tiempo entre fallas, cuanto tiempo transcurre de una falla a otra.
2 2 1 2
2
La función de densidad Weibull contiene dos parámetros,α y β, el parámetro de escala β, refleja el tamaño de las unidades en que se mide la variable aleatoria “y”. El parámetro α es el parámetro de forma. Si se cambia el valor del parámetro de forma α, es posible generar un conjunto con una amplia variedad de curvas que modelan distribuciones de tiempo hasta falla de vida real.
Tarea. Dibujar en Excel 1.- La función de densidad Gamma 2.- La función de densidad Weibull 3.- La función de densidad Beta Para entregar vía mail la próxima clase.
La duración (en horas) de una broca de taladro que se emplea en una operación de fabricación tiene una distribución de Weibull con α=2 y β=100. Calcule la probabilidad de que una broca de taladro fallará antes de 8 horas de uso.
F ( y0 )
y0
f ( y )dy
1 0 y e
y0
0
y
dy
Integrar esta función haciendo el siguiente cambio de variable z = yα Ya que la integras te debe quedar lo siguiente:
F ( y0 ) 1 e 1 e z
y0
Resp: 0.473
Aplicación 2 (Weibull) Un fabricante de lavadoras garantiza sus productos contra cualquier defecto durante el primer año de uso normal. El fabricante ha estimado un costo por reparación de 75$ durante el periodo de garantía. Con base en la experiencia, se sabe que el tiempo en que ocurre la primera falla es una variable aleatoria de Weibull con parámetros de forma y escala iguales a 2 y 40, respectivamente. Si el fabricante espera vender 100 mil unidades y si para una misma unidad, se descuenta el valor de las reparaciones, se determina el costo esperado de la garantía para el fabricante. Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se presenta la primera avería.
Por hipótesis, la función de densidad de probabilidad de X es: La probabilidad de que la primera avería ocurra durante el periodo de garantía es igual a la probabilidad de que X sea menor o igual a 12. Mediante el empleo de la fórmula cerrada de distribución: Por lo tanto, si se supone que la operación de las lavadoras es independiente entre sí, se pueden esperar (100.000)(Probabilidad) = n fallas durante el período de garantía con un costo total de n por el costo de reparación
Para el problema anterior, calcule la vida media de las brocas para el taladro y la varianza de la distribución del tiempo hasta falla.
Capsula cultural
Anteriormente dijimos que la función de densidad gamma proporciona un modelo para la distribución de frecuencia relativa de una variable aleatoria que tiene un limite inferior fijo pero que puede hacerse infinitamente grande. La función de densidad beta, también caracterizada por dos parámetros, tiene limites inferior y superior finitos (0 y 1)
y 1 (1 y ) 1 Si 0≤y≤1; α>0; β>0 f ( y ) B( , ) 0 __ en _ cualquier _ otro _ punto
1
B( , ) y 0
1
(1 y )
1
dy
La media y la varianza de una variable aleatoria beta son, respectivamente:
2 1 2
Aplicación 1 (Distribución de probabilidad Beta) Los sensores de infrarrojo de un sistema robótico computarizado envían información a otros sensores en diferentes formatos. El porcentaje y de las señales que se envían y que son directamente compatibles para todos los sensores del sistema sigue una distribución beta con α=β=2 a.- Calcule la probabilidad de que más de 30% de las señales de infrarrojo enviadas en el sistema sean directamente compatibles para todos los sensores. b.- Calcule la media y la varianza de y
Aplica esta formula e intégrala de 0.30 a 1
y 1 (1 y ) 1 f ( y) B( , ) 1
P( y 0.30)
6 y(1 y)dy 0.514 0.30
Media =0.5 Varianza= 0.05
Aplicación 2 (Distribución de probabilidad beta) Se determino que datos recabados a lo largo del tiempo sobre el aprovechamiento de un núcleo de computadora (como una proporción de la capacidad total) tenían una distribución de frecuencia relativa que se podía aproximar mediante una función de densidad beta con α=2 y β=4. Calcule la probabilidad de que la proporción del núcleo que se utiliza en un momento dado sea menor que 0.20.
y 1 (1 y) 1 F ( p) dy B( , ) 0 p
p=0.20
Cuadro comparativo de distribuciones de probabilidad, te ayudará, a conocer los usos. (realiza esto como tarea) Nombre
Binomial
Normal Poisson Gamma
t student Beta Ji cuadrada Weibull
Función de densidad
Media
Varianza
Característica, o cuando se aplica. En que situaciones se aplica.
Introducción Teorema de combinación lineal de variables aleatorias y teorema del limite central. Muestreo: introducción al muestreo y tipos de muestreo. Teorema del limite central Distribución Muestral de la media. Distribución Muestral de la diferencia de medias. Distribución Muestral de la proporción
Distribución muestral de la diferencia de proporciones. Distribución muestral de la varianza. Distribución muestral de la relación de varianzas.
En estudios pasados de Estadísticas centramos nuestra atención en técnicas que describen los datos, tales como organizar datos en distribuciones de frecuencias y calcular diferentes promedios y medidas de variabilidad. Estábamos concentrados en describir algo que ya ocurrió. También comenzamos a establecer los fundamentos de la estadística inferencial, con el estudio de los conceptos básicos de la probabilidad, las distribuciones de probabilidad discretas y continuas. Distribuciones que son principalmente generadas para evaluar algo que podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad, que se llaman distribuciones muestrales. ¿Por qué muestrear? Muestrear es una forma de evaluar la calidad de un producto, la opinión de los consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es una parte de la población. Población es el total de resultados de un experimento. Hacer una conclusión sobre el grupo entero (población) basados en información estadística obtenida de un pequeño grupo (muestra) es hacer una inferencia estadística. A menudo no es factible estudiar la población entera.
Algunas de las razones por lo que es necesario muestrear son: 1. 2. 3. 4. 5.
La naturaleza destructiva de algunas pruebas La imposibilidad física de checar todos los elementos de la población. El costo de estudiar a toda la población es muy alto. El resultado de la muestra es muy similar al resultado de la población. El tiempo para contactar a toda la población es inviable.
Distribución Muestral de las Medias El ejemplo de los ratings de eficiencia muestra como las medias de muestras de un tamaño específico varían de muestra a muestra. La media de la primera muestra fue 101 y la media de la segunda fue 99.5. En una tercera muestra probablemente resultaría una media diferente. Si organizamos las medias de todas las posibles muestras de tamaño 2 en una distribución de probabilidad, obtendremos la distribución muestral de las medias. Distribución muestral de las medias. Es una distribución de probabilidad de todas las posibles medias muestrales, de un tamaño de muestra dado, seleccionadas de una población.
Muestreo Aleatorio Si se seleccionan n elementos de una población de modo tal que cada conjunto de n elementos de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos constituyen una muestra aleatoria.
Distribuciones de muestreo La distribución de muestreo de una estadística es su distribución de probabilidad El error estándar de una estadística es la desviación estándar de sus distribución de muestreo.
Aplicación 1 Suponga que la variable aleatoria y tiene una función de densidad y
e f ( y) 0
Si 0≤yN, si denotamos la media y la desviación típica de la distribución de muestreo de medias por μx , σx y las de la poblaciones por μ y σ
x
x
N
Np N N p 1
Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a: μx =μ
σx =σ/√N
Para valores grandes de N ( N ≥ 30) la distribución de muestreo de medias es aproximadamente normal con media μx y la desviación típica σx , independientemente de la población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de la población sea al menos el doble que el de la muestra)
Distribución de muestreo de medias (comprobación) Una población consta de los números 2,3, 6, 8 y 11. Consideremos todas las posibles muestras de tamaño 2 que pueden tomarse con reposición de esa población. Hallar La media de la población. La desviación típica de la población La media de la distribución de muestreo de medias La desviación típica de la distribución de muestreo de media.
Antes de ver la respuesta inténtalo.
1. Para el primer inciso , sumas los valores y los divides entre el numero de datos que tienes. 2. Para la desviación típica Para datos aislados S = √ ( Σ(xj – x-)2 / N ) j = 1,2,…N Xj = cada dato x- = media N = total de datos Para N ≤ 30 se sustituye N por N-1 3. Para las muestras de tamaño dos , toma todas la combinaciones que puedas (2,2 ) (2,3) (2,6) (2,8) (2,11) luego le siguen con el 3 y así sucesivamente, son 25 muestras en total, de estas 25 muestras obtén la media 4. σx =σ/√N
Aplicación.
Estamos interesados en una población de 20 compañías textiles del mismo tamaño, todas estas fábricas experimentan una producción excesiva de trabajo. Nuestro estudio indica que la desviación estándar de la distribución de la producción anual es igual a 75 empleados. Si muestreamos cinco de estas compañías textiles, sin reemplazo, y deseamos calcular el error estándar de la media:
x
N
Np N N p 1
Np tamaño población 20 N tamaño de la muestra 5 σ desviación estándar de la población 75
Aplicación 2 Las alturas de 3000 estudiantes varones de una Universidad están normalmente distribuidas con media de 68 in y desviación típica 3 in. Si se toman 80 muestras de 25 estudiantes cada una, ¿cuáles serán la media y la desviación típica esperada de la resultante distribución de muestreo de medias, si el muestreo se hizo: a.-) Con reposición b.-) Sin reposición
No veas la respuesta hasta que le intentes primero.
El número de muestras de tamaño 25 que podrían elegirse de un grupo de 3000 estudiantes con y sin reposición son 300025 Y la combinación de 3000 tomados de 25 3000C25
x 68 3 x 0.6 N
x
N
25
Np N N p 1
3 3000 25 25 3000 1
Aplicación 3 500 bolas de cojinete tienen un peso medio de 5.02 gramos cada una y una desviación típica de 0.30 g. Hallar la probabilidad de que una muestra al azar de 100 bolas de este conjunto tengan un peso total: a.-) Menor a 5 gramos. b.-) Menor a 4.96 gramos. c.-) Más de 5.10 gramos. d.-)Entre 4.96 y 5 gramos. e.-) Más de 5.10 g.
x
N
Np N
0.3 N p 1 100
4.96 en unidades estándar z= (X – μ)/σ z=(4.96-5.02)/0.027 =-2.22
5.00 en unidades estándar z=
500 100 500 1
=0.027
Distribución de muestreo de proporciones Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso, su éxito es p, mientras que la probabilidad de que no ocurra es q=1-p. Por ejemplo, la población puede ser la de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso cara es p=1/2. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas determinemos la proporción de éxitos P
p p p
pq N
Estas ecuaciones son validas, también para una población finita en la que se hace un muestreo con reposición.
Aplicación 1 En unas elecciones uno de los candidatos obtuvo el 46% de los votos. Hallar la probabilidad de que en un muestreo de: a. 200 votantes elegidos al azar, saliera la mayoría a su favor. b. 1000 votantes elegidos al azar, saliera mayoría a su favor.
Utiliza, 4 decimales, para este problema. Nota: de una muestra de 200, la mayoría sería, la mitad mas 1 esto es la proporción sería 101/200
μp =p = 0.46 σp =√ 0.46x0.54/200 = 0.0352 La mayoría se obtiene cuando la proporción es 101/200 =0.505 z= (0.505-0.46 )/0.0352
= 1.27
Probabilidad de que sea mayoría, el área que esta a la derecha.
1.27
9.68%
Distribución de muestreo de diferencias y sumas Sean dadas dos poblaciones. Para cada muestra de tamaño N1 de la primera, calculamos un estadístico S1; eso da una distribución de muestreo para S1, cuya media y desviación típica denotaremos por μs1 y σs1. Del mismo modo para cada muestra de tamaño N2 de la segunda población, calculamos un estadístico S2; eso nos da una distribución de muestreo para S2, cuya media y desviación típica denotaremos por μs2 y σs2. De todas las posibles combinaciones de estas muestras de estas dos poblaciones podemos obtener una distribución de las diferencias, S1-S2, que se llama distribución de muestreo de las diferencias de los estadísticos. La media y la desviación típica de esta distribución de muestreo, denotadas respectivamente por:
s1 s 2 s1 s 2
s1s 2
2 s1
2 s2
Damos por supuesto que las muestras escogidas no dependan en absoluto una de otra(o sea que sean independientes)
Si S1 y S2 son las medias muéstrales de ambas poblaciones, cuyas medias denotamos por :
X1 y X 2 Respectivamente, entonces la distribución de muestreo de las diferencias de medias viene dada para poblaciones infinitas con medias y desviaciones típicas (μ1,σ1) y (μ2,σ2)
x 1 x 2 x 1 x 2 1 2
x 1 x 2
2 x1
x2 2
21 2 2 N1
N2
El resultado es valido también para poblaciones finitas si el muestreo es con reposición. Análogos resultados pueden alcanzarse para poblaciones finitas en que el muestreo sea sin reposición.
Aplicación Las lámparas de un fabricante A tienen vida media de 1400 h con desviación típica de 200 h, mientras que las de otro fabricante B tienen vida media de 1200 h con desviación típica de 100 h. Si se toma una muestra de 125 lámparas de cada clase, ¿cuál es la probabilidad de que las de A tengan una vida media que sea al menos a.- de 160 horas, más que las de B? b.- de 250 horas, más que las de B?
x 1 x 2 x 1 x 2 1 2 1400 1200
x 1 x 2
2 x1
x2 2
21 2 2
1002 2002 20 N1 N 2 125 125
( xA xB ) 200 z 20 a.- 160-200/20 b.- 250-200/20
Aplicación: Las bolas de rodamientos de cierto fabricante pesan 0.50 g de media, con desviación típica de 0.02 g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada uno difieran en peso en más de 0.002 g?
x 1 x 2 x 1 x 2 1 2 0.50 0.50
x 1 x 2
2 x1
x2 2
21 2 2
0.022 0.022 0.000895 N1 N 2 1000 1000
( X1 X 2 ) 0 z 0.000895
z
0.002 0 2.23 0.000895
z
0.002 0 2.23 0.000895
Introducción Características de un buen estimador. Estimación puntual Métodos Máxima verosimilitud Momentos. Intervalo de confianza para la media. Intervalo de confianza para la diferencia de medias.
Intervalo
de confianza para la proporción. Intervalo de confianza para la diferencia de proporciones. Intervalo de confianza para la varianza. Intervalo de confianza para la relación de varianzas. Determinación del tamaño de muestra.
Basado en la media de la población. Basado en la proporción de la población. Basado en la diferencia entre las medias de la población.
Anteriormente vimos cómo se puede emplear la teoría del muestreo para recabar información acerca de muestras aleatorias tomadas de una población conocida. Desde un punto de vista practico, no obstante , suele resultar más importante ser capaz de inferir información sobre la población a partir de muestras suyas. Con tal situación trata la inferencia estadística, que usa los principios de la teoría del muestreo. Un problema importante de la inferencia estadística es la estimación de parámetros de la población, o brevemente parámetros (tales como la media o la varianza de la población) de los correspondientes estadísticos muéstrales, o simplemente estadísticos (tales como la media y la varianza de la muestra)
Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente parámetro de población, el estadístico se llama un estimador sin sesgo del parámetro, si no se llama un estimador sesgado. Los correspondientes valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas, respectivamente. Ejemplo: La media de las distribuciones de x , la media de la muestreo de medias población. Por tanto la media muestral x es una estimación sin sesgo de la media de la población μ
Si las distribuciones de muestreo de dos estadísticos tienen la misma media (o esperanza), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente. Los valores correspondientes de los estadísticos se llaman estimación eficiente o estimación ineficiente, respectivamente. Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se llama a veces “estimador de máxima eficiencia” o sea el mejor estimador.
Si el estadístico S es la media limites de confianza.
x
de la muestra, entonces los
Si el muestreo es de una población infinita o de una finita con reposición.
x
+/-
Zc * σ/√N
Si el muestreo es sin reposición de una población finita de tamaño Np
x
+/- Zc* (σ/√N)*(√(Np-N)/(Np-1)
A la segunda parte de la formula, después del +/- , se le llama error de la estimación
Aplicación: Las medidas de los diámetros de una muestra aleatoria de 200 bolas de rodamientos producidas por una maquina en una semana, dieron una media de 0.824 cm y una desviación típica de 0.042 cm. Hallar los limites de confianza. a.- 95% b.- 99% para el diámetro medio de todas las bolas.
los limites de confianza 95% son: 0.824 +/- 1.96* 0.042/√200 el valor de 1.96 lo encuentras con la tabla de distribución normal, como es 95% y es de dos colas, entonces se busca un área de 0.95 + 0.05/2=0.975, este valor lo buscas en la tabla y su correspondiente valor de z es igual a 1.96 ¿Por qué es dos colas? Ya que es un intervalo de confianza, buscas el valor hacia arriba y abajo. LS = 0.8298 limite superior LI =0.8181 limite inferior
Aplicación Al medir el tiempo de reacción, un psicólogo estima que la desviación típica es 0.05 segundos. ¿De qué tamaño ha de tomarse una muestra de medidas para tener una confianza del : a.- 95% y b.- 99% de que el error de la estimación no supera 0.01 segundos (o sea que sea menor a 0.01 segundos).
+/- Zc * σ/√N Esto se considera como error de estimación
(1.96)(0.05)/√N < 0.01 Mismo caso para el 99% donde z=2.58
Aplicación: Una muestra al azar de 50 calificaciones de matemáticas de entre un total de 200, revela una media de 75 y una desviación típica de 10. a.- ¿Cuáles son los limites de confianza 95% para estimaciones de la media de las 200 calificaciones? b.- ¿Con qué grado de confianza podríamos decir que la media de las 200 es 75+/-1?
Como la población no es muy grande comparada con el tamaño de muestra, debemos tenerlo en cuenta. 75 +/- (1.64*(10)/√50)(√(200-50)/(200-1)
75 +/- 1.23Zc 1.23Zc =1 Encuentra el Zc y luego encuentras el área con la tabla de distribución normal
Si el estadístico S es la proporción de éxitos en una muestra de tamaño N sacada de una población binomial en la que p es la proporción de éxitos (o sea, la probabilidad de éxitos), entonces los limites de confianza para p vienen dados por: p +/- Zc σp , donde p es la proporción de éxitos en la muestra de tamaño N. Si el muestreo es de una población infinita o finita con reposición p +/- Zc √(pq/N) Si el muestreo es de una población finita de tamaño Np y sin reposición. p +/- Zc √(pq/N) * √(Np-N)/(Np-1)
Aplicación: Un sondeo de 100 votantes elegidos al azar en un distrito indica que el 55% de ellos estaban a favor de un cierto candidato. Hallar los limites de confianza. a.- 95% b.- 99% c.- 99.73% para la proporción de todos los votantes favorables a ese candidato.
0.55 +/- 1.96√(0.55)(0.45)/100
Aplicación: En 40 lanzamientos de una moneda, han salido 24 caras. Hallar los límites de confianza. a.- 95% b.- 99.73% para la proporción de caras que se obtendrían en un numero ilimitado de lanzamientos de esa moneda.
Si el muestreo es de una población infinita o finita con reposición p +/- Zc √(pq/N) P=24/40 N=40 Zc buscar en la tabla.
Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo aproximadamente normales, los límites de confianza para la diferencia de los parámetros de población correspondientes a S1 y S2 vienen dados por:
S1 S2 Zc s1s 2 S1 S2 Zc s12 s 2 2 Mientras que los limites de confianza para la suma de los parámetros de población vienen dados por
S1 S2 Zc s1 s 2 S1 S2 Zc s12 s 2 2 Los limites de confianza para la diferencia de dos medias poblacionales, en el caso de poblaciones infinitas, se calculan como:
X 1 X 2 Z c x 1 x 2 X 1 X 2 Z c
12 N1
22 N2
Los limites de confianza para la diferencia de dos proporciones poblacionales, con poblaciones infinitas, están dados por:
P1 P2 Z c p1 p 2 P1 P2 Z c
p1(1 p1) p 2(1 p 2) N1 N2
Aplicación Tienda en el centro de la ciudad
Tienda en el centro comercial
Tamaño de muestra
N1=36
N2=49
Media muestral
40 años
35 años
Desviación estándar poblacional
9 años
10 años
X 1 X 2 Z c x 1 x 2 X 1 X 2 Z c En promedio los clientes del centro de la ciudad son 5 años mayores que los del centro comercial, pero con un 95% de confianza esta la diferencia entre 0.94 y 9.06 años.
12 N1
22 N2
9 2 102 40 35 1.96 36 49 5 4.06 El margen de error es de 4.06 años y la estimación por intervalo de 95% de confianza de la diferencia entre las medias poblacionales va de 5-4.06=0.94 años a 5+4.06=9.06 años.
Aplicación: Una muestra de 150 lámparas del tipo A ha dado una vida media de 1400 hrs. Y una desviación típica de 120 hrs. Una muestra de 200 lámparas del tipo B dan vida media de 1200 h y desviación típica de 80 horas. Hallar los límites de confianza: a.- 95% y b.- 99% para la diferencia de las vidas medias de las poblaciones de ambos tipos.
1400-1200 +/- 1.96√(120)2/150 + (80)2/100
Aplicación: En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un cierto programa de televisión, 100 adultos y 300 jóvenes reconocieron que les había gustado. Determinar los limites de confianza a.- 95% b.- 99% para la diferencia en proporciones de todos los adultos y jóvenes que vieron con agrado el programa.
P1=300/600 =0.50 P2=100/400=0.25 0.50-0.25 +/- 1.96√(0.50)(0.50)/600 +(0.25)(0.75)/400
Intervalos de confianza para desviaciones típicas Los límites de confianza para la desviación típica σ de una población normalmente distribuida, estimados con una muestra con desviación típica s, vienen dados por:
s zc s s zc
2N
Aplicación La desviación típica de las vidas medias de una muestra de 200 bombillas es de 100 horas. Hallar los límites de confianza. a.- 95% b.- 99% para la desviación típica de ese tipo de bombillas.
100 +/- 1.96(100)/√400
Inferencias acerca de la diferencia entre medias poblacionales:σ1 y σ2 desconocidas (desviaciones estándar poblacionales desconocidas) La inferencia sobre la diferencia entre dos medias poblacionales se extiende al caso en el que las dos desviaciones estándar poblacionales, σ1 y σ2 no se conocen . En este caso para estimar las desviaciones estándar poblacionales desconocidas se emplean las desviaciones estándar muéstrales, s1 y s2. Cuando se usan las desviaciones estándar muéstrales en las estimaciones por intervalo y en las pruebas de hipótesis, se emplea la distribución t en lugar de la distribución normal estándar.
x1 x2 t / 2
2
2
s1 s 2 n1 n2
x1 media muestra1 x2 media muestra2 t / 2 valor de la t student s1 desviación es tan dar de la muestra1 s2 desviación es tan dar de la muestra2
Ejemplo: Encontrar el valor de la t student, con un 95% de confianza y 7 grados de libertad. (2 colas) t=2.36
Ejemplo: Bancomer, realiza un estudio para identificar diferencias entre las cuentas de cheques de sus clientes en dos de sus sucursales; toma una muestra aleatoria simple de 28 cuentas de la sucursal Sauz y otra muestra aleatoria simple e independiente de 22 cuentas de cheques de la sucursal Patria. A continuación se presenta un resumen de los saldos en esas cuentas. Sauz
Patria
Tamaño de la muestra
n1=28
n2=22
Media muestral
x1=$1025
x2=$910
Desviación estándar muestral
s1=$150
s2=$125
El banco desea estimar la diferencia entre el saldo medio en las cuentas de cheques de clientes del Sauz y el saldo medio en las cuentas de cheques de la sucursal Patria.
gl
s12 s 2 2 n1 n2
2
2
1 s 21 1 s 2 2 n1 1 n1 n2 1 n2
2
Grados de libertad: distribución t , con dos muestras aleatorias independientes.
47.8 se redondea a 47
115 +/- 78
Estimación por intervalo de la media poblacional:
¿ Se puede considerar que se conoce la desviación estándar poblacional σ?
SI
NO
Use la desviación estándar muestral s para estimar σ
x Zc
n
s x t n
Aplicación: Las primeras semanas del 2004 fueron buenas para el mercado de acciones. En una muestra de 25 fondos abiertos se encontraron las siguientes ganancias obtenidas desde el principio del año al 24 de enero del 2004. 7.0
3.2
1.4
5.4
8.5
2.5
2.5
1.9
5.4
1.6
1.0
2.1
8.5
4.3
6.2
1.5
1.2
2.7
3.8
2.0
1.2
2.6
4.0
2.6
0.6
a.-¿Cuál es la estimación puntual de la media poblacional de las ganancias en fondos abiertos desde principio del año hasta esa fecha?
b.-Puesto que la población tiene una distribución normal, calcule un intervalo de confianza de 95% para la media poblacional de las ganancias en fondos abiertos desde el principio del año hasta esa fecha.
Si la prueba es de dos colas, el valor de α lo divides entre dos y lo buscas en esta fila
Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl.
Si deseas, buscar el valor de la t student en Excel, puedes usar la función DISTR.T.INV, te pedirá la probabilidad esto es el nivel de significancia, tu se lo pones dependiendo si es una cola o dos colas, acuérdate que si es dos colas, divides el valor de α entre dos.
Repaso: La media y desviación típica de las cargas máximas soportadas por 60 cables, son 11.09 y 0.73 toneladas, respectivamente. Hallar los limites de confianza. a.-95% b.-99% para la media de las cargas máximas soportadas por los cables de este tipo.
Repaso: Se espera que una elección entre dos candidatos sea muy reñida. ¿Cual es el mínimo número de votantes a sondear si se quiere tener un 95% de confianza sobre la decisión a favor uno de otro?
Introducción Errores tipo I y tipo II Potencia de la prueba. Formulación de hipótesis estadísticas. Prueba de hipótesis para la media. Prueba de hipótesis para la diferencia de medias. Prueba de hipótesis para la proporción. Prueba de hipótesis para la diferencia de proporciones. Prueba de hipótesis para la varianza. Prueba de hipótesis para la relación de varianzas.
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis. Digamos que suponemos cierto valor para una media de la población. Para probar la validez de nuestra suposición recolectamos datos de muestra y determinamos la diferencia entre el valor real de la media de dicha muestra. Después juzgamos si la diferencia obtenida es significativa o no. Mientras mas pequeña sea la dicha diferencia, mayor será la probabilidad de que nuestro valor hipotetizado para la media sea correcto. Mientras mayor sea la diferencia, más pequeña será la probabilidad.
Elaboración de las hipótesis nula y alternativa En algunas aplicaciones no parece obvio cómo formular la hipótesis nula y la hipótesis alternativa. Se debe tener cuidado en estructurar las hipótesis apropiadamente de manera que la conclusión de la prueba de hipótesis proporcione la información que el investigador o la persona encargada de tomar decisiones desea.
Prueba de una hipótesis de investigación Considere un determinado modelo de automóvil en el que el rendimiento de la gasolina es 24 millas por galón. Un grupo de investigación elabora un nuevo sistema de inyección de combustible diseñado para dar un mejor rendimiento en millas por galón de gasolina. Para evaluar el nuevo sistema se fabrican varios de éstos, se instalan en los automóviles y se someten a pruebas controladas de manejo. En este caso, el grupo de investigación busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento.
La hipótesis de investigación es, entonces que el nuevo sistema de inyección de combustible proporciona un rendimiento medio mayor a 24 millas por galón de combustible; es decir, μ>24. Como lineamiento general, una hipótesis de investigación se debe plantear como hipótesis alternativa. Ho: μ≤24 Ha: μ>24 alternativa)
(la hipótesis que tu quieres probar la pones como
Prueba de la validez de una afirmación: A manera de ejemplo de la prueba de validez de una afirmación, considere una situación en la que un fabricante de refrescos asegura que los envases de dos litros de refresco contienen en promedio, por lo menos 67.6 onzas de liquido. Se selecciona una muestra de envases de dos litros y se mide su contenido para confirmar lo que asegura el fabricante. En este tipo de situaciones de prueba de hipótesis, se suele suponer que el dicho del fabricante es verdad a menos que las evidencias muéstrales indiquen lo contrario. Ho: μ≥67.6 Ha: μ895 (la hipótesis que tu quieres probar la pones como alternativa)
z
x o
n
La diferencia en tamaño entre muestras grandes y pequeñas es importante cuando no se conoce la desviación estándar de la población σ y se hace necesario estimarla a partir de la desviación estándar de la muestra. Si el tamaño de la muestra n es de 30 o menor y σ se desconoce, debemos utilizar la distribución t. La distribución t apropiada tiene n-1 grados de libertad. Estas reglas también se aplican a la prueba de hipótesis.
x
n
Aplicación 3 Una empresa sostiene que el salario medio por hora de sus trabajadores es de 500 pesos. El sindicato sospecha que la empresa exagera el valor del salario medio por hora. En una muestra de 400 trabajadores, el sindicato encuentra que el salario medio por hora es de 490 pesos con una desviación estándar de 60 pesos. a. Plantear la hipótesis nula y alterna b. Llegar a una conclusión respecto a la afirmación de la empresa, con un 5% de nivel de significación.
z
x o
n
Ho: media= Ha: media < 500
z
490 500 60 400
Aplicación 4 (Tarea) El departamento de control de calidad de “Tigre Toñi” especifica que el peso promedio por paquete de cereal debe ser de 20 onzas. Periódicamente se selecciona una muestra de cajas llenas, que se pesan para determinar si están faltas o sobradas de llenado. Si los datos de la muestra llevan a la conclusión de que les falta o sobra cereal, se debe parar la línea de producción y hacer los ajustes necesarios para que el llenado sea correcto. a) Formule las hipótesis nula y alternativa que ayuden a decidir si es conveniente parar y ajustar la línea de producción o no. b) ¿Cuál es el error de tipo I en este caso? ¿Cuáles son las consecuencias de cometerlo?
Aplicación 5 (Tarea) En una encuesta, un investigador obtuvo la estimación de que la media del número de horas de ver TV por familia es de 7.25 horas diarias. Suponga que en esta encuesta participaron 200 familias y que la desviación estándar de la muestra fue de 2.5 horas diarias. Hace 10 años, la media de la población de horas de TV era de 6.70 por familia. Si =la media de la población del número de horas de ver TV por familia hace 10 años, pruebe la hipótesis
H0 : 6.70 y H a : 6.70
Use =0.01. ¿Cuál es el valor crítico del estadístico de prueba y cuál es la regla de rechazo? Calcule el valor del estadístico de prueba. ¿cuál es su conclusión?
Pruebas de hipótesis para proporciones:
z
p p0 p0 (1 p0 ) n
p0 proporción hipotetica p proporción muestral n tamaño de muestra
Ejemplo:
En años anteriores 20% de los jugadores del campo eran mujeres. Para aumentar la proporción de mujeres se realizó una promoción especial. Un mes después de realizada la promoción, el administrador del campo solicita un estudio estadístico para determinar si la proporción de jugadoras ha aumentado.
p0 0.20 p 0.25 n 400
z
H 0 p 0.20 Ha p 0.20 prueba una cola
0.25 0.20 2.5 0.20 (1 0.20 ) 400 para un 95% confianza z 1.64 por lo tan to se rechaza la Ho
Aplicación 2 En un estudio acerca de la rotación de puestos, un investigador entrevista a una muestra aleatoria de 200 empleados de alto nivel que cambiaron de trabajo el año anterior. Treinta afirman haberlo hecho a causa de la ausencia de perspectivas de ascenso en sus anteriores trabajos. a) Empleando un nivel de significancia de 0.05, ¿ofrecen estos datos suficiente evidencia que indique que menos del 20% de esos empleados cambian de trabajo por ese motivo? b) Cuál es el valor p-value?
z
p p0 p0 (1 p0 ) n
n 200
El p-value, es el valor del área de la colita
30 0.15 200 17 p0 0.85 20 0.15 0.20 z 0.15(0.85) 200 p
Pruebas de hipótesis acerca µ1 - µ2 Estadístico de prueba para pruebas de hipótesis acerca de µ1 y µ2 σ1 y σ2 desconocidas.
t
( x1 x2 ) D0 2 1
2 2
Nota: considerar a Do=0, esto quiere decir que no hay diferencia entre las medias poblacionales.
s s n1 n2 s1 s 2 n1 n2 2
gl
2
2
2
1 s 2 1 n1 1 n1 n2 1 n2 s 21
2
2
Tecnología existente
Software nuevo
300
274
280
220
344
308
385
336
372
198
360
300
288
315
321
258
376
318
290
310
301
332
283
263
Tamaño de muestra
n1=12
n2=12
Media Muestral
X1=325
X2=286
Desviación estándar muestral
s1=40
s2=44
El investigador encargado de la evaluación del nuevo software espera poder demostrar que con el nuevo software se necesita menos tiempo para el proyecto del sistema de información. De manera que el investigador tratará de hallar evidencias que le permitan concluir que µ2 es menor que µ1
Ho: µ1-µ2≤0 Ha: µ1-µ2>0 Nivel de significancia α=0.05
Probabilidad de una sola cola. Valores t de Student y probabilidad P asociada en función de los grados de libertad gl. α Nivel de significancia
Inferencias acerca de la diferencia entre dos medias poblacionales: muestras pareadas. Trabajador
Tiempo para realizar la tarea con el método 1 (minutos)
Tiempo para realizar la tarea con el método 2 (minutos)
Diferencia entre los tiempos (di)
(di – Media de las diferencias)^2
1
6.0
5.4
0.6
(0.6-0.30)^2=
2
5.0
5.2
-0.2
3
7.0
6.5
0.5
4
6.2
5.9
0.3
5
6.0
6.0
0
6
6.4
5.8
0.6 Media de las diferencias=0.30
∑
d d
i
n d 0.30 media de las diferencias 0.56 2 sd 0.335 ( d d ) i 5 sd n 1 desviaciónes tan dar
Estadístico de prueba para pruebas de hipótesis con muestras pareadas.
d d tcalculada sd n d 0.30 d 0 sd 0.335 n6 t calculada=2.20
Para el problema anterior:
Ho: µd=0 Ha: µd≠0 α=0.05 Para dos colas α/2 = 0.025 n-1= grados de libertad=6-1
t= ¿? Conclusión, se acepta Ho que no hay diferencia entre las medias.
t critica=2.571
Regla de decisión, usando el método de pvalue. p-value ≤ α nivel significación, se rechaza la hipótesis nula, caso contrario se acepta la hipótesis nula.
Prueba de hipótesis acerca de p1-p2 Error estándar:
p1 p 2
p1 (1 p1 ) p2 (1 p2 ) n1 n2
Estadístico de prueba para pruebas de hipótesis acerca de p1p2 1 2
z
(p p ) 1 1 p (1 p )( ) n1 n2
n1 p1 n2 p2 p n1 n2
Aplicación: Una empresa se dedica a elaborar declaraciones de impuestos, suponga que la empresa desea realizar una prueba de hipótesis para determinar si las proporciones de errores de las dos oficinas son diferentes. Ho: p1-p2=0 Ha: p1-p2≠0 α=0.10 p1=0.14 n1=250 p2=0.09 n2=300
Aplicación: Durante el partido Chivas, Atlas, un comercial de la cervecería, conocido como las Chicas Sol, fue uno de los tres más efectivos televisados durante el evento. Una encuesta para ver la efectividad de los comerciales, empleó muestras por grupos de edades para ver el efecto de la publicidad en el partido Chivas, Atlas sobre los distintos grupos de edades. A continuación se presentan los resultados muéstrales respecto del comercial de la marca cerveza. Edad
Tamaño de muestra
Le gustó mucho el comercial
Menos de 30 años
100
49
De 30 a 49 años
150
54
a.- Formule una prueba de hipótesis para determinar si las proporciones poblacionales de los dos grupos de edades difieren. b.-Dé la estimación puntual de la diferencia entre las dos proporciones poblacionales. c.-Realice la prueba de hipótesis y dé el valor-p. Con α=0.05, ¿cuál es su conclusión? d.-Analice la forma en que el comercial llama la atención del grupo de menor y de mayor edad. ¿Le parecerá a la empresa cervecera que los resultados de esta encuesta le son favorables?
Ho: p1-p2=0 Ha: p1-p2≠0 α= p1= n1= p2= n2=
Inferencias acerca de varianzas poblacionales En los temas de los capítulos anteriores se vieron métodos de inferencia estadística para medias y proporciones poblacionales. Ahora se extiende dicho estudio a las varianzas poblacionales. Un ejemplo en que la varianza brinda una información importante para tomar una decisión es el caso de un proceso en el que se llenan recipientes con un detergente líquido. La maquina de llenado se ajusta de manera que logre un llenado medio de 16 onzas por envase. Aunque la media de llenado es importante, la varianza en los pesos de llenado también es relevante.
Es decir, aun cuando la máquina de llenado tenga un ajuste adecuado para una media de llenado de 16 onzas, no es de esperar que todos los envases tengan exactamente 16 onzas. Para calcular la varianza muestral de la cantidad de onzas en cada envase se toma una muestra de envases llenos. El valor de la varianza muestral sirve como una estimación de la varianza en la población de envases que están siendo llenados en el proceso de producción. Si la varianza muestral es moderada, el proceso continua. Pero si la varianza muestral es grande, puede estar ocurriendo por exceso o defecto de llenado, aunque la media sea correcta, en este caso habrá de reajustar la maquina.
Estimación por intervalo para la varianza poblacional:
(n 1) s 2
/ 2 2
2
(n 1) s 2 2 (1 / 2)
Donde los valores de X2 están basados en una distribución chi-cuadrada con n-1 grados de libertad y donde 1-α es el coeficiente de confianza.
Pruebas de hipótesis para la varianza poblacional
Prueba de la cola inferior
Prueba de la cola superior
Prueba de dos colas
Hipótesis
Ho: σ2 ≥σ2o Ho: σ2 σ2o
Ho: σ2 =σ2o Ho: σ2 ≠σ2o
Estadístico de prueba
X2=(n-1)s2/σ2o
X2=(n-1)s2/σ2o
X2=(n-1)s2/σ2o
Regla de rechazo: método del valor-p
Rechazar Ho si valorp≤α
Rechazar Ho si valorp≤α
Rechazar Ho si valorp≤α
Regla de rechazo: método del valor crítico
Rechazar Ho si
Rechazar Ho si
Rechazar Ho si
X2≤X2
X2≤X2
X2≤X2
(1-α)
α
(1-α/2)
o si X2≥X2
α/2
Aplicación: En la industrial farmacéutica la varianza en los pesos de los medicamentos es trascendental. Considere un medicamento cuyo peso está dado en gramos y una muestra de 18 unidades de este medicamento, la varianza muestral es s2 =0.36 a.- Dé un intervalo de 90% de confianza para estimar la varianza poblacional de los pesos de este medicamento.
Aplicación 2 Una pieza para automóviles debe fabricarse con medidas de tolerancia muy estrechas para que sea aceptada por el cliente. Las especificaciones de producción indican que la varianza máxima en la longitud de la pieza debe ser 0.0004. Suponga que en 30 piezas la varianza muestral encontrada es s2=0.0005. Use α=0.05 para probar si se está violando la especificación para la varianza poblacional.
X2=(n-1)s2/σ2o n= tamaño de muestra s2=varianza muestral= σ2o= varianza de población gl=n-1= X2calculada= x2critica=
Prueba X2 Prueba de Kolmogorov Sminov Prueba de Anderson Daring
Distinción entre las pruebas paramétricas y las no paramétricas
Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribución de probabilidad de tipo normal o de Gauss. Pero en muchas ocasiones esta suposición no resulta válida, y en otras la sospecha de que no sea adecuada no resulta fácil de comprobar, por tratarse de muestras pequeñas. En estos casos disponemos de dos posibles mecanismos: los datos se pueden transformar de tal manera que sigan una distribución normal, o bien se puede acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto a la distribución de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramétricas (distribution free), mientras que las pruebas que suponen una distribución de probabilidad determinada para los datos se denominan pruebas paramétricas
Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.
Las pruebas z y t son ejemplos de pruebas paramétricas. Por ejemplo en la prueba z es necesario especificar la media y la desviación estándar de la población de la hipótesis nula y, además los datos de la población deben tener una distribución normal (la media y la desviación estándar son parámetros). Aunque todas las pruebas de inferencia dependen en cierta medida de las características de la población, los requisitos de las pruebas no paramétricas son mínimas. Como las pruebas de inferencia no paramétricas tienen menos requisitos o supuestos relacionados con las características de población, surge la duda de si no deberíamos utilizarlas todo el tiempo, olvidándonos de las pruebas paramétricas. Muchas de la pruebas paramétricas son robustas con respecto a la violación de los supuestos subyacentes.
JI-CUADRADA EXPERIMENTOS CON UNA VARIABLE
Hasta este momento, hemos presentado pruebas de inferencia que han sido utilizadas principalmente con datos ordinales, de intervalo o razón. La prueba de inferencia que se emplea más a menudo con los datos nominales es una prueba no paramétrica que se conoce como ji-cuadrada
Aplicación 1 Preferencia por las diversas marcas de cerveza ligera Supongamos que usted quiere determinar si los consumidores de cerveza que viven en Guadalajara difieren con respecto a sus preferencias por las diferentes marcas de cerveza ligera. Para eso decide realizar un experimento en el cual elige al azar a 150 consumidores de cerveza y los invita a probar las tres marcas principales de esa bebida. Suponga que se han observado todas las precauciones de un buen diseño experimental, como no mostrar los nombres de las marcas a los sujetos del experimento y otros cuidados similares. Los datos resultantes se presentan en la tabla. Marca A
Marca B
Marca C
Total
45
40
65
150
Los datos de cada celda son el número o la frecuencia de los sujetos que corresponde a esa celda. Así, 45 sujetos prefirieron la marca A, 40 prefirieron la marca B y 65 prefirieron la marca C. ¿Podemos concluir, a partir de estos datos, que existe alguna diferencia en las preferencias de la población?
Hipótesis nula: No existe diferencia alguna en la preferencia de la población por las diversas marcas de cerveza ligera.
2 obt
( fo fe )2 fe
Ecuación para determinar la Ji cuadrada fo= frecuencia observada en la celda fe= frecuencia esperada en la celda Marca A
Marca B
Marca C
Total
45
40
65
150
frecuencia observada
50
50
50
150
frecuencia esperada
(45 50) 2 (40 50) 2 (65 50) 2 50 50 50 0.50 2.00 4.50 7.00 t critica: 5.991 Buscar en la tabla con
k-1 grados de libertad, donde k es el numero de grupos o categorías, para este caso k=3 y un nivel de significación de 0.05
Zona aceptación
t obs= 7
t criti ca
zona de rechazo conclusión: se rechaza nuestra hipótesis nula
Aplicación 2: Un investigador cree que la composición étnica de la ciudad donde él vive ha cambiado durante los últimos años. Las cifras más recientes (recopiladas hace unos cuantos años) muestran que los habitantes de dicha ciudad presentaban la siguiente composición étnica: 53% noruegos, 32% suecos, 8% irlandeses, 5% hispanos y 2% italianos. Para poner a prueba su idea, el científico social obtiene una muestra aleatoria de 750 habitantes. Los resultados que obtuvo se presentan en la siguiente tabla: Noruegos
Suecos
Irlandeses
Hispanos
Italianos
Total
399
193
63
82
13
750
a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión de usted? Utilice α=0.05
Hipótesis nula: La composición étnica de la ciudad no ha cambiado, Por lo tanto, la muestra de 750 individuos es una muestra aleatoria extraída de una población compuesta por 53% de noruegos, 32% suecos, 8% de irlandeses, 5% de hispanos y 2% de italianos. Completa la siguiente tabla: fo
Proporción esperada
fe
(fo – fe)2 / fe
399
399/750=0.53
0.53(750)=397.5
0.006
193
193/750=
9.204
63
0.150
82
52.807
13 Total 750
X2
Total: obt =62.43
Los grados de libertad son 5-1=4 con un α=0.05, buscas en la tabla y te debe dar un valor de 9.488 como X2obt =62.43 > 9.488 se rechaza
Pruebas de bondad del ajuste. Antes de poder utilizar un generador de proceso en un estudio de simulación, debe mostrarse primero que es posible representar los datos empíricos a través de una distribución probabilística teórica conocida. Por ejemplo en los modelos de líneas de espera debe demostrarse que la tasa de llegadas tiene una distribución Poisson y el tiempo de servicio una distribución exponencial. Es posible emplear diversas pruebas estadísticas para probar la bondad del ajuste de una distribución teórica a conjunto determinado de datos. Una de las que mas se usan con mayor frecuencia es la prueba Ji cuadrada X2
La prueba de X2 pretende determinar si existe diferencia significativa entre las frecuencias esperadas (las que se basan en la distribución teórica) y las frecuencias reales (las de los datos). Los pasos que se utilizan en el proceso de prueba son los siguientes: 1. Plantear la hipótesis de prueba, Ho, que señala que los datos observados se extrajeron de una población que puede describirse a través de una distribución teórica conocida. 2. Plantear la hipótesis alternativa, H1, que señala que los datos observados no se extrajeron de la población planteada en el paso 1. 3. Identificar el nivel de significación, α, con el que se llevará a cabo la prueba. (Recordar que 1-α es el nivel de confianza de una prueba estadística.) 4. Utilizando la siguiente relación matemática.
2
cal
( fo fe) 2 fe
en donde X2cal = valor calculado de X2 fo = frecuencias observadas fe = frecuencias teóricas o esperadas. Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta H1)
Nota: La distribución continua chi cuadrada puede aproximarse razonablemente a la distribución discreta ( fo fe) 2 2
cal
fe
siempre y cuando todos los valores de fe sean de al menos 5. (Hay formas para evitar el problema de una frecuencia que se espera menor que 5, como combinar categorías de manera que todas las frecuencias que se esperan sean al menos 5)
Ejemplo: Suponga que los datos que aparecen en las dos primeras columnas, corresponden al número de clientes que entran a un banco cada hora. Estos datos se recolectaron al azar para 204 periodos de una hora. Con base en estos datos, plantearíamos la hipótesis (Ho) de que los datos pueden representarse por medio de una distribución de Poisson. Número de llegadas por hora (x)
Frecuencia observada (fo)
0
70
1
84
2
34
3
12
4
4
(T ) x e T p ( x) , x!
0 x
en donde λT= número promedio de llegadas por periodo T x = número de llegadas en el intervalo de tiempo
Número de llegadas por hora (x)
Frecuenc ia observad a (fo)
Probabilidad esperada de acuerdo a Poisson
Frecuencia esperada (fe)
(fo-fe)2 / fe
0
70
p(x=0)=(1)(e1)/0!=0.36788
0.36788 x 204= 75.05
(70-75.05)2/75.05 =0.3398
1
84
p(x=1)=(1)(e1)/1!=0.36788
0.36788 x 204= 75.05
2
34
p(x=2)=(1)(e1)/2!=_______
3
12
p(x=3)=________________
4
4
p(x≥4)=________________ ojo, probabilidad mayor o igual a 4= 1- (suma de las otras probabilidades)
Total= 204
=0.0088 (agrupando 3 y 4, porque la frecuencia esperada de 4 debe ser al menos 5)
X2cal = 1.7461
Grados de libertad= Numero de categorías – 1= 4-1=3 α = 0.05 95% de confianza Si X2cal > X2 tablas , entonces se rechaza Ho (se acepta H1)
Región aceptación
Región de rechazo
Chi-critica, que se busca con las tablas = 7.815
Llega Don Poisson
Lo atiende Doña Exponencial
Notas, técnicas (respecto a la dualidad en las distribuciones de probabilidad Many of the distributions discussed in this chapter are related to one another in various ways. For example, the geometric distribution is related to the binomial distribution. The geometric distribution represents the number of trials until the next success while the binomial represents the number of successes in a fixed number of trials. Similarly, the Poisson distribution is related to the exponential distribution. The exponential distribution represents the amount of time until the next occurrence of an event while the Poisson distribution represents http://www.elmundo.es/traductor/ the number of times an event occurs within a given period of time.
In some situations, as when the number of trials for the binomial distribution becomes very large, the normal and binomial distributions become very similar. For these two distributions, as the number of binomial trials approaches infinity, the probabilities become identical for any given interval. For this reason, you can use the normal distribution to approximate the binomial distribution when the number of trials becomes too large for Crystal Ball to handle (more than 1000 trials). You also can use the Poisson distribution to approximate the binomial distribution when the number of trials is large, but there is little advantage to this since Crystal Ball takes a comparable amount of time to compute both distributions. Likewise, the normal and Student’s t distributions are related. With Degrees of Freedom > 30, Student’s t closely approximates the normal distribution.
Prueba de independencia entre dos variables: Una de las principales aplicaciones de la Ji-cuadrada consiste en determinar si dos variables categóricas son independientes o están relacionadas entre sí. Para ilustrar este punto veamos el siguiente ejemplo: Afiliación política y actitud Supongamos que en la legislatura local está en estudio un proyecto de ley cuyo propósito es reducir la edad legal a fin de permitir el consumo de bebidas alcohólicas a las personas de 18 años. Un diputado (que trabaja) que vive en esa ciudad quiere determinar si existe alguna relación entre la afiliación política y la actitud frente al proyecto de ley. Para averiguarlo, este diputado envía cartas a dos muestras aleatorias, una de ellas formada por 200 miembros del PRD y la otra por 200 miembros del PAN. En la carta el diputado explica su interés por el proyecto de ley y pregunta a los destinatarios si están a favor, indecisos o en contra de esa iniciativa de ley. Les asegura la plena confidencialidad de sus respuestas. En la carta incluye un sobre con el porte pagado para facilitar la respuesta.
El diputado investigador, recibe respuesta de los 400, los resultados obtenidos se muestran en la tabla: Actitud
Afiliación política
A favor
Indecisos
En contra
Total por reglón
PRD
68
22
110
200
PAN
92
18
90
200
Total por columna
160
40
200
400
Este tipo de arreglo se conoce como tabla de contingencia. Una tabla de contingencia se compone de dos vías o entradas y muestra la relación contingente entre dos variables, cuando éstas han sido clasificadas en categorías mutuamente excluyentes y cuando los datos de cada celda son frecuencias.
Hipótesis nula: En la población, la actitud hacia el proyecto y la afiliación política son independientes. Si lo anterior es cierto, entonces los del PRD y PAN en la población deberán tener la misma proporción de personas “a favor”, “indecisas” y “en contra” del proyecto.
Actitud
Afiliación política
A favor
Indecisos
En contra
Total por reglón
PRD
68
22
110
200
PAN
92
18
90
200
Total por columna
160
40
200
400
PRD
fo
Proporción esperada de la población que esta “a……..”
fe
(fo – fe)2 / fe
68 a favor
(68+92)/400=160/400
(160/400)200=80
(68-80)2/80= 1.80
22 indecisos
proporción de personas en total que están a favor
(22+18)/400= 40/400
110 en contra PAN
92 a favor
(68+92)/400=160/400
18 indecisos 90 en contra Total 400
X2
Total: obt =6.00
Hipótesis nula: En la población, la actitud hacia el proyecto y la afiliación política son independientes. grados de libertad=(r-1)(c-1)=(2-1)(3-1)=2 con un α=0.05, buscando en la tabla de la ji cuadrada encuentras: X2critica = 5.991, como la observada es mayor que la critica se rechaza la hipótesis nula.
Aplicación 3: En universidad estudia la posibilidad de implantar uno de los tres sistemas de calificaciones. Se realiza una encuesta para determinar si existe alguna relación entre el área de licenciatura que estudia cada alumno y la preferencia que manifiesta por algún sistema de calificación en particular. Entonces se elige una muestra aleatoria constituida por 200 estudiantes del área de ingenierías, 200 de artes y ciencias y 100 de bellas artes. Se pregunta a cada alumno cuál de los tres sistemas prefiere. Los resultados se presentan en la siguiente tabla de contingencia. a.-¿Cuál es la hipótesis nula? b.-¿Cuál es tu conclusión? Sistema de calificación Sistema 1
Sistema 2
Sistema 3
Total por renglón
Bellas artes
26
55
19
100
Artes y ciencias
24
118
58
200
Ingeniería
20
112
68
200
Total por columna
70
285
145
500
Hipótesis nula: El área de estudio de los estudiantes y su preferencia por algún sistema de calificación son independientes entre sí. La frecuencia obtenida en cada celda se debe al muestreo aleatorio realizado en una población donde las proporciones de estudiantes de bellas artes, artes y ciencias, e ingeniería, que prefieren cada sistema de calificación son iguales. Celda número
fo
fe
(fo – fe)2 /fe
1
26
(70/500)x100=14
10.286
2
55
(285/500)x100
3
19
4 5 6 7 8 9 ∑=18.56
Grados de libertad
(r-1)(c-1)
Aplicación 4 Un investigador esta interesado en determinar si existe alguna relación entre el nivel de educación de los padres y el número de hijos que tienen. Para averiguarlo, realiza una encuesta y así obtiene los siguientes resultados. Número de hijos Dos o menos
Más de dos
Suma por renglón
Educación universitaria
53
22
75
Solamente bachillerato
37
38
75
Suma por columna
90
60
150
a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión? Utilice α=0.05
Supuestos subyacentes a Ji cuadrada Un supuesto básico para utilizar Ji cuadrada consiste en que cada una de las observaciones registradas en la tabla de contingencia es independiente de las demás. Esto significa que cada sujeto puede tener sólo un dato en la tabla. No se permite realizar varias mediciones con el mismo sujeto e introducirlas como frecuencia separadas en la misma celda o en otra distinta. Este error produciría una N mayor que el número de observaciones independientes realizadas. Un segundo supuesto establece que el tamaño de muestra deberá ser lo suficientemente grande para que la frecuencia esperada en cada celda sea de 5, por lo menos, para las tablas en las que r o c es mayor que 2. Si la tabla es de 1x2 o de 2x2, entonces cada frecuencia esperada tendrá que ser de 10 cuando menos.
LA PRUEBA DE RANGOS CON SIGNO Y PARES IGUALADOS DE WILCOXON La prueba de rangos con signo de Wilcoxon se utiliza en combinación con el diseño de grupos correlacionados, el cual debe contener datos que tengan por lo menos una escala ordinal. Se trata de una prueba relativamente potente que a veces se emplea en lugar de la prueba t para grupos correlacionados, cuando hay una violación extrema del supuesto de normalidad o cuando los datos no tienen la escala adecuada.
Aplicación 1 (Ecología) Promoción de actitudes más favorables hacia la conservación de la vida silvestre: Un destacado grupo ecológico planea realizar una campaña activa para fomentar la conservación de la flora y la fauna silvestres en su país. Como parte de la campaña, piensan exhibir una película producida con el fin de promover actitudes más favorables hacia la conservación de la vida silvestre. Antes de exhibirla a todo el público, los promotores de la campaña desean evaluar los efectos de la película. Para eso se elige al azar a un grupo de 10 sujetos y se les proporciona un cuestionario que mide la actitud individual hacia la conservación de la vida silvestre. A continuación, se les proyecta la película y después de la exhibición contestan de nuevo el cuestionario de actitudes. Este tiene 50 puntos posibles y cuanto mas alta sea la puntuación, tanto mas favorable será la actitud hacia la conservación de la vida silvestre. Los resultados se presentan en la tabla. a.-¿Cuál es la hipótesis nula? b.-¿Cuál es la conclusión? Utilice α=0.05 (2 colas)
Hipótesis nula: La hipótesis nula se enuncia sin especificar los parámetros de población. Para este ejemplo establece que la película no influye en las actitudes hacia la conservación de la vida silvestre.
Voy ha comparar el después con el antes Realizare la diferencia Después Antes
Actitud
A Primer paso
B Segundo paso
C Tercer paso
D Cuarto paso
E Quinto paso
F Sexto paso Suma de los rangos negativos
Sujeto
Antes
Después
Diferencia (Después – Antes)
Valor absoluto de la diferencia
Ordenar los valores absolutos de los valores de la diferencia de menor a mayor. (De la columna B al mas chico le asignas el 1 y así te vas al que sigue el 2 y así sucesivamente)
Rango con signo de la diferencia Asignar a los rangos resultantes el signo del puntaje de diferencia cuyo valor absoluto produjo ese rango. (En esta columna son los números de la columna C, pero con los signos de la columna A)
Suma de los rangos positivos (En esta columna colocas los números de la columna D que sean positivos)
1
40
44
4
4
4
4
4
2
33
40
7
7
6
6
6
3
36
49
13
13
10
10
10
4
34
36
2
2
2
2
2
5
40
39
-1
1
1
-1
6
31
40
9
9
8
8
7
30
27
-3
3
3
-3
8
36
42
6
6
5
5
5
9
24
35
11
11
9
9
9
10
20
28
8
8
7
7
7
Σ=55
-1 8 -3
Σ=51
Σ=4
Las tres primeras columnas son los datos del problema, las siguientes columnas son los pasos para llegar a la solución. Para llegar a la conclusión determinamos Tobt calculando la suma de los rangos positivos y la suma de los rangos negativos, Tobt es la menor de esas sumas, para nuestro caso Tobt=4. Para N=10 y con α=0.05 (2 colas) buscando en la tabla de Wilcoxon, vemos que Tcrit =8 Si Tobt ≤ Tcrit deberá rechazarse la hipótesis nula Ho
Aplicación 2 Un investigador quiere determinar si la dificultad del material que han de aprender afecta el nivel de ansiedad de los estudiantes universitarios. A cada uno de los miembros de una muestra aleatoria de 12 alumnos se le asignan ciertas tareas de aprendizaje que se clasifican como fáciles o difíciles. Antes de que los estudiantes inicien cada tarea, se les presentan algunos ejemplos como muestra del material que van ha aprender. A continuación se mide el nivel de ansiedad que mostraron los alumnos, mediante un cuestionario adecuado. De esta manera, se mide el nivel de ansiedad antes de cada tarea de aprendizaje. Los datos se muestran en la tabla siguiente. Mientras mas alta sea la calificación, mayor será el nivel de ansiedad. ¿Cuál es la conclusión, utilizando la prueba de rangos de Wilcoxon y α=0.05 (2 colas)
Hipótesis nula: ---- La dificultad del material no influye en el nivel de ansiedad
Voy ha comparar la ansiedad cuando el material es difícil con la ansiedad cuando el material es fácil Difícil - Fácil
Ansiedad
A
B
C
D
E
F
Rango con signo de la diferencia Asignar a los rangos resultantes el signo del puntaje de diferencia cuyo valor absoluto produjo ese rango. (En esta columna son los números de la columna C, pero con los signos de la columna A)
Suma de los rangos positivos (En esta columna colocas los números de la columna D que sean positivos)
Suma de los rangos negativos
Estudiant e número
Tareas difíciles
Tareas fáciles
Diferencia (Difíciles – fáciles)
Valor absoluto de la diferencia
Ordenar los valores absolutos de los valores de la diferencia de menor a mayor. (De la columna B al mas chico le asignas el 1 y así te vas al que sigue el 2 y así sucesivamente)
1
48
40
8
8
7
2
33
27
6
6
5
3
46
34
12
12
11
4
42
28
14
14
12
5
40
30
10
10
9.5
6
27
24
3
3
Segundo y tercero están empatados entonces se saca la media (2°+3°)/2=2.5 y se asigna este valor a los empates
7
31
33
-2
2
1
8
42
39
3
3
2.5
9
38
31
7
7
6
10
34
39
-5
5
4
11
38
29
9
9
8
12
44
34
10
10
Noveno y decimo están empatados (9+10)/2=9.5
Aplicaciones de repaso1: Una investigadora cree que la estatura de las mujeres ha aumentado en años recientes. Ella sabe que hace 10 años, en la ciudad donde vive, el promedio de estatura de una mujer adulta joven era de 63 pulgadas. No se conoce la desviación estándar. La investigadora toma una muestra aleatoria de 8 mujeres jóvenes adultas que residen en dicha ciudad y mide sus estaturas. Así obtiene los siguientes datos: Estatura en pulgadas 64
66
68
60
62
Encuentra lo siguiente:
Media de los datos de muestra Desviación estándar de los datos de muestra. Plantear la hipótesis nula: Aplicar la formula para la t student Decidir si se acepta o se rechaza la hipótesis nula
65
66
63
Aplicaciones de repaso2 (Ji cuadrada): Se llevo a cabo un estudio para determinar si los habitantes de las grandes ciudades y de poblados pequeños difieren en su disposición para ayudar a los desconocidos. En este estudio, llamaban a la puerta de personas que vivían en Nueva York o en los pequeños poblados cercanos. Los investigadores les explicaban que no encontraban la dirección de un amigo que vivía cerca de ahí y les pedían permiso para utilizar el teléfono. Los siguientes datos muestran la cantidad de individuos que admitieron a los desconocidos (los investigadores) en sus casas y los que no los admitieron: Admitieron al desconocido en su casa
No admitieron al desconocido en su casa
Habitante de una gran ciudad
60
90
150
Habitante de un pequeño poblado
70
30
100
130
120
250
Contesta lo siguiente:
¿Difieren los habitantes de la gran ciudad y los habitantes de poblados pequeños en su disposición para ayudar a los desconocidos? Utilice un α=0.05 para tomar su decisión.
View more...
Comments