9 Muestreo y Distribuciones c
Short Description
Download 9 Muestreo y Distribuciones c...
Description
MUESTREO Y DISTRIBUCIONES MUESTRALES En la actualidad la estadística esta considerada como la
teoría
de
la
información,
no
solo
como
función
descriptiva, sino con el objeto básico de hacer estimaciones acerca de los valores estadísticos de la población o en la comprobación
de
hipótesis
de
las
características
investigadas. De esto podemos indicar que la estadística cubre dos aspectos
de
Descriptiva
gran
importancia:
En
la
Estadística
a través de la recolección, clasificación,
presentación, ya sea en forma de cuadros o gráficos, la aplicación de medidas como promedios, desviaciones, etc., y la interpretación y análisis de datos a fin de obtener conclusiones para tomar decisiones. Se realiza un proceso deductivo de lo general a lo particular. El segundo aspecto es la Estadístistica Inferencial o Método Inductivo, el cual mediante investigaciones por muestreo, logra obtener resultados considerados como estimadores de los parámetros poblaciones. Por lo que entonces se podría afirmar categóricamente que la tarea más importante de la estadística es la
realización de inferencias acerca de una población objetivo con base en los resultados obtenidos a través de una muestra. 1. Una Población es el conjunto de todos los elementos de interés en un estudio. Por ejemplo, la población de las tallas de los varones adultos residentes en la provincia de Lima en un momento determinado o la población de sucesos muerte o supervivencia) en todos los pacientes que sufren una enfermedad específica durante cierto período. 2. Una Muestra es un subconjunto de la población, por lo general
de
número
proporcionalmente
pequeño,
seleccionado de forma que sea representativo, hasta cierto límite, de la población. E l ejemplo más conocido de una encuesta por muestreo es tal vez el sondeo de opinión pública, en el que se entrevista a una pequeña proporción de la población para un objetivo concreto . En muchas encuestas por muestreo se estudian aspectos de Contabilidad y Finanzas. Del elemento se estudian sus características. Estas se clasifican en CUALITATIVAS O ATRIBUTOS, expresados por palabras y se cuantifican mediante el conteo o recuento; las CUANTITATIVAS O VARIABLES expresadas en forma numérica que pueden ser medibles o contadas.
MARCO MUESTRAL.- Es un listado actualizado y revisado de todos los elementos que constituyen la población que va ha ser objeto de investigación. También puede ser un mapa o croquis con las unidades de selección plenamente identificadas. La población se clasifica en FINITA O INFINITA Cuando se investigan las características de todas las unidades que constituyen la población o Universo nos referimos a una investigación total, exhaustiva o Censo. Factores tales como: Costo, Tiempo, Recursos Humanos, Poblaciones muy grandes o infinitas, destrucción de la unidad
sometida
a
control,
características
con
gran
heterogeneidad, impiden la realización del censo. Se sustituye, entonces, por una investigación parcial llamada investigación muestral. MUESTREO
ALEATORIO.-
Realizado
bajo
ciertas
condiciones y sometido a ciertos requisitos, se constituye en un procedimiento práctico, económico y rápido para generalizar
conclusiones
obtenidas
a
través
de
una
muestra, aplicables a toda la población de la que forma parte,
dentro
de
ciertos
límites
de
confiabilidad,
establecidas de antemano. Dentro del Muestreo Aleatorio se tienen los siguientes métodos:
Muestreo Aleatorio simple o Muestreo Aleatorio Irrestricto
Muestreo Aleatorio Estratificado
Muestreo por Conglomerados
Muestreo por Áreas o Muestreo Geográfico
Muestreo por Fases
Muestreo Sistemático
DEFINICIÓN Una muestra probabilística es una muestra extraída de una población, de tal manera que todo elemento de la población tenga una probabilidad conocida de ser incluida en la muestra.
DEFINICIÓN Si se extrae una muestra de tamaño n de una población de tamaño N, de tal manera que toda muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada, la muestra recibe el nombre de muestra aleatoria simple. La mecánica de extraer una muestra que satisfaga la definición de una muestra aleatoria simple se le llama muestreo aleatorio simple. Una manera de seleccionar una muestra aleatoria simple es usar una tabla de números aleatorios.
TABLA Nº O2 VALOR EN DÓLARES DE 120 CUENTAS POR COBRAR NÚMERO
VALOR
NÚMERO
VALOR
NÚMERO
VALOR
NÚMERO
VALOR O1
91
31
107
61
87
91
02
94
32
94
62
104
92
03
115
33
101
63
109
93
04
85
34
95
64
93
94
05
89
35
80
65
95
95
06
107
36
104
66
107
96
07
94
37
94
88
97
91 104 109 92 85 108 99
67
08
105
38
102
68
107
98
09
94
39
89
69
113
99
10
103
40
98
70
95
100
11
104
41
106
71
102
101
12
105
42
85
72
94
102
13
88
43
93
73
99
103
14
107
44
103
74
87
104
119
75
102
105
90
76
105
106
82
77
80
107
90
78
90
108
113
79
108
109
104
80
105
110
81
90
111
115
112
82
113
103 81 96 105 91 115 108 15
90
16
95
45
102 46
101 17
104
47
94 18
93
48
93 19
109
49
102 20
87
50
21
92
51
97
22
117
52
101
23
98
53
90
89
54
88
25
105
55
108
26
101
56
95
27
81
57
28
108
29
94
119 96 82
104 83
85 24
84
90
114
102
115
86
91
116
100
87
103
117
58
103
88
107
118
59
108
89
107
119
97
120
108 85
103 90 105 99 88 30
104
60
85
90
103
También
existe
el
MUESTREO
NO
ALEATORIO,
CIRCUNSTANCIAL O ERRÁTICO, método cuyos resultados
o estimaciones no son de ninguna manera confiables, dado que la selección de las unidades que conforman la muestra se realiza en Forma
caprichosa o por conveniencia, primando el juicio
personal del investigador. Dentro del Muestreo no Aleatorio se tienen los siguientes métodos:
Muestreo a Juicio, intencional u opinático
Muestreo por Conveniencia
Muestreo Voluntario
Muestreo por Cuotas.
DISTRIBUCIONES MUESTRALES Corresponde a una distribución de todas las muestras que pueden ser escogidas conforme a un esquema de muestreo especificado; en general se refiere a un esquema de muestreo que implique selección al azar y a una función de un número fijo de variables aleatorias independientes.
ESTIMACIÓN PUNTUAL Un estimado puntual es un sólo valor numérico basado en datos de una muestra aleatoria que se utiliza para estimar el valor de un parámetro poblacional.
La
Media
µy
la
Desviación
estándar
σ de una
población son parámetros, en cambio la media X y la
desviación estándar S de una muestra son valores estadísticos.
CUADRO
Nº
01:
ESTIMADORES
PUNTUALES
UTILIZADOS CON FRECUENCIA. PARÁMETRO DE LA POBLACIÓN Media Aritmética : µ Diferencia de Medias Proporción
: µ1 − µ2
Varianza
P1 −P2
: σ2
Desviación Estándar Tamaño
X
X1 − X2
p
: P
Diferencia de Proporciones :
µx
ESTIMADOR
: σ :N
ρ1 − ρ2 S2
S
n
= Media de todas las medias muestrales
σx
= Desviación estándar de todas las medias
muestrales Μ
= Número de Muestras Posibles
M Μ! Μ= = n !(Μn − n) ! POBLACIÓN
X1
n
Cuando la Muestra se hace sin reposición.
Μ = Μn
=
S12 X2
n
Cuando se hace la selección con reposición.
n
S22 X3
S32 XM
n
2 SM
DISTRIBUCIÓN MUESTRAL DE X Es la distribución de probabilidad de todos los valores posibles de la media de la muestra X . PROCESO ESTADÍSTICO PARA EMPLEAR FIGURA
UNA MEDIA DE MUESTRA PARA HACER
N° 01
INFERENCIAS
ACERCA
DE
UNA
MEDIA
POBLACIONAL Se selecciona, en la población, una muestra aleatoria simple de n individuos.
POBLACIÓN
CON MEDIA µ
Se usa el valor de para hacer inferencias acerca del valor
El resumen de los datos muestrales proporciona un valor de la media de muestra .
TEOREMA: Dada una población, si extraemos todas las muestras posibles de un mismo
tamaño,
entonces la media de la distribución de todas las medidas muestreadas posibles será igual a la media Poblacional y la varianza de todas las medias muéstrales es igual a la varianza de
( )
la
población
dividida
por
el
tamaño
Muestral.
μ =E X =μ x
Usar esta ecuación siempre que:
σ2 = X
σ2 ⇒ n
σ =
σ
X
1) La población sea infinita, o bien
n
2) La población sea finita y también n/N ≤ 0.05
Haciendo uso del factor de Corrección para poblaciones finitas en la fórmula, se tiene:
σ
X
=
σ n
N −n N −1
= cuando
n > 0.05 N
Si no se conoce la desviación estándar de la población, puede estimarse el error estándar de la medias utilizando la desviación estándar muestral, como estimador de la desviación estándar de la población. S2 =
S2 ⇒ n
S
S = n
X
F.C.P.F:
X
S = X
S n
N −n N −1
EJEMPLO: Un auditor en el hospital Carrión toma una muestra aleatoria de tamaño n = 16 de un conjunto de N = 100 cuentas por cobrar. No se conoce la desviación estándar de los montos de las cuentas por cobrar para el total de las 100 cuentas. Sin embargo, la desviación estándar de la muestra es S = $ 57 dólares.
Determinar el valor del error estándar para la distribución Muestral de la media.
n 16 = = 0,16 N 100
Datos: N = 100
n no es menor que 0,05 N es decir:
n = 16
16 > 0,05 (100) esto implica que para
S=$ 57
calcular S X se tiene que utilizar el factor
S X =?
de corrección para poblaciones finitas. SX =
S n
N −n 57 = N −1 16
100 −16 57 = 100 −1 4
84 99
S X = 14,25 0,8484 = 14,25( 0,9211) ⇒ S X = 13,13 dólares
El error estándar de la media ofrece la base principal para la inferencia estadística con respecto a la media de una población desconocida. Un teorema de la estadística que conduce a la utilidad del error estándar de la media es: El Teorema del Límite Central. TEOREMA
DEL
LIMITE
CENTRAL.-
Al
seleccionar
muestras aleatorias simples de tamaño n de una población, la distribución muestral de la media de la muestra x se puede aproximar a la forma de una DISTRIBUCIÓN NORMAL DE PROBABILIDADES, cuando el tamaño de la muestra es grande, n ≥ 30 , entonces: Z=
X −μ σ
X
X
=
X −μ X −μ = 2 σ n σ n
EJEMPLO 1: Un auditor toma una muestra aleatoria de tamaño 36 de una población de 1000 cuentas
por cobrar, el valor promedio de las cuentas por cobrar de la población es μ = $2 600 con una desviación estándar poblacional de
σ = $450 ,
¿Cuál es la probabilidad de que la media muestral sea inferior a $ 2500 dólares? SOLUCIÓN: E( x ) = μ = $2 600 σX =
σ = $450
σ 450 450 = = = 75 n 6 36
Como n < 0,05 N; no se necesita el factor de corrección z=
x − μ 2500 − 2600 = = − 1.33 75 σ/ n
P x 190) = P( Z >
190 − 185.6 ) 4.0161
4.4 ) = P( Z > 1.09) 4.0161 = 0.5 − A(1.09) = P(Z >
= 0.5 - 0.36214 = 0.13786 0,05
0.36214
μ
185.6 0
190 1.09
Z
INTERVALOS DE CONFIANZA PARA LA MEDIA
1)
X - Zσ X ≤μ ≤ X + Zσ X
2)
X - ZS X ≤μ ≤ X + ZS X
ó
ó
X-
X-
σ σ Z ≤μ ≤ X +Z n n
S S Z ≤μ ≤ X +Z n n
Los intervalos de confianza más utilizados son de 90%, 95% y 99% EJEMPLO: En una semana determinada, se elige al azar una Muestra de 300 pacientes de un número muy grande de ellos que asisten al hospital Daniel Alcides Carrión . Los pacientes realizan un pago por admisión y se encuentran que el promedio de pago es de
X =S/. 1800
con una desviación
estándar muestral de S = S/. 140. Hallar el pago promedio por admisión para todos los pacientes con una estimación por intervalo que permita tener una confianza del 95% de que en ese intervalo incluya el valor de la media Poblacional. SOLUCIÓN n = 300 x = S/.1800
140 140 1800 −1,96 ≤ μ ≤ 1800 +1,96 300 300
S = S/. 140
1800 −1,96(8,0829 ) ≤ μ ≤1800 +1,96 (8,0829 )
con 95% 1,96
Z =
S/. 1784,16 ≤ μ≤ S/. 1815,84
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA Hasta ahora se ha venido trabajando con el tamaño (n) conocido, pero para determinarlo, es necesario identificar los siguientes componentes o elementos técnicos: a)
LA
VARIANZA
variabilidad
( σx2 ).
que
Corresponde
presentan
las
al
grado
unidades
de
de la
población. Mientras mas grande sea σ2x , Mayor será el tamaño de la muestra. El valor de σx2 . supuestamente, es conocido, de lo contrario se debe estimar a través de una
investigación
σ2 p = PQ ,
preliminar.
En
el
caso
de
sucede algo similar, pero se tiene la
costumbre de tomar P = 0,50 con la cual se obtiene el máximo valor posible de "n". b)
NIVEL DE CONFIANZA. Tiene relación directa con el tamaño de la muestra. Por lo tanto se dirá que a mayor nivel de confianza mayor será el tamaño de la muestra, los valores de Z se obtienen mediante el uso de tablas. El nivel de confianza es fijada por el investigador, de acuerdo a su experiencia.
c)
PRECISIÓN DE LA INVESTIGACIÓN.- Corresponde al margen de error que el investigador fija de acuerdo al
conocimiento que tenga acerca del parámetro que piensa estimar. Se le conoce como MUESTREO (E) siendo:
ERROR
DE
zσ E= n
d)
E= z
σ N −n . n N −1
RECURSOS HUMANOS – FINANCIEROS Y TIEMPO.No entran dentro de la determinación técnica del tamaño de la muestra. Pero es de suma importancia en el tamaño de las investigaciones.
I.
PARA POBLACIONES INFINITAS La fórmula para calcular el tamaño óptimo en el muestreo aleatorio simple, en una población infinita se obtiene así:
z=
x −µ σ n
E =x −µ
ERROR =
PARA VARIABLES
2
2 2 zσ z σ n = = 2 E E
zσ de donde: n
n =
zσ E
PARA ATRIBUTOS
z 2pq n= E2
EJEMPLO 1.- La administradora de un hospital desea estimar la proporción de bebés nacidos en su hospital. Si se desea un intervalo de confianza del 95% para que la verdadera proporción de error no exceda del 2%. Si
la población es muy grande. ¿Qué tamaño tendrá la
muestra que va a tomarse. Si la
administradora estima que la proporción de error es del 5%?
SOLUCIÓN: Z 2 PQ (1.96 ) ( 0.05)(0.95) = = 456.19 ⇒ E2 ( 0.02) 2 2
n =
n =456
EJEMPLO 2.- De una remesa de la cual se tomó una muestra de 200 artículos, se encontró que 20 de ellos eran defectuosos. Con una confianza del 95%, calcular el error de la muestra. SOLUCIÓN: n=
z 2 PQ 2 z 2 PQ PQ ; E = ; E = σ =1.96 n n E2
ρ=
20 = 0.10 ⇒ Q = 0.90 200
II.
( 0.10 )( 0.90) 200
E =4.16%
PARA POBLACIONES FINITAS a) Muestreo por Variables Z=
x−µ x−µ zσ ;Z = ⇒E= υ N −n υ N −n n n N −1 n N
N −n z 2σ 2 N − n ⇒E2 = N n N
n=
Z 2Nσ2 NE2 +Z 2σ2
también :
n=
σ2
y la mas utilizada es:
n=
n0 n 1+ 0 N
Donde:
2
2 2 zσ n 0 = zEσ2 = E
b) Muestreo por Atributos 2
n = (N−1Z)ENPQ 2 +Z 2PQ
n=
n0 n 1+ 0 N
ó
Siendo
n=
PQ 2
E PQ + N Z
⇒ n0 =
2
E σ2 + Z N
Z 2PQ E2
EJEMPLOS: 1. Se desea realizar una investigación en el Ministerio de Transportes
sobre
el
número
de
unidades
que
se
encuentran en, mal estado en 4000 cajas y la proporción de cajas que contienen unidades en mal estado. Se realiza una encuesta preliminar de 80 cajas con el siguiente resultado, presentado en una tabla de frecuencia:
Número de Unidades defectuosas:
0
1
37
16
2 3 4 5
10 12 Número de Unidades examinadas: 2
8
8
4
2
3
Determinar el tamaño de muestra con las dos condiciones: Para ello el investigador debe establecer un error de 6% para el promedio, del 12%
para la proporción y una
confianza del 95% para ambos casos.
SOLUCION:
A) Ν = 4000 Z = 1.96 x =
x f − nx =∑ 2
S
2
n
2
∑x f
i i
n
=
138 = 1.725 ≈1.73 80
866 − 80(1.725) = = 7.85 E = ( 0.06 )(1.73) = 0.10 80
2 ( 1.96 ) ( 4000 )( 7.85) n= 2 2 4000( 0.10 ) + (1.96 ) ( 7.85)
2
= 1720 cajas
B) ρ =
80 −37 43 = = 0.5375 ≈0.54 80 80
2 ( 1.96 ) ( 4000 )( 0.54 )( 0.46 ) n= 2 2 3999( 0.12 ) + (1.96 ) ( 0.54 )( 0.46 )
= 66 cajas
El tamaño óptimo es de 1720, ya que se toma el mayor valor 2. Se planea realizar una encuesta para determinar qué proporción de familias en el Distrito de la Victoria carece de servicios médicos. Se cree que la proporción no puede ser menor que 0.25. Se desea un intervalo de confianza del 95% con una precisión relativa del 5% . De qué tamaño se debe seleccionar la muestra de familias?
Z 2PQ (1.96 ) ( 0.25)( 0.75) n= = = 1800.75 ≈ 1801 2 E2 ( 0.02) 2
Por lo tanto, debe seleccionarse 1801 familias
DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN En muchos casos dentro el campo de la salud se usa la proporción Muestral p para hacer inferencias estadísticas sobre la proporción Poblacional P.
DISTRIBUCIÓN MUESTRAL DE p La distribución muestral de p es la distribución de probabilidades de todos los valores posibles de la proporción muestral p. Para determinar lo cercano que está la proporción muestral
p
necesitamos
de
la
proporción
comprender
las
poblacional
propiedades
de
P, la
distribución Muestral de p: su valor esperado, su desviación estándar y la forma de su distribución. VALOR ESPERADO DE
p μp = P
E(p) = P
DESVIACIÓN ESTÁNDAR DE p: Llamada también ERROR ESTÁNDAR. Población finita σp =
N − n P( 1 − P ) N −1 n
Población infinita σp =
P( 1 − P ) σ p PQ = = n n n
VARIANTE ESTADÍSTICA En muchos casos podemos utilizar la distribución normal apara evaluar la distribución muestral de proporciones, siendo:
Z=
p - P p − P p − μp = = σp σp PQ n
La distribución muestral de p se puede aproximar con una distribución normal de probabilidades, siempre que el tamaño de muestra sea grande. Se puede considerar que el tamaño de muestra es grande cuando se cumplen las dos condiciones siguientes: n p ≥5
n(1- p ) ≥ 5 Vale la pena observar la simbología que se utiliza en la muestra. a = ∑ ai
Total de elementos que presenta la
característica investigada p=
a ∑ ai = n n
Proporción de elementos que presenta la característica investigada
q = 1− p =
n−a n
Proporción
de
elementos
que
no
presenta la característica investigada Sp2 : Varianza de una proporción ⇒ Sp2 = pq Sp : Desviación estándar
⇒ Sp = pq
EJEMPLOS 1.
Se tiene que el 4% de las piezas producidas por cierta máquina son defectuosas. ¿Cuál es la probabilidad de
que un grupo de 200 piezas, el 3% o más son defectuosas? SOLUCIÓN μp = 0,04
p = 0,03
σp =
PQ = n
( 0,04 )( 0,96 ) 200
= 0,014
Se desea determinar la P( p ≥ 0,03 ) = ?
Z=
p - μp PQ n
=
0,03 − 0,04 = − 0,71 ( 0,04 )( 0,96 ) 200
P( p ≥ 0,03 ) = P( z ≥ −0,71) = 0,5 + A(-0,71) = 0,5000 + 0,2612 = 0,7612 P[ p ≥ 0,03 ] = 76,12 %
0,2612
0,5
0,03 -0,71
0,04 0
p Z
Solución con Corrección Si se quiere obtener una buena aproximación a la distribución normal, debe hacerse la corrección en la variable discreta, siendo igual a
1 . Si se va a obtener 2n
una área hacia la derecha, se restará este factor de corrección; en el caso de que sea a la izquierda, se sumará ese factor al valor de p. 1 p - μp 2n Z= σp
1 p + - μp 2n Z= σp
ÁREA A LA DERECHA
P( p ≥ 0,03 )
=
ÁREA A LA IZQUIERDA 1 p − − 0,04 2( 200 ) P Z ≥ 0,014
=
1 0,03 − − 0,04 400 P Z ≥ 0,014
=
( 0,03 − 0,0025 ) − 0,04 P Z ≥ 0,014
=
0,0275 − 0,04 P Z ≥ 0,014
= P[ Z ≥ −0,89 ] =0,5000+A(0,89)=0,5000+0,3133 P[ p ≥ 0,03 ]
=
0,8133
=
81,33 %
0,3133
0,5
0,03 -0,89
0,04 0
p Z
PRUEBA DE HIPOTESIS OBJETIVOS DEL TEMA •
Conocer el proceso para contrastar hipótesis y su relación con el método científico.
•
Diferenciar entre la hipótesis nula y alternativa
•
Fijar el nivel de significación
•
Toma
de
decisiones,
Tipos
de
error
y
Cuantificación del error. QUÉ ES UNA HIPÓTESIS? •
Una
creencia
sobre
la
POBLACIÓN,
principalmente sus parámetros: Media Poblacional ( µ ) Varianza Poblacional ( σ
2
)
Proporción Poblacional ( P ) •
OJO!
Si
queremos
contrastarla
debe
establecerse antes del análisis. IDENTIFICACIÓN DE HIPÓTESIS Hipótesis Nula Alternativa
Ho
Hipótesis
H1
- La que contrastamos - Los datos pueden refutarla
- Niega a Ho - Los datos pueden
mostrar evidencia a favor. - No debería ser rechazada
- No debería ser
aceptada sin sin una buena razón. a favor.
Una gran evidencia
Ho:
P = 50 % =; = H1:
P ≠ 50%
≠
; <
;>
¿QUIEN ES Ho? •
PROBLEMA:
¿La osteoporosis está relacionada
con el Género? •
SOLUCIÓN -
Traducir a lenguaje estadístico :
P = 50% P ≠
Establecer su opuesto
50% -
Seleccionar la hipótesis nula
HOHHH : P = 50% Es
necesario
indicar
que
la
Inferencia
estadística,
comprende dos partes principales, a saber: la estimación de parámetros y la prueba o docimasia de hipótesis, que es motivo de la presente tarea, con el fin de desarrollar métodos y observar su aplicación a problemas
concientes de la vida diaria. La aplicación está en muestras grandes y pequeñas. La prueba de hipótesis, denominada también prueba de significación suposiciones
tiene o
como
afirmaciones
objeto
principal
acerca
de
los
evaluar valores
estadísticos de la población denominados parámetros. La palabra docimar, significa probar y se convierte en una técnica
de
ayuda
al
profesional,
investigador
o
administrador a tomar una decisión referente a una población, examinando una muestra de esa población.
HIPOTESIS ESTADISTICA Es un supuesto acerca de un parámetro o de un valor estadístico de una población, también puede considerarse como la afirmación acerca de una característica ideal de una población sobre la cual hay inseguridad en el momento de formularla y que a la vez, es expresada de tal forma que puede ser rechazada. TIPO DE ERROR En la decisión de aceptar o rechazar una hipótesis puede cometerse dos tipo de error. a) ERROR DE TIPO I: Rechazar una hipótesis nula verdadera ( α ). b) ERROR DE TIPO II: Se comete cuando se acepta una hipótesis nula falsa.
La probabilidad de cometer un error de tipo II se designa por β . Como las pruebas de hipótesis se basan en información de muestra, debemos considerar la posibilidad de cometer errores. Existen por lo tanto dos posibles decisiones: Aceptar o rechazar la hipótesis la que, a la vez, puede ser cierta o falsa.
TABLA Nº1 ERRORES Y DECISIONES CORRECTAS EN PRUEBA DE HIPOTESIS
D
VERDADERA
FALSA
DECISIÓN
ERROR
CORRECTA
TIPO II
RECHAZA
ERROR
DECISIÓN
R
TIPO I
CORRECTA
E C I
ACEPTA
S I O N E S
HIPÓTESIS NULA Y ALTERNATIVA
La hipótesis se debe formular en forma correcta o lógica y debe ser enunciada antes de obtener los datos muestrales. Son ejemplos de hipótesis estadística: a)
El promedio de rendimiento que tendrán los alumnos maestristas en el curso Estadística Aplicada será superior a 16.
b) El 90% de los estudiantes aprobarán la asignatura c) El 5% de las unidades producidas por una máquina serán defectuosas d)
El
promedio
de
contenido
de
colesterol
en
adolescentes normales es de 180 Existen dos tipos de hipótesis que se deben formular: La hipótesis nula, simbolizada por Ho y la hipótesis alternativa por Ha. LA HIPÓTESIS NULA.- Es aquella por medio de la cual se hace una afirmación sobre un parámetro que se va a contrastar con el resultado muestral. Cuando el fabricante dice que su producto tiene una duración de 6000 horas, se le considera como hipótesis nula, pues es lo que se quiere probar. LA HIPÓTESIS ALTERNATIVA.- Es todo aquella hipótesis que difiere de la hipótesis nula, es decir ofrece una alternativa afirmando que la hipótesis nula es falsa.
Por
ejemplo se podría decir que la hipótesis alternativa podría ser:
a) El fabricante ha exagerado la duración de su producto (prueba unilateral a la izquierda) b) El fabricante pudo haber dicho que su producto tiene una duración superior a 6000 horas (prueba unilateral a la derecha) c) La duración del producto no es la señalada por el fabricante (prueba bilateral)
NIVEL DE SIGNIFICACIÓN Y PUNTOS CRÍTICOS Se
entiende
por
nivel
de
significancia,
la
máxima
probabilidad de que se especifique, con el fin de hacer mínimo el primer tipo de error.
Generalmente, esta
probabilidad se fija antes de escoger la muestra. El nivel de significación se simboliza por alfa (α), siendo generalmente del 1%, 5% ó 10%; pero se puede usar cualquier nivel, dependiente del tipo de investigación. Cuando se trabaja con un nivel del 10% se considera poco significativo,
cuando se trabaja con un nivel del 5% el
resultado se considera significativo; si se emplea el 1% el resultado es altamente significativo. El valor de significación corresponde a un área bajo la curva de probabilidad o normal, denominada región crítica o de rechazo, cuando n ≥ 30 y la distribución T ó χ2 para muestras pequeñas (n µo
H o : µp =µpo
H o : µp =µpo
H o : µp =µpo
H a : µp ≠µpo
H o : µp µpo
DISTRIBUCIÓN NORMAL
Z =
x −µ σ
DISTRIBUCIÓN DE MEDIAS MUESTRALES
Z =
x −µ σ/ n
o
x −µ = Z ; n ≥30 S/ n
DISTRIBUCIÓN DE PROPOSICIONES
Z=
p−p ; siendo n ≥ 30 pq n
PRUEBA DE HIPÓTESIS: DE UNA SOLA MEDIA DE POBLACIÓN Se presentan 3 casos: CASO 1: MUESTREO A PARTIR DE POBLACIONES
NORMALMENTE
DISTRIBUIDA:
VARIANZAS CONOCIDAS
1.
Un grupo de investigadores está interesado en conocer la edad promedio de cierta población. Por decirlo así, se preguntan
lo siguiente: ¿Se pude
concluir que la edad promedio de la población es menor de 30 años? SOLUCIÓN: 1. Datos. Los datos disponibles para los investigadores son las edades de una muestra aleatoria simple de 60 individuos, extraída de la población de interés. A partir de esta muestra se calcula el promedio que es de 27 años. (
= 27 años ).
2. Supuestos.
Se supone que la muestra de valores
proviene de una población cuyas edades siguen una distribución
aproximadamente
normal
varianza de la población es de 120 ( σ
2
y
que
= 120 ).
3. HIPÓTESIS µ
H o:
µ
H1 :
= 30 < 30
4. Nivel de significancia: α = 0,05
Z =
X-μ σ
n
ESTADÍSTICO DE PRUEBA 5. Cálculo del valor tabular ( tT ) Como
α = 0.05 y la prueba es unilateral
zT =
1.645 6. Cálculo del valor experimental ( ZO ) o estadística de Prueba
la
ZO =
27 −30 10.95 / 7.75
= - 2.12
7. Determinación de las regiones críticas
R.R. α=0,5
R.A . Z
1.645-
1.11. 8. Decisión estadística. 645 Como ZO = – 2.12 es < que ZT= -1.645 el valor experimental se sitúa en la zona de rechazo, entonces no
se
puede
aceptar
la
H 0.
9. Conclusión. Se concluye que la edad promedio de la población es menor de 30 años y se beberá actuar de acuerdo a lo pertinente. 2. Se ha observado que numerosos enfermos con cáncer en el distrito de Ate Vitarte y en un estudio clínico
determinado tienen una
supervivencia media desde el diagnóstico de 38.3 meses, con una desviación estándar de 43.3 meses. Cien pacientes son tratados con una nueva técnica y su supervivencia media es de 46.9 meses. ¿Es este aparente incremento de la supervivencia media explicable por una fluctuación debida al azar?
SOLUCIÓN 1. Datos: µ = 38.3 meses σ = 43.3 meses X = 46.9 mes. 2. Suposición: Supongamos que los datos de la muestra se distribuyen en forma aproximadamente normal. 3. HIPÓTESIS : Ho:
µ = 38.3 meses
H1: µ ≠ 38.3 meses 4. Nivel de significación: 5.
α = 0.05
ESTADÍSTICO DE PRUEBA:
La distribución normal
6. Cálculo del valor Tabular ( tT ) : Como α = 0.05
y la prueba es bilateral entonces zT =
1.96 7. Cálculo del valor experimental ( Z0 ) Z0 =
46.9 −38.3 43.3 / 100
=
8.6 4.33
= 1.99
8. Determinación de las regiones críticas α = 0,025 2
α = 0,025 2
R.A.
R.C.
-1,96 : 9. Decisión Estadística
R.C.
1,96
Z
Como Z0 = 1.99 > ZT = 1.96 Se rechaza la hipótesis nula y se Acepta la hipótesis alternativa.
10. Conclusión El valor experimental apenas sobrepasa al valor tabular, por lo tanto , la diferencia es significativa. Esta diferencia significativa sugiere que es poco probable que el incremento del tiempo medio de supervivencia se deba al azar. No sería prudente suponer que el nuevo tratamiento ha mejorado la supervivencia, por que algunas características de los pacientes podrían haber cambiado desde el registro de los primeros datos; por ejemplo, la enfermedad podía haber sido diagnosticada previamente. Finalmente lo que se puede afirmar es que es muy probable que la diferencia no sea un fenómeno debido al azar.
CASO 2: MUESTREO A PARTIR DE UNA POBLACIÓN NORMALMENTE
DISTRIBUIDA:
VARIANZA
DE LA POBLACIÓN DESCONOCIDA 1. Se hicieron determinaciones de amilasa en el suero, en una muestra de 15 sujetos aparentemente normales. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35u/100ml. Supóngase que se desea saber si puede concluirse que la media de la población de la cual provino la muestra de determinaciones de amilasa en el suero es diferente de 120 unidades /100ml
1. DATOS: Los datos consisten de las determinaciones de
la
amilasa
en
el
suero
de
15
sujetos
aparentemente normales. La media y la desviación estándar calculadas a partir de la muestra son 96 y 35 unidades/100ml respectivamente. 2. SUPOSICIONES: una
muestra
15 determinaciones constituyen
aleatoria
determinaciones distribuidas.
Se
de
que
una
están
desconoce
la
población
de
normalmente varianza
de
la
población. 3. NIVEL DE SIGNIFICACIÓN: α = 0,05 4. HIPÓTESIS H0 : μ = 120 Ha : μ ≠ 120
5. ESTADÍSTICA DE PRUEBA: Como no se conoce la varianza poblacional la estadística de prueba es: t =
X -μ S n
6. DISTRIBUCIÓN
DE
LA
ESTADÍSTICA
DE
PRUEBA: La estadística de prueba esta distribuida como la T de Student con n – 1 grados de libertad si H0 es verdadera.
7. REGLA DE DECISIÓN: Se trata de una prueba bilateral, se pone
α a cada cola de la distribución, 2
entonces: Si
- t T ≤ t 0 ≤ t T = 2,1448 Si
Se acepta H0
t T ≤ t 0 ≤ − t T = − 2,148
Se acepta H a
0,025
0,025
R.A.
-2,1448 RC
8. CALCULO
DE
LA
0
2. 1448
RC
ESTADISTICA
DE
PRUEBA
EXPERIMENTAL t0 =
96 - 120 − 24 = = − 2,65 35 15 9,04
9. DECISIÓN ESTADÍSTICA: 2.65 Cae dentro de la región de rechazo por lo tanto se acepta H a y se rechaza
Ho.
10. DECISIÓN ADMINISTRATIVA:
La conclusión,
basada en estos datos, es que la media
de la
población de la cual provino la muestra no es 120 unidades/100ml.
3:
CASO
MUESTREO
POBLACIÓN
A
PARTIR
QUE
DE
NO
UNA ESTA
NORMALMENTE DISTRIBUIDA:
Si la muestra en la cual se basa la prueba de la hipótesis
proviene
de
una
población
que
no
normalmente distribuida, si la muestra es grande,
esta puede
sacarse ventaja del teorema del limite central y usar Z=
X -μ como la estadística de prueba. Si no se conoce la σ n
desviación estándar de la población, la practica común es usar la desviación estándar de la muestra como una estimación. EJEMPLO: En
una
encuesta
sanitaria
de
cierta
comunidad
se
entrevistaron 150 personas. Uno de los detalles de la información obtenida fue el número de recetas médicas que cada persona habrá tenido que pedir durante el año anterior. El número promedio para las 150 personas fue de 5.8 con una desviación estándar de 3.1. El investigador desea
saber
si
estos
datos
proporcionan
evidencia
suficiente como para indicar que la media de la población es mayor que 5. EJEMPLO DE APLICACIÓN:
1. Suponga que la empresa que fabrica bombillas quiere saber si puede afirmar que sus bombillas tiene una duración de 1000 horas. La empresa toma una muestra aleatoria de 100 bombillas y calcula que el promedio de duración es 980 horas y que la desviación estándar es 80 horas. Utilice un nivel de significación del 5%. 2.
Una empresa quiere saber, con un nivel de confianza del 95% , si puede afirmar que las cajas de detergente que vende contienen más de 500 gramos de detergente. De su experiencia anterior, la empresa sabe que la cantidad de de
detergente
contenido
en
las
cajas
sigue
una
distribución normal. La empresa toma una muestra aleatoria de 25 cajas y calcula que el promedio aritmético es 520 gramos y una desviación estándar de 75 gramos. Puesto que a la empresa le interesa contratar que el promedio poblacional es mayor que 500 gramos.
View more...
Comments