9 Muestreo y Distribuciones c

November 8, 2017 | Author: Alexander Torres Alejandro | Category: Sampling (Statistics), Type I And Type Ii Errors, Hypothesis, Variance, Statistics
Share Embed Donate


Short Description

Download 9 Muestreo y Distribuciones c...

Description

MUESTREO Y DISTRIBUCIONES MUESTRALES En la actualidad la estadística esta considerada como la

teoría

de

la

información,

no

solo

como

función

descriptiva, sino con el objeto básico de hacer estimaciones acerca de los valores estadísticos de la población o en la comprobación

de

hipótesis

de

las

características

investigadas. De esto podemos indicar que la estadística cubre dos aspectos

de

Descriptiva

gran

importancia:

En

la

Estadística

a través de la recolección, clasificación,

presentación, ya sea en forma de cuadros o gráficos, la aplicación de medidas como promedios, desviaciones, etc., y la interpretación y análisis de datos a fin de obtener conclusiones para tomar decisiones. Se realiza un proceso deductivo de lo general a lo particular. El segundo aspecto es la Estadístistica Inferencial o Método Inductivo, el cual mediante investigaciones por muestreo, logra obtener resultados considerados como estimadores de los parámetros poblaciones. Por lo que entonces se podría afirmar categóricamente que la tarea más importante de la estadística es la

realización de inferencias acerca de una población objetivo con base en los resultados obtenidos a través de una muestra. 1. Una Población es el conjunto de todos los elementos de interés en un estudio. Por ejemplo, la población de las tallas de los varones adultos residentes en la provincia de Lima en un momento determinado o la población de sucesos muerte o supervivencia) en todos los pacientes que sufren una enfermedad específica durante cierto período. 2. Una Muestra es un subconjunto de la población, por lo general

de

número

proporcionalmente

pequeño,

seleccionado de forma que sea representativo, hasta cierto límite, de la población. E l ejemplo más conocido de una encuesta por muestreo es tal vez el sondeo de opinión pública, en el que se entrevista a una pequeña proporción de la población para un objetivo concreto . En muchas encuestas por muestreo se estudian aspectos de Contabilidad y Finanzas. Del elemento se estudian sus características. Estas se clasifican en CUALITATIVAS O ATRIBUTOS, expresados por palabras y se cuantifican mediante el conteo o recuento; las CUANTITATIVAS O VARIABLES expresadas en forma numérica que pueden ser medibles o contadas.

MARCO MUESTRAL.- Es un listado actualizado y revisado de todos los elementos que constituyen la población que va ha ser objeto de investigación. También puede ser un mapa o croquis con las unidades de selección plenamente identificadas. La población se clasifica en FINITA O INFINITA Cuando se investigan las características de todas las unidades que constituyen la población o Universo nos referimos a una investigación total, exhaustiva o Censo. Factores tales como: Costo, Tiempo, Recursos Humanos, Poblaciones muy grandes o infinitas, destrucción de la unidad

sometida

a

control,

características

con

gran

heterogeneidad, impiden la realización del censo. Se sustituye, entonces, por una investigación parcial llamada investigación muestral. MUESTREO

ALEATORIO.-

Realizado

bajo

ciertas

condiciones y sometido a ciertos requisitos, se constituye en un procedimiento práctico, económico y rápido para generalizar

conclusiones

obtenidas

a

través

de

una

muestra, aplicables a toda la población de la que forma parte,

dentro

de

ciertos

límites

de

confiabilidad,

establecidas de antemano. Dentro del Muestreo Aleatorio se tienen los siguientes métodos: 

Muestreo Aleatorio simple o Muestreo Aleatorio Irrestricto



Muestreo Aleatorio Estratificado



Muestreo por Conglomerados



Muestreo por Áreas o Muestreo Geográfico



Muestreo por Fases



Muestreo Sistemático

DEFINICIÓN Una muestra probabilística es una muestra extraída de una población, de tal manera que todo elemento de la población tenga una probabilidad conocida de ser incluida en la muestra.

DEFINICIÓN Si se extrae una muestra de tamaño n de una población de tamaño N, de tal manera que toda muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada, la muestra recibe el nombre de muestra aleatoria simple. La mecánica de extraer una muestra que satisfaga la definición de una muestra aleatoria simple se le llama muestreo aleatorio simple. Una manera de seleccionar una muestra aleatoria simple es usar una tabla de números aleatorios.

TABLA Nº O2 VALOR EN DÓLARES DE 120 CUENTAS POR COBRAR NÚMERO

VALOR

NÚMERO

VALOR

NÚMERO

VALOR

NÚMERO

VALOR O1

91

31

107

61

87

91

02

94

32

94

62

104

92

03

115

33

101

63

109

93

04

85

34

95

64

93

94

05

89

35

80

65

95

95

06

107

36

104

66

107

96

07

94

37

94

88

97

91 104 109 92 85 108 99

67

08

105

38

102

68

107

98

09

94

39

89

69

113

99

10

103

40

98

70

95

100

11

104

41

106

71

102

101

12

105

42

85

72

94

102

13

88

43

93

73

99

103

14

107

44

103

74

87

104

119

75

102

105

90

76

105

106

82

77

80

107

90

78

90

108

113

79

108

109

104

80

105

110

81

90

111

115

112

82

113

103 81 96 105 91 115 108 15

90

16

95

45

102 46

101 17

104

47

94 18

93

48

93 19

109

49

102 20

87

50

21

92

51

97

22

117

52

101

23

98

53

90

89

54

88

25

105

55

108

26

101

56

95

27

81

57

28

108

29

94

119 96 82

104 83

85 24

84

90

114

102

115

86

91

116

100

87

103

117

58

103

88

107

118

59

108

89

107

119

97

120

108 85

103 90 105 99 88 30

104

60

85

90

103

También

existe

el

MUESTREO

NO

ALEATORIO,

CIRCUNSTANCIAL O ERRÁTICO, método cuyos resultados

o estimaciones no son de ninguna manera confiables, dado que la selección de las unidades que conforman la muestra se realiza en Forma

caprichosa o por conveniencia, primando el juicio

personal del investigador. Dentro del Muestreo no Aleatorio se tienen los siguientes métodos:



Muestreo a Juicio, intencional u opinático



Muestreo por Conveniencia



Muestreo Voluntario



Muestreo por Cuotas.

DISTRIBUCIONES MUESTRALES Corresponde a una distribución de todas las muestras que pueden ser escogidas conforme a un esquema de muestreo especificado; en general se refiere a un esquema de muestreo que implique selección al azar y a una función de un número fijo de variables aleatorias independientes.

ESTIMACIÓN PUNTUAL Un estimado puntual es un sólo valor numérico basado en datos de una muestra aleatoria que se utiliza para estimar el valor de un parámetro poblacional.

La

Media

µy

la

Desviación

estándar

σ de una

población son parámetros, en cambio la media X y la

desviación estándar S de una muestra son valores estadísticos.

CUADRO



01:

ESTIMADORES

PUNTUALES

UTILIZADOS CON FRECUENCIA. PARÁMETRO DE LA POBLACIÓN Media Aritmética : µ Diferencia de Medias Proporción

: µ1 − µ2

Varianza

P1 −P2

: σ2

Desviación Estándar Tamaño

X

X1 − X2

p

: P

Diferencia de Proporciones :

µx

ESTIMADOR

: σ :N

ρ1 − ρ2 S2

S

n

= Media de todas las medias muestrales

σx

= Desviación estándar de todas las medias

muestrales Μ

= Número de Muestras Posibles

 M  Μ! Μ=   =  n !(Μn − n) ! POBLACIÓN

X1

n

Cuando la Muestra se hace sin reposición.

Μ = Μn

=

S12 X2

n

Cuando se hace la selección con reposición.

n

S22 X3

S32 XM

n

2 SM

DISTRIBUCIÓN MUESTRAL DE X Es la distribución de probabilidad de todos los valores posibles de la media de la muestra X . PROCESO ESTADÍSTICO PARA EMPLEAR FIGURA

UNA MEDIA DE MUESTRA PARA HACER

N° 01

INFERENCIAS

ACERCA

DE

UNA

MEDIA

POBLACIONAL Se selecciona, en la población, una muestra aleatoria simple de n individuos.

POBLACIÓN

CON MEDIA µ

Se usa el valor de para hacer inferencias acerca del valor

El resumen de los datos muestrales proporciona un valor de la media de muestra .

TEOREMA: Dada una población, si extraemos todas las muestras posibles de un mismo

tamaño,

entonces la media de la distribución de todas las medidas muestreadas posibles será igual a la media Poblacional y la varianza de todas las medias muéstrales es igual a la varianza de

( )

la

población

dividida

por

el

tamaño

Muestral.

μ =E X =μ x

Usar esta ecuación siempre que:

σ2 = X

σ2 ⇒ n

σ =

σ

X

1) La población sea infinita, o bien

n

2) La población sea finita y también n/N ≤ 0.05

Haciendo uso del factor de Corrección para poblaciones finitas en la fórmula, se tiene:

σ

X

=

σ n

N −n N −1

= cuando

n > 0.05 N

Si no se conoce la desviación estándar de la población, puede estimarse el error estándar de la medias utilizando la desviación estándar muestral, como estimador de la desviación estándar de la población. S2 =

S2 ⇒ n

S

S = n

X

F.C.P.F:

X

S = X

S n

N −n N −1

EJEMPLO: Un auditor en el hospital Carrión toma una muestra aleatoria de tamaño n = 16 de un conjunto de N = 100 cuentas por cobrar. No se conoce la desviación estándar de los montos de las cuentas por cobrar para el total de las 100 cuentas. Sin embargo, la desviación estándar de la muestra es S = $ 57 dólares.

Determinar el valor del error estándar para la distribución Muestral de la media.

n 16 = = 0,16 N 100

Datos: N = 100

n no es menor que 0,05 N es decir:

n = 16

16 > 0,05 (100) esto implica que para

S=$ 57

calcular S X se tiene que utilizar el factor

S X =?

de corrección para poblaciones finitas. SX =

S n

N −n 57 = N −1 16

100 −16 57 = 100 −1 4

84 99

S X = 14,25 0,8484 = 14,25( 0,9211) ⇒ S X = 13,13 dólares

El error estándar de la media ofrece la base principal para la inferencia estadística con respecto a la media de una población desconocida. Un teorema de la estadística que conduce a la utilidad del error estándar de la media es: El Teorema del Límite Central. TEOREMA

DEL

LIMITE

CENTRAL.-

Al

seleccionar

muestras aleatorias simples de tamaño n de una población, la distribución muestral de la media de la muestra x se puede aproximar a la forma de una DISTRIBUCIÓN NORMAL DE PROBABILIDADES, cuando el tamaño de la muestra es grande, n ≥ 30 , entonces: Z=

X −μ σ

X

X

=

X −μ X −μ = 2 σ n σ n

EJEMPLO 1: Un auditor toma una muestra aleatoria de tamaño 36 de una población de 1000 cuentas

por cobrar, el valor promedio de las cuentas por cobrar de la población es μ = $2 600 con una desviación estándar poblacional de

σ = $450 ,

¿Cuál es la probabilidad de que la media muestral sea inferior a $ 2500 dólares? SOLUCIÓN: E( x ) = μ = $2 600 σX =

σ = $450

σ 450 450 = = = 75 n 6 36

Como n < 0,05 N; no se necesita el factor de corrección z=

x − μ 2500 − 2600 = = − 1.33 75 σ/ n

P x 190) = P( Z >

190 − 185.6 ) 4.0161

4.4 ) = P( Z > 1.09) 4.0161 = 0.5 − A(1.09) = P(Z >

= 0.5 - 0.36214 = 0.13786 0,05

0.36214

μ

185.6 0

190 1.09

Z

INTERVALOS DE CONFIANZA PARA LA MEDIA

1)

X - Zσ X ≤μ ≤ X + Zσ X

2)

X - ZS X ≤μ ≤ X + ZS X

ó

ó

X-

X-

σ σ Z ≤μ ≤ X +Z n n

S S Z ≤μ ≤ X +Z n n

Los intervalos de confianza más utilizados son de 90%, 95% y 99% EJEMPLO: En una semana determinada, se elige al azar una Muestra de 300 pacientes de un número muy grande de ellos que asisten al hospital Daniel Alcides Carrión . Los pacientes realizan un pago por admisión y se encuentran que el promedio de pago es de

X =S/. 1800

con una desviación

estándar muestral de S = S/. 140. Hallar el pago promedio por admisión para todos los pacientes con una estimación por intervalo que permita tener una confianza del 95% de que en ese intervalo incluya el valor de la media Poblacional. SOLUCIÓN n = 300 x = S/.1800

 140   140  1800 −1,96  ≤ μ ≤ 1800 +1,96   300   300 

S = S/. 140

1800 −1,96(8,0829 ) ≤ μ ≤1800 +1,96 (8,0829 )

con 95% 1,96

Z =

S/. 1784,16 ≤ μ≤ S/. 1815,84

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA Hasta ahora se ha venido trabajando con el tamaño (n) conocido, pero para determinarlo, es necesario identificar los siguientes componentes o elementos técnicos: a)

LA

VARIANZA

variabilidad

( σx2 ).

que

Corresponde

presentan

las

al

grado

unidades

de

de la

población. Mientras mas grande sea σ2x , Mayor será el tamaño de la muestra. El valor de σx2 . supuestamente, es conocido, de lo contrario se debe estimar a través de una

investigación

σ2 p = PQ ,

preliminar.

En

el

caso

de

sucede algo similar, pero se tiene la

costumbre de tomar P = 0,50 con la cual se obtiene el máximo valor posible de "n". b)

NIVEL DE CONFIANZA. Tiene relación directa con el tamaño de la muestra. Por lo tanto se dirá que a mayor nivel de confianza mayor será el tamaño de la muestra, los valores de Z se obtienen mediante el uso de tablas. El nivel de confianza es fijada por el investigador, de acuerdo a su experiencia.

c)

PRECISIÓN DE LA INVESTIGACIÓN.- Corresponde al margen de error que el investigador fija de acuerdo al

conocimiento que tenga acerca del parámetro que piensa estimar. Se le conoce como MUESTREO (E) siendo:

ERROR

DE

zσ E= n

d)

E= z

σ N −n . n N −1

RECURSOS HUMANOS – FINANCIEROS Y TIEMPO.No entran dentro de la determinación técnica del tamaño de la muestra. Pero es de suma importancia en el tamaño de las investigaciones.

I.

PARA POBLACIONES INFINITAS La fórmula para calcular el tamaño óptimo en el muestreo aleatorio simple, en una población infinita se obtiene así:

z=

x −µ σ n

E =x −µ

ERROR =

PARA VARIABLES

2

2 2  zσ  z σ n =  = 2 E E 

zσ de donde: n

n =

zσ E

PARA ATRIBUTOS

z 2pq n= E2

EJEMPLO 1.- La administradora de un hospital desea estimar la proporción de bebés nacidos en su hospital. Si se desea un intervalo de confianza del 95% para que la verdadera proporción de error no exceda del 2%. Si

la población es muy grande. ¿Qué tamaño tendrá la

muestra que va a tomarse. Si la

administradora estima que la proporción de error es del 5%?

SOLUCIÓN: Z 2 PQ (1.96 ) ( 0.05)(0.95) = = 456.19 ⇒ E2 ( 0.02) 2 2

n =

n =456

EJEMPLO 2.- De una remesa de la cual se tomó una muestra de 200 artículos, se encontró que 20 de ellos eran defectuosos. Con una confianza del 95%, calcular el error de la muestra. SOLUCIÓN: n=

z 2 PQ 2 z 2 PQ PQ ; E = ; E = σ =1.96 n n E2

ρ=

20 = 0.10 ⇒ Q = 0.90 200

II.

( 0.10 )( 0.90) 200

E =4.16%

PARA POBLACIONES FINITAS a) Muestreo por Variables Z=

x−µ x−µ zσ ;Z = ⇒E= υ N −n υ N −n n n N −1 n N

N −n z 2σ 2  N − n  ⇒E2 =   N n  N 

n=

Z 2Nσ2 NE2 +Z 2σ2

también :

n=

σ2

y la mas utilizada es:

n=

n0 n 1+ 0 N

Donde:

2

2 2  zσ n 0 = zEσ2 =  E 

b) Muestreo por Atributos 2

n = (N−1Z)ENPQ 2 +Z 2PQ

n=

n0 n 1+ 0 N

ó

Siendo

n=

PQ 2

 E  PQ   + N Z

⇒ n0 =

2

 E  σ2   + Z N

Z 2PQ E2

EJEMPLOS: 1. Se desea realizar una investigación en el Ministerio de Transportes

sobre

el

número

de

unidades

que

se

encuentran en, mal estado en 4000 cajas y la proporción de cajas que contienen unidades en mal estado. Se realiza una encuesta preliminar de 80 cajas con el siguiente resultado, presentado en una tabla de frecuencia:

Número de Unidades defectuosas:

0

1

37

16

2 3 4 5

10 12 Número de Unidades examinadas: 2

8

8

4

2

3

Determinar el tamaño de muestra con las dos condiciones: Para ello el investigador debe establecer un error de 6% para el promedio, del 12%

para la proporción y una

confianza del 95% para ambos casos.

SOLUCION:

A) Ν = 4000 Z = 1.96 x =

x f − nx =∑ 2

S

2

n

2

∑x f

i i

n

=

138 = 1.725 ≈1.73 80

866 − 80(1.725) = = 7.85 E = ( 0.06 )(1.73) = 0.10 80

2 ( 1.96 ) ( 4000 )( 7.85) n= 2 2 4000( 0.10 ) + (1.96 ) ( 7.85)

2

= 1720 cajas

B) ρ =

80 −37 43 = = 0.5375 ≈0.54 80 80

2 ( 1.96 ) ( 4000 )( 0.54 )( 0.46 ) n= 2 2 3999( 0.12 ) + (1.96 ) ( 0.54 )( 0.46 )

= 66 cajas

El tamaño óptimo es de 1720, ya que se toma el mayor valor 2. Se planea realizar una encuesta para determinar qué proporción de familias en el Distrito de la Victoria carece de servicios médicos. Se cree que la proporción no puede ser menor que 0.25. Se desea un intervalo de confianza del 95% con una precisión relativa del 5% . De qué tamaño se debe seleccionar la muestra de familias?

Z 2PQ (1.96 ) ( 0.25)( 0.75) n= = = 1800.75 ≈ 1801 2 E2 ( 0.02) 2

Por lo tanto, debe seleccionarse 1801 familias

DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN En muchos casos dentro el campo de la salud se usa la proporción Muestral p para hacer inferencias estadísticas sobre la proporción Poblacional P.

DISTRIBUCIÓN MUESTRAL DE p La distribución muestral de p es la distribución de probabilidades de todos los valores posibles de la proporción muestral p. Para determinar lo cercano que está la proporción muestral

p

necesitamos

de

la

proporción

comprender

las

poblacional

propiedades

de

P, la

distribución Muestral de p: su valor esperado, su desviación estándar y la forma de su distribución. VALOR ESPERADO DE

p μp = P

E(p) = P

DESVIACIÓN ESTÁNDAR DE p: Llamada también ERROR ESTÁNDAR. Población finita σp =

N − n P( 1 − P ) N −1 n

Población infinita σp =

P( 1 − P ) σ p PQ = = n n n

VARIANTE ESTADÍSTICA En muchos casos podemos utilizar la distribución normal apara evaluar la distribución muestral de proporciones, siendo:

Z=

p - P p − P p − μp = = σp σp PQ n

La distribución muestral de p se puede aproximar con una distribución normal de probabilidades, siempre que el tamaño de muestra sea grande. Se puede considerar que el tamaño de muestra es grande cuando se cumplen las dos condiciones siguientes: n p ≥5

n(1- p ) ≥ 5 Vale la pena observar la simbología que se utiliza en la muestra. a = ∑ ai

Total de elementos que presenta la

característica investigada p=

a ∑ ai = n n

Proporción de elementos que presenta la característica investigada

q = 1− p =

n−a n

Proporción

de

elementos

que

no

presenta la característica investigada Sp2 : Varianza de una proporción ⇒ Sp2 = pq Sp : Desviación estándar

⇒ Sp = pq

EJEMPLOS 1.

Se tiene que el 4% de las piezas producidas por cierta máquina son defectuosas. ¿Cuál es la probabilidad de

que un grupo de 200 piezas, el 3% o más son defectuosas? SOLUCIÓN μp = 0,04

p = 0,03

σp =

PQ = n

( 0,04 )( 0,96 ) 200

= 0,014

Se desea determinar la P( p ≥ 0,03 ) = ?

Z=

p - μp PQ n

=

0,03 − 0,04 = − 0,71 ( 0,04 )( 0,96 ) 200

P( p ≥ 0,03 ) = P( z ≥ −0,71) = 0,5 + A(-0,71) = 0,5000 + 0,2612 = 0,7612 P[ p ≥ 0,03 ] = 76,12 %

0,2612

0,5

0,03 -0,71

0,04 0

p Z

Solución con Corrección Si se quiere obtener una buena aproximación a la distribución normal, debe hacerse la corrección en la variable discreta, siendo igual a

1 . Si se va a obtener 2n

una área hacia la derecha, se restará este factor de corrección; en el caso de que sea a la izquierda, se sumará ese factor al valor de p. 1  p  - μp 2n   Z= σp

1  p +  - μp 2n   Z= σp

ÁREA A LA DERECHA

P( p ≥ 0,03 )

=

ÁREA A LA IZQUIERDA    1  p −  − 0,04   2( 200 )   P Z ≥  0,014      

=

1      0,03 −  − 0,04   400  P Z ≥   0,014    

=

( 0,03 − 0,0025 ) − 0,04   P Z ≥  0,014  

=

0,0275 − 0,04   P Z ≥  0,014  

= P[ Z ≥ −0,89 ] =0,5000+A(0,89)=0,5000+0,3133 P[ p ≥ 0,03 ]

=

0,8133

=

81,33 %

0,3133

0,5

0,03 -0,89

0,04 0

p Z

PRUEBA DE HIPOTESIS OBJETIVOS DEL TEMA •

Conocer el proceso para contrastar hipótesis y su relación con el método científico.



Diferenciar entre la hipótesis nula y alternativa



Fijar el nivel de significación



Toma

de

decisiones,

Tipos

de

error

y

Cuantificación del error. QUÉ ES UNA HIPÓTESIS? •

Una

creencia

sobre

la

POBLACIÓN,

principalmente sus parámetros: Media Poblacional ( µ ) Varianza Poblacional ( σ

2

)

Proporción Poblacional ( P ) •

OJO!

Si

queremos

contrastarla

debe

establecerse antes del análisis. IDENTIFICACIÓN DE HIPÓTESIS Hipótesis Nula Alternativa

Ho

Hipótesis

H1

- La que contrastamos - Los datos pueden refutarla

- Niega a Ho - Los datos pueden

mostrar evidencia a favor. - No debería ser rechazada

- No debería ser

aceptada sin sin una buena razón. a favor.

Una gran evidencia

Ho:

P = 50 % =; = H1:

P ≠ 50%



; <

;>

¿QUIEN ES Ho? •

PROBLEMA:

¿La osteoporosis está relacionada

con el Género? •

SOLUCIÓN -

Traducir a lenguaje estadístico :

P = 50% P ≠

Establecer su opuesto

50% -

Seleccionar la hipótesis nula

HOHHH : P = 50% Es

necesario

indicar

que

la

Inferencia

estadística,

comprende dos partes principales, a saber: la estimación de parámetros y la prueba o docimasia de hipótesis, que es motivo de la presente tarea, con el fin de desarrollar métodos y observar su aplicación a problemas

concientes de la vida diaria. La aplicación está en muestras grandes y pequeñas. La prueba de hipótesis, denominada también prueba de significación suposiciones

tiene o

como

afirmaciones

objeto

principal

acerca

de

los

evaluar valores

estadísticos de la población denominados parámetros. La palabra docimar, significa probar y se convierte en una técnica

de

ayuda

al

profesional,

investigador

o

administrador a tomar una decisión referente a una población, examinando una muestra de esa población.

HIPOTESIS ESTADISTICA Es un supuesto acerca de un parámetro o de un valor estadístico de una población, también puede considerarse como la afirmación acerca de una característica ideal de una población sobre la cual hay inseguridad en el momento de formularla y que a la vez, es expresada de tal forma que puede ser rechazada. TIPO DE ERROR En la decisión de aceptar o rechazar una hipótesis puede cometerse dos tipo de error. a) ERROR DE TIPO I: Rechazar una hipótesis nula verdadera ( α ). b) ERROR DE TIPO II: Se comete cuando se acepta una hipótesis nula falsa.

La probabilidad de cometer un error de tipo II se designa por β . Como las pruebas de hipótesis se basan en información de muestra, debemos considerar la posibilidad de cometer errores. Existen por lo tanto dos posibles decisiones: Aceptar o rechazar la hipótesis la que, a la vez, puede ser cierta o falsa.

TABLA Nº1 ERRORES Y DECISIONES CORRECTAS EN PRUEBA DE HIPOTESIS

D

VERDADERA

FALSA

DECISIÓN

ERROR

CORRECTA

TIPO II

RECHAZA

ERROR

DECISIÓN

R

TIPO I

CORRECTA

E C I

ACEPTA

S I O N E S

HIPÓTESIS NULA Y ALTERNATIVA

La hipótesis se debe formular en forma correcta o lógica y debe ser enunciada antes de obtener los datos muestrales. Son ejemplos de hipótesis estadística: a)

El promedio de rendimiento que tendrán los alumnos maestristas en el curso Estadística Aplicada será superior a 16.

b) El 90% de los estudiantes aprobarán la asignatura c) El 5% de las unidades producidas por una máquina serán defectuosas d)

El

promedio

de

contenido

de

colesterol

en

adolescentes normales es de 180 Existen dos tipos de hipótesis que se deben formular: La hipótesis nula, simbolizada por Ho y la hipótesis alternativa por Ha. LA HIPÓTESIS NULA.- Es aquella por medio de la cual se hace una afirmación sobre un parámetro que se va a contrastar con el resultado muestral. Cuando el fabricante dice que su producto tiene una duración de 6000 horas, se le considera como hipótesis nula, pues es lo que se quiere probar. LA HIPÓTESIS ALTERNATIVA.- Es todo aquella hipótesis que difiere de la hipótesis nula, es decir ofrece una alternativa afirmando que la hipótesis nula es falsa.

Por

ejemplo se podría decir que la hipótesis alternativa podría ser:

a) El fabricante ha exagerado la duración de su producto (prueba unilateral a la izquierda) b) El fabricante pudo haber dicho que su producto tiene una duración superior a 6000 horas (prueba unilateral a la derecha) c) La duración del producto no es la señalada por el fabricante (prueba bilateral)

NIVEL DE SIGNIFICACIÓN Y PUNTOS CRÍTICOS Se

entiende

por

nivel

de

significancia,

la

máxima

probabilidad de que se especifique, con el fin de hacer mínimo el primer tipo de error.

Generalmente, esta

probabilidad se fija antes de escoger la muestra. El nivel de significación se simboliza por alfa (α), siendo generalmente del 1%, 5% ó 10%; pero se puede usar cualquier nivel, dependiente del tipo de investigación. Cuando se trabaja con un nivel del 10% se considera poco significativo,

cuando se trabaja con un nivel del 5% el

resultado se considera significativo; si se emplea el 1% el resultado es altamente significativo. El valor de significación corresponde a un área bajo la curva de probabilidad o normal, denominada región crítica o de rechazo, cuando n ≥ 30 y la distribución T ó χ2 para muestras pequeñas (n µo

H o : µp =µpo

H o : µp =µpo

H o : µp =µpo

H a : µp ≠µpo

H o : µp µpo

DISTRIBUCIÓN NORMAL

Z =

x −µ σ

DISTRIBUCIÓN DE MEDIAS MUESTRALES

Z =

x −µ σ/ n

o

x −µ = Z ; n ≥30 S/ n

DISTRIBUCIÓN DE PROPOSICIONES

Z=

p−p ; siendo n ≥ 30 pq n

PRUEBA DE HIPÓTESIS: DE UNA SOLA MEDIA DE POBLACIÓN Se presentan 3 casos: CASO 1: MUESTREO A PARTIR DE POBLACIONES

NORMALMENTE

DISTRIBUIDA:

VARIANZAS CONOCIDAS

1.

Un grupo de investigadores está interesado en conocer la edad promedio de cierta población. Por decirlo así, se preguntan

lo siguiente: ¿Se pude

concluir que la edad promedio de la población es menor de 30 años? SOLUCIÓN: 1. Datos. Los datos disponibles para los investigadores son las edades de una muestra aleatoria simple de 60 individuos, extraída de la población de interés. A partir de esta muestra se calcula el promedio que es de 27 años. (

= 27 años ).

2. Supuestos.

Se supone que la muestra de valores

proviene de una población cuyas edades siguen una distribución

aproximadamente

normal

varianza de la población es de 120 ( σ

2

y

que

= 120 ).

3. HIPÓTESIS µ

H o:

µ

H1 :

= 30 < 30

4. Nivel de significancia: α = 0,05

Z =

X-μ σ

n

ESTADÍSTICO DE PRUEBA 5. Cálculo del valor tabular ( tT ) Como

α = 0.05 y la prueba es unilateral

zT =

1.645 6. Cálculo del valor experimental ( ZO ) o estadística de Prueba

la

ZO =

27 −30 10.95 / 7.75

= - 2.12

7. Determinación de las regiones críticas

R.R. α=0,5

R.A . Z

1.645-

1.11. 8. Decisión estadística. 645 Como ZO = – 2.12 es < que ZT= -1.645 el valor experimental se sitúa en la zona de rechazo, entonces no

se

puede

aceptar

la

H 0.

9. Conclusión. Se concluye que la edad promedio de la población es menor de 30 años y se beberá actuar de acuerdo a lo pertinente. 2. Se ha observado que numerosos enfermos con cáncer en el distrito de Ate Vitarte y en un estudio clínico

determinado tienen una

supervivencia media desde el diagnóstico de 38.3 meses, con una desviación estándar de 43.3 meses. Cien pacientes son tratados con una nueva técnica y su supervivencia media es de 46.9 meses. ¿Es este aparente incremento de la supervivencia media explicable por una fluctuación debida al azar?

SOLUCIÓN 1. Datos: µ = 38.3 meses σ = 43.3 meses X = 46.9 mes. 2. Suposición: Supongamos que los datos de la muestra se distribuyen en forma aproximadamente normal. 3. HIPÓTESIS : Ho:

µ = 38.3 meses

H1: µ ≠ 38.3 meses 4. Nivel de significación: 5.

α = 0.05

ESTADÍSTICO DE PRUEBA:

La distribución normal

6. Cálculo del valor Tabular ( tT ) : Como α = 0.05

y la prueba es bilateral entonces zT =

1.96 7. Cálculo del valor experimental ( Z0 ) Z0 =

46.9 −38.3 43.3 / 100

=

8.6 4.33

= 1.99

8. Determinación de las regiones críticas α = 0,025 2

α = 0,025 2

R.A.

R.C.

-1,96 : 9. Decisión Estadística

R.C.

1,96

Z

Como Z0 = 1.99 > ZT = 1.96 Se rechaza la hipótesis nula y se Acepta la hipótesis alternativa.

10. Conclusión El valor experimental apenas sobrepasa al valor tabular, por lo tanto , la diferencia es significativa. Esta diferencia significativa sugiere que es poco probable que el incremento del tiempo medio de supervivencia se deba al azar. No sería prudente suponer que el nuevo tratamiento ha mejorado la supervivencia, por que algunas características de los pacientes podrían haber cambiado desde el registro de los primeros datos; por ejemplo, la enfermedad podía haber sido diagnosticada previamente. Finalmente lo que se puede afirmar es que es muy probable que la diferencia no sea un fenómeno debido al azar.

CASO 2: MUESTREO A PARTIR DE UNA POBLACIÓN NORMALMENTE

DISTRIBUIDA:

VARIANZA

DE LA POBLACIÓN DESCONOCIDA 1. Se hicieron determinaciones de amilasa en el suero, en una muestra de 15 sujetos aparentemente normales. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35u/100ml. Supóngase que se desea saber si puede concluirse que la media de la población de la cual provino la muestra de determinaciones de amilasa en el suero es diferente de 120 unidades /100ml

1. DATOS: Los datos consisten de las determinaciones de

la

amilasa

en

el

suero

de

15

sujetos

aparentemente normales. La media y la desviación estándar calculadas a partir de la muestra son 96 y 35 unidades/100ml respectivamente. 2. SUPOSICIONES: una

muestra

15 determinaciones constituyen

aleatoria

determinaciones distribuidas.

Se

de

que

una

están

desconoce

la

población

de

normalmente varianza

de

la

población. 3. NIVEL DE SIGNIFICACIÓN: α = 0,05 4. HIPÓTESIS H0 : μ = 120 Ha : μ ≠ 120

5. ESTADÍSTICA DE PRUEBA: Como no se conoce la varianza poblacional la estadística de prueba es: t =

X -μ S n

6. DISTRIBUCIÓN

DE

LA

ESTADÍSTICA

DE

PRUEBA: La estadística de prueba esta distribuida como la T de Student con n – 1 grados de libertad si H0 es verdadera.

7. REGLA DE DECISIÓN: Se trata de una prueba bilateral, se pone

α a cada cola de la distribución, 2

entonces: Si

- t T ≤ t 0 ≤ t T = 2,1448 Si

Se acepta H0

t T ≤ t 0 ≤ − t T = − 2,148

Se acepta H a

0,025

0,025

R.A.

-2,1448 RC

8. CALCULO

DE

LA

0

2. 1448

RC

ESTADISTICA

DE

PRUEBA

EXPERIMENTAL t0 =

96 - 120 − 24 = = − 2,65 35 15 9,04

9. DECISIÓN ESTADÍSTICA: 2.65 Cae dentro de la región de rechazo por lo tanto se acepta H a y se rechaza

Ho.

10. DECISIÓN ADMINISTRATIVA:

La conclusión,

basada en estos datos, es que la media

de la

población de la cual provino la muestra no es 120 unidades/100ml.

3:

CASO

MUESTREO

POBLACIÓN

A

PARTIR

QUE

DE

NO

UNA ESTA

NORMALMENTE DISTRIBUIDA:

Si la muestra en la cual se basa la prueba de la hipótesis

proviene

de

una

población

que

no

normalmente distribuida, si la muestra es grande,

esta puede

sacarse ventaja del teorema del limite central y usar Z=

X -μ como la estadística de prueba. Si no se conoce la σ n

desviación estándar de la población, la practica común es usar la desviación estándar de la muestra como una estimación. EJEMPLO: En

una

encuesta

sanitaria

de

cierta

comunidad

se

entrevistaron 150 personas. Uno de los detalles de la información obtenida fue el número de recetas médicas que cada persona habrá tenido que pedir durante el año anterior. El número promedio para las 150 personas fue de 5.8 con una desviación estándar de 3.1. El investigador desea

saber

si

estos

datos

proporcionan

evidencia

suficiente como para indicar que la media de la población es mayor que 5. EJEMPLO DE APLICACIÓN:

1. Suponga que la empresa que fabrica bombillas quiere saber si puede afirmar que sus bombillas tiene una duración de 1000 horas. La empresa toma una muestra aleatoria de 100 bombillas y calcula que el promedio de duración es 980 horas y que la desviación estándar es 80 horas. Utilice un nivel de significación del 5%. 2.

Una empresa quiere saber, con un nivel de confianza del 95% , si puede afirmar que las cajas de detergente que vende contienen más de 500 gramos de detergente. De su experiencia anterior, la empresa sabe que la cantidad de de

detergente

contenido

en

las

cajas

sigue

una

distribución normal. La empresa toma una muestra aleatoria de 25 cajas y calcula que el promedio aritmético es 520 gramos y una desviación estándar de 75 gramos. Puesto que a la empresa le interesa contratar que el promedio poblacional es mayor que 500 gramos.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF