Capitulo 2

September 30, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Capitulo 2...

Description

 

Capitulo 2: Experimentos Comparativos Simples 2.1 Introducción Cuando se pretende evaluar una característica importante de un producto en base a diferentes formulaciones de este, se realizan observaciones para ver que tanto difiere un tratamiento del otro. Las observaciones las podemos representar en un diagrama de puntos con el cual se realiza un examen visual de comportamiento que arrojan los datos para cada nivel del factor de la formulación. Además, puede usarse una técnica de la inferencia estadística llamada prueba de hipótesis (prueba de significación). La prueba de hipótesis permite que la comparación de las dos formulaciones se haga en términos objetivos, con el conocimiento de los riesgos asociados si se llega a una conclusión equivocada.

2.2 Conceptos Estadísticos Básicos A cada una de las observaciones realizada se le puede llamar l lamar una corrida. En las corridas individuales pueden existir fluctuaciones o ruido en los resultados. A estos se le l e llama error experimentar o simplemente error. Se trata de un error estadístico, lo cual significa que se origina por la variación que no esta bajo control y que generalmente es inevitable. La presencia del error o ruido implica que la variable de respuesta es una variable aleatoria. Una variable aleatoria puede ser discreta o continua. Una variable aleatoria es discreta si el conjunto de todos los valores es finito o contablemente, en cambio si el conjunto de todos los valores posibles es un intervalo entonces la variable aleatoria es continua. Descripción gráfica de la variabilidad. Para el análisis de los datos es frecuente utilizar métodos gráficos simples. El diagrama de puntos es un recurso muy útil para representar un cuerpo reducido de datos el cual permite ver de inmediato la localización o tendencia central de las observaciones y su dispersión.

El histograma en cambio es un diagrama que se utiliza cuando los datos son muy numerosos, el cual muestra la tendencia central, la dispersión y la forma general de la distribución di stribución de los datos.

 

  El diagrama de caja (o diagrama de caja y bigotes) es un diagrama que muestra un resumen general de los estadísticos de los datos tales como: mínimo, el máximo, los cuartiles inferior y superior (el percentil 25 y el percentil 75, respectivamente) y la mediana(el percentil 50) en una caja rectangular alineada horizontal o verticalmente. La caja se extiende del cuartil inferior al cuartil superior y se traza una línea por la mediana que atraviesa la caja. Se trazan dos líneas que se extienden de los extremis de la caja hasta los valores mínimo y máximo.

Distribuciones de probabilidad La estructura de la probabilidad de una variable aleatoria se describe mediante su distribución de probabilidad. Según sea la naturaleza de la variable aleatoria la distribución de probabilidad puede ser discreta o continua.

 

 

Mediana, varianza y valores esperados



La media, , de una distribución de probabilidad es una medida de su tendencia central o localización. Matemáticamente, Matemáticamente, la media se define como

La media también puede expresarse en términos del valor esperado o valor promedio a la larga de la variable aleatoria y como

Donde E denota el operador del valor esperado. La variabilidad o dispersión de una distribución de probabilidad puede medirse con la varianza, la cual se define como

 

 





Si  es una variable aleatoria con media  y varianza

 2 y c es una constante, entonces

2.3 Muestreo y distribuciones de muestreo Muestras aleatorias, media muestral y varianza muestral Si de una población que contiene N elementos van a seleccionarse un muestra n de ellos de tal forma que cada una de las combinaciones muestras posibles tiene igual probabilidad de ser escogida, entonces al procedimiento empleado se le llama muestreo aleatorio. Un estadístico se define como cualquier función de las observaciones de una muestra que no contiene parámetros desconocidos. Por ejemplo, suponga que  2 n  representa una muestra.

y ,y ,…y

Entonces la media muestral

 

  y la varianza muestral

son estadísticos En ocasiones se usa

 = √  2  , llamada la desviación desviación estándar muestral, muestral, como

medida de dispersión. Propiedades de la media y la varianza muestrales



La media muestral es un estimador puntual de la media poblacional , y la varianza muestral es un estimador puntual de la varianza poblacional. Un estimador de un parámetro desconocido es un estadístico que corresponde con dicho parámetro. Al valor numérico

 2 

particular de un estimador, calculado a partir de los datos muestrales, se le llama una estimación. Un buen estimador puntual debe tener varias propiedades. Dos de la más importantes son las siguientes: 1.  El estimador puntual deberá ser insesgado. 2.  Un estimador insesgado deberá tener la varianza mínima.

Grados de libertad A la cantidad n-1 de la ecuación 2-10 se le llama el número de grados de libertad de la suma de



cuadrados2SS. Se trata de un resultado muy general; es decir, si  es una variable aleatoria con varianza  y SS tiene  grados de libertad, entonces:





El número de grados de libertad de una suma de cuadrados es igual al numero de elementos independientes en dicha suma de cuadrados. La distribución normal y otras distribuciones de muestreo A la distribución de probabilidad de un estadístico se le llama la distribución de muestreo.



Una de las distribuciones de muestreo más importantes es la distribución normal. Si  es una variable aleatoria normal, la distribución de probabilidad de

 es

 

 

∞ ≤  ≤ ∞ es la media de la distribución y  2 > 0 es la varianza.

Donde -

Un caso especial importante de la distribución normal es la distribución normal estándar; es 2 2   , la variable aleatoria decir, . Se observa que si aleatoria

 = 0 = 1

y~N(μ, )

A esto se le llama estandarización de la variable aleatoria normal y. Teorema 2-1 El teorema del límite central

y ,y ,…

Si  2   es una sucesión de n variables independientes que tienen una distribución 2  (ambas finitas) y idéntica con  y    2  entonces

 ( ) =   ( ) = 

 =     ⋯    ,

N(0,1) aproximada en el sentido de que, si Fn(z) es la función de la distribución de zn  y (z) es la función de la distribución de la variable aleatoria)N(0,1, () entonces lim =1 → () Tiene una distribución

Este resultado establece en esencia que la suma de n variables aleatorias independientes que tienen una distribución idéntica sigue una distribución aproximadamente aproximadamente normal. Una importante distribución de muestreo que pude definirse en términos de variables

aleatorias normales es la distribución di stribución 2 o ji-cuadrada. Si  2 k  son variables aleatorias que tienen una distribución normal e independiente con media 0 y varianza 1, cuya abreviatura es , entonces la variable aleatoria

x

NID(0,1)

 z , z … . z

 

Sigue la distribución ji-cuadrada con k grados de libertad. La función de densidad de la distribución ji-cuadrada es

La distribución es asimétrica, o sesgada, con media y varianza

Como un ejemplo de una variable aleatoria que sigue la distribución ji-cuadrada, ji -cuadrada, suponga que . Entonces  2 n es una muestra aleatoria de una distribución

y ,y ,…y  

N(μ,σ)

Al examinar la ecuación 2-8, se observa que la varianza muestral puede escribirse como

2

NID(μ,σ)



 2  es [(−) −)] −  .

Si las observaciones de la muestra son,  entonces la distribución de Por lo tanto, la distribución de muestreo de la varianza muestral es una constante multiplicada multiplicada por la distribución ji-cuadrada si la población tiene una distribución normal.

2 Si ji -cuadrada,  son variables aleatorias independientes normal estándar y ji-cuadrada, respectivamente, la variable aleatoria



Sigue la distribución t con k grados de libertad, denotada

tk. La función de densidad de t es

 

 

Y la media y la varianza de t son



 = 0  2 =

 

para k> 2, respectivamente.

(+2 +2)) Si

y, y2, … yn  es una muestra aleatoria de una distribución  N(μ,μ,σ) σ) , entonces la cantidad distribución N(

Se distribuye como t con n-1 grados de libertad. La distribución F Si

2  2  son dos variables aleatorias ji- cuadrada cuadrada independiente con u y v grados de libertad,

respectivamente, entonces el cociente

Sigue la distribución f con u grados de libertad en el numerador y v grados de libertad li bertad en el denominador. Si x es una variable aleatoria F con u grados de libertad en el numerador y v grados de libertad en el denominador, entonces la distribución de probabilidad de x es

 

  2-4 Inferencias acerca de las diferencias en las medias, diseños aleatorizados 2-4.1 Prueba de hipótesis Un modelo de datos Con frecuencia los resultados de un experimento se describen con un modelo. Un modelo estadístico simple que describe los datos de un experimento es

Hipótesis Estadísticas Una hipótesis estadística es un enunciado o afirmación ya sea acerca de los parámetros de una distribución de probabilidad o de los parámetros de una modelo. La hipótesis re refleja fleja alguna conjetura acerca de la situación del problema. Por ejemplo, puede pensarse que los promedios de dos formulaciones son iguales. Esto puede enunciarse formalmente como

Al enunciado Ho se le llama ll ama la hipótesis nula y a H1 se le llama hipótesis alternativa. A la hipótesis que se especifica aquí se le llama hipótesis alternativa de dos colas porque sería verdadera si

.

Para probar una hipótesis se proyecta un procedimiento para tomar una muestra aleatoria, calcular un estadístico de prueba apropiado para después rechazar o no estar en posición de rechazar la hipótesis nula H0. Parte de este procedimiento consiste en especificar el conjunto

 

de valores del estadístico de prueba que llevan ll evan al rechazo de H0. A este conjunto de valores se le llama la región crítica o región de rechazo de la prueba. Puede cometerse dos tipos de errores cuando se prueban hipótesis. Si la hipótesis nula se rechaza cuando es verdadera, ha ocurrido un error tipo I. Si la hipótesis nula no se rechaza cuando es falsa, se ha cometido un error tipo II. Las probabilidades de estos errores se expresan con símbolos especiales:

En ocasiones es mas conveniente trabajar con la potencia de la prueba, donde



El procedimiento general en la prueba de hipótesis es especificar un valor de la probabilidad   del error tipo I, llamada con frecuencia el nivel de significación de la prueba, y después diseñar el procedimiento de prueba de tal modo que la probabilidad del error tipo II tenga un valor



conveniente pequeño.

La prueba t de dos muestras Si las varianzas de dos formulaciones son idénticas entonces el estadístico de prueba que deberá usarse para comparar las medias de dos tratamientos en el diseño completamente completamente aleatorizado es

̅ ̅2  son las medias muestrales, 2 son los tamaños de las muestras,2  es una estimación de la varianza común2 = 22   calculada a partir de Donde

2 Y 2 individuales. Para determinar determinar si deberá recharzarse 2   son las dos varianzas muestrales individuales. HO se compararía to con la distribución t con grados de libertad. Si

   

donde

es punto porcentual

superior de la distribución t

 

con gra grados dos de lib liberta ertad, d, en ento tonc nces es se re reccha haza zarí ría a Ho y se conc oncluir luiría ía que que la lass dos formulaciones difieren. A este procedimiento de prueba se le llama la prueba t de dos muestras.

El uso de valores P en la prueba de hipótesis Una manera de reportar los resultados de una prueba de hipótesis es estableciendo que la hipótesis nula fue rechazada o no para un valor de   o nivel de significación especifico. especifico.



Para esto se ha adoptado extensivamente el enfoque del valor P. El valor P es la probabilidad de que el estadístico de prueba asuma un valor que sea al menos tan extremo como el valore observado del estadístico cuando la hipótesis nula H0 es verdadera. Por lo tanto, un valora P transmite mucha información información acerca del peso de la evidencia en contra de H0 y, por consiguiente, el responsable de la toma de decisiones puede llegar a una conclusión con cualquier nivel de significación especificado. En términos mas formales., el valor de P se define como el nivel de significación signifi cación menor que llevaría a rechazar la hipótesis nula H0. Se acostumbra a decir que el estadístico de prueba es significativo cuando se rechaza la hipótesis nula; por lo tanto, el valor P puede considerarse como el menor   en el que los datos son significativos.

 

Verificación de los supuestos en la prueba t Los supuestos de la igualdad de las varianzas y la normalidad son fáciles de verificar utilizando una gráfica de probabilidad normal. En general, la graficación de probabilidades es una técnica para determinar si los datos muestrales se ajustan a una distribución hipotetizada con base en un examen visual subjetivo de los datos. Para construir una grafica de probabilidad primero se ordenan de menor a mayor las observaciones de la muestra. Es decir, la muestra y1, y 2, …yn primero se ordenan de menor a mayor las observaciones de la muestra. Las observaciones ordenadas yi se grafican entonces contra sus respectivas frecuencias acumuladas observadas. La escala de la frecuencia acumulada se ha dispuesto de tal modo que, si la distribución hipotetizada describe de manera adecuada los datos, los puntos graficados estarán aproximadamente sobre una línea recta; si los puntos graficados muestran una desviación significativa de una recta, el modelo hipotetizado no es apropiado. Una justificación alternativa de la prueba t

 

La prueba t de dos muestras que acaba de presentarse depende en teoría del supuesto fundamental de que las dos poblaciones de las que se seleccionaron la muestras al azar son normales. Aun cuando el supuesto de normalidad es necesario para desarrollar formalmente el procedimiento de prueba, como ya se mencionó, las desviaciones moderadas de la normalidad no afectaran seriamente los resultados. Si los tratamientos tratamientos no tienen ningún efecto, todas las formas posibles posibles en que podrían ocurrir la observación seria igualmente posibles. Hay un valor de t0 para cada uno de los arreglos. Si el valor de t0 que se obtiene en realidad de los datos es inusualmente grande o inusualmente pequeño con referencia al conjunto de los valores posibles, es una indicación de que Este tipo de procedimiento se le llama prueba de aleatorización. 2-4.2 Elección del tamaño de la muestra La elección de un tamaño de la muestra apropiado es uno de los aspectos mas importantes importantes de cualquier problema de diseño experimental. La elección del tamaño de la muestra y la probabilidad del error tipo II guardan una estrecha relación. Suponga que se están probando las hipótesis



y que las medias no son iguales, por lo que . Puesto no es verdadera, la preocupación principal es cometer la equivocación de no rechazar H0. La probabilidad del error tipo II depende de la verdadera diferencia en las medias  . Aun graficas de contra  para un tamaño particular de la muestra se le llama la curva de operación característica, o curva OC, de la prueba. El error también es una función del tamaño de la muestra.









En la figura 2-12 se muestra un juego de curvas de operación característica para las hipótesis

Para el caso en que las dos varianzas poblacionales  y pa para ra un ni niv vel de si sign gnif ifiica cacción ión de

son desconocidas pero iguales . La cur urva vass ta tam mbién bién pa parrte ten n del

supuesto de que los tamaños de las muestras de las dos poblaciones son iguales; es decir, . El parámetro del eje horizontal de la figura 2-12 es

 

 

La divisi división ón de

por

permit permite e al exp experi erimen mentad tador or usar usar el mismo mismo juego juego de curva curvas, s,

independientemente del valor de la l a varianza. Al examinar estas curvas se observas lo siguiente: 1.  Entre más grande sea la diferencia en las medias menor será la probabilidad del error tipo II para un tamaño de la muestra y un valor de dados. 2.  Cuando el tamaño de la muestra se hace más grande, la probabilidad del error tipo II se hace más pequeña para una diferencia entre las medias y un valor de  dados.



Las curvas de operación característica son con frecuencia útiles para seleccionar el tamaño de la muestra que debe usarse en un experimento. 2-4.3 Intervalos de confianza Muchas veces es preferible proporcionar un intervalo dentro del cual cabría esperar que estuviese incluido el valor del parámetro o los parámetros en cuestión. A las declaraciones de estos intervalos se les llama intervalos de confianza.



Para definir un intervalo de confianza, suponga que   es un parámetro parámetro desconocido. desconocido. Para obtener una estimación del intervalo de  , es necesario encontrar dos estadísticos L y U tales que las declaraciones de probabilidad



Sea verdadera. Al intervalo

(1   )

Se le llama intervalo de confianza de   por ciento para el parámetro. parámetro. A los estadísticos estadísticos L y U se les l es llama los límites de confianza inferior y superior, respectivamente, y a 11 -   se le llama coeficiente de confianza. El intervalo de confianza puede deducirse de la siguiente manera. El estadístico Se distribuye como



 

  2-4.4 Caso en que Si se está probando

Y no hay hay bases para suponer suponer que las varianzas son iguales iguales entonces es necesarios hacer hacer ligeras modificaciones en la prueba t de dos muestras. En este caso el estadístico de prueba es Este estadístico no se distribuye exactamente como t. No obstante, t es una buena aproximación de la distribución de t0 si se usa Para los grado de libertad. Una indicación clara de la desigualdad de las varianzas en una grafica de probabilidad normal seria una situación que requeriría esta versión de la prueba t. 2-4.5 Caso en que se conocen Si las varianzas de ambas poblaciones se conocen, entonces las hipótesis Pueden probarse utilizando el estadístico

 

Si ambas poblaciones son normales, o si los tamaños de las muestras son lo suficientemente grandes para aplicar aplicar el teorema del limite central, central, la distribución de es si la hipótesis nula es verdadera. Por lo tanto, la región critica se encontraría utilizando la distribución norma normall en lugar de la distribución t. Especificamente, H0 se rechazaría si donde es el punto porcentual superior de la distribución normal estándar. A diferencia de la prueba t de la secciones anteriores, en la prueba de la medias con varianzas conocidas no se requiere el supuesto de que el muestreo se haga de poblaciones normales. Puede aplicarse el teorema del limite central para justificar una distribución normal aproximada para la diferencia en la medias muestrales . El intervalo de confianza por ciento para

cuando las varianzas se conoces es

2-4.6 Comparación de una sola media con un valor especificado Algunos experimentos incluyen incluyen la comparación de la media de una sola población con un valor especificado, por ejemplo . Las hipótesis son

Si la población es normal con varianza cono conocida, cida, o si la población no es normal pero el tamaño de la muestra es normal con varianza conocida, o si la l a población no es normal pero el tamaño de la muestra es lo suficientemente grande para aplicar el teorema del limite l imite central, entonces la hipótesis puede probarse utilizando un aplicación aplicación directa de la distribución normal. normal. El estadístico de prueba es El intervalo de confianza de por ciento para la l a verdadera media poblacional poblacional es

2-4.7 Resumen

 

 

 

 

 

 

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF