1 - Introducción a estadística y prueba de hipótesis en SPSS (Agronomía)

July 16, 2017 | Author: Marcelo Rodriguez Gallardo | Category: Sampling (Statistics), Statistics, Statistical Dispersion, Skewness, Measurement
Share Embed Donate


Short Description

Descripción: Curso introductorio de estadística, nociones de de estadística descriptiva e inferencial en SPSS, ejemplo a...

Description

Introducción a la estadística y prueba de hipótesis en SPSS Marcelo Rodríguez G. Ingeniero Estadístico - Magister en Estadística

Universidad Católica del Maule Facultad de Ciencias Básicas Ingeniería en Agronomía

Diseño Experimental

14 de marzo de 2011

[email protected]

(UCM)

Introducción

14/03/2011

1 / 98

Introducción Denición (Estadística) Es la ciencia de recolectar, describir e interpretar datos, (convertir información en conocimiento) como un apoyo eciente para la toma de decisiones.

Denición (SPSS) Es un programa estadístico que permite realizar el proceso de descripción de los datos, en forma automatizada, (no recolecta ni interpreta los datos).

[email protected]

(UCM)

Introducción

14/03/2011

2 / 98

Conceptos Estadísticos Unidad de análisis:

es el ente que proporciona un dato. También

recibe el nombre de unidad experimental.

Medición:

es el proceso que asigna un valor a una unidad de análisis.

En Estadística no siempre una medición es como lo que clásicamente entendemos, medición también puede entenderse como observación o conteo. Su objetivo es generar datos.

Error de medición:

es la diferencia entre el valor exacto que posee la

unidad de análisis y el valor entregado por un instrumento de medición.

[email protected]

(UCM)

Introducción

14/03/2011

3 / 98

Conceptos Estadísticos Exactitud: Un valor es exacto si no contiene error. Precisión: Un valor será más preciso en la medida en

que acerque a

su valor exacto (tiene que ver con la aproximación numérica).

Error de precisión:

es la diferencia entre el valor exacto y su

aproximación numérica.

Población:

es el universo o conjunto total de unidad de análisis.

Sobre este conjunto se obtendrán las conclusiones nales.

Muestra aleatoria:

es un subconjunto de la población que posee un

grado de representatividad adecuado.

[email protected]

(UCM)

Introducción

14/03/2011

4 / 98

Conceptos Estadísticos

Censo:

estudio que involucra a toda la población. No contiene error

de precisión, pero es costoso.

Muestreo:

estudio que involucra a una muestra. Contiene error de

muestreo, pero es menos costoso.

Sesgo:

componente de un estudio que hace que la muestra no sea

aleatoria, pues distorsiona las conclusiones del estudio e impide que se lleve a cabo un proceso inferencial.

Parámetros:

información relacionada con la población y que es de

interés para el investigador.

Estimadores:

aproximaciones de los parámetros basadas en la

muestra.

[email protected]

(UCM)

Introducción

14/03/2011

5 / 98

Clasicación de los Métodos Estadísticos Los métodos estadísticos pueden clasicarse en dos grandes grupos: 1

Descriptivos.

2

Inferenciales.

Denición (Métodos Descriptivos) Se preocupan de describir el conjuntos de datos. Generalmente están relacionados con el análisis preliminar o exploratorio de los datos.

Denición (Métodos Inferenciales) Son los encargados de llevar adecuadamente los resultados de una muestra aleatoria hacia la población objetivo.

[email protected]

(UCM)

Introducción

14/03/2011

6 / 98

Ejemplos de Problemas Estadísticos Ejemplo Evaluar el grado de dulzor de un fruto



( Brix). Identicar el efecto de un fertilizante, en el crecimiento de la lechuga. Comparar la efectividad de dos insecticidas, en el control de plagas. Comparar la efectividad de una dieta, en cierto tipo de animal.

Todos estos problemas son distintos, pero hay una linea general de razonamiento que es la misma para todos, la cual es llamada metodología de la investigación estadística. [email protected]

(UCM)

Introducción

14/03/2011

7 / 98

Metodología de la Investigación Estadística

La metodología de la investigación estadística se basa en el Método Cientíco. La Estadística proporciona técnicas que permiten describir, obtener o comprobar los resultados de una investigación. Para que esos resultados sean conables es importante considerar todas las etapas de la investigación, éstas son: la planicación y ejecución del estudio.

[email protected]

(UCM)

Introducción

14/03/2011

8 / 98

Metodología de la Investigación Estadística: Planicación i) Planteamiento del Problema.

Aquí debe quedar claro el problema que

motiva la investigación, deben plantearse las preguntas que motivan el estudio y otros aspectos que permitan comprender con claridad, pero de manera resumida, lo que se desea describir, obtener o comprobar.

ii) Delimitar la Población Objetivo.

Aquí se dene cuales serán las

unidades experimentales a analizar. Este punto es no menos importante, ya que las conclusiones que se desprendan del estudio sólo pueden alcanzar a este conjunto.

iii) Describir los Objetivos.

Aquí se deben plantear, con la mayor

claridad posible, el(os) objetivo(s) general(es) que motivan la investigación, así como los objetivos especícos que se desprendan de cada objetivo general (en el caso de haber más de uno). Los objetivos se plantean como verbo en innitivo. [email protected]

(UCM)

Introducción

14/03/2011

9 / 98

Metodología de la Investigación Estadística: Planicación

iv) Plantear las Hipótesis de Trabajo.

Cada objetivo especíco se

transforma en una hipótesis de trabajo y esta a su vez en dos hipótesis estadística: la que postula lo que investigación plantea, es decir, la hipótesis de investigación

(H1 )

y

la que refuta esto y que representa al estado actual de los hechos, es decir, la hipótesis nula

(H0 ).

Las hipótesis son aseveraciones que están sujetas a conrmación, son sólo conjeturas y deben ser conrmadas en base a los datos recolectados.

[email protected]

(UCM)

Introducción

14/03/2011

10 / 98

Metodología de la Investigación Estadística: Planicación v) Establecer la Metodología Estadística.

Una vez delineados los

objetivos, se debe plantear de la manera más precisa posible, las técnicas estadísticas que permitirán comprobar los objetivos planteados. Sin embargo, una vez recolectados los datos, estos procedimientos deben ser conrmados en base al comportamiento que presenten los datos.

vi) Plantear el plan de muestreo.

Con la metodología estadística

planteada, se procede a desarrollar el plan de muestreo que permitirá escoger la muestra de unidades que se analizarán para validar los objetivos propuestos. Aquí se deberá determinar el tamaño de la muestra, la técnica especíca que se utilizará (m.a.s., m.a.e. u otro) y se seleccionarán las unidades de análisis que conformarán esta muestra.

[email protected]

(UCM)

Introducción

14/03/2011

11 / 98

Metodología de la Investigación Estadística: Ejecución i) Recopilar los datos.

Esto se realiza basándose en el plan de muestreo

que se planteó antes y a través del instrumento que permitirá recopilar los datos, por ejemplo: cuestionarios, pruebas, instrumentos de medición, etcétera. En esta etapa es importante evitar errores en la obtención de los datos.

ii) Diseño de la base de datos.

Una vez que se han recogido los datos y

se ha vericado que no hay errores, se procede a crear la matriz de datos. Generalmente previo al ingreso de los datos al computador, se procede a un proceso de codicación, en el caso de que los datos recopilados no sean realmente números. Comúnmente se utiliza el software estadístico IBM-SPSS o StatGraphics. [email protected]

(UCM)

Introducción

14/03/2011

12 / 98

Metodología de la Investigación Estadística: Ejecución iii) Procesar los datos.

Una vez creada la matriz de datos se procede al

procesamiento de los datos. Esto se debe hacer a través de un software estadístico y se aplican las técnicas que se planicaron anteriormente. De no ser posible aplicar éstas porque se viole algún supuesto que las valida, se buscarán técnicas alternativas para el mismo propósito. Habitualmente se realiza primero un análisis exploratorio (estadística descriptiva) y posteriormente uno conrmatorio (inferencia estadística).

iv) Analizar los resultados obtenidos.

Una vez procesados los datos, se

procede a analizar los resultados obtenidos desde el punto de vista estadístico. Dependiendo de los objetivos, esto puede consistir simplemente en una descripción de lo que ocurre en los datos o la búsqueda de diferencias estadísticamente signicativas, cuando proceda.

[email protected]

(UCM)

Introducción

14/03/2011

13 / 98

Metodología de la Investigación Estadística: Ejecución

v) Obtener las conclusiones y publicar los resultados.

Finalmente, y

tratando de evitar un lenguaje demasiado técnico, se procede a obtener las conclusiones y a incorporarlas en un informe estadístico del estudio, cuyos resultados serán incorporados al informe nal del estudio, que deberá redactar el equipo investigador. Aquí termina la labor estadística.

vi) Tomar las decisiones pertinentes.

Con estos resultados se procede a

tomar las decisiones más pertinentes para el propósito que se ha planteado.

[email protected]

(UCM)

Introducción

14/03/2011

14 / 98

Variable Estadística Denición (Variable estadística) Es cualquier característica o atributo que es deseable conocer acerca de las unidades de análisis y que se espera varíe de una unidad a otra. Comúnmente, se identican con la letra

X.

Denición (Recorrido de una Variable) Es el conjunto de todos los posibles valores de una variable. Comúnmente, se identican con el símbolo

RX .

Denición (Dato estadístico) Es la observación, conteo o medición de una variable estadística sobre una unidad de análisis.

[email protected]

(UCM)

Introducción

14/03/2011

15 / 98

Tipos de Variables: Cualitativas y Cuantitativas

Denición (Variable Cualitativa) Variable que representa una cualidad o atributo.

Denición (Variable Cuantitativa) Variable que representa una cantidad o valor numérico.

Denición (Variable Cuantitativa Discreta) Si la variable cuantitativa se generó a través de un conteo, entonces ésta es discreta y sólo puede tomar valores enteros (su recorrido se puede contar)

[email protected]

(UCM)

Introducción

14/03/2011

16 / 98

Tipos de Variables: Cualitativas y Cuantitativas Denición (Variable Cuantitativa Continua) Si la variable cuantitativa se generó a través de una medición (generalmente se usa un instrumento de medición, como una balanza, un reloj, termómetro, prueba, etcétera), entonces ésta es continua y admite valores decimales y sus valores pertenecen a un intervalo de los números reales (su recorrido no es contable).

Variable

     

Cualitativa o categórica (cualidad o atributo)

    

Cuantitativa o numérica (cantidad)

[email protected]

(UCM)

Introducción

 

Discreta (contable)



Continua (no contable)

14/03/2011

17 / 98

Escalas de Medición Toda variable estadística se puede clasicar en una de las siguientes escalas de medida, las que presentaremos en un orden ascendente respecto de la riqueza de información que nos entrega cada una de ellas.

Las escalas de medición son: Nominal Ordinal Intervalo Razón

[email protected]

(UCM)

Introducción

14/03/2011

18 / 98

Escala Nominal Denición (Escala Nominal) Escala empleada en variables de tipo cualitativa, utiliza los números sólo como símbolos, códigos o nombres (nominal deriva de nombre) para separar a las unidades de análisis en distintos grupos o clases excluyentes, sin que sea posible establecer un orden entre los códigos de dos unidades que pertenezcan a distintas clases ni tampoco distancia entre los códigos de estas unidades.

Ejemplo (Escala Nominal) Sea

X

la variedad de las manzanas. Entonces, la variable es cualitativa y

medida en escala nominal. Sus clases o categorías pueden ser las siguientes:

RX ≡ {Fuji(1); Royal

Gala(2); Cripps Pink(3)}.

Nota: en este ejemplo se ha asignado los códigos 1, 2 y 3 a las tres variedades, sin que 3 signique mejor que 2 ni que 1. [email protected]

(UCM)

Introducción

14/03/2011

19 / 98

Escala Ordinal Denición (Escala Ordinal) En esta escala, empleada en el mismo sentido que la escala nominal, los números sí indican un orden, aunque no establecen distancias, es decir, siguen siendo códigos y no realmente números.

Ejemplo (Escala Ordinal) Sea

X

el desempeño laboral. Entonces, la variable es cualitativa y medida

en escala ordinal. Sus clases o categorías pueden ser:

RX ≡ {Malo(1); Regular(2); Bueno(3); Excelente(4)}. Nota: Si bien la unidad de análisis que tenga un código 4 tuvo mejor desempeño que la que obtuvo un 3 ó 2 ó 1, no signica que ésta haya tenido, por ejemplo, un desempeño el doble de satisfactorio que la que obtuvo un 2 (4 es el doble de 2). [email protected]

(UCM)

Introducción

14/03/2011

20 / 98

Escala de Intervalos Denición (Escala de Intervalos) Esta escala, utilizada exclusivamente para variables cuantitativas, en este caso, los número de dejar de ser códigos y son efectivamente cantidades numéricas, por lo que es posible medir la magnitud de la diferencia entre los valores. Sin embargo, su principal característica es que el cero (0) no indica ausencia de característica, es decir, depende de la unidad en que se mida la variable (el 0 es relativo).

Ejemplo (Escala de Intervalos) Sea

X

la temperatura ambiente. Entonces, la variable es cuantitativa

continua y medida en escala de intervalos, pues la temperatura

0o C

no

indica ausencia de temperatura.

0o C 6= 0o F 6= 0o K, [email protected]

(UCM)

  29 F = · C + 32 . 5

Introducción

14/03/2011

21 / 98

Escala de Razón Denición (Escala de Razón) Se usa en el mismo sentido que la escala de intervalos, pero además en este caso tiene sentido el concepto de razón o cociente entre dos cantidades (lo cual no es posible establecer en la escala de intervalos) sólo que en este caso el cero (0) indica ausencia de la característica, es decir, no depende de la unidad en que se mida la variable (el 0 es absoluto).

Ejemplo (Escala de Razón) Sea

X

el peso de las raíces secas de cierta planta. Entonces, la variable es

cuantitativa continua y medida en escala de razón, pues el peso 0, indica ausencia de peso.

0

[email protected]

(UCM)

tonelada

≡0

libras

Introducción

≡0

kgs.

14/03/2011

22 / 98

Diagrama de Tipos de Variables v/s Escalas de Medición

Escalas de Medición

z

no existe orden

z }| {

Nominal

|

z }| {

Ordinal

Cualitativa

|

[email protected]

{z⇒

}|

existe orden

0 absoluto

z }| { z }| { Razón } V |Intervalo ⇒ {z }   Discreta  Continua

Cuantitativa

{z

Tipos de Variables

(UCM)

{

0 relativo

Introducción

}

14/03/2011

23 / 98

Variable de respuesta y explicatoria Denición (Experimento) Un experimento es el proceso de obtener una observación y representa cualquier situación que tenga más de un resultado.

Denición (Variable Respuesta  Y ) Mide alguna característica del resultado de un experimento. La variable de respuesta, depende de alguna manera, de otra variable. Es también llamada variable dependiente.

Denición (Variable Explicatoria  X ) Es la que explica o causa los cambios en la variable de respuesta, es controlada por el investigador. También es llamada variable independiente.

[email protected]

(UCM)

Introducción

14/03/2011

24 / 98

Ejemplo Ejemplo Un ingeniero realizó un experimento para determinar los efectos de un fertilizante en el crecimiento y desarrollo de plantas. Se aplicaron dos fertilizantes (uno orgánico y otro convencional) a 20 plantas (a 10 plantas se le aplicaron cada fertilizante. Posteriormente, a cada planta, se le mide el peso de sus raíces en seco.

Experimento = Proceso de pesar las raíces secas. Unidad experimental = Raíces secas. Error Experimental = Es la variación entre los pesos de distintas raíces tratadas de manera idéntica. Variable de respuesta = Peso de las raíces en seco. Variable explicatoria = Tipos de Fertilizantes.

[email protected]

(UCM)

Introducción

14/03/2011

25 / 98

Iniciando SPSS Cuando

se

inicia

SPPS,

aparece esta ventana, que es llamada

Vista de datos

en ella sólo se debe ingresar los datos. Para entregarle las características de las variables (nombre, escala, decimales, etc), hay que ingresar a

variables

Vista de

Existe una ter-

cera vista que es llamada

Vista de resultados,

es

donde SPSS entrega todos los resultados.

[email protected]

(UCM)

Introducción

14/03/2011

26 / 98

Libro de códigos: Explicación de la base de datos Puede descargar la base de datos desde:

[email protected]

(UCM)

http://bit.ly/data_riego

Introducción

14/03/2011

27 / 98

Diseño de la base de datos: Las variables En Vista de variable debe modicar: La Anchura en 8. Los Decimales (según el caso). La Etiqueta (nombre completo de la variable, este nombre es el que aparece en los grácos y salidas).

Los Valores, si la variable es nominal u ordinal, hay denir que signican los valores. En Medida, debe ingresar la escala de medición de las variables (nominal, ordinal, intervalo y razón). SPSS no distingue entre las de intervalo o razón y simplemente le llama escala.

[email protected]

(UCM)

Introducción

14/03/2011

28 / 98

Medidas de Resumen Estas medidas estadísticas resumen al conjunto de datos, también se les denomina

estadísticos.

Estas medidas se clasican en medidas de posición,

dispersión y forma.

(Medidas de Posición) Entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las medidas de tendencia central, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran:

La media o promedio aritmético. La mediana o valor del centro. La moda, o valor más frecuente. b) Los percentiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre los que se encuentran:

Los cuartiles (dividen al conjunto en cuatro partes iguales). Los deciles (dividen al conjunto en 10 partes iguales). [email protected]

(UCM)

Introducción

14/03/2011

29 / 98

Medidas de tendencia central: Media Denición (Media) La media o promedio aritmético de un conjunto de

x1 , x2 , . . . , xn ,

n

datos digamos

viene dado por:

x=

n X xi i=1

n

.

Denición (Media Recortada al 5%) Es el promedio de los datos sin considerar el 5% más pequeño, ni el 5% más alto. El uso de la media es exclusivamente para variables cuantitativas. La media puede ser afectado de manera desproporcionada por la existencia de datos atípicos (fuera de lo común). La media recortada al 5%, comúnmente no es afectada por valores atípicos. [email protected]

(UCM)

Introducción

14/03/2011

30 / 98

Medidas de tendencia central: Mediana Denición (Mediana) Corresponde al valor central cuando las

n

observaciones se ordenan de

menor a mayor. Es decir, considere las siguientes observaciones

x1 , x2 , ..., xn , además si ordenamos estas observaciones de tenemos x(1) , x(2) , ..., x(n) , entonces la mediana sería  si n es impar;  x( n+1 ) , 2 x( n2 ) + x( n2 +1) Me =  , si n es par. 2

menor a mayor

No se puede usar esta medida si la escala de medición de la variables es nominal. Su cálculo no es afectado por la existencia de datos atípicos.

[email protected]

(UCM)

Introducción

14/03/2011

31 / 98

Medidas de tendencia central: Moda

Denición (Moda (Mo )) Corresponde al valor o categoría con más alta frecuencia en los datos.

El uso de esta medida es para cualquier tipo de variable. En el caso de variables cuantitativas, los datos pueden ser agrupados en clases y la moda se dene como la marca de clase que tiene la mayor frecuencia. Puede existir más de una moda en un conjunto de datos.

[email protected]

(UCM)

Introducción

14/03/2011

32 / 98

Medidas de posición: Los percentiles Denición (Percentil α) Los percentiles cumplen con la condición de superar a no más del

(1 − α)100%

de los datos y de ser superado, a los más por el porcentaje

complementario de las observaciones.

Considere los siguientes datos ordenados de menor a mayor

x(1) , x(2) , ..., x(n) .

Entonces,

Pα = (1 − d) · x(e) + d · x(e+1) . Donde,

i = α(n + 1), e=

parte entera de

i,

d = i − e. [email protected]

(UCM)

Introducción

14/03/2011

33 / 98

Medidas de posición: Cuartiles Denición (Cuartiles) Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual tamaño: El cuartil 1

(Q1 ) marca P0,25 .

la parte alta del primer cuarto de los datos,

(Q3 ) marca P0,75 .

la parte baja del último cuarto de los datos,

corresponde al El cuartil 3

corresponde al El cuartil 2

(Q2 )

corresponde a la

P0,50 = Me .

Metodología para el cálculo aproximado de Q1 y Q3 Paso 1:

Ordene los datos de menor a mayor y encuentre la

Paso 2:

Divida los datos en 2 mitades, por encima y por debajo de la

Me . Paso 3:

Si

n

es impar incluya la mediana en ambas mitades.

Encuentre la mediana en ambas mitades, estas son

[email protected]

(UCM)

Me .

Introducción

Q1

14/03/2011

y

Q3 . 34 / 98

Medidas de dispersión

Las segundas medidas estadísticas de resumen, las de dispersión, nos entregan el grado de dispersión, variabilidad u homogeneidad que poseen los datos dentro del conjunto, generalmente respecto de una medida de tendencia central, entre las que se encuentran: El rango o desviación máxima El rango intercuartil. La varianza. La desviación estándar o típica. El coeciente de variación. Entre otras.

[email protected]

(UCM)

Introducción

14/03/2011

35 / 98

Medidas de dispersión: Rango y rango intercuartil Denición (Rango) Corresponde a la diferencia entre el mayor y menor de los datos.

R = Máx − Mín

Denición (Rango Intercuartil) Esta medida de variabilidad es resistente a valores atípicos y se concentra en el 50% de los datos. También llamado Amplitud Intercuartil.

RI = Q3 − Q1 El uso de

R

R

y

RI

no es para variables nominales.

es afectado por la existencia de datos atípicos.

RI

no es afectado por la existencia de datos atípicos.

[email protected]

(UCM)

Introducción

14/03/2011

36 / 98

Medidas de dispersión: Varianza Denición (Varianza) La varianza de las observaciones

x1 , x2 , ..., xn

es

n

s2 =

1 X (xi − x)2 . n−1 i=1

Esta mide las variaciones promedio que existen en los datos con respecto a la media de la muestra. Su calculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Esta medida no se puede interpreta, pues tiene unidades de medida al cuadrado.

[email protected]

(UCM)

Introducción

14/03/2011

37 / 98

Medidas de dispersión: Desviación estándar Denición (Desviación estándar) Se dene la desviación estándar (típica) como

√ s=

v u u s2 = t

n

1 X (xi − x)2 . n−1 i=1

Su calculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Se interpreta como la cantidad de desviaciones promedio de los datos con respecto a la media.

[email protected]

(UCM)

Introducción

14/03/2011

38 / 98

Medidas de Dispersión: Coeciente de variación

Denición (Coeciente de variación) Corresponde a una medida de dispersión relativa a la media. Esta dada por

CV =

s 100% x

No depende de la unidad de medida.

x > 0. Útil para comparar variabilidad entre grupos. Mientras más pequeño es el valor del

CV

más homogéneos (parecidos

entre si) son los datos.

[email protected]

(UCM)

Introducción

14/03/2011

39 / 98

Relación entre el promedio y la desviación estándar Regla empírica

Denición (Regla empírica )

Media = 0 y Desviación Estándar =1.

Para un conjunto de datos (n grande) que tienen un histograma

1.250

simétrico, con forma de campana, los intervalos, que se presenta a aproximadamente los siguientes porcentajes de los datos.

Frecuencia

continuación, contienen

1.000

750

500

Intervalo

Porcentaje

[x − s; x + s] [x − 2s; x + 2s] [x − 3s; x + 3s]

68, 27% 95, 45% 99, 73%

250

0

-3

-2

-1

0

1

2

3

Normal

[email protected]

(UCM)

Introducción

14/03/2011

40 / 98

Intervalo de conanza del 95% para la verdadera media poblacional µ (para muestras grandes) Denición (Intervalo de Conanza para µ) Intervalo de Conanza del 95% para la verdadera media poblacional

µ

(para muestras grandes), se dene como

  s s √ √ x − 1, 96 · ; x + 1, 96 · n n n ≥ 30. s 1, 96 · √ es llamado error de estimación. n s √ es llamado error típico de la media. n Se recomienda utilizar este intervalo para

[email protected]

(UCM)

Introducción

14/03/2011

41 / 98

Medida de forma: sesgo Denición (Sesgo) Índice que expresa el grado de asimetría de la distribución de los datos (histograma). La asimetría positiva indica que los valores más extremos se encuentran por encima de la media. La asimetría negativa indica que los valores más extremos se encuentran por debajo de la media. Su formula es

 n X 3 (xi − x)     i=1  n   sk =   3 (n − 1)(n − 2)  s  

. Si Si Si

sk = 0, sk < 0, sk > 0,

[email protected]

entonces la distribución es simétrica. entonces la distribución es asimétrica negativa. entonces la distribución es asimétrica positiva. (UCM)

Introducción

14/03/2011

42 / 98

Medida de forma: Relación Entre Promedio y la Mediana

Distribución Simétrica (No Sesgada):

x = Me Distribución Asimétrica Positiva, :

Me < x Distribución Asimétrica Negativa:

x < Me

Una distribución es simétrica si la mitad izquierda de su distribución es la imagen de su mitad derecha. La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). [email protected]

(UCM)

Introducción

14/03/2011

43 / 98

Medida de forma: Error típico del sesgo Denición (Error típico del sesgo) Es la desviación típica de la distribución muestral del índice de asimetría, el cual permite tipicar el valor del índice de asimetría e interpretarlo como una puntuación z. Índices tipicados mayores que 1,96 en valor absoluto permiten armar que existe asimetría (positiva o negativa, dependiendo del signo del índice). Su formula es

s esk =

Si,

sk esk ≤ 1, 96,

[email protected]

6n(n − 1) . (n − 2)(n + 1)(n + 3)

entonces la distribución de los datos es simétrica.

(UCM)

Introducción

14/03/2011

44 / 98

Coecientes de apuntamiento: Curtosis Denición (Curtosis) Índice que expresa el grado en que una distribución acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal con la misma varianza. Su formula es

 n X 4 (xi − x)      2  i=1  n(n − 1) n(n + 1)  − k=  (n − 1)(n − 2)(n − 3)  s4 (n − 2)(n − 3)   

. Si Si

k > 0, k = 0,

entonces la distribución es más puntiagudas (Leptocurtica).. (proximos a cero) entonces indican semejanza con la curva

normal. Si .

k < 0,

[email protected]

entonces la distribución es más aplanada (Mesocurtica). (UCM)

Introducción

14/03/2011

45 / 98

Coecientes de apuntamiento: Error típico de la curtosis Denición (Error típico de la curtosis) El error típico del índice de curtosis, el cual puede utilizarse para tipicar el valor del índice de curtosis y poder interpretarlo como una puntuación z.. Índices mayores que 1,96 en valor absoluto permiten armar que la distribución se aleja de la distribución normal. Su formula es

s ek = Si,

k ≤ 1, 96, ek

entonces la distribución de los datos es como la normal.

Dependiendo del signo de

[email protected]

24n(n − 1)2 . (n − 3)(n − 2)(n + 3)(n + 5)

(UCM)

k,

se identica si es platicurtica o mecocurtica.

Introducción

14/03/2011

46 / 98

Identicación de datos atípicos: Método de la puntuación z

Denición (Método de la puntuación z :) Si consideramos la regla empírica, sabemos que aproximadamente el de los datos está en el intervalo

[x − 3s; x + 3s].

100%

Es muy improbable que un

dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un dato atípico. Es decir, un dato es no atípico si

xi − x xi − x ≤3 ∈ [−3; 3] ⇔ xi ∈ [x − 3s; x + 3s] ⇔ s s ∴

Si consideramos la transformación

atípico si

zi =

xi −x s , entonces un dato

xi

es

|zi | > 3.

[email protected]

(UCM)

Introducción

14/03/2011

47 / 98

Identicación de datos atípicos: Método de Tukey Denición (Método de Tukey:) Considere las siguientes barreras (bisagras),

Barrera Interior Inferior: BII = Q1 − 1, 5RI Barrera Interior Superior: BIS = Q3 + 1, 5RI Barrera Exterior Inferior: BEI = Q1 − 3RI Barrera Exterior Superior: BES = Q3 + 3RI Identique los datos en este diagrama No atípico

z }| { · · · · · · [ [BEI · · · · · · [ [BII · · · · · · BIS] ] · · · · · · BES] ] · · · · · · {z } {z } | {z } | {z } | |

Potencial

[email protected]

Posible

(UCM)

Posible

Introducción

Potencial

14/03/2011

48 / 98

Identicación de datos atípicos: Diagrama de caja Denición (Diagrama de caja) El diagrama de caja, entrega información sobre centralidad, dispersión y la forma de la distribución de los datos, identica valores atípicos y es útil para comparar dos distribuciones.

(Procedimiento para realizar esta gráca) Paso 1:

Los bordes de la caja se representan por

Q1

y

Q3 ,

trazar una linea vertical que atraviese la caja en la

Paso 2:

se debe

Me .

Trazar líneas desde los bordes de la caja hasta los valores adyacentes (el menor y mayor de los datos no atípicos).

Paso 3:

Marque los posibles valores atípicos con con

[email protected]

o

y los potenciales

∗.

(UCM)

Introducción

14/03/2011

49 / 98

Identicación de datos atípicos: Diagrama de caja

[email protected]

(UCM)

Introducción

14/03/2011

50 / 98

Ejemplo de un análisis descriptivo en SPSS

[email protected]

(UCM)

Introducción

14/03/2011

51 / 98

Ejemplo de un análisis descriptivo en SPSS

[email protected]

(UCM)

Introducción

14/03/2011

52 / 98

Ejemplo de un análisis descriptivo en SPSS

El DAC promedio es de 2,2815 mm, con un 95% de conanza se espera que el intervalo (2,2589; 2,3061) contenga al verdadero valor del DAC promedio. Si no se considera al 5% de las plantas con el DAC más pequeño ni al 5% con el DAC más grande, el DAC promedio sería de 2,2750. El 50% de las plantas tiene un DAC inferior 2,25. Existe una desviación de 0,51329 mm con respecto al DAC promedio. [email protected]

(UCM)

Introducción

14/03/2011

53 / 98

Ejemplo de un análisis descriptivo en SPSS

El DAC mínimo es de 1,04 y el máximo es de 4,71. Existen cuatro datos atípicos que son el 85, 180, 242 y el 796. La distribución del DAC es asimétrica (0,230/0,060 = 3,83>1,96), esta última armación no concuerda con los expuesto grácamente, esto ocurre, por la existencia de los datos atípicos. Con respecto a la curtosis, sería como la de la normal (0,124/0,119 = 1,042 < 1,96).

[email protected]

(UCM)

Introducción

14/03/2011

54 / 98

Ejemplo Introductorio de prueba de hipótesis

Un distribuidor cree que más del 80% de sus semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y 25 de ellas están sanas. Proporciona esta muestra suciente evidencia para creer el distribuidor tiene razón.

Se dene la variable aleatoria:

X=

número de semillas sanas de las 30 semillas seleccionadas.

Bajo el supuesto de que la proporción de semillas sanas en la población es

p = 0.80,

la variable aleatoria

[email protected]

(UCM)

X

es una binomial con

Introducción

n = 30

y

p = 0.80.

14/03/2011

55 / 98

Ejemplo Introductorio de prueba de hipótesis En otras palabras, bajo este supuesto (p

= 0.80),

la distribución de probabilidad sería,

pX (x) = si

[email protected]

(UCM)

Introducción

  30 0, 80x 0, 2030−x , x

x = 0, 1, ..., 30

14/03/2011

56 / 98

Ejemplo Introductorio de prueba de hipótesis La probabilidad de que el número de semillas sanas sea superior o igual a 25, cuando la proporción se semillas sanas es de un 80% es de

30   X 30 P(X ≥ 25) = 0, 80x 0, 2030−x = 0, 427512438, x x=25

Por otro lado, la probabilidad de que el número de semillas sanas sea superior o igual a 28, es de

P(X ≥ 28) =

30   X 30 0, 80x 0, 2030−x = 0, 044178985, x

x=28

Fíjese que esta última probabilidad es muy pequeña y su hubiese ocurrido este escenario, no dudaría en darle la razón al distribuidor.

[email protected]

(UCM)

Introducción

14/03/2011

57 / 98

Introducción a la inferencia estadística Denición (Métodos Inferenciales) Son los encargados de llevar adecuadamente los resultados de una muestra aleatoria hacia la población objetivo.

[email protected]

(UCM)

Introducción

14/03/2011

58 / 98

Método para obtener muestras aleatorias

(Método para obtener muestras aleatorias) 1

Asigne la secuencia de números de 1 a

N

(tamaño de la población) a

las unidades experimentales (UE). 2 3

Genere un número aleatorio Repita este proceso

n

U

entre 0 y 1. Calcule

(tamaño de la muestra) veces y obtendrá una

permutación aleatoria de los números 1 al 4

X = U (N − 1) + 1.

n.

Los números obtenidos son las UE a considerar en la muestra.

[email protected]

(UCM)

Introducción

14/03/2011

59 / 98

Método para obtener muestras aleatorias Ejemplo (Método para obtener muestras aleatorias) Suponga que en un estudio existen 16 manzanas que constituyen una población, se desea medir el grado de dulzor de la manzana (se mide en una escala de 1 a 7, donde 1=muy poco dulce y 7=muy dulce). Como tamaño de muestra se ha considerado a 4 manzanas. Seleccione la muestra.

[email protected]

(UCM)

UE1

UE2

UE3

UE4

UE5

UE6

UE7

UE8

UE9

UE10

UE11

UE12

UE13

UE14

UE15

UE16

Introducción

14/03/2011

60 / 98

Ejemplo para obtener muestras aleatorias

Considere los siguientes n

◦ aleatorios, generados con el computador, en

Excel, =aleatorio().

0,776

0,989

Realice la siguiente tranformación

13

0,591

0,123

X = 15U + 1 16

10

y redondear al entero.

3

Entonces, debería medir los frutos 13, 16, 10 y 3.

[email protected]

(UCM)

Introducción

14/03/2011

61 / 98

Estudios por muestreo v/s estudios censales Ejemplo Considere el ejemplo anterior, recuerde que se desea medir el grado de dulzor.

Suponga que se realiza un censo (todas las manzanas) y en cada una de las 16 manzanas se va a aplicar la evaluación y se mide el grado de dulzor y los datos son.

Uno es

de

los

identicar

objetivos el

del

UE1 = 5

UE2 = 1

UE3 = 2

UE5 = 4

UE6 = 3

UE7 = 2

UE8 = 3

UE9 = 2

UE10 = 4

UE11 = 4

UE12 = 2

UE13 = 2

UE14 = 1

UE15 = 1

UE16 = 1

estudio

grado de dulzor

(parámetro) de los frutos.

UE4 = 2

Como esta es información poblacional lo identicaremos con la letra este caso,

µ.

En

µ = (5 + 1 + 2 + · · · + 1)/16 = 2, 438.

[email protected]

(UCM)

Introducción

14/03/2011

62 / 98

Estudios por muestreo v/s estudios censales Ahora, si consideremos, la muestra aleatoria, encontrada anteriormente, sólo deberíamos evaluar los frutos 13, 16, 10 y 3. Entonces, tendríamos los siguientes datos. UE13 = 2

UE16 = 1

UE10 =4

UE3 =2

Dada la información de la muestra, podríamos tener una

grado de dulzor

estimación del

(estadístico). Como esta es información muestral lo

x. En este caso, x = (2 + 1 + 4 + 2)/4 = 2, 250. Fíjese que x

identicaremos con la letra

Esta discrepancia, se debe al

Nota:

no es exactamente igual a

µ.

error de muestreo.

Si a cada individuo es remunerado con 5.000 pesos, adicionales, por

cada experimento, en el censo, gastaríamos 80.000 pesos y en el muestreo 20.000 pesos. La diferencia es grande, pero no hay mucha diferencia en los resultados (µ

= 2, 438

[email protected]

(UCM)

y

x = 2, 250.). Introducción

14/03/2011

63 / 98

Hipótesis Estadísticas

Denición (Hipótesis Estadísticas) Conjetura acerca de los parámetros de una población. Es decir, es una supocisión acerca de la distribución de los datos en la población. Una prueba de hipótesis consiste en tener un procedimiento que decida, a partir de la muestra, cuál de dos hipótesis es más razonable para la población en estudio.

[email protected]

(UCM)

Introducción

14/03/2011

64 / 98

Tipos de Hipótesis H0 →

Hipótesis nula: Hipótesis que supone que los datos obtenidos

en la muestra provienen de una población con una distribución conocida por el investigador.

H1 →

Hipótesis alternativa (o hipótesis del investigador): Es la

hipótesis contraria a la hipótesis nula, por lo que se acepta cuando

H0

es rechazada.

Observación El objetivo de una prueba de hipótesis es elegir entre

H0

o

H1 ,

mediante información muestral. La hipótesis nula no se rechaza a menos que los datos proporcionen evidencias convincentes de que es falsa. Esta es la razón por la que tampoco se puede considerar como cierta si es que no se rechaza.

[email protected]

(UCM)

Introducción

14/03/2011

65 / 98

Tipos de errores, nivel de signicación y valor−p Denición (Error tipo I) Es rechazar

H0 ,

cuando

H0

es verdadera.

Denición (Error tipo II) Es no rechazar

H0 ,

cuando

H0

es falsa.

Denición (Nivel de signicación α) Se dene como la máxima probabilidad de cometer el error tipo I.

Denición (valor−p) El valor−p, es el mínimo valor de

α

que lleva al rechazo de

H0 .

Es también

llamado signicancia (sig.).

[email protected]

(UCM)

Introducción

14/03/2011

66 / 98

Pasos para una prueba de hipótesis 1

Formular las hipótesis:

Luego de plantear las hipótesis de

investigación (basadas en los objetivos), se plantean las hipótesis estadísticas, 2

H0

y

H1 .

Elegir y calcular el estadístico de prueba:

Dependiendo de las

hipótesis planteadas en el punto anterior, se propone una metodología estadística, que tiene asociada un estadístico de prueba. 3

Determinar región de rechazo y valor−p: 1

2 4

Fijar el nivel de signicación α (comúnmente se ja en α = 0, 05) y determinar la región de rechazo de H0 . Calcular el valor−p. Regla: Rechace H0 si el valor−p es menor que α.

Concluir estadísticamente y tomar la decisión:

Dependiendo del

resultado del paso anterior, se concluye si se rechaza o no

H0 .

Se

deben responder las preguntas de investigación o vericar si se cumplen la hipótesis. Basado en esta conclusión se debe tomar una decisión acorde al área de investigación. [email protected]

(UCM)

Introducción

14/03/2011

67 / 98

Ejemplo de Prueba de hipótesis Recuerde el problema del distribuidor que cree que más del 80% de sus semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y 25 de ellas están sanas.

(Hipótesis) H0 : p ≤ 0, 80

v/s

H1 : p > 0, 80

n = 30 semillas fue extraída de H0 cierta, la distribución de la

La hipótesis nula es que la muestra de población con

p ≤ 0, 80.

Luego, bajo

H1 es una distribución binomial con (n = 30, p = 0, 80) que es una distribución conocida por

una

muestra que más favorece a parámetros

el

investigador.

[email protected]

(UCM)

Introducción

14/03/2011

68 / 98

Ejemplo de Prueba de hipótesis (Estadístico de Prueba) El estadístico de prueba es la variable aleatoria

X

que cuenta la cantidad

H0 es cierta es conocida, es una binomial de parámetros (n = 30, p = 0, 80). Para este caso el estadístico de prueba observado es X = 25. de semillas sanas en la muestra de tamaño 30, y su distribución cuando

(Región de rechazo) Consideremos

α = 0, 05

P(X ≥ 22) = 0, 871349246 P(X ≥ 23) = 0, 760790619 P(X ≥ 24) = 0, 606969924

y las siguientes probabilidades

P(X ≥ 25) = 0, 427512438 P(X ≥ 26) = 0, 255233255 P(X ≥ 27) = 0, 122710806

Entonces la región de rechazo sería: Rechace

[email protected]

(UCM)

Introducción

H0

P(X ≥ 28) = 0, 044178985 P(X ≥ 29) = 0, 010522490 P(X ≥ 30) = 0, 001237940 si

X ≥ 28.

14/03/2011

69 / 98

Ejemplo de Prueba de hipótesis

(Valor−p) valor−p=P(X

≥ 25) = 0, 427512438

(Conclusión) Como el estadístico de prueba no pertenece a la región de rechazo ( o equivalentemente el valor−p > 0,05), no debería rechazarse basándose en la muestra observada y con

α = 0, 05,

H0 .

Es decir,

no existen evidencias

sucientes que demuestren los dichos del distribuidor.

[email protected]

(UCM)

Introducción

14/03/2011

70 / 98

Prueba Z para la media de una población Se supone que la variable aleatoria y grande (n

X

es continua y la muestra es aleatoria

≥ 30).

(Prueba Z para la media de una población)

Donde

x − µo √ σ/ n

Estadística de prueba (calculado):

zc =

Hip. Nula

Hip. Alternativa

Rechace

H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0

H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0

H0 si |zc | > z1−α/2 zc > z1−α zc < −z1−α

p 2[1 − P(Z < |zc |)] 1 − P(Z < |zc |) 1 − P(Z < |zc |) Valor

µ es la media de la población en estudio, µ0

es un valor conocido que

se dene a partir del problema práctico, es el valor numérico con el cuál se compara la media poblacional y

σ

es la desviación estándar de la población

(se asume conocida por el investigador). Además [email protected]

(UCM)

Introducción

Z ∼ N (0, 1). 14/03/2011

71 / 98

Ejemplo de una prueba Z para la media de una población Ejemplo Un Ingeniero Agrónomo de una empresa desea saber si la producción media de trigo (diaria) es superior a los a 400 kg. Una muestra aleatoria de 172 días reveló que la producción media de la muestra era 407 kg. Se sabe de estudios anteriores que la desviación estandar es 38 kg. ¾El ingeniero debe llegar a la conclusión de que la media de su producción diaria es mayor a 400 kg, o es razonable que la diferencia existente se deba a la casualidad? Hipótesis:

H0 : µ ≤ 400

v/s

H1 : µ 407−400 √ 38/ 172

Estadístico de prueba:

zc =

Región de Rechazo: Si

α = 0, 05.

> 400 = 2, 42

Entonces rechace

H0 ,

si

zc > z0,95 = 1, 645. Descargue las tablas estadísticas desde [email protected]

(UCM)

http://bit.ly/tablas_est.

Introducción

14/03/2011

72 / 98

Ejemplo de una prueba Z para la media de una población Valor-p: valor-p

= 1 − P(Z < |2, 42|) = 1 − 0.992240 = 0, 00776.

Este valor-p es usualmente considerado pequeño, ya que

0, 00776 < α = 0, 05. Conclusión: Se rechaza la hipótesis nula equivalentemente, valor-p

< 0, 05.)

H0 (zc > 1, 96

o

y el ingeniero puede llegar a la

conclusión de que la producción media diaria es mayor a 400 kg.

[email protected]

(UCM)

Introducción

14/03/2011

73 / 98

Intervalo de Conanza del (1 − α)100% para µ

Denición (Intervalo de Conanza para µ) Bajo las mismas condiciones del caso anterior. Se dene el intervalo de conanza del

(1 − α)100% para la verdadera media poblacional µ,   σ σ x − z1−α/2 · √ ; x + z1−α/2 · √ n n

mediante

σ ee = z1−α/2 · √ es llamado error de estimación. n σ √ es llamado error típico de la media o error estándar. n

[email protected]

(UCM)

Introducción

14/03/2011

74 / 98

Tamaño de muestra para la estimación de µ Suponiendo que

n

es grande, el tamaño de la muestra sería,

n>

2 z1−α/2 · σ2

ee2

.

Además, si se conoce el tamaño de la población (N ), el tamaño de muestra nal (corrección para poblaciones nitas) sería

nf >

n . 1 + n/N

Ejemplo 1

Considere el ejemplo anterior, encuentre un IC del 95% para

µ.

¾Tiene

sentido este intervalo? 2

Estime el tamaño de muestra para

µ,

con una conanza del 95%, un

error de estimación inferior a 5 kg. [email protected]

(UCM)

Introducción

14/03/2011

75 / 98

Prueba T para una muestra Se supone que la muestra es aleatoria proveniente de una distribución

X∼

N (µ, σ 2 ).

(Prueba T para una muestra) x − µo √ s/ n

Estadística de prueba (calculada):

tc =

Hip. Nula

Hip. Alternativa

Rechace

H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0

H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0

H0 si |tc | > t1−α/2 (n − 1) tc > t1−α (n − 1) tc < −t1−α (n − 1)

p 2[1 − P(T < |tc |)] 1 − P(T < |tc |) 1 − P(T < |tc |) Valor

µ es la media de la población en estudio, µ0 es un valor conocido que σ es la desviación estándar de la población (se asume desconocida por el investigador). Además T ∼ t(n − 1). Cuando n ≥ 30, se puede aproximar tα (n) ≈ zα .

Donde

se dene a partir del problema y

[email protected]

(UCM)

Introducción

14/03/2011

76 / 98

Intervalo de Conanza del (1 − α)100% para µ Denición (Intervalo de Conanza para µ) (1 − α)100% para la verdadera media µ, (cuando σ es desconocido) se dene como   s s x − t1−α/2 (n − 1) · √ ; x + t1−α/2 (n − 1) · √ n n

Intervalo de Conanza del poblacional

Ejemplo Recuerde el experimento experimento en el cual 30 lotes de una misma variedad, se hicieron crecer en un mismo ambiente. La altura de planta fue la variable que se registró. Considerando la muestra, la altura promedio fue de

x = 11, 67

cm y la desviación estándar fue de

s = 1, 76.

El ingeniero

cree que la altura es signicativamente diferente de 12 cm. Pruebe esta hipótesis, con

α = 0, 05.

Encuentre un intervalo de conanza del 95% para la altura media. [email protected]

(UCM)

Introducción

14/03/2011

77 / 98

Prueba Z para la proporción (Prueba Z para la proporción) Suponga que los datos proviene de una distribución que puede tomar dos categorías. Entonces,

Estadística de prueba (calculada):

π b − π0 zc = p π0 (1 − π0 )/n

Hip. Nula

Hip. Alternativa

Rechace

H0 : π = π 0 H0 : π ≤ π 0 H0 : π ≥ π 0

H1 : π 6= π0 H1 : π > π 0 H1 : π < π 0

H0 si |zc | > z1−α/2 zc > z1−α zc < −z1−α

Para que esta prueba se cumple se debe vericar que

[email protected]

(UCM)

Introducción

p 2[1 − P(Z < |z|)] 1 − P(Z < |z|) 1 − P(Z < |z|) Valor

nπ0 ≥ 5 y n(1−π0 ) ≥ 5. 14/03/2011

78 / 98

Ejemplo de prueba Z para proporciones Ejemplo Recuerde el problema en que distribuidor cree que más del 80% de sus semillas están sanas. Se selecciona una muestra aleatoria de 30 semillas y 25 de ellas están sanas. Proporciona esta muestra suciente evidencia para creer que el distribuidor tiene razón. Este problema fue resuelto mediante pruebas de hipótesis usando la distribución binomial, Resuélvalo utilizando la prueba hipótesis con

α = 0, 05

Z

para proporciones. Pruebe la

y compare con los resultados obtenidos

anteriormente. ¾Que ocurre con el valor-p, si bajo las mismas condiciones, utilizamos 300 semillas y 250 de ellas están sanas? Compare con el valor-p obtenido mediante la prueba de hipótesis utilizando la binomial (use excel para ayudarse en la sumas).

[email protected]

(UCM)

Introducción

14/03/2011

79 / 98

Comparación de medias: Prueba T para muestras relacionadas

La prueba que veremos ahora también se utiliza cuando queremos comparar las medias de dos poblaciones. Una de las característica de esta prueba es que las dos muestras serán relacionadas (apareadas). Esto se puede hacer de dos formas distintas: 1

Haciendo mediciones a la misma unidad de análisis con instrumentos de medición distinto.

2

Hacer mediciones a una unidad de análisis, luego aplicar un tratamiento y nalmente volver a hacer las mediciones sobre la misma unidad de análisis.

[email protected]

(UCM)

Introducción

14/03/2011

80 / 98

Comparación de medias: Prueba T para muestras relacionadas Ejemplo Un suelo agrícola productivo requiere cierto nivel de ventilación para mantener activo el crecimiento de la raíz de la planta y la actividad de los microbios de suelo. La actividad microbiana, medida como el aumento de CO2 , se usó como medida del nivel de oxigenación del suelo. La evolución CO2 /kg suelo/día en cada contenedor se midió 2 días distintos de iniciado el periodo de incubación. La actividad microbiana en cada muestra de suelo se registró como el porcentaje de incremento en el CO2 producido por encima del nivel atmosférico. Los datos se muestran a continuación. Muestra de suelo

1

2

3

4

5

6

7

Día 1

0,43

0,68

0,68

0,45

0,72

0,70

0,56

Día 2

0,56

0,72

0,69

0,55

0,82

0,69

0,54

[email protected]

(UCM)

Introducción

14/03/2011

81 / 98

Comparación de medias: Prueba T para muestras relacionadas Una de las hipótesis es identicar si existe un efecto, atribuible a las fechas, en los porcentajes de incremento en el CO2 . Podríamos plantear la siguiente hipótesis

H1 : µ1 < µ2 .

Considere los siguientes

estadísticos, Estadístico Promedio Desv. Estándar

Día 1

Día 2

0,6029

0,6529

0,12257

0,10579

Fíjese que los promedios muestrales no son tan diferentes. ¾Porqué la gráca no muestra la poca diferencia que se ve en los promedios? Respuesta: No se deben comparar los promedios, sino la diferencia en las [email protected] distintas fechas.(UCM)

Introducción

14/03/2011

82 / 98

Comparación de medias: Prueba T para muestras relacionadas (Prueba T para muestras relacionadas) d = x1 − x2 , d = sd = desviación estándar de las diferencias, y µd = media poblacional de las diferencias.

Suponga que se tiene datos bivariados. Considerando promedio de las diferencias,

n=

tamaño de las muestra

Entonces,

d √ sd / n

Estadística de prueba:

tc =

Hip. Nula

Hip. Alternativa

Rechace

H0 : µd = 0 H0 : µd ≤ 0 H0 : µd ≥ 0

H1 : µd 6= 0 H1 : µd > 0 H1 : µd < 0

[email protected]

(UCM)

H0 si |tc | > t1−α/2 (n − 1) tc > t1−α (n − 1) tc < −t1−α (n − 1) Introducción

p 2[1 − P(T < |tc |)] 1 − P(T < |tc |) 1 − P(T < |tc |) Valor

14/03/2011

83 / 98

Comparación de medias: Prueba T para muestras relacionadas Ejemplo (Prueba T para muestras relacionadas) Basándose en el ejemplo anterior y considere

d = x1 − x2 .

Pruebe la

hipótesis de que porcentaje de incremento en el CO2 ha aumentado (µ1

< µ2

o

µd < 0).

Entonces, las diferencias serían

Muestra de suelo

1

2

3

4

5

6

7

d

-0,13

-0,04

-0,01

-0,10

-0,10

0,01

0,02

Fíjese que está prueba es igual a una prueba T para una muestra, para las diferencias. Hipótesis:

H0 : µd ≥ 0

Estadístico de prueba:

v/s

tc =

H1 : µ d < 0 −0,05 √ 0,06/ 7

α = 0, 05. tc < −t0,95 (6) = −1, 943.

Región de Rechazo: Si

[email protected]

(UCM)

= −2, 205

Entonces rechace

Introducción

H0 ,

si

14/03/2011

84 / 98

Comparación de medias: Prueba T para muestras relacionadas Ejemplo (Prueba T para muestras relacionadas) Signicancia: valor−p Donde,

= 1 − P(T < | − 2, 205|) = 1 − P(T < 2, 205).

T ∼ t(6). 1 − 0, 975 < valor − p < 1 − 0, 950 0, 025 < valor − p < 0, 05

Conclusión: Como

tc = −2, 205 < −1, 943

o equivalentemente

valor−p µ2 H1 : µ1 < µ2

donde

sp =

q

[email protected]

H0 si |tc | > t1−α/2 (n1 + n2 − 2) tc > t1−α (n1 + n2 − 2) tc < −t1−α (n1 + n2 − 2)

p 2[1 − P(T < |tc |)] 1 − P(T < |tc |) 1 − P(T < |tc |) Valor

(n1 −1)s21 +(n2 −1)s22 . n1 +n2 −2 (UCM)

Introducción

14/03/2011

90 / 98

Comparación de medias: Prueba T para muestras independientes Ejemplo Considere un problema de crecimiento bacterial. A cada conjunto de condiciones de empaque, se le asignaron, al azar, 5 cortes de carne. Se asume que los cortes forman un grupo homogéneo. Se mide el número de bacterias por centímetro cuadrado. Condiciones de empaque

Con

α = 0, 05,

Al vacio (T1 )

100% CO2 (T2 )

620

550

640

500

680

440

630

510

670

550

pruebe la hipótesis de que existe efecto atribuible a las

condiciones de empaque. [email protected]

(UCM)

Introducción

14/03/2011

91 / 98

Comparación de medias: Prueba T para muestras independientes Considere los siguientes estadísticos,

Estadístico Promedio Desv. Estándar Tamaño de muestra

Al vacío

100% CO2

x1 = 648 s1 = 25, 884 n1 = 5

x2 = 510 s2 = 45, 277 n2 = 5

Fíjese que según el diagrama se ve un efecto atribuible al empaque (las carnes tratadas con 100% CO2 tienden a diferir en la cantidad de bacterias, en comparación con las carnes tratadas al vacío).

[email protected]

(UCM)

Introducción

14/03/2011

92 / 98

Comparación de medias: Prueba T para muestras independientes Hipótesis:

H0 : µ1 = µ2

Estadístico de prueba:

H1 : µ1 6= µ2 648 − 510 q = 5, 917 tc = 1 1 36, 878 5 + 5 v/s

α = 0, 05. |tc | > t0,975 (8) = 2, 306.

Región de Rechazo: Si

Entonces rechace

H0 ,

si

Signicancia: valor−p

= 2[1 − P(T < |5, 917|)] = 2[1 − P(T < 5, 917)] < 2[1 − 0, 9995] = 0, 001 Donde, T ∼ t(8). Conclusión: Como

|tc | = 5, 917 > 2, 306

o equivalentemente valor−p

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF