Cuaderno Estadística II
March 21, 2023 | Author: Anonymous | Category: N/A
Short Description
Download Cuaderno Estadística II ...
Description
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal DEFINICIONES BÁSICAS Población. - - Conjunto de individuos con características comunes, las cuales son objetos de interés. - Cualquier subconjunto de una población. Muestra. - Aleatoriedad. - - Característica que se asocia a todo proceso cuyo resultado no es previsible más que en razón de la intervención del azar. Falta de capacidad de predicción de un resultado. Azar. - - Es una casualidad presente, teóricamente, en diversos fenómenos que se caracterizan por causas complejas, no lineales y sobre todo que no parecen ser predecibles en todos los detalles. - Característica de los individuos de una población que es de nuestro interés. Variable. - - Característica de los individuos de una población cuyo valor exacto varia de Variable aleatoria. - un individuo a otro y que no puede predecirse para un individuo en particular. Tipos de variables: Cualitativas y cuantitativas c uantitativas Cualitativas: características Cualitativas: características que no pueden medirse. Cuantitativas: características que pueden cuantificarse. Tenemos variables cuantitativas discretas y continuas. ✓ Variables discretas: su dominio pertenece a los números naturales, es decir, que pueden ser enumeradas. ✓ Variables continuas: su dominio pertenece a los numero reales, este tipo de variables son concebidas dentro de un intervalo.
• •
- Tenemos tres definiciones validas cada una o en conjunto: Probabilidad. - Medida de la fuerza de la certeza de ocurrencia de un suceso aleatorio. el número de éxitos y el ntamaño espacio muestral. Relación Límite deentre la frecuencia relativa cuando tiende del a infinito
•
•
•
donde
lim →
: Frecuencia relativa
Estadística. - - Ciencia que se encarga de la recopilación, organización y análisis de datos, con el fin de obtener conclusiones de una población a través de información proveniente de muestras, mediante la aplicación de herramientas matemáticas de inferencia basadas en las leyes de la probabilidad. - Estado de conocimiento limitado donde, es imposible describir exactamente el Incertidumbre. - estado existente, un resultado futuro o más de un resultado posible.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Se refiere a la idea de que todos los datos tienen una gama de valores supuestos y no un valor puntual preciso. La exactitud es la cercanía de una medida al valor real, mientras que la precisión es el grado de cercanía de los valores de varias medidas en un punto.
Error proveniente de varias fuentes como las descritas al usar la metodología estadística. Variabilidad. -- Medida en que diversos valores de una variable aleatoria cambian en relación con su valor central.
ESTADÍSTICA DESCRIPTIVA Técnica de organización de datos Dato. - - Representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de una variable. Un dato no es información, para esto, debe primero procesarse.
DATO
PROCESO
INFORMACIÓN
Ejemplo En un proceso industrial se requiere el llenado de un envase de 20 gal. Se está evaluando el tiempo en que la máquina de llenado 1 completa a dicho volúmenes. Para ellos, se levantó la siguiente información:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Tiempo de llenado máquina 1, s 60,39
49,93
53,4
51,82
50,46
51,34
50,28
50,19
50,56
52,72
50,95
49,75
54,06
53,5
49,76
49,73
50,9
52,43
51,28
52,22
51,93
52,24
52,82
50,96
48,64
50,49
49,84
52,91
52,52
50,32
49,45
51,28
49,09
58,79
49,74
49,32
52,14
49,74
49,16
52,57
52,53
52,09
52,4
50,63
51,93
51,62
52,58
53,55
51,07
59,26
49,29
52,78
50,19
49,79
49,83
49,76
49,7
52,9
50,87
54,33
62,45
51,11
52,00
52,18
54,12
51,52
50,62
52,85
49,45
52,24
A simple vista no podemos concluir nada de esta tabla de datos. 1 48,64 48,64 2 49,09 49,09 3 49,16 49,16 4 49,29 49,29 5 49,32 49,32 6 49,45 49,45 7 49,45 49,45 8
49 49,7 ,7
Lo primero que haremos será ordenar los l os datos, generalmente se lo hacer en orden ascendente (de mayor a menor). Esta es la primera forma de organizar datos. Una vez que tenemos ordenados los datos podemos darnos cuenta de cuál es el valor mínimo y máximo entre los cuales varía el tiempo, y de cuáles son los valores que se repiten.
9 49,73 49,73 10 49,74 49,74 11 49,74 49,74 12 49,75 49,75 13 49,76 49,76
La población de la que proviene esta muestra son todas las mediciones de tiempo que yo puedo realizar al llenado de un recipiente de 20 gal con la maquina 1 d esta empresa.
14 49,76 49,76 15 49,79 49,79
Tamaño de muestra: 70
16 49,83 49,83 17 49,84 49,84 18 49,93 49,93 19 50,19 50,19
Esta forma sin embargo no me permite sacar mucha información de mis datos por lo tanto iremos a otra forma de representar datos.
20 50,19 50,19 21 50,28 50,28
Diagrama de puntos
22 50,32 50,32 23 50,46 50,46 24 50,49 50,49 25 50,56 50,56 26 50,62 50,62 27 50,63 50,63 28 50,87 50,87
Es un gráfico que tiene en el eje de las x la variable aleatoria, y en el eje de las y, la frecuencia (número de veces que un valor determinado de la variable v ariable se repite en el conjunto de datos). Ese grafico nos da una visualización de los datos pero que no da información cuantitativa.
29 50,9 50,9 30 50,95 50,95
La representación gráfica de una tabla ordenada es el diagrama de puntos
31 50,96 50,96 32 51,07 51,07 33 51,11 51,11 34 51,28 51,28 35 51,28 51,28 36 51,34 51,34 37 51,52 51,52 38 51,62 51,62 39 51,82 51,82 40 51,93 51,93 41 51,93 51,93 42 52,00 52,00 43 52,09 52,09 44 52,14 52,14 45 52,18 52,18 46 52,22 52,22 47 52,24 52,24 48 52,24 52,24 49 52,4 52,4 50 52,43 52,43 51 52,52 52,52 52 52,53 52,53 53 52,57 52,57 54 52,58 52,58 55 52,72 52,72 56 52,78 52,78 57 52,82 52,82 58 52,85 52,85 59 52,9 52,9
Diagrama de tallo y hojas Técnica semi grafica que se emplea para ilustrar las principales características de los datos (localización, dispersión y simetría).
60 52,91 52,91
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Un diagrama de tallo y hojas es un diagrama de dispersión de puntos que contiene información adicionas de los datos en las hojas y el tallo. El paréntesis en el diagrama señala en donde está ubicada la media y los números en esa columna nos dice las frecuencias acumuladas desde los extremos. Tabla de frecuencias En una tabla de frecuencias se realiza un conteo de la frecuencia con que una variable toma valores en determinados intervalos (clases). - son intervalos de una variable en donde se encuentran ubicados los diferentes valores Clases. - de la muestra. La representación gráfica de la tabla de frecuencia es el Histograma. Histograma Es un gráfico de barras que relaciona el valor de la variable con su frecuencia (absoluta y/o relativa) Construcción de un histograma: 1) 1) Ordenar los datos de manera ascendente. Al ordenar los datos de esta forma voy a obtener un valor matemático llamado rango de datos. 2) 2) Determinar el rango de datos. Rango. -- Es el tamaño del intervalo i ntervalo de la variable en el que se encuentran todos los datos de la muestra. R = Xmax – Xmin = 65.45 – 48.64 = 13.81
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Este valor nos indica que todos los datos están en un rango de 13.81 segundos, y nos sirve para determinar el rango del histograma. 3) 3) Determinar el rango del histograma. Se busca en que ningún dato caiga en un límite de clase, para esto, restamos media cifra significativa al límite inferior y sumar media cifra significativa al límite superior. Ls= 62,45 + 0.005 = 62.455 Li = 48.64 – 0.005 = 48.635 RH = 13.82 4) 4) Definir el número de intervalos (clases) Para este apartado tenemos dos reglas: [1] [1] [2] [2]
1√ loogg
(Regla de Sturges)
En el caso del uso de la l a regla de Sturges se redondeará al inmediato superior si sale una cifra decimal. En una tabla de frecuencia no puede haber más de 5 clases y más de 20. Para el ejemplo
1 log 70 7.13
, entonces se usarán 8 clases.
5) 5) Definir los límites de clase.
Para esto debo calcular el rango de clase:
# 13.882 1.728
Este valor del rango de clases lo sumo desde el límite l ímite inferior hasta el límite superior de mis datos, con lo cual tendré el número de clases calculada con los límites de clases de cada uno. Marca de clase. - - Es la media aritmética de cada clase, este valor representa a todos los datos que están dentro de esa clase. Frecuencia absoluta (f). -- Numero de datos u observaciones que ingresan dentro de un intervalo de clase determinado. Frecuencia relativa (w). -- es la proporción o porcentaje de observaciones que se encuentran dentro de determinada clase. Frecuencia absoluta acumulada menor que (F). -- es el número de datos que se encuentran desde el límite inferior de inferior de determinada clase.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Frecuencia relativa acumulada menor que (W). - encuentran desde el límite inferior de inferior de determinada clase. Una vez que tenemos esta tabla de frecuencias, podemos realizar un histograma. Clase
Li (abierto)
Ls (cerrado)
m
f
w
F<
W<
F>
W> 100%
I
48,635
50,363
49,499
22
31%
22
31%
70
II
50,363
52,090
51,226
21
30%
43
61%
48
69%
I II
52,090
53,818
52,954
20
29%
63
90%
27
39%
IV
53,818
55,545
54,681
3
4%
66
94%
7
10%
V
55,545
57,273
56,409
0
0%
66
94%
4
6%
VI
57,273
59,000
58,136
1
1%
67
96%
4
6%
VII
59,000
60,728
59,864
2
3%
69
99%
3
4%
VIII
60,728
62,455
61,591
1
1%
70
100%
1
1%
¿Qué ocurre si un dato cae en el límite de clase del histograma? En este caso es importante fijar la regla de asignación cuando se tenga esta particularidad. En general se asigna el límite inferior como abierto y el límite superior como cerrado, de esta manera cuando cierro el límite superior, por ejemplo, de la clase 2, estoy incluyendo el valor 52.09 y lo excluyo de la clase 3 donde el límite inferior es abierto, por lo tanto, no se incluiría este dato en la clase 3. Se puede definir los limites arbitrariamente arbitrari amente y a nuestra conveniencia. Este grafico es parecido al diagrama de puntos, pero en lugar de graficar todos los puntos, grafico barras cuyo ancho es igual al intervalo de clase, y cuyo alto es igual a la frecuencia de cada clase.
MEDIDAS DE LOCALIZACIÓN O TENDENCIA CENTRAL Estadístico muestral. – Cualquier valor que se calcula usando la información de una muestra. Existen tantos estadísticos muestrales como muestras puedo tomar de una población.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Parámetro poblacional. – Cualquier valor que se calcula usando la información de toda la población. El parámetro poblacional es uno solo. Los parámetros poblacionales son muy difíciles o imposibles de calcularlos.
M.T.C
Estadístico muestral Parámetro poblacional
Media Mediana Moda
Mem Mom
Mep Mop
Medidas de tendencia central. - Es un valor que representa el punto central de los datos con los que disponemos. Media. - es el valor que esta al centro de los datos (centro físico). Se la conoce como media Media. aritmética o promedio. Para el cálculo de estas medidas se deben considerar dos escenarios a tener:
Tabla de datos: datos: Se calculan valores exactos (valores verdaderos).
Tabla de frecuencias: frecuencias: Se calculan valores aproximados.
̅
̅ ∗ ̅̅ ∗
x: x: valor valor de la variable o dato. n: n: número número de datos totales.
̅ 51,79
f: frecuencia f: frecuencia absoluta m: m: marca marca de clase n: n: número número de datos totales w: w: frecuencia frecuencia relativa
̅ 51,82
El valor que se obtiene usando la información de la tabla de frecuencias es aproximado. Este método solo debe usarse cuando no se disponga de todos los valores o datos.
Mediana. -- Centro geométrico de los datos, es el dato que se encuentra en el centro de todos los datos. Tabla de datos datos Si n es par
+ 2.
Tabla de frecuencias frecuencias
Si n es impar
2 −− ∗ .
+ +
LI: límite inferior de la clase mediana n: n: Numero Numero de datos
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
X: Valor de la variable
51,31
X: Valor de la F(i-1): frecuencia acumulada menor que variable hasta la clase anterior a la mediana f i: frecuencia absoluta de la clase mediana A: amplitud A: amplitud de clase
51,43 La mediana es muy utilizada para realizar pruebas no paramétricas. Moda. - - Es el valor que más se repite en una tabla o conjunto. Tabla de datos: Valor datos: Valor de x con mayor frecuencia.
Tabla de frecuencias frecuencias
−− ∗ − + + 49,45;49,74;49,76;50,19;51,28;52,24 2 −
LI: límite inferior de la clase modal modal f m: frecuencia de la clase modal f m-1 m-1: frecuencia de la clase anterior a la modal f m+1 m+1: frecuencia de la clase posterior a la modal A: A: amplitud o rango del intervalo de clase.
50,29
Se habla de moda cuando existe repetición, si no existe ese parámetro entonces no existe moda. - Se utiliza en casos especiales, cuando los datos son asimétricos. Media geométrica. -
1 ln ̅ ln =
Su aplicación se da en la valoración de porcentajes y frecuencias relativas (finanzas) Los datos debes ser necesariamente positivos. Media armónica. - - Se utiliza para ciertos procesos físicos en donde las propiedades son aditivas a sus inversos (tasas de cambio): velocidades, rendimientos, tiempos, resistencia, coeficientes de transferencia de energía, etc.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
1 1 1 =
MEDIDAS DE POSICIÓN Estadísticos que nos indican la posición de un determinado valor de la variable dentro de un determinado grupo de datos. Cuantiles. - - Es el valor de la variable bajo el cual hay un porcentaje de numero de datos. - Son tres valores de la variable que dividen en cuatro al grupo de datos. Cuartiles. - Tabla de datos
Tabla de frecuencias frecuencias
Ordenamos los datos de menor a mayor.
∗
Q: cuartil buscado k: número de cuartil buscado n: número de datos Si
∗
es:
Entero: Busco el valor de la variable de la Entero: Busco posición resultante y la sumo con el valor de la variable de la siguiente posición. Decimal: Redondeo el valor al inmediato Decimal: superior y tomo el valor de la variable de esa posición
4∗ 17,5 18 49,93
∗ −− 4 . ∗
LI: Límite inferior clase cuartílica k: número de cuartil buscado F(i-1): frecuencia absoluta acumulada anterior a la clase cuartílica f i: frecuencia absoluta de la clase cuartílica A: amplitud A: amplitud o rango del intervalo de clase
50,01
Deciles. - Valores - Valores de la variable que dividen en diez al grupo de datos. Tabla de datos
Ordenamos los datos de menor a mayor.
Tabla de frecuencias frecuencias
10 ∗ −− ∗ .
LI: Límite inferior clase decílica
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
∗ 52,42
Se aplica el mismo proceso de cuartiles.
K: número de cuartil buscado F(i-1): frecuencia absoluta acumulada anterior a la clase decílica f i: frecuencia absoluta de la clase decílica A: amplitud A: amplitud o rango del intervalo de clase
52,61
Valores de la variable que dividen en cien al grupo de datos. Percentiles. -- Valores Tabla de datos
Tabla de frecuencias frecuencias
Ordenamos los datos de menor a mayor.
∗ 50,46
Se aplica el mismo proceso de cuartiles.
∗ −− 100 . ∗
LI: Límite inferior clase percentílica K: número de cuartil buscado F(i-1): frecuencia absoluta acumulada anterior a la clase percentílica f i: frecuencia absoluta de la clase percentílica A: amplitud A: amplitud o rango del intervalo de clase
50,40
MEDIDAS DE DISPERSIÓN Estas medidas indican que tan alejados están los datos de un valor central. - Intervalo en el que están distribuidos los datos de una muestra o población. Rango. -
á í 13,81 ∑||−−|| 1,70
Desviación media. - Promedio de las distancias entre cada valor y la media.
∑||− ̅|
(Población)
(Muestra)
Varianza. - Es la medida cuantitativa de la variabilidad. Se le llama también segundo momento estadístico. estadístico.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
∑−− ̅ ∑− ̅ ∑−− 6,422 ̅ ∑ 1 ̅ ∑ 1 1
(Muestra); ν: grado de libertad (Población)
Desviación estándar. – Cuadrado medio de las desviaciones.
Error estándar. – Corresponde a la medición de la precisión con la que el promedio se aproxima al resultado obtenido si se hubiera realizado el experimento a todos los individuos de la población bajo las mismas condiciones.
√
Coeficiente de variación. – Corresponde al número de veces que se desvía la variable aleatoria por unidad de media.
̅ 0,0489 4,89 % 12 ∗ 1,32 4,23 (Muestra)
(Población)
- medida de dispersión que cuantifica o calcula la mitad de Rango semi intercuartílico. - tamaño de la diferencia entre los cuartiles 1 y 3. es el rango donde se encuentran el 50% central de los datos. El uso del rango semi intercuartílico es equivalente a la desviación estándar en pruebas no paramétricas.
Rango percentil 10-90.10-90.- Es Es el rango donde se encuentra el 80% central de los datos
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
DIAGRAMA DE CAJA Y BIGOTES Herramienta que se utiliza para interpretar la forma de los datos.
Límite inferior: Q inferior: Q 1 - 1,5 (Q 3 - Q 1) Límite superior: Q superior: Q 3 + 1,5 (Q 3 - Q 1) *: Dato atípico
MEDIDAS DE SIMETRÍA La simetría se entiende cuando establezco un eje simétrico, en estadística analizo como se distribuyen los datos con relación a este centro.
Estadística cuantitativa para determinar sesgo Coeficiente de Pearson. - - Varia entre (+3; -3)
3̅ 0,0,57
Mientras más se acerque al +3 el sesgo es más positivo, si la distribución es simétrica el valor será dedecir 0. Mientras más acerque al -3moderado. el sesgo es más negativo. El coeficiente calculado se puede que tiene un se sesgo positivo
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal +1; -1) Coeficiente cuartilico o Yule-Bowley. - Varia entre ((+1;
2∗ 0.0.05 ̅ ∑ = 1 1 2 2,68
En este caso el valor nos indica un ligero sesgo negativo muy poco pronunciado Coeficiente de Fisher o tercer momento estadístico
Este valor positivo calculado nos indica que tenemos un sesgo positivo, es decir, los datos están acumulados a la izquierda. Coeficiente estandarizado de simetría. -- Varía entre (+infinito; -infinito), si está dentro del rango (+2; -2), se puede decir que se parece a una distribución normal, si sale de este rango no podemos decir que los datos parecen a datos normales. Es el mejor coeficiente de sesgo para la interpretación
6 9,14
Con el valor calculado no puedo decir que los datos parecen normales.
MEDIDAS DE APUNTAMIENTO O CURTOSIS Se refieren a analizar qué tan alta es la frecuencia en un grupo de datos y que tantas clases tienen frecuencias altas o bajas.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Estadística cuantitativa para determinar curtosis Medida de Fisher de curtosis
1 ∑= ̅ 3 1 1 2 33 2 3 2 0,31
Medida basada en cuartiles y percentiles. - Se utiliza el referente (0,263). Si el valor k es igual a este, la distribución es mesocúrtica, si sale menor a este, la distribución el platicurtica. platicurtica.
K = 0,263 (Mesocúrtica) k 0,263 (Leptocúrtica)
Coeficiente estandarizado de curtosis. - Varía entre (+infinito; -infinito). Si está dentro del rango (+2; -2), se puede decir que se parece a una curtosis aproximadamente normal, si sale de este rango no podemos decir que los datos parecen a datos normales.
10, 22448
Csc = 0 (Mesocúrtica) Csc 0 (Leptocúrtica)
El valor calculado quiere decir que la distribución es leptocúrtica y que los datos no son normales.
PROBABILIDAD 1. Medida de la certeza de la ocurrencia de un suceso aleatorio, esta se encuentra entre 0 1. y 1. 2. Relación entre el número de éxitos y el número total de resultados posibles de un suceso 2. aleatorio. 3. Límite de la frecuencia relativa cuando el número de ensayos (muestra) tiende a infinito. 3.
l→im
La frecuencia relativa es el estadístico muestral del parámetro poblacional llamado probabilidad. Sucesos aleatorios. - Cualquier evento del cual conocemos todos sus resultados posibles, pero no el resultado de uno en particular. Suceso seguro. – Es aquel cuya probabilidad es igual a 1. Suceso no seguro. – Es aquel cuya probabilidad es igual a 0. Sucesos mutuamente excluyentes. excluyentes. – La probabilidad de un suceso, anula por completo la posibilidad de ocurrencia de los l os demás resultados. resultados.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal excluyentes. – – Se da cuando analizamos dos propiedades o más, m ás, en el Sucesos no mutuamente excluyentes. mismo suceso aleatorio. Sucesos complementarios. – Todos los resultados posibles, suman la totalidad del espacio muestral (1). Cubren todo el espacio muestral. Sucesos condicionales. – El resultado de un suceso posterior, depende del resultado de un suceso previo La probabilidad de un segundo suceso aleatorio depende del resultado del primero. La palabra clave para ese suceso es: “dado que”.
RELACIONES DE EVENTO Y AXIOMAS DE PROBABILIDAD Hay veces en que el evento de interés se puede formar como una combinación de algunos otros eventos. Sean A y B dos eventos definidos en el espacio muestral S. Aquí hay tres relaciones importantes entre eventos.
∪
La unión unión de de los eventos A y B, denotada por
La intersección intersección de de eventos A y B, denotada por
, es el evento en que ocurren A o B o ambos.
∩
, es el evento en que ocurren A y B.
El complemento complemento de de un evento A, denotado por A C, es el evento en que A no ocurre.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Axioma La probabilidad de un evento A no puede ser negativa La probabilidad del evento seguro S, es igual a 1
Relación
0 1 ∪ ∩
Dados dos eventos, A y B, la probabilidad de su unión cuando no son mutuamente excluyentes excl uyentes
∪ Dados dos eventos, A y B, la probabilidad de su unión cuando son mutuamente excluyentes
Corolarios de la probabilidad La probabilidad del evento imposible es igual a 0.
∅ 0
Toda probabilidad se encuentra en un intervalo comprendido entre 0 y 1.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
0 1 11 11 ∩ ∗ ∩ ∗ / /
La probabilidad del complemento de A es igual a 1 menos la probabilidad de A. Si B es subconjunto de A, la probabilidad de B es menor que la probabilidad de A. Si los sucesos son independientes entonces:
Si los sucesos son dependientes entonces:
Ejercicios de probabilidad Se lanzan dos monedas al aire. ¿Qué probabilidad hay de que ambas sean caras? C: cara; S: sello
22 ∗ ∩∩ ∗ 12 ∗ 12 ∗ 14 0.25
El tamaño del espacio muestral es de cuatro (CC, CS, SC, SS). Una moneda está cargada, de tal manera que se sabe que la probabilidad de que salga cara es de 0.4. Si se lanza la moneda tres veces, ¿Qué probabilidad hay de que haya exactamente dos figuras iguales? Población: todos los lanzamientos de esta moneda cargada. Muestra: 3 Variable aleatoria: el número de veces en que saco dos figuras exactamente iguales cuando lanzo tres veces una moneda cargada.
2 2 ∪ 22 22 22 2 0.4∗0. 4∗0. 6 ∩ ∩ ∩ ∩ ∩ ∩ 0.4∗0.6∗0.4 0.6∗0.4∗0.4 0.288 2 0.6 ∩ ∩ ∩ ∩ ∩ ∩ ∗0.6∗0.4 0.6∗0.4∗0.6 0.4∗0.6∗0.6 0.432 2 0.72
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Para un experimento con reposición la población es infinita, las probabilidades son constantes y los sucesos no son condicionales. Para un experimento sin reposición la población es finita, las probabilidades cambian y los sucesos son condicionales o dependientes.
Se tiene una caja con doce esferas: cinco blancas, cuatro negras, y tres rojas. Si se extraen tres al azar, determinar las siguientes s iguientes probabilidades: Que las tres sean blancas •
33 ∩ ∩ ∗ ∗ 33 12 5 ∗ 12 5 ∗ 12 5 0.072
Con reposición
Sin reposición
33 12 5 ∗ 11 4 ∗ 10 3 0.072
Que las tres sean rojas
•
33 ∩ ∩ ∗ ∗
Con reposición
33 121 32 ∗ 121 32 ∗ 121 32 0.0156 Sin reposición
33 12 3 ∗ 11 2 ∗ 10 1 0.0045
Que dos sean rojas
•
22 ∪ ∪
Con reposición
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
∩ ∩ ∗ ∗ 123 ∗ 123 ∗ 129 0.0469 ∩ ∩ ∗ ∗ 123 ∗ 129 ∗ 123 0.0469 ∩∩ ∩∩ 22 ∗ 0.1∗41 12∗ 192 ∗ 12∗ 132 ∗ 12 132 0.0469
Sin reposición
∩ ∩ ∗ ∗ 123 ∗ 112 ∗ 109 0.0409 ∩ ∩ ∗ ∗ 123 ∗ 119 ∗ 102 0.0469 9 3 32 ∩∩ ∩∩ 22 ∗ 0.1∗23 1212∗∗ 1111∗∗ 1010 0.0469 ≥ 11 1 ∪ 2 ∪ 33 11 < 11 11 00
Que al menos una sea negra
•
Con reposición
0 128 ∗ 128 ∗ 128 0.296
≥ 11 11 0.296296 0.704704 0 128 ∗ 117 ∗ 106 0.255 ≥ 11 11 0.255255 0.745745 Con reposición
Que no más de dos sean blancas
•
22 0 ∪ 1 ∪ 2 00 11 2
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Con reposición
00 ∩ ∩ ∗ ∗ 127 ∗ 127 ∗ 127 0.1985
11 ∪11 121 5∪2 ∗ 1217 0.0.4 252533 2 ∗ 12172 ∗3 22 ∪ ∪ 11 12 5 ∗ 125 ∗ 127 ∗ 3 0.0.3030388 22 00 11 22 0.9276 00 ∩ ∩ ∗ ∗ 127 ∗ 116 ∗ 105 0.1591 11 ∪11 ∗ 106 ∗3 12 5∪ ∗ 117 0.0.4 777733 22 ∪ ∪ 11 12 5 ∗ 114 ∗ 107 ∗ 3 0.0.3181822 22 00 11 22 0.9546 2 2
Sin reposición
Que dos sean del mismo color
•
2 ∪22∪ ∪ 22 ∪∪∪ 22 22 22 22 2222 2 22 ∪ ∪ 22 12 3 ∗ 123 ∗ 129 ∗ 3 0.0.1404066 22 12 4 ∗ 124 ∗ 128 ∗ 3 0.0.2222222 5 5 7 22 1212∗2 2 ∗ 1212∗ ∗ 12120.4641∗ 3 0.0.1010133
Con reposición
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Sin reposición
22 12 3 ∗ 112 ∗ 109 ∗ 3 0.0.1222277
22 1542 ∗∗ 1111∗ 1431 ∗∗ 10101780 ∗∗ 33 0.00.0..32181811818212 22 12 12∗ 2 2 0.659 ∪ ∪ ∪ ∪ ∪
Que haya una de cada color
• •
Con reposición
5 4 3 1212∗∗ 1212∗ ∗0.12122083∗ 6 0.0.2080833 12 5 ∗ 114 ∗ 103 ∗ 6 0.0.2727277 0.2727
Sin reposición
DISTRIBUCIONES DE PROBABILIDAD
Igualdad. - Se establece en cuanto a la definición de una variable. variable. Identidad. - Características propias que complementan una variable. Ejercicio En un grupo de cinco vehículos de la misma marca y modelo, se conoce que tres de ellos tienen un recorrido mayor a 100 000 km. Si se eligen dos de ellos al azar, determinar la probabilidad de que la muestra no tenga ningún vehículo con un recorrido mayor a 100 000 km. Población: todos Población: todos los grupos de cinco vehículos de la misma marca y modelo. Variable aleatoria: el aleatoria: el número de vehículos con más de 100 mil km en una muestra de tamaño 2 El problema se debe abordar sin reposición.
0 > 100000 100000 0.1 1 > 100000 100000 0.6 2 > 100000 100000 0.3
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal A la variable aleatoria la vamos a analizar en la muestra, de esta manera, es una característica que varía de individuo a individuo en la población, pero cuando tomamos una muestra es una característica que varía de muestra en muestra. En este caso, el espacio muestral es de 0, 1 o 2 vehículos con más de 1000000 km de recorrido, en este sentido le damos un numero a la decir variable y empieza a tener ounconjunto significado matemático. Entonces también podemos quealeatoria la variable variable es un numero de números que representa a todos los resultados posibles del espacio muestral. X
f (x)
0
0,1
1
0,6
2
0,3
X: variable X: variable aleatoria f(x): probabilidad f(x): probabilidad del valor correspondiente a la variable aleatoria Función de distribución de probabilidad. – Función matemática que asocia un número, que representa a la variable aleatoria, con el valor de la probabilidad de todos los elementos del espacio muestral.
PROBABILIDAD FUNCIONES DISCRETAS DE PROBABILIDAD También son conocidas como funciones de masa, describe la probabilidad de que la variable aleatoria discreta tome un valor exacto. Ejemplo Para cuatro lanzamientos consecutivos de una moneda normal. Definir población y variable aleatoria Población: todos Población: todos los lanzamientos posibles de la moneda. Variable aleatoria: número aleatoria: número de caras que salen en cuatro lanzamientos consecutivos de una moneda normal. Para el experimento, determinar el tamaño del espacio muestral.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Numero de resultados posibles: 16 (si importa el orden) Desarrollar la distribución de masa probabilidad de probabilidad X
f(x)
0
0,0625
1
0,25
2
0,375
3
0,25
4
0,0625
Propiedades de la función de masa de probabilidad 1. 1.
La probabilidad de que la variable aleatoria tome un valor exactamente igual a uno de los valores posibles es función de ese valor.
X: X: variable variable aleatoria
x: x: variables variables posibles de la variable aleatoria
11 0,25
Ejemplo: la probabilidad de que el número de caras en cuatro lanzamientos consecutivos de una moneda sea igual a 1, es función matemática de 1 y es igual a 0.25. 2. 2.
3. 3.
La probabilidad es un número no negativo, entonces las funciones de probabilidad son no negativas.
≥ 0
La suma de todas las probabilidades de sucesos complementarios es igual a 1, entonces la suma de f(x) será uno.
1
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Desarrollar la distribución acumulada de masa probabilidad de probabilidad
4. 4.
X
f(x)
F(x) = (X 5 ; > 5 ≈ ; ≈
Corrección de Yates (corrección de continuidad). - se sumará o restará respectivamente 0.5 a la variable aleatoria cuando se transforme una variable discreta a una variable continua. Se puede utilizar la distribución normal en lugar de Poisson cuando la media sea mayor o igual i gual a 5, tal que:
≥ 5 √
COMBINACIONES LINEALES DE VARIABLE ALEATORIAS Si X1, X2, …, Xn son variables aleatorias independientes con los siguientes parámetros:
Independencia de variables aleatorias: cuando la función de distribución de probabilidad de la una no tiene influencia en la función de distribución de probabilidad de la otra.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
⋯
La media poblacional de una combinación lineal es la combinación lineal de las medias poblacionales.
⋯
La varianza poblacional de una combinación lineal es la suma del cuadrado de las constantes por las varianzas.
Ejemplo
⋯
Una empresa fabrica tres marcas diferentes de desinfectante A, B y C; las que se venden a 2,1; 2,8 y 3,2 (USD/ gal) respectivamente. Si para cada uno de ellos se conoce que la cantidad vendida (gal/mes) es independiente de las otras, y se distribuyen de la siguiente manera:
Determinar la media y la varianza de ventas mensuales por concepto c oncepto de los tres desinfectantes.
2.2.1 2.8 3.2 2.2.1 ∗ 2.8 ∗ 3.2 ∗ 2.2.1 ∗ 100 0 4460 2.8 ∗[ 500] 3.2 ∗ 300 2.1 2.8 3.2 2.1100 2.8 80 3.2 50 119876 346.23
La cantidad de ingresos que esta empresa percibe por concepto de venta de estos tres desinfectantes al mes es una variable aleatoria con media 4460 y desviación estándar 346. Un caso muy estudiado en la diferencia de dos variables cuando, las constantes tienen un valor de 1 de manera que:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Propiedad reproductiva de la distribución normal
Si X1, X2, ..., Xn son variables aleatorias independientes normales, entonces Y también es normal. SI se sabe que A, B, C tienen cada una distribución normal, cual es la probabilidad de que las ventas por estos tres desinfectantes se encuentren entre 4200 y 4500 dólares.
4200 < < 4500 4500 0.32
El 30 % de los meses nuestras ventas estarán entre 4200 y 4500 dólares por concepto de estos tres desinfectantes.
MUESTREO El muestreo consiste en la selección de muestras de una población. Existen muchos ttipos ipos como:
•
•
•
•
Muestreo aleatorio simple. Muestreo por estratos (subpoblaciones). Muestreo por conglomerados (unidad formada por unidades). Muestreo de 1 en k.
Muestreo aleatorio simple. Una muestra es aleatoria cuando todos los elementos de la muestra tienen la misma probabilidad de ser elegidos. Una muestra es aleatoria si: ✓
Cada uno de los elementos que componen una muestra es independiente i ndependiente con respecto a los otros. ✓ Cada uno de los elementos de la muestra tiene la misma probabilidad de ser elegido (IID), independiente e idénticamente distribuido (la distribución de cada uno de los elementos de la muestra es la misma o la probabilidad es constante para la elección de los ítems). ✓ Debe tener un tamaño adecuado. La aleatoriedad de la muestra valida los procedimientos estadísticos de inferencia que se van a utilizar. Dependencia: cambio Dependencia: cambio del valor de la probabilidad en función del orden de muestreo.
DISTRIBUCIONES MUESTRALES DE PROBABILIDAD La distribución muestral de un estadístico es la distribución de probabilidad para los posibles valores del estadístico, que resulta cuando muestras aleatorias de tamaño n se sacan aleatoriamente de la población.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Cuando el tamaño de la muestra que yo aplico sobre una distribución es igual a 1 estoy trabajando con la distribución poblacional, cuando la muestra es de cualquier otro tamaño, es una distribución muestral.
DISTRIBUCION MUESTRAL DE LA MEDIA Si se toma una muestra aleatoria de tamaño n de una población con media μ y σ2, cada uno de los elementos será una variable aleatoria, entonces:
1 ⋯ 1 ⋯ , , ,…, X 1 ⋯ X
La media de la distribución muestral de es igual a la media de la distribución poblacional.
La varianza de la distribución muestral de es igual a la varianza de la distribución poblacional dividida para el tamaño de la muestra.
TEOREMA DEL LIMITE CENTRAL Este teorema señala que la forma de la distribución muestral de la media es independiente de la forma de la población de donde provenga si n es suficientemente grande, y su forma es normal. Puntuación Z, forma general
Donde V.A.: variable aleatoria
. ....
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Si Si
n ≥ 30 n < 30
X
, la distribución de es aproximadamente normal sin importar la firma de la población.
:
XX
la distribución de es normal si la población tiene distribución normal. la distribución de no es normal si la población no lo es (o no se conoce distribución poblacional).
•
•
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Ejemplo Una empresa de material eléctrico fabrica luces LED que tienen una duración que se distribuye, con media de 8000 horas y desviación estándar de 400 horas. Calcule la probabilidad de que una muestra aleatoria de 16 luces tenga una vida promedio de menos de 7750 horas. R: No se puede calcular debido a que la muestra es menor a treinta y no conozco la distribución de la población. Realizar la estimación, si se conoce que la duración se distribuye de forma normal.
.... . ̅< 7750 7750 ̅ 0.//√ 0√ 062
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal 6 de cada 1000 muestras de tamaño 16 tendrán una vida promedio aproximado de 7750 horas. Ejercicio La cantidad de una impureza particular en un lote de cierto producto químico es una variable aleatoria con valor medio de 4.0 y desviación estándar de 1.5 g. Si se preparan 50 lotes en forma independiente. ¿cuál es la probabilidad (aproximada)de que la cantidad promedio muestral de la impureza sea de 3.5 a 3.8 g?
̅ / √ 3.5 < ̅ < 3.8 0.164
Aproximadamente el 16% de las muestras de un tamaño de 50 lotes tendrán un promedio de impurezas de 3.5 a 3.8 gramos. ¿Cuál es la probabilidad de que la cantidad total de impurezas presentes en este lote sea menor a 190 g?
.... . √ < 190 190 0.173
Aproximadamente el 17% de las muestras de un tamaño de 50 lotes tendrán una cantidad total de impurezas menor a 190 g. Ejercicio El número de imperfecciones de un alambre de cobre se distribuye de la siguiente forma:
Se toma una muestra de 100 alambres de esta población. ¿Cuál es la probabilidad de que el número promedio de imperfecciones por alambre en esta muestra sea menor a 0,5?
0.66
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
0.78 / √ 2.05 ̅ < 0.5 0.02
¿Cuál es la probabilidad de que el total de imperfecciones en una muestra de 20 alambres se encuentre entre 12 y 14? R: La muestra es demasiado pequeña por lo que no se puede calcular. ¿Cuál es la probabilidad de que el total de imperfecciones en una muestra de 50 alambres se encuentre entre 12 y 14?
√ 3.44;3.81 12 < < 1414 0.000221
ESTIMACIÓN ESTADISTICA Estimador puntual La estimación puntual establece la edificación de un valor numérico que reemplace al valor del parámetro poblacional. Los mejores estimadores son los no sesgados o insesgados, y son los correspondientes estadísticos muestrales.
El problema de los estimadores puntuales es que no se sabe cuan probable o no es una muestra. Es imposible conocer la ubicación de procedencia del estadístico en la distribución muestral de la que proviene. Otros métodos: Método de los momentos estadísticos Método de los estimadores de máxima verosimilitud.
•
•
ESTIMACIÓN POR INTERVALOS INTERVALOS PARA MEDIAS Ejemplo
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Un ingeniero que supervisa el control de calidad quiere estimar la media del peso de cajas que se han llenado con cereal por una maquina especifica durante cierto día. Toma una muestra aleatoria de 100 cajas que se han llenado con esa máquina en ese día. Calcula que la media muestral del peso de llenado es de
. ~~ ~; ; 100
± . ∗ ± 1.96 ∗ √ 100100 12.03012.069
Por conocimiento previo, se sabe que la desviación estándar del proceso es 0.1 oz.
La media verdadera esta en este intervalo con una confianza del 95%.
± ∗ ± ∗ √
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Esta es la fórmula para determinar un intervalo de confianza para la media en una muestra grande con sigma conocida.
Como reportar el resultado
. 12. 1.0596 0.1 12.03012.069
Para reportar un intervalo de confianza este debe incluir:
•
•
•
•
Intervalo Nivel de confianza Error estándar Tamaño de la muestra
El error estándar es la desviación estándar de la distribución muestral del parámetro ( otras palabras, es la desviación de la distribución muestral del estadístico de interés.
. En
Reporte: el peso medio verdadero de las cajas de cereal que se llenan en la maquina tal en un día determinado se encuentra entre 12.030 y 12.069 oz con un nivel de confianza del 95% y un error estándar de 0.01 oz calculado con una muestra de 100 cajas.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal La precisión en estadística está dada por un rango de datos o por el ancho del intervalo, mientras más ancho es un intervalo, menos preciso es. Si quiero que mi intervalo sea más preciso, pierdo confianza. Si tengo un de confianza del 95% decir que 95 de cada 100 intervalos que yo construya vannivel a contener a la media y 5 noquiere lo harán.
¿Cuántas cajas se probarán para obtener un intervalo de confianza de 99% de ancho de 0.012 oz?
ℎ ∗ √ 0.0212 2.58∗ 0.√ 01 1841.8 1842
¿Cuántas cajas se probarán para que el error estándar se reduzca a la mitad? √ √
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
. .√ . Caso II: cuando no se conoce sigma
400
Si la muestra sigue siendo grande y no conozco sigma, se reemplaza sigma con s con el siguiente criterio:
± ∗ √ > 40
Ejercicio
El voltaje de ruptura de corriente alterna (CA) de un líquido aislante indica su resistencia dieléctrica. En un artículo, se dio las observaciones adjuntas de voltaje de ruptura (Kv) de un circuito particular en ciertas condiciones.
Parámetro: media Muestra: Mayor que 30 Entonces: aplica teorema del límite central, uso Z. Conozco sigma: no s en lugar de sigma: si, n mayor a 40
•
•
•
• •
̅ 54.72 4.52 ± ∗ √ 1.96 4.52 0.66 54.53.72 ±4√ 156. 44616.96 ∗003.6666
a) a) Establecer un intervalo de confianza al 95%.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Reporte: El voltaje medio real de ruptura de un líquido dieléctrico de este estudio se encuentra en el intervalo de 53.41 a 56.03 a un nivel de confianza del 95 % y un error estándar estándar de 0.66 kv realizado con una muestra de 46 mediciones. b) b) ¿Qué tamaño deberá tener la muestra para que el intervalo tenga un ancho de 1 kv?
∗ √ ∗ 2 1 313.94 314
Si no se sabe la desviación estándar porque no se puede tomar una muestra, una manera de estimar esta es dividir para 4 el rango de datos:
4
INTERVALOS PARA PROPORCIONES Ejemplo Las concentraciones de contaminantes atmosféricos, como monóxido de carbono (CO), se pueden medir con un espectrómetro. es pectrómetro. En una prueba de calibración, se hicieron 50 mediciones de CO de 70 partes por millón (ppm). Se considera que una medición es satisfactoria si está dentro de 5 ppm de la concentración verdadera. De las 50 mediciones, 37 fueron satisfactorias.
~, ~, 1 ̂ 1 ̂~; ̂~ ; 1 ....
Si la muestra es grande:
Para estandarizar:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
̂ ̂1
Intervalo de confianza:
̂ ±± ∗ ̂ ±± ∗ 1
Método clásico: cuando la muestra tiene al menos 10 éxitos y 10 fracasos. ̂ ̂ ̂ ±± ∗ 1 Calcular un intervalo del 95 % para la proporción real de mediciones en este espectrofotómetro que cumplen con el requisito.
̂ 3507 0.74 1.96 ̂1̂ 0.620. 80.6062 62%86%
Con un nivel de confianza del 95% se puede decir que la proporción real de la concentración de CO se encuentra en un intervalo 62 a 86 % con un error del 6.2 % Método de Agresti-Coull:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
̃ 4 54 ̃ ̃2 2 3549 0.722
. 0. 6̂ 1 00. ̂ 840.061
Cuando la muestra es muy pequeña la distribución muestral de la proporción es la distribución binomial, sin embargo, no se estudia porque la muestra para la proporción es siempre grande. ¿Cuántas mediciones se debe tomar para especificar la proporción de mediciones satisfactorias dentro de un margen de error del 5% con una confianza de 95%? Se conoce por matemática que cuando yo calculo un intervalo con intervalo posible. (sin muestra)
̂ 0.5
tengo el mayor
.−. .−. (con muestra) 0.055;; 0.05;5; 100 INTERVALOS PARA MEDIAS EN MUESTRAS PEQUEÑAS
80
DITRIBUCION T DE STUDENT Por el teorema del límite central sabemos que cuando la muestra es grande es estadístico tiene una distribución normal, y también cuando la muestra es pequeña, pero se sabe que proviene de una distribución normal. Pero si la población no es normal o no se sabe la distribución de la población, distribución normal, además y s ya no son parecidos.
no tiene
Sin embargo, si yo sé que la población es normal o aproximadamente normal, tengo 2 opciones: Si conozco sigma, sigo usando la distribución normal como la distribución muestral (Z)
•
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Si no conozco sigma, el estadístico cambia de nombre y se conoce como distribución T de Student con un grado de libertad:
•
1 √
Función de distribución de probabilidad T de Student
Para un grado de libertad igual a 29 la distribución T de Student y la distribución Z son prácticamente son iguales, que es de donde viene la definición de cuando una muestra es muy grande o pequeña. La distribución T fue desarrollada por Sealy Gossett en 1908 en la cervecería Guinness, en Dublin, Irlanda. Las propiedades de la distribución T de Student son idénticas a las de la distribución normal Z estandarizada. Ejercicio Calcule k tal que P(k0.05; usualmente no se rechaza Ho. ➢ Si el valor-p se encuentra entre 0.05 y 0.1: el resultado no es concluyente. Repita el experimento. ➢ Si el valor-p > 0.1: no rechazar Ho. Ejercicio
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Se realiza un estudio para determinar si el chocolate semidulce se disuelve más rápidamente que el de leche. Ocho personas disolvieron una pieza de chocolate semidulce, mientras que siete disolvieron una pieza de chocolate de leche. Los tiempos de disolución, en segundos, fueron: Semidulce: 30 55 50 22 46 45 30 44 De leche: 45 58 23 64 105 93 28 ¿Puede concluir que la media de los tiempos de disolución del chocolate de leche es diferente a la del chocolate semidulce?
(( )) ≠ 00
1. 1. Diferencia de medias 2. 2. Ho: Ha: 3. 3. Muestras pequeñas
Pruebas de normalidad: se comprobó la normalidad de los datos mediante los coeficientes de sesgo y curtosis estandarizado, además del diagrama de caja y bigotes. Entonces se trabaja con muestras pequeñas que provienen de una distribución normal, que no se conoce sigma. La distribución en este caso es una distribución T Student 4. 4.
_^2/_ _^2/_ _^2/_ 1.755
5. 5. Valor-p=2*P (t >1.55) =2*0.083=0.166
Con un valor- p de 0.166 no existe evidencia suficiente para rechazar Ho a ningún nivel de significancia. No puedo afirmar que los tiempos sean diferentes. ¿Puede concluir que el chocolate de leche tarde t arde 5 s más en diluirse que el semidulce? Ho: Ha: Ejercicio
( ) 5 ( ) ≠ 5
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Se comparan dos tipos de instrumentos para medir la cantidad de dióxido de azufre en la atmosfera en un experimento sobre la contaminación del aire. Los investigadores desean determinar dos tipos de instrumentos proporcionan mediciones con la misma variabilidad. si Se los registran las siguientes lecturas para los dos instrumentos: Instrumento A Instrumento B 0.86 0.87 0.82 0.74 0.75 0.63 0.61 0.55 0.89 0.76 0.64 0.7 0.81 0.69 0.68 0.57 0.65 0.53 1. 1. Relación de varianzas 2.
Ho: σ /σ ≠ 1
3. 3. Fisher Snedecor, si las dos muestras provienen de una distribución normal Las pruebas de normalidad indican que se pueden considerar normales a los datos.
/ ∗ / ∗ 1 1.153
Valor-p=2*P(f>1.153) =0.846 Con un valor-p de 0.846 el resultado no tiene significancia estadística a ningún nivel. Se concluye que no tengo evidencia para decir que la variabilidad de las mediciones de dióxido de azufre para los dos instrumentos es diferente. ¿Qué evidencia se tiene que la variabilidad del instrumento a es menor que la del instrumento b?
σ Ho: σ < 1 Ho:Ho:σσ > 1
ERRORES EN ESTADÍSTICA
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Respecto a la población yo puedo hacer una afirmación que es verdadera, y una que es falsa, pero no podemos confrontar esa hipótesis con toda la información de la población, sino que debemos hacerlo con la información de una muestra, y la muestra independientemente de lo que pase en la población, nos va a decir que rechacemos o no la hipótesis nula. Ho verdadero, Decisión correcta: si correcta: si la hipótesis nula es verdadera, yo quiero que la muestra me diga que no rechacemos Ho. Ho falsa, Decisión correcta: si la hipótesis nula es falsa, yo quiero que la muestra me diga que rechace Ho. Error tipo I o falso positivo: si positivo: si Ho es verdadera y la rechazo. La probabilidad de cometer un error tipo I es igual al nivel de significancia que establezco para esa prueba. Error tipo II o falso negativo: negativo: si Ho es falsa y yo no la rechazo. La probabilidad de cometer un error tipo I es igual a beta, la potencia es el complemento de esta zona. Ejemplo Se desea realizar una prueba de hipótesis para una media. Se desea probar Ho=120 contra Ha>120. Si se conoce que σ=80 y se elige un nivel de significancia α=5%, determinar la potencia de la prueba para una muestra de tamaño 100. Cuando se diseña una prueba se fija el nivel de significancia de entrada.
~120;80
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
√ 133.16
Cualquier muestra que esté a la derecha de la izquierda me pedirá que no rechace Ho.
va a hacerme rechazar Ho, cualquier muestra a
Cuando se calcula la potencia de una prueba se debe elegir una de las distribuciones de la hipótesis alterna, por ejemplo: 130.
ℎ/ ℎ/ : > 133.166 0.346
El nivel de significancia tiene que ser menor al 5% y se recomienda que la potencia este entre el 80 y 90 %, en este caso la prueba tiene una potencia del 35 %, por lo que esta prueba está bien para evitar errores tipo I, pero está mal para evitar errores tipo II. ¿Qué tamaño debe tener la muestra para que la potencia de la prueba sea de 90% al mismo nivel de significancia?
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
d: efecto no estándar
¿Qué efecto máximo puede detectar una prueba bilateral que emplea una muestra de tamaño 75, a un nivel de significancia de 1% y una potencia de 80%?
548.4 549
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
ANALISIS DE VARIANZA – ANOVA Método paramétrico de inferencia estadística que permite analizar diferencias entre dos o más medias. Es un método paramétrico ya que los supuestos del método que se vaya a utilizar salen de que se conoce la forma de la población o los parámetros de esa forma.
ANOVA de un factor con replicas Ejercicio Se compararon tres métodos de separación en cierto proceso química para estudiar sus efectos sobre producción. Se hicieron tres operaciones con cada método, y las producciones, en porcentaje de un máximo teórico, son los siguientes: Método A: 84.6; 83.3; 85.1; 84.2 Método B: 87.3; 85.9; 88.2; 87.0 Método C: 87.2; 86.0; 86.3; 86.6 ¿Puedo concluir que hay diferencia entre las medias de las producciones?
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
a= número de niveles del factor Media de las filas:
1
n = número de replicas
= Media global, media general, gran media: 1 = = Modelo aditivo: Valor de la Respuesta = Constante + Efecto Factor + Error
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Cualquier valor de x tiene un componente constante que es μ y tiene un efecto que esta dado por α que es el efecto del factor y ε que es el efecto del error. El modelo aditivo considera que, en un ANOVA simple de un factor, todo valor esté compuesto por un valor constante, un valor dado por el efecto del factor y otro dado por po r el error o residuo.
La variabilidad total es igual a la variabilidad del factor más la variabilidad del error. La variabilidad, matemáticamente, se expresa como la suma de los cuadrados de las distancias entre un punto y su media.
Si yo determino la que la variabilidad que me da el factor es mayor que la que me da el error, puedo pensar que el método influye en la variable de respuesta, si por el contrario la del error es mayor, se puede decir que la diferencia de valores se debe a errores aleatorios. Hipótesis nula: todas nula: todas las medias de los niveles del factor son iguales (
)
Hipótesis alterna: al alterna: al menos una de las medias de los niveles es diferente.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Supuestos del modelo de ANOVA ✓
Los datos provienen de una distribución normal con media μ y varianza . ✓ Los errores (la distancia entre μ y x) son I.I.D (Independientes e idénticamente distribuidos) de una distribución normal, con media 0 y varianza . ✓ Todos los niveles del factor tienen idéntica varianza (homocedasticidad de los datos).
Comparar varias medias paramétricas: ANOVA Si estos supuesto no se cumple, recurra a pruebas no paramétricas. Comparar varias medias no paramétricas: Kruskal-Wallis
Teoremas de ANOVA SI el factor tiene ti ene influencia sobre la variable de respuesta, el cuadrado medio de este será mayor al del error. Si el factor no tiene influencia sobre la variable de respuesta, el cuadrado medio del de este se parecerá al del error. Si hago una división entre estos estoy realizando una prueba de relación de varianzas. Teorema 1:
•
/^2
tiene una distribución chi cuadrada con a(an-1) grados de libertad.
Teorema 2:
•
/^2 /^2
Bajo la hipótesis nula Ho, y (an-1) grados de libertad, respectivamente.
tienen distribuciones chi cuadrada con (a-1) y
Teorema 3:
•
El estadístico
tiene distribución F con (a-1) y a(n-1) grados de libertad.
/ /
MSE es un buen estimador de MSF es un buen estimador de
siempre.
solo si Ho es verdadera.
Si Ho es verdadera, MSE y MSF son parecidos.
Si yo aplico una prueba F, MSF/MSE es igual a 1 cuando la hipótesis nula es verdadera.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Si Ho es falsa, MSF es mucho más grande y la relación MSF/MSE es mucho mayor que uno. ANOVA es una prueba de relaciones de varianzas de cola derecha al nivel de significancia que uno elija.
Con un valor p de 0.0013 el resultado es estadísticamente significativo al 1%, por tanto, se rechaza Ho. Al menos uno de los métodos de separación tiene un resultado diferente en el rendimiento. Verificación de supuestos: Normalidad: pruebas de SW, RJ, AD, KS. SW y AD: Pruebas específicas de normalidad KS: Prueba de ajuste a una población que yo ajuste, en este caso elijo la normal. SW: 0.89 SW: 0.89 RJ: >0.10 RJ: >0.10 AD: >0.10 AD: >0.10 KS: 0.96 KS: 0.96 Los datos provienen de una distribución normal. Homocedasticidad: Pruebas F múltiples, Barlett (chi cuadrado), Leven, Hartley, Cochran. Mediante software se comprueba el supuesto de homocedasticidad. Independencia: Esta se verifica mediante el comportamiento de los residuos. El residuo es la variabilidad sobrante que corresponde a ε en el grafico donde se indican los cuadrados. Grafica de residuos. Residuos por nivel de factor: es factor: es la gráfica donde se encuentra en X los niveles de factor del estudio y en y los residuos. (Interesan residuos vs orden de corrida y residuos vs nivel de factor)
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico de Residu os para PRODU PRODUCC CCIO ION N
1,5 1 0,5 s o u d i s e r
0
-0,5 -1 -1,5 A
B METODO
C
Se puede describir cualitativamente a la independencia si es que no se observa distancias iguales entre los puntos y la media 0. Una forma de estimar la varianza es la estimación mediante el rango de datos Residuos por predichos: es predichos: es la gráfica donde en X está el valor de la variable y en Y el error predicho por el modelo de regresión que aplica ANOVA.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico de Res idu os p ara PRODU PRODUCCI CCION ON
1,5 1 0,5 s o u d i s e r
0
-0,5 -1 -1,5 84
85
86 predichos
87
88
Residuos por orden de corrida: es corrida: es el grafico que se elabora poniendo en X los residuos en el orden en el que el experimento fue ejecutado.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico de Resi duos para PRODUC PRODUCCIO CION N
1,5 1 0,5 s o u d i s e r
0
-0,5 -1 -1,5 0
2
4 6 8 número de fila
10
12
Se puede asumir que no existe independencia si al unir los puntos esta línea no logra describir un patrón. En resumen: Para verificar el supuesto de independencia hacemos uso de los gráficos de residuos por nivel y de residuos por orden de corrida o secuencia, y verificamos primero que no haya patrones, que los datos estén distribuido aleatoriamente en una forma más o menos proporcional al uno y al otro lado de la línea del cero y verificamos de esa manera que haya independencia en los residuos. La media de los residuos es cero, y la varianza es
PRUEBAS DE RANGOS MULTIPLES
¿Cómo yo puedo obtener con cuál de los niveles voy a tener una mejor variable de respuesta? Esto se realiza comparando pares de niveles de diferencia de medias. Para esto Vamos a usar un método modificado de la prueba de hipótesis.
Método de Fisher de las diferencias mínimas significativas LSD
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Ho: las Ho: las medias de los pares de los niveles en comparación son iguales.
1 1 .. .. > −−,
Si ocurre que
.. ..
puedo rechazar Ho, si no lo es, no rechazo Ho. puedo
Es decir, que puedo decir si la diferencia entre estos dos niveles es estadísticamente significativa o aleatoria.
Método de la diferencia honestamente significativa Tukey-Kramer (HSD) Es muy similar al método de Fisher, pero no utiliza la distribución t, sino la distribución de rango estudentizado, que estudia cómo se comportan los cuantiles de la distribución t de Student.
.. .. > −−, 2 1 1
Cuando aplico la prueba si el valor absoluto de la diferencia de medias de los niveles es mayor al estadístico de prueba rechazo Ho. Al mismo nivel de significancia el método de HSD les pide más evidencia a los datos para declarar una diferencia como significativa ya que este intervalo es más grande. Pruebas de Múltiple Rangos para PRODUCCION por METODO Método: 99,0 porcentaje Tukey HSD METODO Casos Media Grupos Homogéneos X A 4 84,3 X C 4 86,525 X B 4 87,1 Contraste Sig. Diferencia +/- Límites -2,8 -2,8 2,07855 A – B B * A – C C * -2,225 -2,225 2,07855 B – C 0,575 2,07855 * indica una diferencia significativa.
Desde el punto de vista de un análisis estadístico, usando el método de diferencia mínima de Fisher al 95% de confianza hay dos niveles de efecto del método, A es el método de nivel bajo, es el método que menor producción ocasiona. Y B y C son los que mayor producción oc ocasionan asionan estando B y C al mismo nivel, es decir se puede usar desde el punto de vista de la producción el
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal método B o el método C porque son los que mayor producción generan y según el análisis estadístico ambos con el mismo nivel de respuesta. Resumen: ANOVA es la comparación entre medias de niveles en ANOVA de un factor lo que se Resumen: ANOVA hace es comparar entre la variabilidad del factor con la variabilidad del error mediante una prueba F y concluir utilizando el valor p. verificamos los supuestos de normalidad, homocedasticidad e independencia. (Si no se verifica alguno de los supuestos debemos utilizar estadística no paramétrica como la prueba de Kruskal-Wallis). Una ves verificado los supuestos lo siguiente es realizar pruebas de rangos múltiples para determinar, si existiesen diferencia de medias declaradas en el ANOVA, los efectos y los grupos homogéneos. Las conclusiones del ANOVA a veces difieren de las pruebas de rangos múltiples, eso pasa mucho mas con la prueba de Fisher que con la prueba de Tukey.
ANOVA DE UN FACTOR CON BLOQUE (ANOVA DE DOS FACTORES SIN RÉPLICAS) Ejercicio Un estudio relacionado con los gases de efecto invernadero presenta mediciones de las concentraciones de CO2 (en mg/L) en seis ubicaciones a lo largo del rio Aguarico. Las mediciones se tomaron cuatro veces al año: enero, abril, julio y octubre. Es de interés determinar si las concentraciones varían de acuerdo con el mes en que se toman las muestras. ENERO FEBRERO JULIO OCTUBRE A 3,9 3,7 3,7 4,1 B 4,0 3,5 3,4 5,7 C 4,2 3,4 3,0 4,8 D 4,1 3,3 2,9 4,6 E 4,1 3,4 3,0 3,4 F 4,2 3,5 2,8 4,7 a) a) ¿Puedo concluir que la concentración varia de acuerdo con la temporada del año ¿ b) ubicación delpresenta punto variable para tener en cuenta para analizar la concentración? c) c) ¿Es ¿Enla qué meses se la mayor concentración de CO2?
a= numero de niveles del factor Media global:
b= número de bloques
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Media de cada nivel:
1 == .. 1 = 1 .
Media de cada bloque:
=
Para este ANOVA la l a variable de respuesta se compone de cuatro elementos: Valor de la respuesta= Constante + Efecto factor + Efecto bloque + Efecto Error
( , ( ̿ ) (̅.. ̿) ̅.. ̿
La beta sale del error total que antes se cuantificaba como solo
Hipótesis : Hay dos hipótesis nulas y sus correspondientes co rrespondientes hipótesis alternas. Ho (1): las medias de los niveles del factor son iguales.
Ho (2): las medias de los niveles del bloque o de los bloques son iguales.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Verificación de supuestos: Normalidad: Se pueden considerar normales los datos. Homocedasticidad: Se verifico la igualdad de varianzas. Independencia:
Referente al factor ubicación el resultado no es estadísticamente significativo a ningún nivel con un valor p de 0.4276, por tanto, no se rechaza Ho. Referente al factor mes el resultado es estadísticamente significativo al 0.1% con un valor p de 0.0002, por lo que se rechaza Ho. Se concluye que al menos en uno de los meses del año, el valor de concentración de CO2 es diferente al resto. No existe diferencia entre la concentración de CO2 ocasionada por el punto en el que tomo la muestra.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
ANOVA DE DOS FACTORES CON REPLICA Ejercicio Durante un trabajo de investigación cuyo objetivo principal es la extracción de aceites grasos del maní de árbol Sacha Inchi (pukenetia Volunilis), se ha determinado que los factores que tienen mayor incidencia en la eficiencia de extracción (mg aceite/ kg sustrato) son el tiempo de extracción, la temperatura de operación, la concentración de etanol en el solvente a usarse y la velocidad de agitación. Por estudios anteriores, se ha determinado que las mejores condiciones de extracción se producen a 34.5 oC con una concentración del 30% p de etanol; por lo que todas las pruebas se realizaran a estas condiciones. Se han realizado 30 observaciones, obteniéndose los siguientes datos de eficiencia de extracción (mg aceite/ kg sustrato): t1= 5 min t2= 7.5 min t3= 10 min t4= 12.5 min t5= 15 min 13.2 15.8 14.3 15.8 12.5 N1= 50 rpm 13.1 16.3 13.7 15.7 13.5 14.8 16.4 14.3 14.2 13.8 2 N = 100 rpm 15 15.7 13.9 13.7 13.4 N3= 150 rpm 14.3 16.7 12.3 13.9 13.1
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal 14.0
17.2 12.4 14.4 A: numero A: numero de niveles del factor A.
13.2
B: B: numero numero de niveles del factor B. n: n: número número de replicas Factores: (4) (4) Tiempo de extracción, temperatura, concentración de etanol y velocidad de agitación. Fijados: (2) Temperatura y concentración de etanol. Factores de estudio: (2) Velocidad de agitación y tiempo de extracción. extracción. Puntos experimentales: 15 Corridas u observaciones experimentales: 30 Modelo aditivo: Valor de la respuesta: Constante + Efecto factor A + Efecto factor B + Efecto Interacción + Efecto Error
Hipótesis: Hay tres hipótesis nulas y sus correspondientes hipótesis alternas. Ho (1): las medias de los niveles del factor A son iguales. Ho (2): las medias de los niveles del factor B son iguales. Ho (3): el efecto de la interacción entre los efectos A y B no es estadísticamente significativo.
Supuestos de normalidad: Prueba
Pruebas de Normalidad Estadístico
Estadístico W de Shapiro-Wilk
0,945957
Valor-P
0,154542 0,154542
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Debido a que el valor-P más pequeño de las pruebas realizadas es mayor o igual a 0,05, no se puede rechazar la idea de que R proviene de una distribución normal con 95% de confianza. Verificación de Varianza Prueba Valor-P 0,39019 Levene’s 0,974701 0,39019 Comparación N1 / N2 N1 / N3 N2 / N3
Sigma1 1,3852 1,3852 0,955452
Sigma2 0,955452 1,64874 1,64874
F-Ratio 2,10187 0,705866 0,335827
P-Valor 0,2837 0,6122 0,1197
Verificación de Varianza Prueba Valor-P Levene’s 0,76969 0,555115 0,555115 Comparación T1 / T2 T1 / T3 T1 / T4 T1 / T5 T2 / T3 T2 / T4 T2 / T5 T3 / T4 T3 / T5 T4 / T5
Sigma1 0,794145 0,794145 0,794145 0,794145 0,561249 0,561249 0,561249 0,908662 0,908662 0,91086
Sigma2 0,561249 0,908662 0,91086 0,441588 0,908662 0,91086 0,441588 0,91086 0,441588 0,441588
F-Ratio 2,00212 0,763827 0,760145 3,23419 0,38151 0,379671 1,61538 0,995179 4,23419 4,2547
P-Valor 0,4644 0,7747 0,7708 0,2235 0,3138 0,3115 0,6115 0,9959 0,1392 0,1380
La hipótesis nula para la prueba de homocedasticidad es que todas las varianzas a todos los niveles son iguales. Con un valor p de 0.055 para el factor del tiempo, este no es estadísticamente significativo a ningún nivel, y para la variable de agitación con un valor p de 0.39 tampoco es estadísticamente significativo a ningún nivel y por lo tanto no hay evidencia para rechazar Ho, por lo tanto, las varianzas son iguales y cumplen con el supuesto de homocedasticidad.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico Grá fico de Interacciones
17
t T1 T2
16
T3 T4 T5
15 R
14
13
12 N1
N2 N
N3
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico Grá fico de Interaccion es
17
N N1 N2
16
N3
15 R
14
13
12 T1
T2
T3
T4
T5
t
Fuente
Análisis de Varianza para R – Suma Suma de Cuadrados Tipo III Suma de Cuadrados Gl Cuadrado Medio Razón-F
EFECTOS PRINCIPALES A:N 0,704667 2 0,352333 3,16 B:t 36,6747 4 9,16867 82,35 INTERACCIONES AB 11,6053 8 1,45067 13,03 RESIDUOS 1,67 15 0,111333 TOTAL (CORREGIDO) 50,6547 29 Todas las razones-F se basan en el cuadrado medio del error residual
Valor-P
0,0713 0,0000 0,0000 0,0000 0,0000
Para el factor velocidad con un valor p de 0.0713 el resultado no es estadísticamente significativo a ningún nivel. Para el factor tiempo con un valor p cercano a 0 el resultado es estadísticamente significativo al 0.1 % Con un valor p cercano a 0 el resultado para la interacción es estadísticamente significativo al 1%. El valor p de la velocidad declara el resultado no significativo, por lo tanto, no rechazo Ho, y por tanto indico que las medias son iguales y que el factor no incide en la variable de respuesta.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Al menos uno de los tiempos produce un efecto diferente en la variable de respuesta, que el tiempo tiene efecto sobre el rendimiento. El efecto de la el interacción es estadísticamente significativo encomo la variable de respuesta, en otras palabras, efecto de AB la interacción tiene tanta importancia la del tiempo. Se nota que sola por si la velocidad de agitación no tiene efecto sobre la variable de respuesta, pero en interacción con el tiempo produce un efecto importante. Conclusión: La velocidad de agitación no tiene incidencia sobre la variable de respuesta, el tiempo si la tiene y la interacción velocidad tiempo también la tiene.
ANOVA MULTIFACTORIA MULTIFACTORIALL Ejercicio Un estudio esta hecho para evidenciar o para estudiar la rugosidad de una superficie de corte en función de tres factores. Durante un proceso industrial queremos determinar con que rugosidad termina la superficie, entonces la variable de respuesta es la rugosidad. Se van a estudiar tres factores: velocidad de avance de la herramienta a dos niveles: 20 y 30 (in/min), profundidad de corte: 0.025 y 0.04 in y ángulo de corte 15 y 25 grados.
Este es un experimento 2k ya que estoy estudiando 3 factores (k) a dos niveles con replica. Tengo 16 corridas, es un experimento factorial completo y no se puede hablar de resolución porque no existe confusión en un experimento factorial completo. Análisis de Varianza para Rugosidad – Suma Suma de Cuadrados Tipo III Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F EFECTOS PRINCIPALES A: Velocidad 45,5625 1 45,5625 18,69 B: Profundidad 10,5625 1 10,5625 4,33 C: Ángulo 3,0625 1 3,0625 1,26 INTERACCIONES AB 7,5625 1 7,5625 3,10 AC 0,0625 1 0,0625 0,03 BC 1,5625 1 1,5625 0,64 ABC 5,0625 1 5,0625 2,08 RESIDUOS 19,5 8 2,4375 TOTAL (CORREGIDO) 92,9375 15
Valor-P
0,0025 0,0025 0,0709 0,2948 0,1162 0,8767 0,4465 0,1875
.
Análisis de Varianza para Rugosidad – Suma Suma de Cuadrados Tipo III Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F EFECTOS PRINCIPALES
Valor-P
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal A: Velocidad B: Profundidad C: Ángulo INTERACCIONES AB AC BC RESIDUOS TOTAL (CORREGIDO)
45,5625 10,5625 3,0625
1 1 1
45,5625 10,5625 3,0625
16,69 3,87 1,12
0,0027 0,0027 0,0807 0,3171
7,5625 0,0625 1,5625 24,5625 92,9375
1 1 1 9 15
7,5625 0,0625 1,5625 2,72917
2,77 0,02 0,57
0,1303 0,8831 0,4686
Se concluye que el factor velocidad es estadísticamente significativo, ninguno otro de los factores, ni la profundidad ni el ángulo lo son, y ninguna interacción tampoco lo es. Pruebas de Múltiple Rangos para Rugosidad por Velocidad Velocidad 20
Método: 99,0 porcentaje Tukey HSD Casos Media LS Sigma LS Grupos Homogéneos 8 9,375 0,584077 X X
30
8 12,75 0,584077 Contraste Sig. Diferencia +/- Límites -3,375 2,6844 20 – 30 * -3,375 * indica una diferencia significativa.
Pruebas de Múltiple Rangos para Rugosidad por Profundidad Profundidad 0,025 0,04
Método: 99,0 porcentaje Tukey HSD Casos Media LS Sigma LS Grupos Homogéneos 8 10,25 0,584077 X 8 11,875 0,584077 X Contraste 0,025 – 0,04
Sig. Diferencia -1,625
+/- Límites 2,6844
Pruebas de Múltiple Rangos para Rugosidad por Ángulo Ángulo 15 25
Método: 99,0 porcentaje Tukey HSD Casos Media LS Sigma LS Grupos Homogéneos 8 10,625 0,584077 X 8 11,5 0,584077 X Contraste 15 – 25
Sig. Diferencia -0,875
+/- Límites 2,6844
Importante: Estadístico significativa Diferencia significativa Media de nivel nivel Grupo homogéneos homogéneos •
•
•
•
PREDICCIÓN ESTADÍSTICA
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Los métodos para verificar cuanto influyen los factores en las variables de respuesta son los lo s métodos de regresión.
REGRESIÓN Crear un modelo matemático que permite predecir el valor de una variable va riable de interés (variable de respuesta) con un conjunto de factores relacionados (variables de predicción). De todos lo modelos, el más básico para hacer regresión es la regresión lineal simple.
Regresión lineal simple Es el caso más básico de una regresión donde se va a analizar un solo factor en la predicción d dee las variables de respuesta. Sirve para predecir una variable de respuesta utilizando simplemente observaciones correspondientes a un solo factor. Ejemplo En un experimento de laboratorio para la extracción de un principio activo donde el experimento esta lo suficientemente controlado para que solo sea el tiempo de extracción el que nos sirva para predecir los valores de concentración. Desarrollar un modelo de regresión lineal simple que permita predecir la concentración del activo en función del tiempo en que se realiza la extracción. Tiempo de extracción, min Concentración, mg/L 161 159 176 163 178 170 188 185 195 190 201 215 228 235
197 202 209 241
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
R2 no es el único criterio con el que se debe de decidir si un modelo de regresión es útil. Si hago una regresión lineal simple, esto quiere decir que mi vvariable ariable de respuesta va a obedecer a un modelo lineal, utilizando la información que yo le proporcione que en este caso es una muestra de tamaño nueve de una población infinita que son todas las concentraciones posibles que puede tener esta sustancia en los diferentes tiempos. Modelo de predicción (muestra tamaño n):
Los coeficientes a y b son estadísticos muestrales ya que puedo tener infinitas rectas de muestras en el gráfico que es de donde se obtiene la información para estos. Modelo de predicción (poblacional):
a es el estadístico muestral del parámetro poblacional b es el estadístico muestral del parámetro poblacional Para hacer que la ecuación pase de ser determinista a probabilística, debo aumentarle un error de tal forma que:
Respuesta=valor predicho por la recta de medias + error aleatorio Sin embargo, no se tiene los parámetros poblacionales de esta ecuación, sino el de la muestra de tal forma que:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Esta es la única ecuación que vamos a tener ya que es la que nos proporciona los datos con los cuales trabajamos. ¿Con que concepto determino si la recta es buena o no? Cuando la distancia, ya sea que los puntos estén abajo o arriba, entre los puntos y la recta se la mejor, entonces será la recta que se dibujará para la regresión. Sin embargo, no se puede hablar de la distancia como tal ya que tendríamos signos negativos para aquellas que se encuentran debajo de la recta, de tal forma que hablaremos del cuadrado de las distancias.
Cuando la suma de esos cuadrados es la menor, tengo la mejor recta, es decir minimizo ese valor. Una buena recta de ajuste desde el punto de vista matemático es aquella donde la suma de cuadrados de los errores es la mínima. e=error SE=cuadrado del error SSE= suma de los cuadrados de los errores
Cuando se minimiza esta ecuación se tiene:
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
̅ ̅̅ 0,9899 4,7782
Supuestos respecto a la naturaleza estadística de los errores ε Son independiente en el sentido probabilístico. Tienen una media de 0 y una varianza común igual a Tienen una distribución normal de probabilidad.
•
•
•
.
Cuando uno va a utilizar un modelo de predicción basado en regresión lo primero que se tiene que hacer es: 1. 1. 2. 2. 3. 3. 4. 4.
Generar el modelo. Verificar la significancia estadística del modelo Verificar la significancia estadística de los predictores. Verificar la fuerza del modelo
5. Verificación de supuestos 6. 6. Utilizar el modelo para realizar predicciones
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Verificar la significancia estadística del modelo Se realiza a través de ANOVA Un modelo de regresión lineal simple descompone la variabilidad o el valor de y de la siguiente manera:
Respuesta = constante( ) + variación de la regresión + variación del error SST=SSR+SSE
) (
Ho: no existe una relación lineal estadísticamente significativa entre la variable de predicción y la variable de respuesta.
Regresión Simple - C vs. T Variable dependiente: C Variable independiente: T Lineal: Y = a + b*X Fuente Modelo Residuo Total (Corr.)
Análisis de Varianza Suma de Cuadrados Gl Cuadrado Medio Razón-F 4826,95 1 4826,95 76,96 439,05 7 62,7215 5266,0 8
Valor-P 0,0001 0,0001
Coeficiente de Correlación = 0,957406 R-cuadrada = 91,6625 porciento 91,6625 porciento R-cuadrado (ajustado para g.l.) = 90,4715 porciento Error estándar del est. = 7,91969 Error absoluto medio = 5,73683 Estadístico Durbin-Watson = 2,08452 (P=0,3745 (P= 0,3745)) Autocorrelación de residuos en retraso 1 = -0,261565
El StatAdvisor La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre C y T. La ecuación del modelo ajustado es C = -4,77822 + 0,989873*T
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Con un valor p de 0.0001 se reporta el resultado como estadísticamente significativo al 0.1 % esto permite rechazar Ho, entonces estoy señalando que existe una relación estadísticamente significativa entre la variable de predicción y la variable de respuesta. Existe una relación lineal estadísticamente significativa entre el tiempo de extracción y la concentración del extracto.
Verificar la significancia estadística de los predictores Son las constantes del modelo, aquí se verificará si el valor de b es el que calculamos además que si amerita que el modelo tenga una constante a. Las dos pruebas son que el grado de libertad del error (n-2)
1. 1. Debemos preguntarnos si b es un buen estimador de Para esto vamos a realizar una prueba de hipótesis con la distribución t de Student Ho:
(0) (0)
Hacer esta prueba t cuanto pruebo que beta es igual a 0 es lo mismo que hacer el ANOVA para el modelo.
±±
Con un valor p de 0.0001 0.000 1 rechazo la hipótesis nula de que beta es 0, tomando la hipótesis alterna que indica una relación lineal estadísticamente significativa entre el factor y la respuesta.
2. 2. Decisión respecto a
Ho:
(0) (0)
Ho: el modelo matemático no contiene una ordenada al origen estadísticamente significativa. Entonces un valor p pequeño nos habla de que hay que incluir un valor a la ordenada en el modelo.
∑
Coeficientes Mínimos Cuadrados Estándar
Estadístico
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Parámetro Intercepto Pendiente
Estimado -4,77822 -4,77822 0,989873 0,989873
Error 22,4349 0,112837
T -0,212982 8,7726
Valor-P 0,8374 0,0001
Pero el intercepto o la ordenada de origen tiene un valor alto lo que nos dice que no puedo rechazar Ho que indicaba que la constante al origen no es estadísticamente significativa, por lo tanto, hay que sacarla del modelo. Coeficientes Mínimos Cuadrados Estándar Parámetro Estimado Error 0,966008 0,0124601 Pendiente 0,966008
Estadístico T 77,5282
Valor-P 0,0000
Establecer la “fuerza” del modelo
Se refiere en general a que tan bueno es el modelo para predecir la variable de respuesta, es decir que tan grande es el error que puede producir.
// / / / / 1 ó
Este coeficiente es el porcentaje de variabilidad que controla el modelo de predicción. Cuando no existe relación entre la variable de predicción y la variable de respuesta todo es controlado por el error y R 2 = 0, es decir hablamos de (y) media.
El coeficiente de correlación lineal es le termino dentro del paréntesis elevado al cuadrado. El coeficiente de correlación varia entre -1 y +1 Coeficiente de correlación lineal muestral de producto momento de Pearson.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal La fuerza del modelo se determina a través del coeficiente de correlación. Un coeficiente es aceptable dependiendo de lo que este estudiando, en estudios en laboratorio suelen ser altos, en experimentos sociales son más bajos. Cuando el R cuadrado es mas fuerte, la significancia estadística del modelo es mayor. Coeficiente de Correlación = 0,999335 R-cuadrada = 99,8671 porciento 99,8671 porciento
El coeficiente de correlación es muy alto. 99,87 % de la variabilidad del experimento esta controlado por el modelo de regresión. Si tenemos el caso en que la recta saliendo desde el origen tenga mejores características que la recta que no sale del origen, pero si el fenómeno físico me pide que no salga del origen aunque R cuadrado y p sean mejores en el caso que no salga del origen, debo conservar la ordenada porque el fenómeno físico, económico o biológico me lo pide, aunque el fenómeno se ajuste mejor sin ordenada si el fenómeno me lo pide debo conservarlo y observar que va a ocurrir con la parte estadística.
Verificación de supuestos Los residuos son los estadísticos de los errores.
Inferencia para (Parámetro poblacional del correspondiente estadístico R)
:
(0)
Si encuentro que es igual a 0 estoy diciendo que no existe relación lineal significativa entre X y Y.
122 ; 2
Prueba de normalidad de los errores
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Vamos a hacer las pruebas de normalidad a los residuos
Como ninguno de los valores p es menor al nivel de significancia máximo podemos concluir que los residuos son normales y que los errores por tanto son normales. Independencia Implica que el valor de un residuo no interfiere en el valor del otro residuo, es decir no depende el uno del otro. Debemos verificar que no haya relación en la secuencia de los valores de los residuos. Importante residuo vs orden y residuo vs predicho. Pruebas de autocorrelación. autocorrelación. - tratan de analizar en una serie de datos si un dato depende del anterior y si de ese dato depende el posterior dato. La mas famosa es la prueba de Durbin Watson que va a buscar la relación r elación entres los valores separados el uno del otro por un intervalo de tiempo dado.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Este estadístico se encuentra en un rango comprendido entre 0 y 4 D =2: no hay autocorrelación (Independencia) D3: correlación negativa Cuando sea mayor a 3 o menor a 1 no hay independencia. Estadístico Durbin-Watson = 2,05773
No hay autocorrelación entre los residuos por lo tanto se considera verificado el supuesto de independencia. Homocedasticidad El tamaño del efecto o estadístico de koen es el efecto no estándar dividido para la desviación estándar si no nos dan este valor en ingeniería esta bien utilizar de 0.4 a 0.5 pero en ciencias mas exactas el valor del estadístico debe ser menos porque la distancia debe ser menos. Para estandarizar el efecto de las pruebas de hipótesis dividíamos para sigma, aquí podemos estandarizar el error dividiendo para sigma, pero como no tengo s tengo que utilizar un estimador. Para poder estandarizar el error le multiplico por un factor de corrección que vi viene ene de la matriz de datos. Formula de residuo Estudentizado.
Es el residuo corregido para que obedezca a una distribución t. Si un residuo estudentizado está fuera del rango -3 a 3 se considera un dato atípico y podemos pensar que el supuesto de igualdad de varianzas no se cumple.
Fila X 9 235,0
Y 241,0
Residuos Atípicos Predicciones Residuos Y Residuos Studentizados 227,012 13,9882 2,78
En este caso no tenemos residuos atípicos ya que se encuentra dentro del rango indicado y por lo tanto podemos pensar que el supuesto de igualdad de varianza se cumple.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Utilizar el modelo para realizar predicciones
La recta que se observa en el grafico es la poblacional con un valor alfa y beta, es decir para μ de y, si utilizo la recta con estadísticos, es decir, con a y b de x, tendré Y media
La distancia entre el valor real y el predicho por la recta poblacional es el error e, si yo tuviese la recta poblacional el error en la predicción esta dado por e, sin embargo, no se tiene la recta
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal poblacional sino la muestral, en el grafico a celeste. La distancia entre el punto real y el punto predicho que yo tengo es el residuo, el correspondiente estadístico de ε. La diferencia entre ε y e es un error al estimar μ de Y a través de Y techito, es decir, cuando se hace una predicción yo tengo dos componentes del error, la distancia entre el modelo poblacional y el valor real ε y la distancia entre la recta poblacional y la recta muestral que es el error cuando yo estimo μ.
; 2 ± ̅ 1
Xo: valor de x para el cual quiero predecir un intervalo para Y La diferencia entre Y media y Y es que Y media es la estimación de un solo valor que representa a todos los puntos, pero Y es el valor para un solo punto en la distribución. Intervalo de predicción: valor para la próxima medida de Y para un valor dado de X o Para estimar un valor particular de y, hay dos errores: El error al usar la recta ajustada para estimar la recta de medias. El error causado por la desviación de Y desde la recta de medias, medida por
• •
Formula para el intervalo de predicción de Y:
1 1 ̅
Al mismo nivel de confianza hacer predicción es menos preciso que hacer estimación. Cuando uno utiliza un modelo de regresión debe reportar el resultado como dos intervalos de confianza, uno para la media y otro para la siguiente predicción. Los modelos de regresión no son extrapolables, solo son intrapolables. Es decir que se puede utilizar para realizar predicciones en el intervalo de datos de x.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
Gráfico Grá fico del Modelo Ajustado C = 0,966008*T 250
230
210 C
190
170
150 160
180
X 185,0
Predicciones Y 178,711 178,711
200 T
220
Valores Predichos 95,00% Límite Predicción Inferior Superior 160,767 196,655
240
95,00% Límite Inferior 173,396
Confianza Superior 184,027
Los limites de confianza son para la media de diferentes mediciones para un valor de X o=185 y los límites de predicción es el intervalo de confianza para una sola medición futura. Este nivel de confianza no esta ligado al utilizado anteriormente. Ejercicio Los siguientes datos para una planta de producción de electricidad utilizando energía eólica, se desea relacionar la velocidad del viento que hacen girar a las aspas con el voltaje de salida obtenido en cada uno de los dispositivos. Hacer una regresión lineal.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Velocidad del Viento Voltaje de km/h Salida, V
Fuente Modelo Residuo Total (Corr.)
1 2 3 4 5 6 7 8 9 10 11 12 13
8,00 9,60 5,44 4,32 16,00 15,52 15,28 4,88 13,04 9,92 4,64 10,16 7,36
1,582 1,822 1,057 0,500 2,236 2,386 2,294 0,558 2,166 1,866 0,653 1,930 1,562
14 15 16 17 18 19 20 21 22 23 24 25
9,28 11,84 5,76 12,56 14,08 11,20 8,72 14,56 16,32 6,56 6,32 3,92
1,737 2,088 1,137 2,179 2,112 1,800 1,501 2,303 2,310 1,194 1,144 0,123
Varianza Suma de Cuadrados Análisis Gl de Cuadrado Medio 8,92961 1 8,92961 1,28157 23 0,0557206 10,2112 24
Razón-F 160,26
Valor-P 0,0000 0,0000
Con un valor p cercano a 0 rechazo la hipótesis nula de que no hay relación llineal ineal entre la variable de predicción y de respuesta, con un nivel de significancia de 0.1% Coeficientes Mínimos Cuadrados Estándar Parámetro Estimado Error Intercepto 0,130875 0,130875 0,125989 0,150718 0,0119057 Pendiente 0,150718
Estadístico T 1,03878 12,6593
Valor-P 0,3097 0,0000
Con un valor p cercano a 0 el resultado no es significativo al 0.1 % por lo que se rechaza la hipótesis de que b es 0, por lo tanto, existe relación lineal entre la variable predicha y la variable de respuesta.
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Con un valor p de 0.3097 no el resultado no es significativo a ningún novel de significancia por lo tanto no existe evidencia estadística para contradecir la hipótesis nula de que el modelo no contiene una ordena en el origen por lo que no se mantendrá la constante.
Regresión Simple - V vs. W Variable dependiente: V Variable independiente: W Lineal: Y = b*X
Coeficientes Mínimos Cuadrados Estándar Parámetro Estimado Error 0,162184 0,00446863 Pendiente 0,162184 Fuente Modelo Residuo Total
Suma de Cuadrados 73,6398 1,3417 74,9815
Estadístico T 36,294
Valor-P 0,0000
Análisis de Varianza Gl Cuadrado Medio Razón-F 1 73,6398 1317,25 24 0,0559041 25
Valor-P 0,0000 0,0000
Coeficiente de Correlación = 0,991013 R-cuadrada = 98,2106 porciento 98,2106 porciento R-cuadrado (ajustado para g.l.) = 98,2106 porciento Error estándar del est. = 0,236441 Error absoluto medio = 0,202688 Estadístico Durbin-Watson = 1,12689 Autocorrelación de residuos en retraso 1 = 0,308405
Con un valor de 0.991013 tenemos un coeficiente de correlación positiva muy alta. 98,2106 % del experimento estas controlado por el modelo de regresión. Con un valor de Durbin Watson de 1.2689 se verifica que no hay autocorrelación por lo tanto hay independencia. Sin embargo, se nota un patrón en el grafico de residuos. En este caso podemos probar una linealización
1 ′ ′ 1
Regresión Simple - V vs. Wp Variable dependiente: V Variable independiente: Wp Lineal: Y = a + b*X
Coeficientes Mínimos Cuadrados Estándar Parámetro Estimado Error 2,97839 0,044966 Intercepto 2,97839
Estadístico T 66,2365
Valor-P 0,0000
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal Pendiente Fuente Modelo Residuo Total (Corr.)
-11,0923 -11,0923
0,330769
-33,5349
0,0000
Análisis de Varianza Suma de Cuadrados Gl Cuadrado Medio Razón-F 10,0065 1 10,0065 1124,59 0,204653 23 0,00889796 10,2112 24
Valor-P 0,0000 0,0000
Coeficiente de Correlación = -0,989928 R-cuadrada = 97,9958 porciento 97,9958 porciento R-cuadrado (ajustado para g.l.) = 97,9087 porciento Error estándar del est. = 0,094329 Error absoluto medio = 0,0739931 Estadístico Durbin-Watson = 1,55268 (P=0,1200 (P= 0,1200)) Autocorrelación de residuos en retraso 1 = 0,221659
El modelo que cumpla todos to dos los supuestos es el que convenga más, en este caso es el modelo linealizado. Modelo exponencial
′ ′ ′ ′′ ′
En este caso debo verificar los supuestos con el logaritmo del residuo, la normalidad con los logaritmos del residuo. Modelo de potencia o multiplicativo
Modelo inverso en x
′ ′′ ′ ′ ′ ′′
′ ′ 1 1
Modelo inverso en y
Universidad Central del Ecuador Facultad de Ingeniería Química Estadística II
Autor: Pablo Vélez Vera Profesor: Ghem Carvajal
1 1 ′′′ 1/′′ ′ ′ 1/1/ +
Modelo doble inverso (hiperbólico)
Curva – S
¿Con que modelo me quedo? Significancia de las constantes Coeficiente de correlación Coeficiente de determinación Cumplimiento de supuestos
Si hay dos modelos con resultados similares se debe tomar primero y adicionalmente el ámbito de la ciencia que se esté estudiando. ¿Qué comparar para elegir el mejor modelo? mode lo? Valor p del modelo, valor p del ANOVA, coeficiente de correlación y verificación de supuestos.
View more...
Comments