Regresion y Correlacion Simple y Multiple 2014.
July 10, 2022 | Author: Anonymous | Category: N/A
Short Description
Download Regresion y Correlacion Simple y Multiple 2014....
Description
REGRESIÓN Y CORRELACIÓN SIMPLE El diagrama de dispersión
Es un gráfico que permite detectar la existencia de una relación entre dos variables. Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables.
Las ecuaciones lineales simples Si dos variables, como Xexpresar e Y, están relacionadas, se puede como una relación, por ejemplo: Y = 3 + 1,5X Al conocer la ecuación se puede: a) Calcular el valor de Y para cualquier valor dado de X b) Conocer el cambio en Y, cuando X varía en 1
El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X. Ejemplo:
En Y = 10 + 2X cuando X aumenta en 1, Y aumenta en 2 En Y = 5 - 0,8X cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables En una ecuación como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente. Y = b0 + b1 X
Variable Dependiente
Variable Independiente
B) Tipo de Relaciones Cuando en X provoca cambios en Y en igual cambios sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo +
Ejemplo:
Y o
Y = 30 + 5X
o
o o
o o
o o
o
X
Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo Ejemplo: Y = 20 - 3X
Y o o o
o o
o o o
X
C) Grado de la ecuación La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica genera una línea recta (por lo que también se le llama ecuación lineal) Ejemplo : Y = 30 + 4 X
Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. Su gráfica no es una línea recta. Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado Y = 3 + 7X + 5 X3 : ecuación de tercer grado
D) Ecuaciones simples y múltiples: Simples: Muestra la relación entre dos
variables Y = 30 + 2X Y = 10 - 3X2
Múltiple: Múltiple: Muestra la relación entre tres o más
variables Y = 3X + 8 Z Y = 5 + 2X2 + 4W
D) Gráfica de una ecuación de primer grado: E j e m p lXo : Y 1= 3 +2 1,5X3 Y
4 ,5
6 ,0
4 9 ,0
7 ,5
5 1 0 ,5
Los cinco pares de valores se diagraman de la forma siguiente: Y 12 11 10 9 8 7 6 5 4 3 2 1
. . . .
(5,10.5)
(4,9)
.
(3,7.5)
(2,6)
(1,4.5)
1
2
3
4
5
X
E) Forma general: La ecuación simple de primer grado tiene la siguiente forma general Y = b0 + b1 X Donde: b1: pendiente, o sea, el cambio en Y cuando X = 1. b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En la gráfica es la intersecci intersección ón con el eje Y E j e m p l o :
Y
Y = 3 + 1.5X b0 = 3
. X
Regresión lineal simple Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas. Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.
correlación A) Suposiciones de regresión y correlación a)
Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X. c) Independencia de error: el error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. d) Linealidad: la relación entre las variables es lineal. lineal.
B) El método de Mínimos Cuadrados Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1 La ecuación general = b0 + b1X se llama ecuación de regresión y permite estimar o predecir los valores de Y.
El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima. Y - Y = error i ˆ
Min Mi n
Yi - Y ˆ
Y
2
Línea de estimación
10
.
8 6 4
Y ˆ
•
Error= -6
2 •
2
4
•
6
8
.
Error= 2
10
12
14
X
El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma:
Y nb + b X XY b X b X 0
1
0
2
1
Para aplicar las fórmulas, tenemos que confeccionar un cuadro siguiente:
como
el
X
Y
X2
XY
1.0
8.0
1.0
8.0
1.5
10.0
2.3
15.0
2.0
9.0
4.0
18.0
2.5
12.0
6.3
30.0
3.0
14.0
9.0
42.0
3.5
13.0
12.3
45.5
16.0
60.0
4.0
15.0
4.5
17.0
20.3
76.5
5.0
14.0
25.0
70.0
5.5
14.0
30.3
77.0
32.5
126.0 126.3 442.0
Sustituyendo los valores Y 126,0 , n = 5, 2 XY 442 y X 12 126 6 ,3 ,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones. 126 = 10b0 + 32,5b1 442 = 32,5b0 + 126,3b1 Resolviendo el sistema tenemos: b1= 1,576 ,por lo tanto, se tiene: Y 7,479 1,576X ˆ
b0 = 7,479
c) Interpretación b0 = 7,478 : Es probable que un paciente desnutrido que no sea considerado dentro del Programa de Alimentación Complementaria tenga un peso de 7,478 Kg. b1
=
1,576:Por cada Kg. del alimento complementario, se espera que probablemente el niño aumento su peso en 1,576 Kg.
D) Valor Valor observado y valor estimado de Y El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras que el valor estimado ( Yi ), es el nivel estimado de la variable (peso esperado), obtenido utilizando la ecuación de regresión. ˆ
Y
. . Yi
Valor observado
Y
Valor estimado
xo
X
X
Y
Y
1.0
8.0
9.055
1.5
10.0
9.843
2.0
9.0
10.630
2.5
12.0
11.418
3.0
14.0
12.206
3.5
13.0
12.994
4.0
15.0
13.782
4.5
17.0
14.570
5.0
14.0
15.358
5.5
14.0
16.146
ˆ
Error estándar de estimación (Syx) Mide la disparidad ¨promedio¨ entre los valores observados y estimados de la variable Y. Se calcula por la siguiente relación (Y - Y) ˆ
Sy x =
n 2
2
2 ˆ
Y
ˆ
Y Y
Y Y ˆ
Reemplazando en la formula S yx
=
21,20
21,20
10 2
8
2,65
Syx =1,628
El Syx es un indicador del grado de precisión con que la ecuación de regresión describe la relación entre las dos variables: cuanto más pequeño, los valores observado y estimado de Y son razonablemente cercanos y, la ecuación de regresión es una buena descripción esa la relación.
El análisis de correlación El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada con otra. Hay dos medidas que se usan para describir la correlación
El coeficiente de determinación El coeficiente de correlación
A) El coefi coeficie cient ntee de determ determin inaci ación ón Al construir un modelo de regresión, se define que el valor Y depende de X . Y = f (X) Si la relación es lineal: Y = b0 + b1X “
”
Pero en la práctica Y depende también de otros factores diferentes a X: Y = b0 + b1X + “
”
Parte de se losllama cambios en Y pueden explicarse por X, a esto variación explicada. Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada .
Y
Yi Variación Total
Yi
- Y
Variación no explicada
Yi
- Y
Variación Explicada
Y -
Y
y
X
VARIACION TOTAL TOT AL
=
VARIACION EXPLICADA
+
VARIACION NO EXPLICADA
El coeficiente de determinación se puede calcular del modo siguiente: r2
r 2
variacion explicada
=
variacion variacio n total
ˆ
Y - Y
Y - Y i
2 2
Se elevan al cuadrado, para evitar que Y - Y 0 obteniéndose un número positivo.
1er Paso: Cálculo de la venta media por vendedor son (
Y n
)
Y
i 1
Y =
Y=
Y=
i
n
Y1 Y2 Y3 Y4 Y5 5 9 5 7 14 10 5
Y = 9 unidades
45 5
2do Paso: Se calcula la variación total, es decir, la sumatoria desviaciones de las ventas 2 observadasde (Yi) las con respecto a la media: Y - Y i
Y
Y Y
Y Y
3er Paso: Se calcula la variación explicada, es decir, la sumatoria de las desviaciones cuadráticas decir, entre las ventas esperadas y la venta media de la muestra: Y - Y Y Y Y Y Y Y 2
2
ˆ
ˆ
ˆ
4to Paso: Se compara la variación explicada y la variación total. r 2 r 2
variacion explicada variacion total =
r 2 =
2
Y - Y ˆ
Yi - Y
2
51,2 0,70 707 7 72,4
5to Paso: Interpretación: 70,7% de las variaciones en el incremento de peso, pueden explicarse por el consumo del complemento nutricional.
Valores posibles de r 2 Si r 2 = 1 : Correlación perfecta, es decir, toda variación de Y puede explicarse por X Si r 2 = 0 : no existe correlación entre X e Y. La variación escambios 0. La variable no explicaexplicada nada de los en Y X
Resumen 2
0 r 1
Cuanto más cerca a uno, las variables tendrán mayor correlación.
B) El coeficient coeficientee de correlación Es
la raíz cuadrada determinación.
r=
del
coeficiente
r2
Sus valores oscilan entre -1 y 1 Cuando r es positivo, indica que X e Y están directamente relacionados.
de
Cuando r es negativo, indica que X e Y están inversamente relacionados. El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de correlación de Pearson
Fuerte Moderada Negativa Negativa -1 -0,9 Perfecta Negativa
-0,5
Débil Negativa
Débil Positiva 0 No existe correlación
Moderada Positiva 0,5
Fuerte Positiva 0,9 1 Perfecta Positiva
Ejemplo: r2= 0,707
r =
0,707
r = 0,84
el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b1 en la ecuación de regresión
Y 7,479 1,576X ˆ
Interpretación: El incremento de peso (Y) y el consumo del complemento nutricional (X) se encuentran directamente asociados.
View more...
Comments