Sesion 7 - Correlacion y Regresion 2021-1
November 30, 2022 | Author: Anonymous | Category: N/A
Short Description
Download Sesion 7 - Correlacion y Regresion 2021-1...
Description
esión 7 iagrama de dispersión. Coeficiente de recolección de Pearson. Modelo de regresión simple.
Motvación Analizamos las siguienes siuaciones:
Siuación A
o v t e j b O
Siuación B
Determinar la correlación entre la producción y los costos variables de productos envasados.
Conocer la relación existente entre el consumo de agua potable con la candad de integrantes en una familia
Siuación C Conocer la relación existente entre la candad de anchoveta captura captur a con el cambio de temperatura del mar por el temperatura fenómeno del niño.
¿exise relación enre las variables en cada siuación planeada? Parcipa en el chat de forma ordenada o usa la opción levantar mano de zoom para parcipar.
EVIDENCIAS DE APRENDIZAJE • Al nalizar la sesión, el estudiante estudiante aprende a elaborar medir la relación de dos variables cuantavas, cuantavas, y describir la inuencia de una variable x sobre la variable y.
Inroducción
hps://www.youtube.com/watch?v=yAPbeIHO6TY
d ispersión. I. Diagramas de dispersi ón. El diagrama, permite detectar la existencia de correlación entre dos
variables cuantavas. cuantavas. Diagrama o gráfca permite registrar registr ar los valores de dos variables cuantavas, ulizando las coordenadas cartesianas (x,y).
Parones de los daos en los diagramas de dispersión Parones
A través de los patrones del diagrama de dispersión se pueden conocer el comportamiento de los datos:
Comportamiento lineal Directa: Se da cuando una variable disminuye o aumenta y a la vez la otra variable también en el mismo sentido.
Inverso: Se da cuando el comportamiento de una variable, es contrario al comportamiento de la otra variable, es decir aquellos casos en que una variable aumenta, la otra variable disminuye. Nula : Es el caso en que no se consigue establecer un comportamiento comportami ento entre los datos de las variables.
Casos: diagramas de dispersión Patrones o comportamiento lineal de los datos:
Directa: La interacción entre la inversión extranjera y el mercado bursátil en el país.
Inverso: El agotamiento laboral y el estrés postraumático secundario
Caso: alura y peso Obtenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Observar datos de la tabla 100
Altura en cm.
Peso en Kg.
161
50
187
76
197
85
179
65
171 169
66 60
166
54
176
84
40
163
68
30
...
...
90 80 70 60 50
140
150
1 60
170
18 0
1 90
200
Caso: alura y peso Obtenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. a El patrón de los datos es de un comportamiento lineal directa: Aumenta la altura, altura, aumenta el peso.
100 90
t a e n u m a a r l t u A
80 70
t e n m u o a a s o P e
60 50 40 30
140
150
1 60
170
18 0
1 90
200
Coefciene de Pearson (r) La correlación de Pearson es un indicador de la fuerzas con que se vinculan las variables, además de señalar la dirección lineal entre ellas. Fórmula
r
Cov ( x, y )
∗
√[ (
x
y
∗
∑
−
∑ − ∑ ∑ ∗
( ∑ )
) ] [( ∗
∗
∑
−
( ∑ ))
)]
Coefciene de Pearson (r) Interpretación de la magnitud del coeficiente de correlación de Pearson Muy Alta -1
-- -0.8 erfecta --
Alta --
Moderada
Baja
--
--
-0.6
-0.4
Muy baja
Muy baja
--
+
-0.2
0 Nula
Baja 0. 2
+
Moderada
Alta
+
+
0.4
0.6
Muy Alta 0.8
+ 1 Perfecta +
Coefciene de Pearson (r) Tener en cuenta: Nivel de medición de las variables: las dos variables deben ser de intervalo o de razón, aunque no es necesario que ambas tengan el mismo nivel de medición. Ejemplos de estas características en psicología, el nivel de ansiedad de un sujeto (en puntos) y la frecuencia cardíaca (en ppm); en medicina, la presión arterial media (en mm de Hg) y la l a concentración de glicemia en la sangre (en mg/dL); en economía, el índice de precios al consumidor (en porcentaje) y el producto interno bruto (en dólares americanos); entre otras. Datos pareados: se requiere que exista la misma cantidad de datos en cada variable. De existir valores perdidos, estos registros se descartarán por completo del análisis. Normalidad bivariada: el uso apropiado del coeficiente de correlación de Pearson exige que se satisfaga el supuesto de normalidad bivariada; esto es, que la distribución de probabilidad conjunta
de X y Y sea normal.
Caso: edad y días de ausencia El jefe de personal de una empresa cree que existe una relación entre la ausencia al trabajo y la edad del empleado. Tomó en cuenta la edad de 10 trabajadores y contabilizó los días de ausencia durante el ultimo año. Observar datos de la tabla Edad
N° días de ausencia
25 50 35 20
20 5 10 20
45 50 30 40 62
8 2 15 12 1
40
8
- Trace el diagrama de dispersión. - Deermine el grado de relación lineal enre esas 2 variables.
Caso: edad y días de ausencia Diagrama de dispersión Edad
N° días de ausencia
25 50 35 20 45 50
20 5 10 20 8 2
30 0 4 62 40
12 5 1 1 8
e a d i s c a n í e d s ° u N a
Edad
Caso: edad y días de ausencia Edad
N° días de ausencia
Correlación de Pearson XY
X
2
2
Y
25
20
500
625
400
50
5
250
2500
25
35
10
350
1 12 225
100
20
20
400
400
400
45
8
360
2025
64
50
2
100
2500
4
30
15
450
900
225
40
12
480
1 16 600
144
62
1
62
3844
1
40
8
320
1600
64
397
101
3272
17219
1 14 427
( ) ∗ ( ) − ( ) ∗ ( ) √ [ ∗ ( ) − ( ) ] ∗ [ ∗ ( ) − ( ) ]
− , =
∑ = ∑ = ∑ = = = ∑ ∑
=
=
Existe una relación inversa muy alta entre edad del trabajador (X) y N° de días de ausencia al trabajo (Y) al obtener un valor de -0.958, es decir al aumentar la edad disminuye los días de ausencia al trabajo.
∑
∑
Trabajo de aplicación grupal • Reunirse en grupo, idencar las variables o dimensiones que se relacionaran en su invesgación invesg ación propuesta y exponerla en clase. Tener en cuenta los objevos de invesgación propuestos.
Regresión ión lineal Regres
https://phet.colorado.edu/sims/h https://phet.c olorado.edu/sims/html/least-squares-regres tml/least-squares-regression/latest/leas sion/latest/least-squares-regression_es t-squares-regression_es.html .html
Regresión ión lineal Regres Es un modelo que permite describir la influencia de una variable X sobre la otra variable Y. X: Variable independiente Y: Variable dependiente Casos: - Estudiar la influencia de la estatura del padre sobre la estatura del hijo. - Estimar el precio de una vivienda en función de la superficie
Regresión ión lineal Regres modelo regresión lineal Es un modelo que conociendo el valor de X, el valor de Y queda perfectamente establecido
= + Donde: Coeficientes de regresión (parámetros a estimar) Bo : intercepto de la recta con el eje Y B1 : pendiente de la recta
Variables X: variable independiente Y: variable dependiente
Regres Regresión ión lineal modelo regresión lineal
= + Si B1 > 0 hay relación lineal positiva Si B1 < 0 hay relación lineal negativa
Ejemplo: Supongamos Supongamos que la recta de regresión es: Gastos familiares familiares = 1565 + 229 x integrantes Se estima que una familia de 5 integrantes tendrá gastos: Gastos familiares = 1565 + 229 × 5 = 2690
Regres Regresión ión lineal Estimación de los coeficientes mediant mediante e los mínimos cuadrados Mediante el método de mínimos mínimos cuadrados puede ob obtenerse tenerse los valores de que mejor se ajustan a los datos
=
∗ ∑ − ∑ ∗ ∑
∗ ∑ − ( ∑ )
´ − ´ =
Caso: exensión de los brazos y esaura ¿Se podrá determinar determinar la estatura de una persona si se conoce la medida de la extensión de su brazo?. Se tomó en cuenta los datos de 10 personas. Exensión Observar datos de la tabla Estatur
persona brazos
(cm). 1 2 3 4 5 6 7 8 9 10
a (cm).
72 69 70 71 70 75 70 68 65
172 161 180 175 169 172 162 163 150
68
166
• Existe una relación entre las dos variables? • Como se puede caracterizar esa relación
Caso: exensión de los brazos y esaura ¿Se podrá determinar la estatura de una persona si se conoce la medida de la extensión de su brazo?. Coeficientes:
persona 1 2 3 4 5 6 7 8 9 10 SUMA PROMEDIO
Exensión brazos (cm)
Esaura (cm)
X2
Y2
XY
72 69 70 71 70 75 70 68 65 68
172 161 180 175 169 172 162 163 150 166
5184 4761 4900 5041 4900 5625 4900 4624 4225 4624
29584 25921 32400 30625 28561 29584 26244 26569 22500 27556
12384 11109 12600 12425 11830 12900 11340 11084 9750 11288
698 69.8
1670 167
∗ ∑ − ∑ ∗ ∑ = ∗ ∑ − ∑
(
´ = ´ −
)
= 2.264 Por cada cm adicional en la extensión de los brazos (X), la estura incrementa en 2.264 cm 8.962
48784 279544 116710
= . + . ó
Modelo:
Coefciene Coefcien e de deerminación R2 Proporción de la variación total en la variable y, que es explicada por la variación en la variable independie independiente nte x. El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del ajuste de un modelo lineal estimado a un conjunto de datos. Valores:
0≤
Cuanto más cerca de 1 se sitúe su valor, mayor es el ajuste del modelo a la variable que estamos intentando explicar, mas fiable es. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será.
Coefcien Coefciene e de deerminación R2
Coefciene Coefcien e de deerminación R2 V. total
2
r
V. Explicada
V. No explicada
2 ത (Y- )
(Y’- )2
(Y-Y’)2
9
0
0.0
0.0
4.8
9
16
0.2
0.04
7
6.9
9
4
0.1
0.01
14
13.2
9
25
0.8
0.64
10
11.1
9
1
-1.1
1.21
∑= 46
∑= 44.10
∑= 1.90
Y
Y’
9
9.0
5
Var . Explicada Var .Total
ത
(Y 'Y ) 0.96 2 (Y Y ) 2
Podemos afirmar que el ajuste del modelo es bueno, el valor 0,96 es cercano a 1. en concreto, el 96% de la variación de la altura (Y) esta explicada por la variación de la edad de las plantas (X), según el modelo de regresión.
Lo maravilloso de aprender es que nadie puede impedírelo..!!
Caso: publicidad y ven venas as En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han recopilado, los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos (Y). 1
2
3
4
5
6
7
8
9
10 10
Publicidad en minutos X
20
30
30
40
50
60
60
60
70
80
Ventas Y
50
73
69
87
108
128
135
132
148
170
Semana
-
Trace el diagrama de dispersión. Deermine el grado de relación lineal enre esas 2 variables. Deermine el modelo de regresión para esas variables Si la publicidad es de 85 min. Cúanos arculos arculos se venderá?
maeria ia primas Caso: humedad en local y maer La materia prima que se usa en la elaboración de una bra sintéca se almacena en un local que no ene control de humedad. Las mediciones de la humedad relava en el local y del contenido de humedad de una muestra de la materia prima (ambos en porcentajes) porcentajes) durante 12 1 2 días, d ías, dieron los siguientes s iguientes resultados. a)
Realice Realice un un diagram diagrama a de dispe dispersi rsión ón e indiq indique ue ¿Sugie ¿Sugiere re la la gráca gráca una asociación lineal?
b) c) d) e)
Real Realic ice e la ecu ecuac ació ión n de reg regre resi sión ón Inter Interpre prete te la la pendie pendient nte, e, real realice ice un un pronó pronós sco co Calcu Calcule le e interp interpre rete te el coec coecien iente te de corre correlac lación ión Calcule Calcule e int interpr erprete ete el coecien coeciente te de determi determinació nación n
Humedad (X)
Contenido de humedad (Y)
42 35 50
12 8 14
43 48 62 31 36 44 39
191 16 7 9 12 10
55 48
13 11
Caso: venas y gasos Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para medir la inuencia sobre las ventas del gasto en publicidad. En 8 regiones del país, se realizaron diferentes variaciones relavas en el gasto en publicidad, comparado con el año anterior, y se observaron las variaciones en los niveles de ventas resultantes. La tabla adjunta muestra los resultados.
a) b) c) d)
Realice un diagrama diagrama de dispersión e interprete interprete los resultados resultados Realice la ecuación de regresión regresión e interprete interprete la la pendiente. pendiente. Calcule Calcule e interpr interprete ete el coeci coecient ente e de determin determinación ación Realice un pronósco pronósco si el gasto gasto de publicidad publicidad incrementa incrementa en un un 5% y en 15%
Caso: venas y gasos Una compañía de seguros considera considera que el número de vehículos (y) que circulan por una determinada autopista considerada congesonada si va más de 120 km/h , puede ponerse en función del número de accidentes automovilíscos (x) que ocurren en ella. Durante 7 días obtuvo los siguientes resultados: Accidentes xi Vehículos yi
a) b) c) d)
5
7
5
3
2
1 9
15 18 13 11 10 8 20
Realice un diagrama diagrama de dispersión e interprete interprete los resultados resultados Realice la ecuación de regresión regresión e interprete interprete la la pendiente. pendiente. Calcule Calcule e interpr interprete ete el coec coecient iente e de determin determinación ación Realice Realice un pronós pronósco co si la cand candad ad de accident accidentes es es de 4 y 6
Caso: edad y conduca agresiva agresiva En la tabla siguiente se indica la edad y la conducta agresiva (medida en una escala de cero a 10) de 10 niños. Edad Conducta agresiva
6 9
6 6
6.7 7
7 8
7.4 7
7.9 4
8 2
8.2 3
8.5 3
8.9 1
a) Obtener la recta de regresión regresión de la la conducta conducta agresiva agresiva en función función de la edad. b) Gracar Gracar la nube nube de puntos puntos y la recta recta de regres regresión. ión. c) A parr de dicha recta, recta, obtener obtener el valor valor de la la conducta agresiva agresiva que correspondería correspondería a un niño de 7.2 años. d) Calcular e interpret interpretar ar el coeciente coeciente de determinación. determinación.
Bibliografía ❑ TEXTOS: ✔ Análisis Mulvariante Aplicado
Autores: Ezequiel Uriel Jiménez – Joaquín Aldás Manzano ✔ Técnicas estadíscas mulvariantes.
Autor: Félix Calvo Gómez.
View more...
Comments