Trabajo Grupal Estadística
Short Description
EJERCICIOS DE REGRESION LINEAL...
Description
Tema: Regresión Lineal y Correlación Facultad: Ciencias Administrativas Curso: Estadística para la Toma de Decisiones Profesor: VICENTE ARMAS, EDGAR Ciclo: IV Alumnos: CERRÓN TUESTA, Josué CASTILLEJO CHIGNE, Michael Frank SANTIVAÑES SALAZAR, Jackeline Ximena BASURTO SANTOS, Antony Hugo BARZOLA OSORIO, Jefferson SIMÓN CUEVA, Paul Snaider
2017
Dedicatoria A mis padres quienes siempre han sido un ejemplo. A mis profesores por el apoyo y la incansable paciencia.
Introducción Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres influye significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos padres presentan una determinada estatura. Los métodos de regresión estudian la construcción de modelos para explicar o representar la dependencia entre una variable respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o dependiente(s), X. En este Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas: • ¿Es significativo el efecto que una variable X causa sobre otra Y? ¿Es significativa la dependencia lineal entre esas dos variables? • De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la variable dependiente (Y) a partir de valores observados en la independiente (X).
Marco teórico Regresión lineal la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε.
Covarianza: La covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta.
Coeficiente de correlación: El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
T de Student: la prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en análisis discriminante.
Objetivos Objetivos generales:
Comprender e interpretar los términos variable dependiente e independiente.
Calcular e interpretar el coeficiente de correlación, el coeficiente de determinación y el error estándar de estimación.
Realizar una prueba de hipótesis para determinar si el coeficiente de correlación en la población es cero.
Calcular la recta de regresión por mínimos cuadrados.
Elaborar e interpretar intervalos de confianza y pronóstico para la variable dependiente
Objetivos específicos
Saber relacionar todo teoría a los casos de la vida real.
Tomar decisiones en base a los resultados encontrados luego del análisis estadístico.
37. Una aerolínea comercial selecciono una muestra aleatoria de 25 vuelos y determinó que la correlación entre el número de pasajeros y el peso total, en libras, del equipaje almacenado en el comportamiento para ello es 0.94. Con el nivel de significancia de 0.05. ¿Se puede concluir que hay una asociación positiva entre ambas variables? X: número de pasajeros Y: peso total en libras del equipaje almacenado en el comportamiento n= 25 r: 0.94 1° paso: Formulación de hipótesis H0: ρ= 0 (No existe una asociación positiva) H1: ρ≠ 0 (Existe una asociación positiva) 2° paso: n30. Por lo tanto el valor critico en la tabla de la distribución normal el cual es -1.64
1.64
Tercer paso: Regla de decisión Rechazar H0 si t < = -1.64 Cuarto paso: Cálculo del estadístico Utilizamos una distribución normal como estadístico de prueba ya que la muestra es mayor que 30. Entonces para probar la hipótesis nula, utilizamos La fórmula para t es:
𝑡=
𝑟 ∗ √𝑛 − 2 √1 − 𝑟 2
=
−0.363 ∗ √32 − 2 √1 −(−0.363)2
= −2.133779844
Quinto paso: Conclusiones y recomendaciones. El valor “t” calculado se encuentra en la región de rechazo. Por ello, 𝑯𝟎 se rechaza y H1 se acepta. Esto significa que la correlación entre la población es menor que cero. Existe una correlación negativa. 43. ¿Cuál es la relación entre la cantidad gastada por semana en diversión y el tamaño de la familia? ¿Gastan más en diversión las familias grandes? Una muestra de 10 familias del área de Chicago reveló las siguientes cifras por tamaño de familia y cantidad gastada en diversión por semana.
a) Calcule el coeficiente de correlación. 𝒓=
̅ )(𝒀 − 𝒀 ̅) ∑(𝑿 − 𝑿 𝟏𝟔𝟑. 𝟓 = = 𝟎. 𝟓𝟖𝟗 (𝒏 − 𝟏)𝑺𝑿 𝑺𝒀 𝟗 ∗ 𝟏. 𝟐𝟔𝟗𝟐 ∗ 𝟐𝟒. 𝟐𝟗𝟏𝟗
b) Establezca el coeficiente de determinación. 𝒓𝟐 = (𝟎. 𝟓𝟖𝟗)𝟐 = 𝟎. 𝟑𝟒𝟕 c) ¿Existe una asociación positiva entre la cantidad gastada en diversión y el tamaño de la familia? Utilice el nivel de significancia 0.05 Por consiguiente realizaremos la Prueba de hipótesis del coeficiente de correlación (o de la linealidad del modelo). Primer paso: Prueba de hipótesis de la existencia de Beta (β1).
H0 : 0
(La correlación entre la población es menor que cero )
H1 : 0
(La correlación o asociación entre la población es mayor o igual que cero)
Segundo paso: Tamaño de muestra n = 10, nivel de significación (α)= 5%, utilizamos la tabla t (student) con n=10 – 2 grados de libertad. n – k= 10 – 2= 8 α= 5%
1.860
Valor critico en la tabla de la distribución “t” el cual es 1.860 Tercer paso: Regla de decisión Rechazar H0 si t > = 1.860 Cuarto paso: Cálculo del estadístico t0 𝑡=
𝑟 ∗ √𝑛 − 2 √1 − 𝑟 2
=
0.589 ∗ √10 − 2 √1−0.5892
= 2.06147
Quinto paso: Conclusiones y recomendaciones. El valor “t” calculado se encuentra en la región de aceptación. Por ello, 𝑯𝟎 se acepta y H1 se rechaza. Esto significa que la correlación entre la población es menor que cero. Hay una correlación negativa y no positiva como se dice en la pregunta.
45. El fabricante de equipo para ejercicio Cardio Glide desea estudiar la relación entre el número de meses desde la compra de un aparato y el tiempo que se utilizó el aparato la semana pasada.
Meses con el equipo 12 2 6 9 7 2 8 4 10 5 65 Ȳ
Horas de uso 4 10 8 5 5 8 3 8 2 5 58 6.5 5.8
n
10
(X 5.5 -4.5 -0.5 2.5 0.5 -4.5 1.5 -2.5 3.5 -1.5
)
(Y - Ȳ)
(X -
-1.8 4.2 2.2 -0.8 -0.8 2.2 -2.8 2.2 -3.8 -0.8
30.25 20.25 0.25 6.25 0.25 20.25 2.25 6.25 12.25 2.25 100.5 3.34165628 2.57336788 0.82693964
Sx Sy r
)^2
(Y - Ȳ)^2 (X 3.24 17.64 4.84 0.64 0.64 4.84 7.84 4.84 14.44 0.64 59.6
-9.9 -18.9 -1.1 -2 -0.4 -9.9 -4.2 -5.5 -13.3 1.2 -64
b
-0.63681592
a
9.93930348
a) Trace la información en un diagrama de dispersión. Suponga que las horas de uso son la variable dependiente. Comente sobre la gráfica.
Diagrama de dispersión 12 10 8 6 4 y = -0.6368x + 9.9393 R² = 0.6838
2 0 0
2
4
6
8
10
12
)(Y - Ȳ)
14
La grafica al tener una pendiente negativa y al estar los puntos tan cerca a la recta muestra que existe una correlación negativa fuerte
entre las variables. Además que por cada mes adicional el tiempo de uso se reduce en -0.6368
b) Determine el coeficiente de correlación. Interprete el resultado.
𝒓=
∑(𝒙 − 𝒙 ̅)(𝒚 − 𝒚 ̅) −𝟔𝟒 = = −𝟎. 𝟖𝟐𝟔9 (𝒏 − 𝟏)(𝑺𝒙 𝑺𝒀 ) 𝟗 × 𝟑. 𝟑𝟒𝟏𝟔 × 𝟐. 𝟓𝟕𝟑𝟑
El coeficiente de correlación es negativo, quiere decir que existe una relación inversa entre las variables, este valor esta muy cerca al -1 por lo que se concluye que hay una asociación fuerte. c) Con un nivel de significancia de 0.01, ¿hay una asociación negativa entre las variables? H0 ρ = 0 (la correlación entre la población es cero.) H1 ρ ≠ 0 (la correlación entre la población es diferente de cero.) 𝑡=
𝑟√𝑛 − 2 √1 − 𝑟 2
=
−0.8269√10 − 2 √1 − (−0.8269)2
= −1.804
Rechazar H0 si y solo si: -2.355 < t < 2.355
-2.355
0
+2.355
Se rechaza H0 y se acepta la H1 , llegando a la conclusión que el coeficiente de correlación de la muestra -0.8269 es demasiado grande como para
provenir de una población sin correlación. Existiendo una relación negativa o inversa entre ambas variables, y la relación entre ambas variables es fuerte. 46. La siguiente ecuación de regresión se calculó a partir de una muestra de 20 observaciones: Ŷ = 15 – 5X Fuente Regresión Error Total
gl 1 20 – 2 20 – 1
SS 300 100 400
MS 300 16.666667
SSE se determinó ser 100, y SS total, 400. a) Determine el error estándar de estimación. 𝑆𝑆𝐸 100 𝑆ᵧ. ᵪ = √ =√ = 2.3570 𝑛−2 18 b) Encuentre el coeficiente de determinación. 𝑆𝑆𝑅 300 = = 0.75 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 400 c) Determine el coeficiente de correlación. (Precaución: ¡cuidado con el signo!) 𝑟2 =
𝑟 = √𝑟² = √0.75 = 0.866 47. Una tabla ANOVA comprende:
FUENTE Regresión
DF 1
SS 50
MS SSR/1
Error Total
n-2 24
SSE SS total*
SSE/n-2 500
F SSR/(SSE/n2)
a) Complete la tabla ANOVA. FUENTE Regresión Error
DF 1 23
SS 50 10350
MS 50 450
F 0.1111
Total
24
10400
500
b) ¿Cuál fue el tamaño de la muestra? 𝒏 = 𝒕𝒂𝒎𝒂ñ𝒐 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒂 𝒏 − 𝟐 = 𝟐𝟑 => 𝒏 = 𝟐𝟓 c) Determine el error estándar de estimación.
𝑆ᵧ. ᵪ = √
𝑆𝑆𝐸 10350 =√ = 21.213 𝑛−2 23
d) Establezca el coeficiente de determinación. 𝑟2 =
𝑆𝑆𝑅 50 = = 0.004807 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 10400
48. Emily Smith decide comprar un auto que consuma poco combustible. Considera varios vehículos, con base en el costo estimado de compra y la edad del vehículo.
a) Trace estos datos en un diagrama de dispersión, con el costo de estimado como variable dependiente.
Diagrama de dispersión 25,000.00 20,000.00 15,000.00 10,000.00 5,000.00
y = -1533.6x + 18358 R² = 0.6763
0.00 0
2
4
b) Calcule el coeficiente de correlación.
6
8
10
12
𝒓=
∑(𝒙 − 𝒙 ̅)(𝒚 − 𝒚 ̅) −𝟏𝟕𝟐, 𝟑𝟏𝟒. 𝟕𝟗 = = −𝟎. 𝟖𝟐𝟐𝟒𝟎 (𝒏 − 𝟏)(𝑺𝒙 𝑺𝒀 ) 𝟏𝟑 × 𝟐. 𝟗𝟒 × 𝟓, 𝟒𝟖𝟐. 𝟑𝟒
c) Se realizó un análisis de regresión y la ecuación de regresión resultante es Costo estimado = 18358 – 1534 Edad. Interprete el significado de la pendiente. Ŷ = 18,258– 1,534X Pendiente = b = -1,534 Quiere decir que por cada año adicional que tenga un vehículo el costo estimado se reducirá en $ 1,534. d) Calcule el costo de un auto de cinco años. Ŷ = 𝟏𝟖, 𝟐𝟓𝟖– 𝟏, 𝟓𝟑𝟒𝐗 = 𝟏𝟖, 𝟐𝟓𝟖 − 𝟏, 𝟓𝟑𝟒(𝟓) = 𝟏𝟎, 𝟓𝟖𝟖. 𝟎𝟎 e) La siguiente es una fracción de la captura de pantalla del software de la regresión. ¿Qué le dice esto?
Que la ecuación seria de esta manera: Ŷ = 18358 − 1533.6𝑋 Y que tiene un pendiente negativa fuerte. f) Utilizando un nivel de significancia de 0.10, pruebe la significancia de la pendiente. Interprete el resultado. ¿Existe una relación significativa entre ambas variables? Prueba de significancia de la pendiente: Formulación de la hipótesis 𝐻0 : 𝛽1 ≥ 0 𝐻1 : 𝛽1 < 0 Tamaño de la muestra 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎: 𝑛 = 8 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖𝑜𝑛: 𝛼 = 10% Regla de decisión
Rechazar H0 si y solo si: -1.943 < t < 1.943
t= 1.943
0
-1.943
+1.943
Calculo del estadístico t0 Determinación del estadístico (“t” calculable) 𝑡=
𝑏 − 𝛽 −1,534 − 0 = = −5.008 𝑠𝑏 306.25
Conclusión y recomendación. Se rechaza H0 y se acepta la H1 , llegando a la conclusión que el coeficiente de correlación de la muestra -0.822 es demasiado grande como para provenir de una población sin correlación. Existiendo una relación negativa o inversa entre ambas variables, y la relación entre ambas variables es fuerte.
49. La National Highway Association estudia la relación entre el número de
licitadores en un proyecto para una carretera y la licitación más alta (menor costo) del proyecto. De interés particular resulta saber si el número de licitadores aumenta o disminuye la cantidad de la oferta ganadora.
a) Determine la ecuación de regresión. Interprete la ecuación. ¿Más licitadores tienden a aumentar o a disminuir la cantidad de la oferta ganadora?
RPTA: La ecuación sería esta: Y= -0.4652x + 11.218 -Por cada incremento del número de licitadores en una unidad la oferta disminuye en -0.4652
b) Estime la cantidad de la oferta ganadora si se hubieran presentado siete licitadores. Y= -0.4652x + 11.218 Y= -0.4652(7) + 11.218 Y= 7.9616
c) Se desea construir una nueva entrada en la carretera Ohio Turnpike. Se presentaron siete licitadores. Determine un intervalo de predicción de 95% de la oferta ganadora. RPTA: Intervalo de predicción
10.9886559 d) Determine el coeficiente de determinación. Interprete su valor. R^2 = 0.50302688 El grado de variación de la oferta ganadora por la variación de número de licitadores está equilibrado
50. El señor William Profit estudia compañías que se hacen públicas por primera vez. Le interesa en particular la relación entre el tamaño de la oferta y el precio por acción. Una muestra de 15 compañías que recién se hicieron públicas reveló la siguiente información.
a) Determine la ecuación de regresión.
Diagrama de dispersión 11.4 11.2 11 10.8 10.6 y = 0.0031x + 10.66 R² = 0.2106
10.4 10.2 0
20
40
60
80
100
120
140
160
180
200
Y = 0.0031x + 10.66 b) Establezca el coeficiente de determinación. ¿Considera que el señor Pocho con el tamaño de la oferta como variable independiente? R^2 = 0.21721278 El señor no está satisfecho con que el tamaño de la oferta sea una variable independiente.
51. Bardi Trucking Co., ubicada en Cleveland, Ohio, hace entregas en la región de los Grandes Lagos, en el lado sur y en el lado norte. Jim Bardi, el presidente, estudia la relación entre la distancia de recorrido de un embarque y el tiempo, en días, que dura en llegar a su destino. Para investigar esta cuestión, el señor Bardi seleccionó una muestra aleatoria de 20 embarques del mes pasado. La distancia de envío es la variable independiente y el tiempo de envío es la variable dependiente. Los
resultados son los siguientes:
a) Trace un diagrama de dispersión. Con base en estos datos, ¿parece haber una relación entre la cantidad de millas que debe recorrer el embarque y el tiempo que tarda en llegar a su destino?
b) Determine el coeficiente de correlación. ¿Es posible concluir que hay una correlación positiva entre la distancia y el tiempo? Utilice el nivel de significancia 0.05. RPTA: 0.69210443 Si existe una correlación positiva pero débil. c)Establezca e interprete el coeficiente de determinación. R^2 = 0.47900854 d)Determine el error estándar de estimación.
RPTA: 145306.55
53. en la siguiente tabla se muestra información sobre el precio de acción y el dividendo de una muestra de 30 compañas.
a. Calcule la ecuación de regresión usando el precio de venta con base en el dividendo anual interprete el valor de la pendiente a = 2.41 b = 26.8
Ecuación de regresión: Precio= 26.8 + 2.41 x Dividendo
Por cada dólar adicional de dividendo, el precio aumenta $2.41. b. Pruebe la significancia de la pendiente r2 =
5057.6 7682.7
= 0.6858
Por lo tanto, 65.8% de la variación del precio se explica por el dividendo. c. Encuentre el coeficiente de determinación. interprete su valor r t=
= √0.658 = 0.811 0.811 √30 − 2 √1 − (0.811)^2
= 7.34
Y como t se rechaza cuando t >1.701. La correlación de la población es positiva.
54. Un empleado de carreteras realizó un análisis de regresión de la relación entre el número de accidentes fatales en zonas de construcción y el número de desempleados en el estado. La ecuación de regresión es Accidentes fatales 12.7, 0.000114 (Desempleados) Algunos datos adicionales son
a. ¿Cuántos estados había en la muestra? n = 20
b. Determine el error estándar de estimación. 𝑆𝑦𝑥 = √670 = 25.89 c. Encuentre el coeficiente de determinación. r2 =
10354 = 0.462 22408
d. Determine el coeficiente de correlación. 𝑡=
0.679√20 − 2 √1 − (0.679)^2
=
2.880 = 3.92 0.734
e. Con un nivel de significancia de 0.05, ¿sugiere la evidencia que hay una asociación positiva entre los accidentes fatales y el número de desempleados? No, la correlación puede ser negativa
55. El siguiente es un análisis de regresión que relaciona el valor actual de mercado en dólares con el tamaño en pies cuadrados de casas de Greene County, Tennessee. La ecuación de regresión es: Valor 37.186, 65.0 Tamaño.
a. ¿Cuántas casas había en la muestra? n=35
b. Calcule el error estándar de estimación. 𝑆𝑦𝑥 = √29 778 406 = 5456.96 c. Calcule el coeficiente de determinación. r2 =
13548662082 = 0.932 14531349474
d. Calcule el coeficiente de correlación. t=
−0.635√30 − 2 √1 − (−0.635)^2
= − 4.35
e. Con un nivel de significancia de 0.05, ¿sugiere la evidencia que hay una asociación positiva entre los accidentes fatales y el número de desempleados? No, la correlación a veces puede ser negativa 58. Una cooperativa de compras para el consumidor probo el área de clefaccion efectiva de 20 calentadores eléctricos distintos, con consumos, en vatios, distintos. Los resultados son los siguientes.
a) Calcule la correlación entre consumo en vatios y área de calefacción. ¿ Existe una relación directa o indirecta? Hallando el diagrama de análisis de correlación, nos muestra que existe una relación directa o positiva fuerte por el análisis de correlación ( 0.93928707) ya que tiene una acerca a +1.
Diagrama de dispersión y = 0.1489x - 22.581 R² = 0.8823
350 300 250 200 150 100 50 0 0
500
1000 1500
1500
2000
Linear (1500)
b) Realice una prueba de hipótesis para determinar si es razonable que el coeficiente sea mayor que 0. Utilice el nivel de significancia 0.05. HALLAMOS CON NIVEL DE SIGNIFICACION AL 5% PRIMER PASO: Prueba de hipótesis de existencia de beta (β1).
2500
H 0 : 1 0 H 1 : 1 0 SEGUNDO PASO: Tamaño de muestra n = 20, nivel de significación (α) = 5%, utilizamos la tabla t (student) con n – k grados de libertad.
2.101
TERCER PASO: Regla de decisión Rechazar H0 sí y solo sí t0 > 2.101 CUARTO PASO: Calculo del estadístico t0 r√n−2 0.93928707√20−2
t0=
√1−r2
=
√1−0.88226019
= 11.6137623
QUINTO PASO: Conclusiones y recomendaciones. Rechazar H0 y aceptar H1, por lo tanto, existe linealidad entre los vatios y el área. Se recomienda hacer la prueba de hipótesis de la confiabilidad del modelo para hacer pronósticos. c)Elabore la ecuación de regresión del calentamiento efectivo con base en el consumo de vatios. Empezamos hallando la pendiente de la ecuación: b= r * sy/sx b= 0.93928707 * 5004.78684/ 199177.632= 0.1489 a= y- bx a= 157.95– 0.1489 (1212.5)
a= -22.581 Finalmente hallamos la ecuación de regresión: y = 0.1489x - 22.581 R² = 0.8823 d) ¿Qué calentador parece la “mejor compra” con base en el tamaño del residuo? En base a los residuos, el mejor calentador fue el 18 ANÁLISIS DE VARIANZA Grados de libertad Regresión 1 Residuos 18 Total 19
59. Un entrenador de perros investiga la relación entre el tamaño del can (peso en libras) y su consumo alimentario diario (medido en tazas estándar). El resultado de una muestra de 18 observaciones es el siguiente:
a) Calcule el coeficiente de correlación ¿Es razonable concluir que la correlacion entre la población es mayor que 0? Utilice el nivel de significancia 0.05 Coeficiente de correlación múltiple
0.98720335
HALLAMOS CON NIVEL DE SIGNIFICACION AL 5% PRIMER PASO: Prueba de hipótesis de existencia de beta (β1).
H 0 : 1 0 H 1 : 1 0 SEGUNDO PASO: Tamaño de muestra n = 18, nivel de significación (α) = 5%, utilizamos la tabla t (student) con n – k grados de libertad.
1.746
TERCER PASO: Regla de decisión Rechazar H0 sí y solo sí t0 > 1.746 CUARTO PASO: Calculo del estadístico t0 r√n−2 0.98720335√18−2
t0=√1−r2 =
√1−0.974570462
= 24.564
Quinto paso: Conclusiones y recomendaciones. Rechazar H0 y aceptar H1, por lo tanto, existe linealidad entre el peso y las raciones. Se recomienda hacer la prueba de hipótesis de la confiabilidad del modelo para hacer pronósticos. Si es aceptable decir que la relación entre población y correlación es mayor que cero, ya que estos tienen relación. b) Elabore la ecuación de regresión de las tazas con base en el peso del can. ¿Cuánto cambia el peso estimado del perro cada taza adicional del alimento?
Empezamos hallando la pendiente de la ecuación: b= r * sy/sx b= 0.98720335*47.1395162 /2.02919862 = 22.933 a= y- bx a= 92.6111111–22.933 (5.33333333) a= -29.7 Finalmente hallamos la ecuación de regresión: y = 22.933x - 29.7 Hemos encontrado a y b , es decir hemos calculado los estimadores. Al halla b, hemos calculado el incremento ya sea en peso, talla, temperatura, etc. En conclusión, por cada tasa de comida aumentada, el perro aumenta aproximadamente en 23 libras. c)¿Come demasiado o come menos uno de los perros? El perro que más come es el 4to 60. La Waterbury Insurance Company desea estudiar la relación entre la cantidad de daño por fuergo, la distancia entre la casa ardiendo y la estación de bomberos mas cercana. Esta información se empleara en el ajuste de la cobertura del seguro. Mediante una muestra de 30 demandas durante el año pasado, el director del departamento de actuarios determino la distancia de la estación de bomberos (x) y la cantidad de daños, en miles de dólares (y). A continuación se presenta la captura de pantalla de MegaStat.
a) Elabore la ecuación de regresión ¿Hay una relación directa o indirecta entre la distancia de la estación de bomberos y la cantidad de daño?
Hallando la ecuación de regresión: y= 12.3601+4.7956 x
a=12.3601 b=4.7956
Entre la distancia de la estación de los bomberos y la cantidad de daño hay una relación directa, ya que el coeficiente b muestra como signo positivo. Este coeficiente indica que al aumentar una milla más de distancia, se espera una perdida aumentada en 12.3601 miles de dólares. b) ¿Cuánto daño estimaría que provoca un incendio situado a 5 millas de la estación de bomberos más cercana? Hallamos en la ecuación de regresión: Y= 12.3601+4.7956 (5) = 36.3381 miles de dólares e) Realice una prueba de hipótesis para determinar si hay una relación significativa entre la distancia a la estación de bomberos y la cantidad de daño. Utilice el nivel de significancia de 0.01 y una prueba de dos colas. Prueba de la confiabilidad del modelo: n = 30 Significancia = 0.01 α/2 = 0.005 1- α/2 = 0.9995 Tα/2 = 2.763 Regla de Decisión: Rechazar Ho si
Fo > 2.763
Primer paso: Establecer las hipótesis nula y alternativa. H0 : ρ ≤ 0 (la correlacion entre la población es cero) H1 : ρ > 0 (la correlacion entre la población es positiva) Esta prueba es de una sola cola porque lo que nos interesa es confirmar si la asociación es positiva entre las variables. Segundo paso: Hallamos los grados de libertad n-2, entonces tendríamos: 30-2=28, además de saber que el nivel de significancia es 0.05. La regla de decisión nos dice que debemos rechazar la hipótesis nula si el valor calculado del estadístico de prueba es mayor a 1.812.
t=
r√(n − 2) √1 − r 2
=
0.1038√30 − 2 √1 − 0.10382
= 0.329
Respuesta: Observamos que el “t=0.329” es menor que el valor critico; es decir si aceptamos la hipótesis nula. Se concluye entonces que no existe una correlación positiva entre la distancia de la estación de bomberos y la cantidad de daño
61. A continuación se presentan las películas con las ventas mundiales en taquilla más altas y su presupuesto (cantidad total disponible para hacer la película)
Encuentre la correlación entre el presupuesto mundial y las ventas en taquilla mundiales. Comente sobre la asociación entre ambas variables. ¿Parece que las películas con presupuestos mayores obtienen ingresos en taquilla elevados?
3000 y = 0.0489x + 787.77 R² = 0.0005
2500
2000
1500
1000
500
0 0
200 Series1
400
600
diagrama de dispersion
800
1000
Linear (diagrama de dispersion)
Estadísticas de la regresión Coeficiente de 0.023112044 correlación múltiple Coeficiente de 0.000534167 determinación R^2 R^2 ajustado -0.020288038 Error típico 369.8022244 Observaciones 50 Respuesta: Podemos ver que la recta está ligeramente inclinada positivamente y el coeficiente de correlación es de 0.02311, esto nos dice que hay pocas posibilidades que un gran presupuesto para montar una película puede resultar taquillera. Además, que la dispersión es débil, quiere decir que algunas taquillas obtuvieron mayores ganancias y poca inversión y viceversa, no hay una relación estable entre ellas.
1200
Conclusiones y recomendaciones La regresión es una técnica que ayuda a la predicción, pero no dice exactamente lo que ocurrirá, dice lo que podría ocurrir, nos propicia elementos de juicio para decidir, pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total. Se puede estimar ventas por cierta cantidad, que será útil para establecer cuanto producir, mas no son garantías suficientes de que se darán las estimaciones. Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina; ningún método o técnica podrá librarnos de nuestras malas decisiones. Además de que el proceso de obtención de los datos a utilizar como insumo para la predicción podría ser subjetivo, y por ende no se lo suficientemente certero en los resultados.
Sujetarse demasiado en las predicciones, no es fundamento para el desarrollo creativo y decisiones novedosas, esto en el caso de las empresas, ya que no es base suficiente como para decidir quién está siendo más novedoso en el tiempo. Es decir que se ve limitado en el campo cualitativo. La regresión al considerar de manera funcional las variables en estudio vuelve más objetiva la manera de generar los elementos (ecuación) para predecir valores dentro del intervalo.
Bibliografía Lind, Marchal, Wathen. (2008). Estadística aplicada a los negocios y la economía. Mexico: McGraw- Hill Interamericana.
View more...
Comments