Metodos de Regresion Lineal Aplicados al Proceso de Fundicion de Aluminio.
Short Description
Descripción: Les presento mi tesis, es sobre regresion lineal...
Description
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
TESIS
“Métodos de Regresión Lineal aplicado en el proceso de fundición de un tanque muerto de aluminio 356”
PRESENTA POR: Oswaldo Neave Ureña Ante el Honorable Comité de Sinodales de Evaluación de tesis de la Universidad Autónoma de Coahuila. Como requisito para obtener el grado de Maestro en Ingeniería Aplicada.
Asesores: Dr. Rolando Javier Praga Alejo Dr. David Salvador González González
1
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Saltillo, Coahuila
Mayo 2016
RESUMEN Lo que se pretende con esta investigación es aportar conocimientos para poder controlar eficazmente el proceso de fundición ya bien sea utilizando el método de regresión Ridge o el método de Componente Principales, para generar modelos predictores del proceso de fundición. La regresión Ridge es un método estadístico que elimina la multicolinealidad y ayuda a encontrar los estimadores del modelo, éste en comparación con el de mínimos cuadrados hace uso de una estimación sesgada1, lo que le da la ventaja de ser más preciso en sus estimaciones. El método de Componentes Principales al igual que el de mínimos cuadrados elimina la multicolinealidad pero este sin embargo no realiza estimación sesgada. Si no que elige un conjunto de componentes que resultan ser significativos para el proceso de fundición. Una forma que se usa para solucionar el problema de la multicolinealidad y la predicción del proceso de fundición, es eliminar el requisito de que β sea insesgado en el caso de regresión Ridge.Si se permite una pequeña cantidad de sesgo en
^β
^β , la varianza de
puede ser pequeña, lo que hace que su predicción sea más estable, por lo que
beneficiaría a nuestro proceso. Los estimados Ridge se calculan como:
^β =( X ' X )−1 X ' y R A A A A
1Estimación sesgada: se refiere a este tipo de estimación, cuando el estimador del parámetro no está centrado, es decir, que su valor esperado no es igual al parámetro que se desea estimar. 2
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Donde
En donde
XA
X A=
[ ] [] X y y A= 0p √k IP
yA
es la matriz aumentada y
es el vector necesario para calcular la
solución Ridge (Montgomery et al. 2001). Se aplicará el método de regresión Ridge al proceso de fundición, se recopilará una muestra de piezas fundidas, después se hará una comparación con el método de mínimos cuadrados para verificar si el método de regresión Ridge es más preciso en sus estimaciones. Una vez recopilados los datos se tiene que realizar una prueba que me permita diagnosticar si existe multicolinealidad en los datos. El método que utilizaremos aquí es el análisis delos Factores de Inflación de Varianza (VIF), donde si hay uno o más VIF grandes (mayores que 10), entonces existe multicolinealidad en los datos. Este método además de detectar multicolinealidad en los datos, ayuda a identificar cuáles factores intervienen en la multicolinealidad. Una vez hecho este diagnóstico se procede al análisis Ridge y de Componentes Principales, para poder obtener los valores adecuados del modelo que prediga el proceso de fundición.
3
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
Contenido RESUMEN2 INDICE DE FIGURAS......................................................................................................... 5 INDICE DE TABLAS............................................................................................................ 6 Capítulo 1............................................................................................................................ 7 INTRODUCCION................................................................................................................ 7 1.1Estudio retrospectivo....................................................................................... 8 1.2 Estudio Observacional.................................................................................... 8 1.3Experimento Diseñado.................................................................................... 9 Usos de la Regresión:...................................................................................... 9 Capítulo II.......................................................................................................................... 10 PLANTAMIENTO DEL PROBLEMA.....................................................................10 2.2 Objetivo General.......................................................................................... 11 2.3 Objetivos Específicos................................................................................... 11 2.4 Preguntas de Investigación........................................................................... 12 2.5 Hipótesis General........................................................................................ 13 2.6 Hipótesis Específicas................................................................................... 13 2.7 Justificación................................................................................................ 14 2.8 Variables.................................................................................................... 14 Capítulo III......................................................................................................................... 15 4
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 MARCO DE REFERENCIA...............................................................................................15 Capítulo IV........................................................................................................................ 18 MARCO TEORICO............................................................................................................18 4.1 Regresión Lineal.......................................................................................... 18 4.2 Regresión y Formación de Modelos................................................................18 4.3 Recolección de Datos................................................................................... 21 4.3.1 Estudio Retrospectivo............................................................................. 21 4.3.2 Estudio Observacional............................................................................ 22 4.3.3 Experimento Diseñado............................................................................22 4.4 Estimación de los Parámetros por Mínimos Cuadrados.....................................23 4.4.1 Estimación de
β0
y
β 1 .................................................................23
4.5 Regresion Lineal Múltiple.............................................................................. 24 4.5.1 Modelo de Regresión Múltiple..................................................................24 4.5.2 Estimación de los Parámetros del Modelo..................................................25 4.5.3 Propiedades de los Estimadores de Mínimos Cuadrados.............................27 4.5.4 Estimación de
σ 2 .............................................................................. 27
4.5.5 Prueba de la Significancia de la Regresión................................................28 4.5.6 Estadísticos
R 2 y R 2 aj y Coeficiente de Correlación “r”.........................30
4.5.7 Prueba “t” para los coeficientes de Regresión............................................31 4.5.8 Error de Predicción Promedio Cuadrado....................................................31 4.5.9 Intervalos de Confianza en Regresión Múltiple...........................................32 4.5.10 Coeficientes Normalizados de Regresión................................................33 4.5.11 Escalamiento normal unitario.................................................................33 4.5.12 Escalamiento de Longitud Unitaria..........................................................34 4.5.11 Modelo de Segundo Orden....................................................................35 4.6 Multicolinealidad.......................................................................................... 36 4.6.1 Fuentes de Multicolinealidad....................................................................37 4.6.3 Diagnóstico de la Multicolinealidad...........................................................38 4.6.4 Factores de Inflación de la Varianza (VIF)..................................................38 5
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.6.5 Análisis del Eigensistema........................................................................39 4.6.6 Métodos para Manejar la Multicolinealidad.................................................39 4.6.7 Recolección de Datos Adicionales............................................................39 4.6.8 Re-especificación del Modelo..................................................................40 4.7 Regresión Ridge.......................................................................................... 40 4.7.1 Métodos para seleccionar k.....................................................................43 4.7.2 Regresión Ridge y la Selección de Variables..............................................45 4.8 Regresión por componentes principales..................................................45 Capítulo V......................................................................................................................... 47 METODOLOGIA................................................................................................................47 En esta sección se pretende dar a conocer las diferentes etapas para la elaboración de este proyecto de aplicación, como se muestra en la Figura 5.1 es necesario realizar con detalla la elaboración de los siguientes pasos:..................................................................47 Capítulo VI........................................................................................................................ 49 EXPERIMENTACION Y APLICACION..............................................................................49 6.1
Descripción de la experimentación.............................................................49
6.2 Obtención de los Datos................................................................................. 49 6.3Análisis de datos.......................................................................................... 50 6.5 Modelación................................................................................................. 53 6.5.1 Regresión Múltiple................................................................................. 53 6.5.2 Regresión Ridge.................................................................................... 53 6.5.2 Regresión por Componentes Principales...................................................54 6.6 Validación................................................................................................... 54 Capítulo VII....................................................................................................................... 55 CONCLUSIONES............................................................................................. 55 Bibliografía........................................................................................................................ 57
6
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
INDICE DE FIGURAS Figura 4.1 Grafica de Entrega y Tiempo……………………………………..…….….…..…..20 Figura 4.2 Línea Recta de los Datos de Entrega y Tiempo……………………………….…21 Figura 4.3 Distribución de Muestreo de Estimadores insesgado de
β ………..………….
…42 Figura 4.4 Coeficientes sesgados de
β …………………………………………………….
…..43 Figura 5.1 Metodología propuesta………………………………………….……………..……49 Figura 6.1 Efectos principales para la respuesta……………………………………..………52 Figura 6.2 Respuesta de Regresión Múltiple vs Real…………………………….……….…55 Figura 6.3 Respuesta de Regresión Ridge vs Real……………………………………..……55 Figura 6.4 Respuesta por Componentes Principales vs Real………………………….……56
7
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
INDICE DE TABLAS Tabla 4.1 Análisis de Varianza…………………………………………………………………31 Tabla 6.1 Matriz de datos recolectados de proceso de fundición………………………….51 Tabla 6.2 Efectos del coeficiente de regresión……………………………………………….52 Tabla 6.3 Análisis de Varianza por Regresion Múltiple Ordinario……. …………………...53 Tabla 6.4 Análisis de Varianza por Regresión Ridge….………………………………….….53 Tabla 6.5 Análisis de Varianza por Componentes Principales……………………………..53 Tabla 6.6 Calculo de VIF de los estimadores por Regresion Múltiple Ordinario…………54 Tabla 6.7 Calculo de VIF de los estimadores por Regresion Ridge………………………..54
8
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Tabla 6.8 Calculo de VIF de los estimadores por Regresion MPC…………………………54 Tabla 6.9 Comparación de métodos de Regresion Lineal………………………………..…56
9
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Capítulo 1 INTRODUCCION Este trabajo describe métodos de regresión lineal para poder predecir el comportamiento del proceso de fundición de un tanque muerto (aluminio 356), mediante una serie de pasos mencionados posteriormente, así como una interpretación de los resultados obtenidos, se utilizara el que prediga mejor los datos para poder modelar el proceso de soldadura en cuestión. En la industria podría tener cambios buenos, ya que normalmente existen problemas de calidad relacionados con fundición, muchas piezas resultan estar fuera de especificación, lo que podría ocasionar que ensambles no se solidifique en el tiempo apropiado, el producto no funcioné de manera apropiada. En la recolección de los datos se puede presentar el caso, también se puede dar el caso donde exista multicolinealidad en los datos, es decir que exista una dependencia lineal en los regresores por lo que es necesario utilizar métodos estadísticos sesgados, en este caso utilizaremos el método de regresión Ridge y el método de componentes principales. Para la detección de la multicolinealidad de los datos se emplean varios métodos; análisis de la matriz de correlaciones X’X, en el cual si un determinantes es muy cercano a cero, indica que tiene problemas de multicolinealidad. El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variables, la relación de una recta que relaciona esas dos variables es
y=β 0 + β 1 x
Donde
β0
β1
es la ordenada al origen y
es la pendiente. Los datos no caen
exactamente sobre una recta. Sea la diferencia entre el valor observado de
10
y
y el de la
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 línea recta
β (¿ ¿ 0+ β 1 x ) ¿
un error de
ε , un modelo más plausible para los datos del
tiempo de entrega es
y=β 0 + β 1 x +ε
La ecuación se llama modelo de regresión lineal, donde x es la variable predictora y
y
la variable respuesta, se llama modelo de regresión lineal simple. La respuesta media en cualquier valor de la variable regresora es
E( y∨x )=μ y∨x =E ( β 0 + β 1+ ε ) =β0 + β 1 x y
La varianza de
para cualquier valor dado de
x
es
Var ( y ∨x )=Var ( β 0+ β 1 +ε )=σ 2
La altura de la línea de regresión en cualquier valor de esperado de
y
para esa
x
no es más que el valor
x .
Recolección de Datos: Hay tres métodos básicos: 1.1Estudio retrospectivo Ofrecen con frecuencia cantidades limitadas de información útil, sus principales desventajas son:
Faltan algunos datos importantes La Fiabilidad y la calidad de los datos suelen ser muy dudosos Pueden no permitir atacar el problema de mano Pueden no explicar fenómenos interesantes que identifica el análisis de datos
11
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Los datos históricos suelen sufrir errores de transcripción y otros problemas con la calidad de datos, también no permiten al analista incluir el factor de análisis de los datos, aunque tenga cierta importancia, por consiguiente tienen menos calidad, menos exactitud y fiabilidad mínima, la memoria comienza a fallar con el tiempo. 1.2 Estudio Observacional Solo se observa el proceso o la población y se interacciona o perturba el proceso lo necesario para obtener datos relevantes, pueden asegurar datos exactos, complejos y fiables, reduce al mínimo las probabilidades de observar un dato atípico relacionado con algún error en los datos, presentan a tener problemas de linealidad.
1.3Experimento Diseñado La mejor estrategia resulta ser hacer un experimento diseñado (Diseño de experimentos) Usos de la Regresión: Se usan con varios fines: Descripción de datos, Estimación de parámetros, Control, Predicción y estimación.
12
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
Capítulo II PLANTAMIENTO DEL PROBLEMA El presente proyecto consiste en investigar el comportamiento de los factores
bajo
estudio (Temperatura de metal, temperatura del molde, basculamiento, iteración de temperaturas) en el modelo matemático. Será mediante la regresión Ridge y Componentes principales y dependiendo de los resultados que arroja se generara el modelo predictor y elegirá el mejor, el proyecto buscará reducir el número de defectos en la fundición de un tanque muerto una vez enfriado, ya que este es un factor muy importante en la consideración de costos de un proyecto. Disminuyendo en lo posible los costos de producción, al eliminar problemas de calidad en el producto. Los parámetros como temperatura del metal, temperatura del molde, basculamiento, resultan ser los parámetros críticos para el estudio de los experimentos, en donde la combinación de estos logre un modelo que sea el óptimo, para el cual es necesario la recolección de estos datos estadísticos de la máquina para poder introducirlos a los modelos matemáticos y poder expresar la factibilidad mediante el modelo propuesto.
13
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Sin embargo en la recolección de los datos existe el problema de la multicolinealidad, es decir que existe una dependencia lineal en los regresoras, por lo que es necesario utilizar un método alternativo para la modelación de la trayectoria de soldadura. El método de mínimos cuadrados no resuelve este problema, por lo que en la fase de experimentación se establecerá un modelo que estime los parámetros que influyen en el proceso de soldadura y que a su vez elimine el problema de la multicolinealidad.
2.2 Objetivo General. Utilizar métodos de regresión lineal para predecir el comportamiento en el proceso de fundición de aluminio de un tanque muerto de aluminio 356. 2.3 Objetivos Específicos. 1. Verificar que existe multicolinealidad en los datos. 2. Eliminar la multicolinealidad entre las variables regresoras del modelo. 3. Determinar si la ecuación del modelo es adecuado mediante los estadísticos R 2 y
CM Res para cada uno de los métodos de regresión lineal. 4. Determinar cuál es el modelo más apropiado para llevar a cabo la optimización del proceso de fundición de aluminio 356.
14
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
2.4 Preguntas de Investigación ¿El método de regresión Ridge genera
resultados
óptimos en predicción del
comportamiento del proceso de fundición de aluminio? ¿El método de componentes principales genera resultados óptimos en predicción del comportamiento del proceso de fundición de aluminio? ¿Se puede disminuir el número de defectos modificando los parámetros de temperatura de metal, temperatura del molde, basculamiento, en el proceso de fundición de aluminio 356 con respecto los valores iniciales? ¿Es necesario utilizar el método de regresión Ridge? ¿El modelo de regresión Ridge es adecuado? ¿Es mejor el método de regresión Ridge en comparación con el método de componentes principales?
15
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
2.5 Hipótesis General Se puede predecir el comportamiento de manufactura de fundición de aluminio 356, mediante la utilización del método de regresión Ridge y Componentes Principales. 2.6 Hipótesis Específicas 1 El modelo de Regresión con valores dentro de un rango establecido de parámetros como temperatura de metal, temperatura del molde, basculamiento, basado en los resultados obtenidos de
R
2
y
CM Res pueden disminuir el tiempo de puesta en
marcha. 2 Se puede eliminar la multicolinealidad presente entre las variables regresoras del modelo.
16
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
2.7 Justificación Investigar la factibilidad de la optimización del proceso de fundición de aluminio mediante el método de regresión Ridge, componentes principales, mínimos cuadrados y realizar una comparativa para verificar cual es mejor. Es necesario obtener un modelo estadístico de predicción, que me permita describir el proceso de fundición de aluminio, sin embargo, es muy difícil obtener el modelo estadístico con modelos de regresión convencionales (método de mínimos cuadrados), ya que existe el riesgo de que exista mucha variabilidad en las pruebas debido a la multicolinealidad, es decir existe una regresión lineal entre los regresores o variables del proceso, lo que ocasionaría errores de varianza e imprecisión en el modelo. La regresión Ridge resulta ser una solución a este tipo de problemas; no solo se puede obtener un modelo preciso; si no que se elimina sustancialmente el efecto de la multicolinealidad en los datos y el nivel de confianza del modelo será mayor. 2.8 Variables Las variables han sido establecidas básicamente de acuerdo a los planteamientos de los objetivos específicos y del análisis del proceso, las cuales son:
17
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Temperatura de metal, Temperatura del molde, Basculamiento, como variables de entrada y como variable de salida: total de defectos por porosidad.
Capítulo III MARCO DE REFERENCIA Existen trabajos anteriores, en los cuales se ha realizado con la modelación de procesos de fundición. El de regresión por mínimos cuadrados trabaja con datos los cuales existe dependencia lineal entre las variables. Cuando existe multicolinealidad los datos no son de utilidad ya que existe dependencia en los datos, la cual está mal condicionada y esto trae como resultado estimadores erróneos de
^β .
Al parecer el método de componentes principales tiene una infinidad de aplicaciones, uno es el caso de reducción de sensores para el monitoreo de condiciones de un sistema de turbinas de aire. En donde utilizan un gran número de sensores para monitorear este sistema, y el propósito de esta investigación por (Yifei Wang, Xiadong Ma, Malcolm J. Joyce 2016) es el de reducir el número de sensores, para poder procesar la información en tiempo real, seleccionando solo los más importantes de tal manera que la información vital no se pierda, haciendo uso de este método. La técnica propuesta fue reducir en un 18
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 tamaño de 51.7% y 45.4% el tamaño de los datos, midiendo varianza acumulada, promedio de correlación y entropía de la información. Otro trabajo en donde hacen uso del método de Regresion Ridge es el de (Ryo Uemukai, 2010) en donde estudia las propiedades de los estimadores del método de regresión Ridge cuando se omiten variables en el modelo que resultan ser significativas. En este trabajo se estudian las propiedades del método en diferentes aspectos: 1) 2) 3) 4)
Cuando el modelo es derivado con respecto a un coeficiente en particular. La explicación del modelo simple. Cuando el modelo no está especificado. Se derivan las formulas exactas del modelo de Regresion. Cuando existen
variables omitidas. 5) Se derivan las condiciones necesarias bajo las cuales el MSE del método Ridge es menor que el de OLS. 6) Se hace un comparativo evaluando numéricamente la formula exacta de los momentos. Con todo esto se concluye que el modelo cuando está completo (no existen variables omitidas) es mejor que cuando se omiten variables; ya que los resultados obtenidos del MSE y del bias resultan ser menores. Otro artículo de relevancia es el de Iono, Tanvir y Hendry (2000) en donde utilizan el método de componentes principales para analizar información sobre las estrellas. Indican que el método de Fourier es una manera efectiva para analizar la estructura no lineal de la información de la luz que irradian estas, así como la velocidad, sin embargo no se logra analizarla de forma completa. Con el método de componentes principales lo que hace es analizar los datos de forma completa (Luz y velocidad), de forma simultánea, en donde con tan solo seis parámetros la información puede ser predicha, ya que con el método de Fourier se necesitan seis o más. Otro trabajo es el de Junyong Park (2016) en donde menciona de que existen casos en donde las covariables exhiben multicolinealidad, en donde lo que se propone es usar los estimadores Ridge. En este trabajo explica cómo estimar los intervalos de las tolerancias. Se explica cómo obtener los límites para el caso que se requiere solamente el superior y de dos lados. También se habla el caso cuando se tiene base de datos que tienen más variables que observaciones en el que mencionan que aún no está disponible una 19
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 solución posible. Otro es el caso cuando la escasez es asumida (pocas variables o pocos datos), cuando esto sucede, uno debe de seleccionar un subconjunto de variables significantes y aplicar el método. Se hace también un estudio numérico para comparar el desempeño
del OLS y el estimador Ridge, en donde lo que hacen es generan la
información de la forma
{( y i , xi ) , 1 ≤i ≤n }
y se calcula la tolerancia de un lado (superior)
o de dos lados (superior e inferior).Se repite este procedimiento 1000 veces de tal forma que se tiene 1000 tolerancias y se calcula la probabilidad para cada tolerancia
( p ,1−∝) . En donde
p
es igual a 0.95 y
1−∝
es igual a 0.90. Se realizan tres
enfoques el bootstrap, el OLS y el Ridge. Se muestra que el bootstrap no funciona ya que tiene una probabilidad del límite muy superior en comparación con el OLS y el Ridge, por lo que solo se comparan OLS y Ridge. Se muestra que las probabilidades empíricas para los límites del OLS son casi iguales al nominal (0.90) por lo que se concluye elegir mejor los calculados por los del OLS. Se realiza un scatter plot obtenida a partir de la Regresion Ridge y del OLS en donde se muestra que los límites superiores del OLSE son
más grandes que aquellos por
Regresion Ridge, lo que puede ocasionar mayor varianza en las estimaciones. Se muestran 6 Figuras, en donde se tienen 3 casos en cada figura. La primera en donde
x
es el primer eigenvector de
eigenvector de
( X ' X ) , la segunda donde
( X ' X ) , y la tercera en donde
x
x
es decimo
es el veinteavo eigenvector de
( X ' X ) , todas con una probabilidad empírica determinadas. También se realiza un estudio numérico para la tolerancia de dos lados, en donde los resultados obtenidos son similares a los de un solo lado, sin embargo las probabilidades del OLS tienden a ser un poco menores ahora que el nominal (0.90), por lo que se concluye que los intervalos con el regresión Ridge son más cortos que el OLSE cuando una nueva covariable x está cerca de los eigenvectores correspondientes a los pequeños eigenvalor. 20
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Se muestran los resultados con un ejemplo real, en donde lo que se muestra es de que los límites de tolerancia de los estimadores Ridge, tienen intervalos más ajustados en comparación que los del OLSE. Manjunath Patel (2016) hace un estudio estadístico del proceso de fundición, para poder predecir las propiedades mecánicas. Establece una relación no lineal entre las entradas y salidas, observa el comportamiento físico del proceso utilizando diseño de experimentos y superficies de respuesta. En donde utilizo dos modelos de regresión Box-Benhnken y el diseño central compuesto. Lo que se observo fue que ambos modelos de regresión no lineales fueron adecuados para establecer la relación entre las entradas y las salidas.
Capítulo IV MARCO TEORICO 4.1 Regresión Lineal El análisis de Regresión es una técnica estadística para investigar y modelar la relación entre variables. Existe un sinfín de aplicaciones para esta metodología incluyendo las áreas de ingeniería, ciencias físicas y químicas, economía, administración, ciencias biológicas así como ciencias de la vida y sociales. De hecho esta es la técnica estadística más utilizada (Montgomery, 2006). 4.2 Regresión y Formación de Modelos Como ejemplo para ver la relación entre variables y un modelo de dicha relación se utilizará el problema propuesto por Montgomery (2006), un ingeniero industrial analiza las
21
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 operaciones de entrega y servicio de producto en máquinas tragamonedas. Cree que el tiempo en cargar y dar servicio a una máquina se relaciona con la cantidad de cajas de un producto entregadas. Visita 25 tiendas de menudeo al azar con máquinas tragamonedas y anota el tiempo de entrega en la tienda (minutos) y el volumen del producto entregado (cajas) para cada una. Se muestran en la siguiente gráfica: 90 80 70 60 Tiempo De Entrega
50 40 30 20 10 0 0
5
10
15
20
25
30
35
Volumen
Figura 4.1 Gráfica de Datos de Entrega y Tiempo
Con claridad parece indicar que hay una relación entre el tiempo de entrega y el volumen en este caso ya que da la impresión de que los datos caen en una línea recta, no exactamente pero se puede apreciar esa tendencia. Si “y” representa el tiempo de entrega y “x” el volumen entregado, la ecuación de la recta que relaciona esas 2 variables es:
y=β 0 + β 1 x
Donde
β0
es la ordenada al origen y
β1
(4.1)
es la pendiente. Como los datos no caen
exactamente en una línea recta, hay que modificar la ecuación (4.1) para tomar en cuenta
22
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 esto. Sea la diferencia entre el valor observado de “y” y el de la línea recta un error
ε . Conviene establecer que
ε
( β0+ β1 x )
es un error estadístico, considerando una
variable aleatoria que explica que el modelo no ajusta exactamente los datos. Este error puede formarse por defectos de las otras variables sobre el tiempo, medición, etc. Un modelo más adecuado es como sigue:
y=β 0 + β 1 x +ε (4.2)
90 80 70 Tiempo De Entrega
60 50 40 30 20 10 0 0
5
10
15
20
25
30
35
Volumen Figura 4.2 Línea Recta de los Datos de Entrega y Tiempo
La ecuación (4.2) se llama modelo de Regresión lineal (Montgomery, 2006). Cómo la ecuación sólo tiene una variable regresora, se llama modelo de Regresión lineal simple. Para comprender mejor el modelo de Regresión lineal, supongamos que se pueden fijar el valor de la variable regresora “x” para observar el valor correspondiente de la respuesta “y”. Ahora, si “x” está fija, el componente aleatorio
23
ε
determina las propiedades de “y”.
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Supongamos que el promedio y la varianza de
ε
son 0 y
σ
2
, respectivamente.
Entonces, la respuesta media en cualquier valor de la variable regresora es:
E ( y|x )=σ y|x 2=Var ( β 0+ β1 x+ ε ) =σ 2 Así el modelo verdadero de Regresión
μ y|x =β 0+ β1 x
(4.3)
es una línea recta de valores
promedios, esto es, la altura de la línea de Regresión en cualquier valor de x no es más que el valor esperado de “y” para que sea “x”. En casi todas las aplicaciones de Regresión, la ecuación de Regresión sólo es una aproximación a la verdadera relación funcional entre las variables de interés. Esas relaciones funcionales se basan en una teoría física, química o de otra disciplina científica o técnica. En general, las ecuaciones de Regresión sólo son válidas dentro del rango de las variables regresoras contenidas en los datos observados. La variable de respuesta “y” se puede relacionar con “k” regresores
x1 , x2 , x3 , … xk
y=β 0 + β 1 x 1 + β 2 x 2 …+ β k x k +ε
de modo que:
(4.4)
A esto se le llama modelo de Regresión lineal múltiple, ya que implica más de una variable regresora (Montgomery, 2006). Un objetivo importante del análisis de Regresión es estimar los parámetros desconocidos en el modelo de Regresión. También se le llama a este proceso ajuste del modelo a los datos. La siguiente fase del análisis de Regresión se llama comprobación de la adecuación del modelo en donde se estudia lo apropiado del modelo y la calidad del ajuste determinado. Mediante esos análisis se puede determinar la utilidad del modelo de Regresión. El resultado de la comprobación de la adecuación puede indicar que el modelo es razonable, o que debe modificarse el original. Por lo anterior, el análisis de Regresión es un procedimiento iterativo en el que los datos conducen a un modelo, y se produce un ajuste del modelo a los datos. 24
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.3 Recolección de Datos Un aspecto importante y esencial de un análisis de Regresión es la recolección de datos. Todo análisis es tan bueno como lo son los datos sobre los que se basa. Hay 3 métodos básicos para la recolección de datos: -
Estudio Retrospectivo basado en datos históricos Estudio Observacional Experimento Diseñado.
4.3.1 Estudio Retrospectivo
Se puede hacer utilizando todos los datos históricos del proceso o una muestra de ellos, dentro de algún periodo, para determinar las relaciones entre las variables tanto regresoras como de respuesta. Al hacerlo se aprovecha la ventaja de contar con datos previamente reunidos y minimizar el costo del estudio. Sin embargo, se debe hacer notar que hay varios problemas: 1- No se puede ver el efecto de la relación porque se debe suponer que no varió mucho durante el periodo histórico. 2- Como varían tan poco a través del tiempo, dificultará poder apreciar su impacto real. 3- Dentro de los límites estrechos entre los que varía, habrá dificultad para separar los efectos individuales. Esto conduce al problema de Multicolinealidad Los estudios retrospectivos ofrecen cantidades limitadas de información útil. En general, sus principales desventajas son: -
Con frecuencia faltan algunos de los datos importantes. La fiabilidad y la calidad de los datos suelen ser muy dudosas. La naturaleza de los datos con frecuencia pueden no permitir atacar el problema a
-
la mano. El analista trata, con frecuencia, de usar los datos en formas que nunca se
-
pretendió que se usarán. Los registros, cuadernos y memorias pueden no explicar fenómenos interesantes que identifica el análisis de datos.
El uso de datos históricos siempre corre riesgo el de que, por cualquier razón, algunos de los datos se perdieron o no se anotaron.
25
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
4.3.2 Estudio Observacional
Sólo se observa el proceso o la población y se interacciona o perturba el proceso lo necesario para obtener datos relevantes. Planteándolo adecuadamente, estos estudios pueden asegurar datos exactos, completos y fiables, a la vez que suelen proporcionar información muy limitada acerca de las relaciones específicas entre los datos. Éste método también reduce al mínimo las probabilidades de observar un dato atípico relacionado con algún error en los datos.
4.3.3 Experimento Diseñado
Esta estrategia debe asegurar que se puedan separar los efectos de cada factor. Los valores especificados de los factores que se ajustan en el experimento, se llaman niveles. Comúnmente se usa una pequeña cantidad (dos o tres) de niveles para cada factor.
4.4 Estimación de los Parámetros por Mínimos Cuadrados
Los parámetros
β0
y
β1
son desconocidos y se deben calcular con los datos de la
muestra.
26
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.4.1 Estimación de
β0 y
β1 β , se utiliza el método de los
Para obtener los valores del vector de parámetros
mínimos cuadrados. Según la ecuación (4.2), se puede escribir de la siguiente manera:
y=β 0 + β i x i +ε i ,
i=1,2, … , n
(4.5)
El criterio de mínimos cuadrados es: n
S ( β 0 , β 1 )=∑ ( yi −β 0−β i x i )
2
(4.6)
i=1
β0 y
Los estimadores, por mínimos cuadrados, de
y
β 1 , que se designarán por
^β 0
^β 1 , deben satisfacer:
∂S ∂ β0
|
β 0 , β1
n
∂S ∂ β1
=−2 ∑ ( y i− β^ 0− β^ i xi ) =0 i=1
|
β0 , β 1
n
=−2 ∑ ( y i− ^β 0− β^ i x i ) x i=0 i=1
Se simplifican estas dos ecuaciones y se obtiene: n
n
i=1
i=1
n ^β 0+ ^β1 ∑ x i=∑ y i n
n
n
i=1
i=1
i=1
^β 0 ∑ x i + ^β 1 ∑ x 2i=∑ y i x i
(4.7)
Las ecuaciones (4.7) son llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:
^β 0= ´y − β^ 1 ´x
27
(4.8)
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 n
n
i=1
i=1
( )(∑ ) ∑ yi
n
∑ y i x i−
^β 1= i=1
n 2
n
n
2
∑ x i−
(∑ ) i=1
i=1
xi
=
xi
S xx S xy
(4.9)
n
En donde: n
´y =
1 ∑y n i =1 i n
´x =
Son los promedios de
yi
y
1 ∑x n i=1 i
x i , respectivamente. Por consiguiente,
(4.10)
β0
y
β1
son los estimadores por mínimos cuadrados (Montgomery 2006).
4.5 Regresion Lineal Múltiple Como ya se mencionó, un modelo de Regresión donde interviene más de una variable regresora se llama modelo de Regresión múltiple. 4.5.1 Modelo de Regresión Múltiple
Un modelo de Regresión múltiple que puede describir el comportamiento de la observación de datos con más de una variable independiente, es:
y=β 0 + β 1 x 1 + β 2 x 2+ ε
28
(4.11)
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 El parámetro
β 0 es la ordenada al origen del plano de Regresión. Si en el intervalo de
datos se incluyen
x 1=x 2=0 , entonces
x 1=x 2=0 . Si no es así,
β0
β0
es el promedio de
no tiene interpretación física. El parámetro
el cambio esperado de la respuesta y por cambio unitario en mantiene constante. De igual modo, cambio de
β2
y
cuando
β 1 indica
x 1 , cuando
x2
se
mide el cambio esperado de y por unidad de
x 2 cuando se mantiene constante
x 1 . En general, se puede relacionar la
respuesta y con k regresores o variables de predicción el cual se conoce como modelo de Regresión múltiple con k regresores:
β 0+ β1 x 1+ β 2 x2 +…+ β k x k +ε
Los parámetros
βj
βj ,
j=0,1 … ,k
se llaman coeficientes de Regresión. El parámetro
representa el cambio esperado en la respuesta y por cambio unitario en
cuando todas las demás variables regresoras esta razón, a los parámetros
(4.12)
β j , j=1,2 … k
x j (i ≠ j )
xj
se mantienen constantes. Por
se les llama con frecuencia coeficientes de
Regresión parcial. Los modelos de Regresión parcial múltiple se usan con frecuencia como modelos empíricos o como funciones de aproximación, ya que se desconoce la relación funcional real entre
y y
x 1 , x 2 , … x k , pero dentro de ciertos márgenes de las
variables regresoras, el modelo de Regresión lineal es una aproximación adecuada a la función verdadera desconocida. En general, todo modelo de Regresión es lineal en los
29
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 parámetros (
β j ) es un modelo de Regresión lineal, independientemente de la
superficie que genera (Montgomery 2006). 4.5.2 Estimación de los Parámetros del Modelo.
Estimación de los coeficientes de Regresión por Mínimos Cuadrados de la ecuación (4.12). La función de mínimos cuadrados es: n
S ( β 0 , β 1 , … , β k )= ∑ ε 2 i i =1
n
k
(
2
)
¿ ∑ y i−β 0−∑ β j x ij (4.13) i=1
j=1
Una forma mucho más cómoda de manejar modelos de Regresión múltiple cuando se expresan en notación matricial. Permite mostrar una forma muy compacta del modelo, los datos y los resultados. En notación matricial el modelo expresado por la ecuación (4.12) es:
y= Xβ+ε (4.14) Dónde:
[] [
y1 y= y 2 yn
x11 x 12 … x1 k X = x 21 x 22 … x2 k x n 1 x n2 … x nk
]
[] []
β1 ε1 β= β 2 ε = ε 2 βn εn
30
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Y es un vector de
nx 1
de las obervaciones,
niveles de las variables regresoras,
ε
Regresión y
es un vector de
^β
determinar el vector n
β nx 1
X
es una matriz de
es un vector de
px 1
nxp
de los
de los coeficientes de
de errores aleatorios. Por lo tanto, se desea
que minimice:
S ( β ) =∑ ε i=ε ε=( y −Xβ ) ' ( y− Xβ ) 2
'
i=1
Puede expresarse también de la siguiente manera: '
S ( β ) = y ' y−β ' X y− y ' Xβ+ β ' X ' Xβ= y ' y −2 β ' X ' y + β ' X ' Xβ β' X' y
Ya que
es una matriz de
'
( β ' X ' y ) = y ' Xβ
1 x 1 , es decir, un escalar, y que su transpuesta
es el mismo escalar. Los estimadores de mínimos cuadrados deben
satisfacer:
|
∂S ^ =−2 X ' y +2 X ' X β=0 ∂ β 0 ^β Que se simplifica a:
X X ^β=X y( 4.15) '
'
Las ecuaciones (4.15) son las ecuaciones normales de mínimos cuadrados. Estas ecuaciones son la forma matricial de la representación escalar. Para resolver las
31
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 ecuaciones normales, ambos lados de (4.15) se multiplican por la inversa de el estimador de
β
'
X X . Así,
por mínimos cuadrados es:
^β=( X ' X )−1 X ' y (4.17)
Siempre y cuando exista la inversa de la matriz
X ' X , ya que existe si los regresores
son linealmente independientes, esto es, si ninguna columna de la matriz X es una combinación lineal de las demás columnas (Montgomery 2006).
4.5.3 Propiedades de los Estimadores de Mínimos Cuadrados
Como
^β
es un estimador insesgado de
β , su matriz de covarianza es:
Cov ( ^β )=E {[ ^β−E( ^β) ] [ ^β−E( β^ ) ] ' }
Que es una matriz simétrica de
^β j
pxp , cuyo j-ésimo elemento diagonal es la varianza de
y cuyo (ij)-ésimo elemento fuera de la diagonal es la covarianza entre
covarianza de la matriz de
^β
es:
Cov ( ^β )=σ 2 ( X ' X )−1 (4.18)
32
^β i y ^β j . La
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 σ
4.5.4 Estimación de
2
Para estimar la varianza
σ
2
, se puede desarrollar un estimador a partir de la suma de
cuadrados de residuales: n
n
SS Res =∑ ( y i− ^yi ) =∑ e i2=e ' e 2
i=1
Se sustituye
i=1
e= y− X ^β
y se obtiene:
SS Res =( y− X β^ ) ' ( y −X ^β ) ' ' ' ' SS Res = y y − ^β X y − y X ^β + ^β ' X ' X ^β
SS Res = y ' y −2 β^ ' X ' y + ^β ' X ' X ^β
Como
X ' X ^β=X ' y , la última ecuación se transforma en:
SS Res = y ' y − ^β X ' y (4.19) Por lo tanto, el cuadrado medio residual es:
MS Res=
SS Res (4.20) n− p
Por consiguiente, un estimador insesgado de 2 σ^ =MS Res (4.21)
33
σ
2
es:
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Sin embargo, el valor del estimador de
σ
2
depende del modelo (Montgomery 2004).
4.5.5 Prueba de la Significancia de la Regresión
Esta prueba se realiza para determinar si hay una relación lineal entre la respuesta y cualquiera de las variables regresoras. Este procedimiento suele considerarse como una prueba general o global de la adecuación del modelo, la cual se realiza mediante la siguiente hipótesis:
H 0 : β 1=β 2=…=β k =0 H 0 : β 1 ≠0 almenos para una j. El rechazo de la hipótesis nula implica que al menos uno de los regresores contribuye al modelo en forma significativa. De acuerdo con la definición de un estadístico F:
SS R MS R k Fo = = ( 4.22) SS Res MS ℜ s ( n−k −1 ) SS R MS R k Fo = = (4.23) SS Res MS Res ( n−k −1 )
El parámetro de no centralidad indica que el valor observado que
al
menos
una
β j ≠0 .
Por
consiguiente,
para
H 0 : β 1=β 2=…=β k =0 , se calcula el estadístico de prueba si:
34
Fo
debe ser grande para probar
Fo
la
hipótesis
y se rechaza
H0
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Fo > F α ,k , n−k−1 (4.24) El procedimiento de prueba se resume normalmente en la tabla de un análisis de varianza (Montgomery, 2004).
Tabla 4.1 Análisis de Varianza
Fuente de Variación
Suma de
Grados de
Cuadrado
Cuadrados
Libertad
Medio
Regresión
SS R
K
MS R
Residuales (Error)
SS Res
N-K-1
MS Res
Total
SS T
N-1
Para calcular
SS R , partimos de la ecuación (4.18):
' SS Res = y y − ^β X ' y
Y ya que:
35
Fo MS R MS Res
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
[
2
n
(∑ ) yi
n
SS T =∑ y i− 2
i=1
(∑ ) yi
− ^β X y−
n
i=1
2
n
'
'
i=1
n
]
Se puede escribir de la forma:
[
2
n
(∑ ) yi
'
SS Res = y y −
i=1
n
− ^β' X ' y −
2
n
(∑ ) yi
i=1
n
]
( 4.25)
O bien:
SS Res =SS T −SS R
Por consiguiente, la suma de cuadrados de Regresión y la suma de cuadrados total serán:
2
n
SS R = ^β X y− '
'
(∑ ) yi
i=1
(4.26)
n
2
n
( ) ∑ yi
SS T = y ' y −
(4.27)
i=1
n
36
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.5.6 Estadísticos Los estadísticos
R2
modelo,
2
R yR 2
R yR
2 aj
2 aj
y Coeficiente de Correlación “r” son otras maneras de evaluar la adecuación general del
aumenta cuando se agrega un regresor al modelo, independientemente
del valor de la contribución de esa variable. En consecuencia, es difícil juzgar si un aumento de
R2=
R2 dice algo importante; la
R2 se define como sigue:
SS R SST
(4.28)
R2 es una estimación sesgada del coeficiente de determinación de la población y R2aj
es insesgada (Montgomery 2006). Algunas personas prefieren utilizar el
estadístico
R2aj , definido de la siguiente manera:
SS Res (n− p) R2aj =1− SST (n−1)
(4.29)
R2aj Sólo aumentará si al agregar una variable al modelo reduce el cuadrado medio residual. El coeficiente de correlación es una asociación entre 2 o más variables y se representa como:
R= √ R2
(4.30)
37
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.5.7 Prueba “t” para los coeficientes de Regresión Si no es rechazada la hipótesis nula, quiere decir que se debe eliminar el regresor del modelo. El estadístico de prueba utilizado para probar esta hipótesis es:
t 0=
^β j
√σ^
Donde
2
C jj
(4.31)
C jj
es el elemento diagonal de
rechaza la hipótesis nula
H o : β j=0
si
(X ´ X )−1
|t o|>t α , n−k−1 2
que corresponde a
. Nótese que ésta es en realidad
una prueba parcial o marginal, porque el coeficiente de Regresión todas las demás variables regresoras una prueba de la contribución de
β j . Se
βj
depende de
x j (i ≠ j ) , que hay en el modelo. Así, se trata de
x j dados los demás regresores.
4.5.8 Error de Predicción Promedio Cuadrado Este estadístico indica que el modelo será o no un buen predictor, y se obtiene mediante la siguiente ecuación: n
PREMSS=
1 ϵ i2 ∑ n i=1
(4.32)
Note que el valor PREMSS calculado debe ser menor que el Error Cuadrático Medio (MSE). La Suma Cuadrada de Predicción se obtiene mediante la ecuación que sigue: n
PRESS=∑ i=1
ϵi 1−hii
2
( )
(4.33)
38
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 ϵi
Representa cada error de predicción comparado con el valor real y
hii
son los
elementos diagonales de la matriz gorro que es una matriz idempotente y simétrica obtenida a través de
X ( X ' X )−1 X '
que mapea el vector de los valores ajustados.
Coeficiente de Determinación de la Predicción
Este estadístico da cierta indicación de la capacidad predictiva del modelo de Regresión. La ecuación es la siguiente:
RPRESS 2=1−
PRESS SS T
(4.34)
4.5.9 Intervalos de Confianza en Regresión Múltiple
Los intervalos de confianza de los coeficientes de Regresión individuales, y los intervalos de confianza de la respuesta media, para niveles específicos de los regresores, juegan el mismo papel importante que en la Regresión lineal simple. Para los regresores individuales, la ecuación de los intervalos de confianza para los coeficientes son los siguientes:
^β j−t α 2
√ σ^ C 2
,n− p
jj
≤ β j ≤ ^β j +t α 2
, n− p
√σ^
2
C jj
(4.35)
Recuérdese que:
se ( ^β j ) =√ σ^ 2 C jj
(4.36)
Lo cual representa el error estándar del coeficiente de Regresión
39
^β j .
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Por otro lado, los intervalos de confianza para la respuesta media en un determinado punto, como
x 01 , x02 , … , x 0 k
se realiza de la siguiente manera; defínase el vector
x0
como sigue:
[]
1 x 01 x 0= x 02 . x0k
El valor ajustado en este punto es:
^y 0=x ' 0 ^β
(4.37)
Y por lo tanto el intervalo de confianza de predicción será:
^y 0−t α 2
√ σ^ (1+ x 2
,n− p
( X ' X ) x0 ) ≤ E ( y| x 0 ) ≤ ^y 0 +t α ,n− p √ σ^ 2 (1+ x' 0 ( X ' X ) x 0 ) −1
' 0
−1
2
(4.38)
4.5.10 Coeficientes Normalizados de Regresión
En general, es difícil comparar en forma directa coeficientes de Regresión, porque la magnitud de
^β j refleja las unidades de medida del regresor
unidades del coeficiente de Regresión
^β j son unidades de
x j . Por lo general, las
^β j .
Por esta razón a veces ayuda trabajar con regresores y variables de respuesta escalados, que produzcan coeficientes de Regresión a dimensionales. A esos coeficientes a dimensionales se les suele llamar coeficientes estandarizados de Regresión (Montgomery 2006). 40
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
4.5.11 Escalamiento normal unitario
El primer método para obtener los coeficientes estandarizados emplea el escalamiento normal unitario para los regresores y la variable de respuesta esto es:
z ij=
x ij −´x j , i=1, 2, … ,n , j=1,2, … , k Sj
y i¿=
(4.39)
y i− ´y ,i=1,2, … , n Sy
(4.40)
x j es:
En donde la varianza muestral del regresor n
∑ ( x ij−´x j )2
s j2= i=1
(4.41)
n−1
Y la varianza muestral de la respuesta es: n
∑ ( y i− ´y ) 2
s y 2= i=1
(4.42)
n−1
Con estas nuevas variables, el modelo de Regresión se transforma en:
y i¿=b1 z i 1 +b2 zi 2 +…+ bk zik +ε i , i=1, 2,… , n 41
(4.43)
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356
Al centrar las variables regresoras y la de respuesta, se elimina la ordenada al origen. Por lo tanto, el estimador de b por mínimos cuadrados es:
^ Z ' Z)−1 Z ' y ¿ b=(
(4.44)
4.5.12 Escalamiento de Longitud Unitaria
Es el segundo escalamiento que se usa con frecuencia está representado con la siguiente ecuación:
w ij=
x ij −´x j S jj
y i0=
1 2
y i− ´y SS T
1 2
, i=1, 2, … ,n , j=1,2, … , k
(4.45)
, i=1, 2, … , n
(4.46)
En donde la suma de cuadrados corregida para el regresor
x j es:
n
s jj =∑ ( xij − x´ j )2
(4.47)
i =1
En función de esas variables, el modelo de Regresión es: 0
y i =b 1 w i 1+b 2 wi 2+ …+b k wik + ε i ,i=1, 2, … , n
(4.48)
El vector de los coeficientes de Regresión por mínimos cuadrados es:
^ b=(W ' W )−1 W ' y 0
(4.49)
42
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 Los coeficientes obtenidos de estos escalamientos se llaman coeficientes estandarizados de Regresión. La relación entre los coeficientes originales y los estandarizados de Regresión es:
1
^β j= b^ j ( SST ) 2 , j=1,2, … , k S jj
(4.50)
k
^β 0= ´y −∑ ^β j x´ j
(4.51)
j=1
Estas ecuaciones nos sirven para obtener los valores sin el escalamiento antes realizado para su correcto y más cómodo manejo en los cálculos (Montgomery 2006). 4.5.11 Modelo de Segundo Orden
Los diseños de segundo orden son aquellos que permiten estudiar los efectos de interacción y efectos cuadráticos, aparte de los efectos lineales. Se utilizan ante la necesidad de explorar la relación o interacción entre variables de proceso, así como una superficie más compleja. La selección de estos diseños depende de las características del problema, pero deben en general cumplir ciertos requerimientos como capacidad para realizar estimaciones eficientes de los coeficientes del modelo y medir tanto el error experimental como la posible presencia de falta de ajuste. Un modelo de segundo orden podemos representarlo como: k
k
j−1
k
Y =β 0 + ∑ β i x i + ∑ ∑ β ij x i x j+ ∑ β ii x ii +ε i=1
j=2 i=1
2
i=1
(4.52)
Es fácil observar que las interacciones entre variables de proceso y los cuadrados de las mismas, dependen completamente de las variables lineales, por lo que al considerar dichas interacciones se tiene dependencia lineal entre las variables de la matriz de diseño. Debido a esto, la inversa de la matriz utilizada en la estimación está mal condicionada, lo que induce al problema llamado Multicolinealidad.
43
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 4.6 Multicolinealidad El uso y la interpretación de un modelo de Regresión múltiple dependen, con frecuencia, en forma explícita o implícita, de los estimados de los coeficientes individuales de Regresión. Cuando hay dependencias casi lineales entre los regresores, se dice que existe el problema de Multicolinealidad. La Multicolinealidad, es la existencia de relaciones casi lineales entre las variables independientes, lo cual crea estimaciones inexactas e infla los errores estándar de los coeficientes del modelo, error tipo 1 de las pruebas t, falsos valores significativos y degrada la previsibilidad del modelo. Estos problemas pueden detectarse de la siguiente manera: 1- Los Factores de inflación de la Varianza (VIF) por parte del modelo de Mínimos Cuadrados que se definen en la ecuación, son medidas útiles para la detección. Estos valores representan una medida importante de la Multicolinealidad ya que ésta será mayor mientras más grande sea el valor de dichos elementos. 2- Si la prueba F para la significación del modelo es significativa, pero las pruebas individuales de los coeficientes del modelo no son significativos, hay presencia de Multicolinealidad. Si la elección del modelo lineal incrementó la Multicolinealidad, es necesario simplificar el modelo mediante el uso de técnicas de selección de variables. Si una o 2 observaciones indujeron la Multicolinealidad, es preferible que se eliminen. Hay que tener cuidado con la elección de variables; cuando no es posible esto, se utiliza el método Ridge. Para generar el modelo de Ridge, es esencial estimar la llamada Constante de Proporcionalidad “k” (Lawless and Wang, 1976). Existe un valor de k distinto de cero para el cual el MSE de
^β r
es menor que la varianza del estimador
cuadrados, siempre y cuando función de k para
β
por mínimos
β ' β sea acotado (Hoerl y Kennard, 1970; a,b). Como
k ∈ ( 0 , 1 ) , tiene las condiciones necesarias para que
^β r
sea un
estimador de error cuadrático medio más pequeño que el del modelo propuesto por mínimos cuadrados (Theobald, 1974). 44
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 A medida que la Multicolinealidad crece entre las variables regresoras que determinan el comportamiento de una variable de respuesta, los coeficientes estimados por MC del modelo polinomial que modela ese comportamiento, se vuelven erráticos e impredecibles, debido a los efectos desastrosos que la Multicolinealidad tiene sobre su varianza, afortunadamente la RR minimiza este problema al contraer los coeficientes
^β j
de MC,
logrando coeficientes ajustados con menor varianza, dando estabilidad a la predicción del modelo (R. Piña et al, 2005). La Multicolinealidad de las variables independientes afectan la eficiencia de los parámetros estimados mediante Mínimos Cuadrados, MRR es una de las principales técnicas propuestas para corregir este problema una vez detectada la Multicolinealidad y así obtener parámetros sesgados pero con un error estándar menor (García A. et al, 2006). Se utiliza la Regresión Ridge como un ajuste del polinomio completo de segundo orden, dándole estabilidad a sus coeficientes estimados y como consecuencia confiabilidad al modelo canónico y al punto estacionario de las X’s que determinan las condiciones operacionales del proceso o sistema bajo estudio (R. Piña et al, 2006).
4.6.1 Fuentes de Multicolinealidad Hay cuatro fuentes de Multicolinealidad principales: 1- El método de recolección de datos empleado puede originar problemas de Multicolinealidad cuando el analista sólo muestra el sub espacio de la región de los regresores. 2- Restricciones en el modelo o en la población que se muestra. Alguna restricción física puede causar este fenómeno ya que cuando hay restricciones como esta, habrá Multicolinealidad independientemente del método de recolección que se emplee. 3- En la elección del modelo al agregar términos polinomiales al modelo de Regresión se produce un deterioramiento en la matriz
45
X ' X , además si el
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 rango de
x es muy pequeño, el agregar un término
x
2
puede producir
Multicolinealidad. En estos casos, es preferible un subconjunto de regresores para evitar esto. 4- Modelo Sobre definido: Tiene más variables regresoras que observaciones. Lo más común es eliminar algunas de estas variables y tomar las importantes. 4.6.3 Diagnóstico de la Multicolinealidad Una medida muy sencilla de la Multicolinealidad, es la inspección de los elementos
dependientes
xi y x j
X ' X . Si los regresores
no diagonales en
r ij
son casi linealmente
r ij será próximo a la unidad.
4.6.4 Factores de Inflación de la Varianza (VIF)
C jj es el j-ésimo elemento diagonal de C jj =(1−R j2 )−1 , siendo hace la Regresión de
xj
R j2
el coeficiente de determinación obtenido cuando se
respecto a los demás
ortogonal a los regresores restantes, mientras que si
xj
regresores restantes,
C=( X ' X )−1 , puede escribirse de la forma
R j2
p−1
es pequeño y
C jj
regresores. Si
xj
es
es cercano a la unidad,
es casi linealmente dependiente en algún subconjunto de los
R j2
es casi lineal y
ésimos coeficientes de Regresión es en el que aumenta la varianza de
C jj
es grande. Como la varianza de los j-
C jj σ 2 se puede considerar que C jj es el factor βj
debido a dependencias casi lineales entre los
regresores. El cálculo de los factores de inflación de la varianza se realiza como sigue (Marquardt 1970): 46
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 2 −1
(4.53)
VIF=C jj =(1−R j )
Para cada término del modelo mide el efecto combinado que tienen las dependencias entre los regresores sobre la varianza de ese término. Si hay uno o más VIF grandes, hay Multicolinealidad. Por la experiencia, si los VIFS son mayores que 5 o 10, es indicio de que los coeficientes asociados de Regresión están mal estimados debido a la Multicolinealidad (Montgomery 2006).
4.6.5 Análisis del Eigensistema Los valores propios pueden utilizarse para medir la Multicolinealidad. Si hay una o más dependencias lineales en los datos, uno o más valores propios serán pequeños e implican que hay dependencias casi lineales entre las columnas de X. Algunos analistas prefieren utilizar el número de condición de X’X definido como:
k=
λ max λ min
(4.54)
Número de condición menor que 100, no hay problema grave de Multicolinealidad, de 100 a 1000 hay Multicolinealidad moderada a fuerte; mayor a 1000 es indicio de una fuerte Multicolinealidad. Los índices de condición de la matriz X’X son:
k=
λ max , j=1, 2,… , p λj
(4.55)
La cantidad de índices de condición que son grandes es una medida útil de la cantidad de dependencias casi lineales en la matriz X’X.
4.6.6 Métodos para Manejar la Multicolinealidad
Se han propuesto varias técnicas para mejorar los problemas causados por la Multicolinealidad. Entre los métodos generales están el reunir más datos, la re
47
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 especificación del modelo y el uso de métodos de estimación distintos de mínimos cuadrados, diseñados específicamente para combatir este problema.
4.6.7 Recolección de Datos Adicionales
Se ha sugerido la recolección de datos adicionales como el mejor método para combatir la Multicolinealidad (Farrar y Glauber 1967; Silvey 1969). Los datos adicionales se deben reunir en una forma diseñada para eliminar la Multicolinealidad. Desafortunadamente no siempre es posible coleccionar más datos, por restricciones económicas o porque el proceso estudiado ya no está disponible para muestreo. Aunque a veces esté disponible el proceso, puede ser inadecuado utilizarlos si amplían el recorrido de las variables regresoras mucho más allá de la región de interés del analista. 4.6.8 Re-especificación del Modelo
Con frecuencia, la Multicolinealidad se debe a la elección del modelo, como cuando dos regresores muy correlacionados se utilizan en la ecuación de Regresión, la reespecificación en este caso puede aminorar el impacto de la Multicolinealidad. Un método es redefinir los regresores pero que se preserve el contenido de información de los regresores originales, pero que reduzca el deteriora miento. Otro método es la eliminación de las variables, esto es que si alguna de las variables regresoras es casi linealmente dependientes, la eliminación de uno de los regresores, puede ayudar a combatir la Multicolinealidad. Frecuentemente es una técnica muy efectiva, sin embargo, podrá no producir una solución satisfactoria si se elimina uno de los regresores con gran poder de explicación en la respuesta, por lo que puede dañar el nivel predictivo del modelo (Montgomery 2006).
4.7 Regresión Ridge Cuando se aplica el método de mínimos cuadrados a datos no ortogonales, se pueden obtener estimaciones muy malas de los coeficientes de Regresión. La varianza de los estimadores por mínimos cuadrados, de los coeficientes de Regresión, puede estar muy inflada. Eso implica que el valor absoluto de los estimados por mínimos cuadrados es
48
Métodos de Regresión Lineal, aplicados en el proceso de fundición de un tanque muerto de aluminio 356 demasiado grande y que son muy inestables, indicando con esto que sus magnitudes y signos pueden cambiar mucho con una muestra distinta.
^β
49
View more...
Comments