Regresion Lineal

Share Embed Donate


Short Description

regresion lineal...

Description

UNA – PUNO

DISEÑOS ESTADÍSTICOS

VARIABLE ESTADÍSTICA BIDIMENSIONAL En la práctica a menudo estamos interesados en analizar el comportamiento conjunto de dos o más variables, es decir situaciones en las que el investigador realiza la observación simultánea de dos características del individuo, obteniéndose de esta manera pares de resultados; por ejemplo, podemos observar en una persona su peso y su talla. Los distintos valores que pueden adoptar estas características en estudio forman un conjunto de pares, que denotamos por (X;Y) y la llamamos variable estadística bidimensional. Observación 1.- La variable estadística bidimensional (X;Y) puede representar las situaciones siguientes:  Dos características cualitativas; por ejemplo la educación y región de procedencia de una persona.  Dos características cuantitativas; por ejemplo, el peso y la altura de una persona.  Una cualitativa y otra cuantitativa; por ejemplo, la profesión y la edad de una persona. Si las componentes de una variable bidimensional (X;Y) son características cuantitativas, pueden a su vez clasificarse en: a) X discreta e Y discreta; por ejemplo, número de admisiones y número de médicos en un hospital durante un mes. b) X continua e Y continua; por ejemplo, el peso y la altura de una persona. c) X discreta e Y continua; por ejemplo, número de accidentes automovilísticos que se producen dentro de los límites de la ciudad y el grado de alcohol en el cuerpo. d) X continua e Y discreta; por ejemplo, la estatura del padre de familia y número de hijos. REPRESENTACIÓN DE LA INFORMACIÓN MEDIANTE TABLAS BIDIMENSIONALES Definición: Sea (X;Y) una variable estadística bidimensional tal que los distintos valores que toman X e Y son: 𝑋: 𝑥1 , 𝑥2 , 𝑥3 , ⋯ , 𝑥𝑘 𝑌: 𝑦1 , 𝑦2 , 𝑦3 , ⋯ , 𝑦𝑒 Una distribución bidimensional de frecuencias es un arreglo de los valores observados (𝑥1 ; 𝑦1 ), (𝑥2 ; 𝑦2 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) de la variable bidimensional (X;Y) con sus respectivas frecuencias en una tabla de doble entrada de la forma Valores de Y 𝒚𝒋 Total 𝒚𝟏 𝒚𝟐 ⋯ ⋯ 𝒚𝒆 Valores de X 𝑓1𝑗 𝒙𝟏 ⋯ ⋯ 𝑓11 𝑓12 𝑓1𝑒 𝒇𝟏. 𝑓2𝑗 𝒙𝟐 ⋯ ⋯ 𝑓21 𝑓22 𝑓2𝑒 𝒇𝟐. ⋮ 𝒙𝒊 ⋮ 𝒙𝒌

⋮ 𝑓𝑖1 ⋮ 𝑓𝑘1

⋮ 𝑓𝑖2 ⋮ 𝑓𝑘2

⋯ ⋯

⋮ 𝑓𝑖𝑗

⋯ ⋯

⋯ ⋯

⋮ 𝑓𝑘𝑗

⋯ ⋯

⋮ 𝑓𝑖𝑒 ⋮ 𝑓𝑘𝑒

⋮ 𝒇𝒊. ⋮ 𝒇𝒌. 𝒌

Total

𝒇.𝟏

𝒇.𝟐



𝒇.𝒋



𝒇.𝒆

𝒆

𝒏 = ∑ ∑ 𝒇𝒊𝒋 𝒊=𝟏 𝒋=𝟏

Ing. Ronald Mamani Mayta

Página | 1

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Donde: 𝑓𝑖𝑗 : 𝑒

𝑓𝑖. = ∑ 𝑓𝑖𝑗= 𝑗=1 𝑘

𝑓.𝑗 = ∑ 𝑓𝑖𝑗= 𝑖=1 𝑘 𝑒

𝑛 = ∑ ∑ 𝑓𝑖𝑗

Número de veces que aparece repetido el valor (𝑥1 ; 𝑦1 ), y se llama frecuencia absoluta del par (𝑥𝑖 ; 𝑦𝑗 ) ∀ 𝑖 = 1, 2, 3, ⋯ , 𝑘 𝑗 = 1, 2, 3, ⋯ , 𝑒 Total de pares con primera componente 𝑥𝑖 (𝑖 = 1, 2, 3, ⋯ , 𝑘), y se llama frecuencia marginal del valor 𝒙𝒊. Total de pares con segunda componente 𝑦𝑖 (𝑖 = 1, 2, 3, ⋯ , 𝑒), y se llama frecuencia marginal del valor 𝑦.𝑗 Número total de pares observados.

𝑖=1 𝑗=1

DISTRIBUCIONES MARGINALES Distribución Marginal de X 𝑓𝑖. 𝑋

Distribución Marginal de Y 𝑓.𝑗 𝑌

𝑥1 ⋮ 𝑥𝑖

𝑓1. ⋮ 𝑓𝑖.

𝑦1 ⋮ 𝑦𝑗

𝑓.1 ⋮ 𝑓.𝑗

⋮ 𝑥𝑘

⋮ 𝑓𝑘.

⋮ 𝑦𝑒

⋮ 𝑓.𝑒

𝒌

Total

𝒏 = ∑ 𝒇𝒊. 𝒊=𝟏

𝒌

Total

𝒏 = ∑ 𝒇𝒊. 𝒊=𝟏

Ejemplo 1: Supongamos que queremos analizar el comportamiento conjunto de las variables grado de instrucción (X) y región de procedencia (Y) de los empleados del Ministerio de Agricultura, los datos se muestran en la siguiente tabla: Tabla 1: Distribución conjunta de las frecuencias de las variables grado de instrucción (X) y región de procedencia (Y) X Primaria Secundaria Superior Total Y Completa Completa Costa 40 30 20 90 Sierra 35 15 10 60 Selva 30 15 5 50 Total 105 60 35 200=n Fuente: Datos dietéticos. Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones simultáneas de X e Y. Así observamos que 40 empleados con primaria completa son de la Costa, 30 empleados con secundaria completa son de la Costa, etc. Los totales de las filas nos dan la distribución marginal de la variable X (grado de instrucción) y los totales de las columnas nos dan la distribución marginal de la variable Y (región de procedencia).

Ing. Ronald Mamani Mayta

Página | 2

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Observación 2: En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos construir tablas con las frecuencias relativas (proporciones). Como se hizo en el caso unidimensional. Sin embargo existen tres posibilidades de expresar la proporción de elementos en cada celda. 1) Con relación al total general, y se llama frecuencia relativa, así la frecuencia relativa correspondiente al par (𝑥𝑖 ; 𝑦𝑗 ), es dada por: 𝑓𝑖𝑗 ℎ𝑖𝑗 = ∀ 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1,2, ⋯ , 𝑒 𝑛 Las frecuencias relativas marginales de las variables X e Y son dados respectivamente por: ℎ𝑖. = ℎ.𝑗 =

𝑓𝑖. 𝑛 𝑓.𝑗 𝑛

𝑖 = 1, 2, ⋯ , 𝑘; (Frecuencia relativa marginal del valor 𝑥𝑖 ) 𝑗 = 1, 2, ⋯ , 𝑒; (Frecuencia relativa marginal del valor 𝑦𝑗 )

2) Con relación al total de cada fila (

𝑓𝑖𝑗 ) , 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1, 2, ⋯ , 𝑒 𝑓𝑖.

3) Con relación a cada columna. (

𝑓𝑖𝑗 ) , 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1, 2, ⋯ , 𝑒 𝑓.𝑗

Ejemplo 2: La distribución conjunta de las proporciones (frecuencias relativas) de los datos de la tabla 1, con relación al total de observaciones (𝑛 = 200), está dado en la siguiente tabla. Tabla 2: Distribución conjunta de las proporciones (en porcentajes) con relación al total general de las variables grado de instrucción (X) y región de procedencia (Y) X Primaria Secundaria Superior Total Y Completa Completa Costa 20% 15% 10% 45% Sierra 17.5% 7.5% 5% 30% Selva 15% 7.5% 2,5% 25% Total 52.5% 29% 17.5% 100% 40

Aquí podemos afirmar que ℎ11 × 100 = 200 × 100 = 20% de los empleados del Ministerio de Agricultura son de la costa y tienen grado de instrucción primaria completa, mientras que ℎ21 × 35

100 = 200 × 100 = 217,5% de los empleados son de la sierra y tienen grado de instrucción primaria completa. Los porcentajes totales de las filas y columnas nos dan las distribuciones marginales de cada una de las variables X e Y. Así el 45% (porcentaje marginal) de los empleados del Ministerio de Agricultura son de la Costa, 30% de la Sierra y 25% de la Selva. Ejemplo 3: La distribución de las proporciones de los datos de la tabla 1, con relación al total de cada columna esta dado en la siguiente tabla.

Ing. Ronald Mamani Mayta

Página | 3

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Tabla 3: Distribución conjunta de las proporciones (en porcentaje) con relación a los totales de cada columna de las variables X e Y de la tabla 1. X

Primaria Completa 38.1% 33.3% 28.6% 100%

Y Costa Sierra Selva Total

Secundaria Completa 50% 25% 25% 100%

Así podemos decir que ℎ11 × 100 =

𝑓11 𝑓.1

Superior

Total

57.1% 28.6% 14.3% 100%

45% 30% 25% 100%

40

× 100 = 105 × 100 = 38.1% de los empleados del 𝑓

35

21 Ministerio de Agricultura con primaria completa son de la costa, ℎ21 × 100 = 𝑓.1 = 105 × 100 =

33.3% de la sierra y ℎ31 × 100 =

𝑓31 𝑓.1

=

30 × 105

100 = 28.6% de la selva.

PROPIEDADES DE LAS FRECUENCIAS Sea n el número total de pares observados de la variable bidimensional (X;Y), se destacan las siguientes propiedades. 1. La suma de las frecuencias absolutas es igual al número de pares observados. 𝑘

𝑒

∑ ∑ 𝑓𝑖𝑗 = 𝑛 𝑖=1 𝑗=1

2. La suma de las frecuencias relativas es igual a la unidad. 𝑘

𝑒

∑ ∑ ℎ𝑖𝑗 = 1 𝑖=1 𝑗=1 𝑘

3.

∑ 𝑓𝑖. = 𝑓1. + 𝑓2. + ⋯ + 𝑓𝑘. = 𝑛 𝑖=1 𝑒

4.

∑ 𝑓.𝑗 = 𝑓.1 + 𝑓.2 + ⋯ + 𝑓.𝑒 = 𝑛 𝑗=1 𝑘

5.

∑ ℎ𝑖. = 1 𝑦 ∑ ℎ.𝑖 = 1 𝑖=1 𝑘 𝑒

6. 7.

𝑒

𝑗=1 𝑘

∑ ∑ 𝑓𝑖𝑗 𝑥𝑖 = ∑ 𝑓𝑖. 𝑥𝑖 𝑖=1 𝑗=1 𝑘 𝑒

𝑖=1 𝑒

∑ ∑ 𝑓𝑖𝑗 𝑦𝑗 = ∑ 𝑓.𝑗 𝑦𝑗 𝑖=1 𝑗=1

𝑗=1

Ing. Ronald Mamani Mayta

Página | 4

UNA – PUNO

DISEÑOS ESTADÍSTICOS

MEDIAS Y VARIANZAS MARGINALES Definición 2: Sean (𝑥1 ; 𝑦1 ), (𝑥1 ; 𝑦2 ), ⋯ , (𝑥1 ; 𝑦𝑒 ), (𝑥2 ; 𝑦1 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) valores distintos de la variable bidimensional (X;Y) con frecuencias absolutas 𝑓11 , 𝑓12 , ⋯ , 𝑓𝑘𝑒 , respectivamente. Las medias y varianzas marginales de X e Y son dadas por: k

X 

f i 1

e

x

i. i

Y

n

 f x  X  k

S X2 

i.

i 1

i

n 1

 f y e

SY2 

k

2

.j

j 1



Y



n 1

i 1

2 i. i

j 1

.j

yj

n

 n ( X )2

n 1 e

2

j

f x

f

f j 1

.j

y 2j  n (Y ) 2 n 1

Por tanto las desviaciones típicas marginales de X e Y son:

SX 

i 1

 f y e

 f x  X  k

2

i.

i

j 1

SY 

n 1

.j

Y

2

j

n 1

Definición 3: Sean (𝑥1 ; 𝑦1 ), (𝑥2 ; 𝑦2 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) valores distintos de la variable (X;Y) con frecuencias absolutas 𝑓11 , 𝑓12 , ⋯ , 𝑓𝑘𝑒 , respectivamente. La covarianza entre las variables X e Y es dada por:

 f x k

S XY  CovX ; Y  

e

i 1 j 1

ij

i

 X  y j  Y  n

Donde: 𝑘

𝑒

𝑛 = ∑ ∑ 𝑓𝑖𝑗 𝑖=1 𝑗=1

Otra fórmula abreviada de la covarianza es:

S XY

Ing. Ronald Mamani Mayta

1 k e  CovX ; Y    f ij xi y j  X Y n i 1 j 1

Página | 5

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Ejemplo 3: En una encueta realizada en una población se obtuvo la siguiente información con relación al número de habitantes (X) y dormitorios (Y) en una muestra de 50 viviendas. Habitantes Dormitorios Habitantes Dormitorios Habitantes Dormitorios (X) (Y) (X) (Y) (X) (Y) 6 2 5 2 4 1 3 2 3 1 4 1 5 2 3 1 4 1 5 2 5 2 3 1 8 3 3 2 4 1 5 2 5 2 4 1 6 2 2 1 4 1 5 2 3 1 4 2 4 1 4 2 6 1 2 1 3 1 3 2 8 4 6 3 4 1 4 3 4 1 4 2 2 1 2 1 5 2 2 1 6 3 5 2 3 1 4 1 4 2 3 2 4 2 8 4 3 1 2 1 Se pide: a) Construir una tabla bidimensional y las frecuencias marginales. b) Determinar las frecuencias acumuladas. c) Encuentre las medias y varianzas marginales. d) Halle la covarianza. Solución: a) La tabla bidimensional con sus frecuencias absolutas y marginales es Y Total 1 2 3 4 X fi. 2 6 0 0 0 6 3 7 4 0 0 11 4 10 5 1 0 16 5 0 9 0 0 9 6 1 2 2 0 5 8 0 0 1 2 3 TOTAL 24 20 4 2 n=50 f.j

Ing. Ronald Mamani Mayta

Página | 6

UNA – PUNO

DISEÑOS ESTADÍSTICOS

b) La tabla de frecuencias acumuladas es Y 1 X 2 6 3 13 4 23 5 23 6 24 8 24

2

3

4

6 17 32 41 44 44

6 17 33 42 47 48

6 17 33 42 47 50

c) Para hacer los cálculos ordenados de las medias y varianzas marginales, es conveniente construir la siguiente tabla Y TOTAL 1 2 3 4 fi.Xi fi.xi2 X fi. 2 6 0 0 0 6 12 24 3 7 4 0 0 11 33 99 4 10 5 1 0 16 64 256 5 0 9 0 0 9 45 225 6 1 2 2 0 5 30 180 8 0 0 1 2 3 24 192 TOTAL 24 20 4 2 n=50 208 976 f.j f.jyj 24 40 12 8 84 2 f.jyj 24 80 36 32 172 e

k

X 

f

x

i. i

i 1

n k

S  2 X

f x i 1

2 i. i

S 

208  4.16 50

 n ( X )2

n 1 e

2 Y



f j 1

.j

y 2j  n (Y ) 2 n 1

Y

f j 1

.j

yj

n



84  1.68 50

976  50(4.16) 2   2.26 50  1 172  50(1.68) 2   0.63 50  1

d) Al emplear la fórmula abreviada de la covarianza se tiene

S XY

1 k e 393  CovX ; Y    f ij xi y j  X Y   (4.16)(1.68)  0.8712 n i 1 j 1 50

Ing. Ronald Mamani Mayta

Página | 7

UNA – PUNO

DISEÑOS ESTADÍSTICOS

RELACIÓN ENTRE VARIABLES En muchas aplicaciones estadísticas se deben resolver problemas que contienen un conjunto de variables y que se sabe que existe alguna asociación entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente (o respuesta), y que depende de una o más variables independientes o predictoras (o de regresión) X1, X2, …, Xk Ejemplo: El salario es dependiente de: años de experiencia, grado de instrucción, sexo, etc. La variable dependiente se mide con un error que no se controla en el experimento, por tanto, Y es una variable aleatoria. Las variables independientes X1, X2, …, Xk se miden con un error despreciable, que en la mayoría de los casos se controla en el experimento, y por lo tanto, no tienen la propiedad de ser variables aleatorias. La primera forma es determinar una relación funcional de la variable dependiente, con respecto a una o más variables independientes con el fin de predecir valores de Y. este método es el análisis de regresión. La segunda forma de estudio de la asociación entre variables, es, medir la magnitud relación entre ellas, mediante un coeficiente o índice. A esta técnica se denomina Análisis de Correlación. Los métodos de regresión y correlación entre variables se clasifican por el número de variables independientes, en simple y múltiple.

NOCIONES DE CORRELACIÓN Y REGRESIÓN LINEAL AJUSTE DE CURVAS Para determinar una ecuación que relacione variables, un primer paso es recolectar datos que muestren los valores correspondientes de las variables en consideración. Por ejemplo, suponga que X e Y denotan la estatura y el peso de hombres adultos, respectivamente, entonces una muestra de n individuos revelara las estaturas 𝑋1 , 𝑋2 , 𝑋3 , ⋯ , 𝑋𝑛 ; así como los pesos correspondientes 𝑌1 , 𝑌2 , 𝑌3 , ⋯ , 𝑌𝑛 El siguiente paso es graficar los puntos (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), ⋯ , (𝑋𝑛 , 𝑌𝑛 ) en un sistema rectangular de coordenadas. El conjunto de puntos resultante suele denominarse Diagrama de dispersión.

Ing. Ronald Mamani Mayta

Página | 8

UNA – PUNO

DISEÑOS ESTADÍSTICOS

A partir del diagrama de dispersión podemos visualizar que los datos se aproximan a una curva suave, que se denomina curva de aproximación. En la fig. 1 los datos parecen aproximarse a una línea recta por lo que se dice que hay una relación lineal entre las variables, en la fig. 2 aunque existe una relación entre las variables esta no es lineal por lo que se le conoce como relación no lineal. El problema general para encontrar ecuaciones de curvas de aproximación que se ajustan a conjuntos de datos se denomina ajuste de curvas.

LA LÍNEA RECTA El tipo más simple de curva de aproximación es la línea recta, cuya ecuación puede expresarse como: 𝑌 = 𝑎0 + 𝑎1 𝑋 Dados dos puntos cualesquiera (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ) en la recta es posible determinar las constantes 𝑎0 𝑦 𝑎1 . La ecuación resultante de la recta se expresaría así: 𝑌2 − 𝑌1 𝑌 − 𝑌1 = ( ) (𝑋 − 𝑋1 ) ó 𝑌 − 𝑌1 = 𝑚(𝑋 − 𝑋1 ) 𝑋2 − 𝑋1 Donde: 𝑌2 − 𝑌1 𝑚=( ) 𝑋2 − 𝑋1 Se llama pendiente de la recta y representa el cambio en Y, dividido entre el cambio correspondiente en X. En la ecuación anterior la constante 𝑎1 es la pendiente m. La constante 𝑎0 que es el valor de Y cuando X=0, se denomina la intersección en Y.

EL MÉTODO DE LOS MÍNIMOS CUADRADOS Sean (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ) valores de la variable bidimensional (X;Y), para un determinado valor de X por ejemplo 𝑋1 habrá una diferencia entre el valor 𝑌1 , y el valor correspondiente deducido a partir de la curva 𝑌̂ . Como se muestra en la figura estas diferencias se simbolizan con 𝐷𝑖 y se conocen como desviación, error o residual, que puede ser positivo, negativo o cero. Una medida de la bondad de ajuste de los datos en la curva C de la siguiente figura está dado por 𝐷12 + 𝐷22 + ⋯ + 𝐷𝑛2 . Si esta es pequeña el ajuste es bueno; si es grande el ajuste es malo.

De todas las curvas que se aproximan a un conjunto de datos definidos por puntos, la curva que tiene la propiedad de que 𝐷12 + 𝐷22 + ⋯ + 𝐷𝑛2 es un mínimo se llama curva de ajuste óptimo o curva de mínimos cuadrados.

Ing. Ronald Mamani Mayta

Página | 9

UNA – PUNO

DISEÑOS ESTADÍSTICOS

LA RECTA DE MÍNIMOS CUADRADOS La recta de mínimos cuadrados que se aproxima al conjunto puntos (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), ⋯ , (𝑋𝑛 , 𝑌𝑛 ) tiene por ecuación: 𝑌 = 𝑎0 + 𝑎1 𝑋 Donde las constantes 𝑎0 𝑦 𝑎1 se determinan resolviendo simultáneamente las ecuaciones: Σ𝑌 = 𝑎0 𝑁 + 𝑎1 Σ𝑋 ΣX𝑌 = 𝑎0 Σ𝑋 + 𝑎1 Σ𝑋 2 Denominadas ecuaciones normales para la recta de mínimos cuadrados, de donde las constantes 𝑎0 𝑦 𝑎1 pueden calcularse a partir de las fórmulas: (∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌) 𝑎0 = 𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 𝑎1 =

𝑁(∑ 𝑋𝑌) − (∑ 𝑋)(∑ 𝑌) 𝑁 ∑ 𝑋 2 − (∑ 𝑋)2

El trabajo requerido para encontrar una recta de mínimos cuadrados puede simplificarse si se transforma 𝑥 = 𝑋 − 𝑋̅ y 𝑦 = 𝑌 − 𝑌̅ , entonces la ecuación de la recta de mínimos cuadrados se expresa como: ∑ 𝑥𝑦 𝑦 = ( 2) 𝑥 ∑𝑥 Si la variable X se toma como la variable dependiente en lugar de la independiente la ecuación de la resta se expresa como: 𝑋 = 𝑏0 + 𝑏1 𝑌 Entonces los resultados son válidos si X e Y se intercambian y si si 𝑎0 𝑦 𝑎1 se sustituyen por 𝑏0 𝑦 𝑏1

ANÁLISIS DE REGRESIÓN El Análisis de Regresión es un método que se emplea para encontrar una función que se ajusta a una nube de puntos o diagrama de dispersión, con la finalidad de poder obtener una predicción “aproximada” de una de las variables a partir de la otra. Así la regresión de la variable Y sobre X es dada por: 𝑌̂ = 𝑓(𝑋) = 𝑎0 + 𝑎1 𝑋 Naturalmente debemos elegir una función óptima de entre todas las funciones que se ajustan a la nube de puntos, esto es, la que mejor encaje sobre los puntos del diagrama de dispersión, para lo cual utilizamos el método de los mínimos cuadrados. Ejemplo 1: Dados los siguientes datos: X 2 3 Y 1 3

5 7

7 11

9 15

10 17

 Construya una línea recta que se aproxime a los datos (en el diagrama de dispersión).  Encuentre una ecuación para esta recta.

Ing. Ronald Mamani Mayta

Página | 10

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Solución: Graficamos los pares ordenados correspondientes a los datos.

Diagrama de Dispersión Y 18 16 14 12

10 8 6

4 2 0 0

2

4

6

8

10

12

X

 Para determinar la ecuación de la recta dada por 𝑌 = 𝑎0 + 𝑎1 𝑋 solo necesitamos dos puntos. Elegimos los puntos (2,1) y (3,3) tenemos: Si sustituimos (2,1) en la ecuación queda 1 = 𝑎0 + 2𝑎1 De manera similar para el punto (3,3) tenemos 3 = 𝑎0 + 3𝑎1 Resolviendo las ecuaciones simultáneamente 𝑎0 = −3 𝑦 𝑎1 = 2 la ecuación requerida es: 𝑌̂ = −3 + 2𝑋 Ejemplo 2: Con los datos del problema anterior, calcule: a) Y cuando X=4 b) Y cuando X=15 c) Y cuando X=0 d) X cuando Y=7.5 e) El incremento en Y correspondiente al crecimiento de una unidad en X Solución: a) Si 𝑋 = 4, 𝑌̂ = −3 + 2(4) = 5 como se busca un valor de Y correspondiente a un valor de X incluido entre dos valores dados de X, este proceso se llama interpolación lineal. b) Si 𝑋 = 15, 𝑌̂ = −3 + 2(15) = 27 como se busca un valor de Y correspondiente a un valor de X fuera de o exterior a los valores dados de X, este proceso se llama extrapolación lineal c) Si 𝑋 = 0, 𝑌̂ = −3 + 2(0) = −3 el valor de Y cuando X=0 se llama intersección en Y, es el valor de Y en el punto en que la recta (extendida si es necesario) se cruza con el eje Y. d) Si 𝑌 = 7.5, 7.5 = −3 + 2𝑋, 𝑋 = 7.25 e) Si 𝑌 = 0, 0 = −3 + 2𝑋, 𝑋 = 1.5 el valor de X cuando Y=0 se llama intersección en X, es el valor de X en el punto donde la recta (extendida si es preciso) se cruza con el eje X.

Ing. Ronald Mamani Mayta

Página | 11

UNA – PUNO

f)

DISEÑOS ESTADÍSTICOS

Si X se incrementa una unidad de 2 a 3, Y se incrementa de 1 a 3, un cambio de dos unidades, Si X se incrementa de 2 a 10 ó (10-2)=8 unidades, entonces Y se incrementa de 1 a 17 ó (17-1)=16 unidades, es decir un aumento de 8 unidades en X corresponde a un aumento de 16 unidades en Y, podemos decir también Y se incrementa 2 unidades por un incremento de una unidad en X.

Ejemplo 3: Dado los siguientes datos: X 1 3 4 6 8 9 11 14 Y 1 2 4 4 5 7 8 9 a) Construya una recta que se aproxime a los datos. b) Encuentre una ecuación para esta recta. c) Compare los valores de Y obtenidos a partir de la recta de aproximación con aquellos dados en la anterior tabla. d) Estime el valor de Y cuando X=10 Ejemplo 4 Ajuste una recta de mínimos cuadrados a los datos del ejemplo anterior usando: a) X como variable independiente. b) Y como variable independiente. Solución: Realizamos el siguiente arreglo y cálculos adicionales con los datos: X 1 3 4 6 8 9 11 14 Σ𝑋 = 56

Y 1 2 4 4 5 7 8 9 Σ𝑌 = 40

X2 1 9 16 36 64 81 121 196 2 Σ𝑋 = 524

XY 1 6 16 24 40 63 88 126 ΣXY = 364

Y2 1 4 16 16 25 49 64 81 2 Σ𝑌 = 256

a) Los valores de 𝑎0 𝑦 𝑎1 para la recta de mínimos cuadrados de Y sobre X son: (∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌) (40)(524) − (56)(364) 6 𝑎0 = = = = 0.545 2 2 2 (8)(524) − (56) 𝑁 ∑ 𝑋 − (∑ 𝑋) 11 𝑎1 =

𝑁(∑ 𝑋𝑌) − (∑ 𝑋)(∑ 𝑌) (8)(364) − (56)(40) 7 = = = 0.636 2 2 2 (8)(524) − (56) 𝑁 ∑ 𝑋 − (∑ 𝑋) 11

Entonces la recta queda: 𝑌̂ = 0.545 + 0.636𝑋 b) Los valores de 𝑏0 𝑦 𝑏1 para la recta de mínimos cuadrados de X sobre Y son: (∑ 𝑋)(∑ 𝑌 2 ) − (∑ 𝑌)(∑ 𝑋𝑌) (56)(256) − (40)(364) 𝑏0 = = = −0.50 (8)(256) − (40)2 𝑁 ∑ 𝑌 2 − (∑ 𝑌)2 𝑏1 =

Ing. Ronald Mamani Mayta

𝑁(∑ 𝑋𝑌) − (∑ 𝑌)(∑ 𝑋) (8)(364) − (40)(56) = = 1.50 (8)(256) − (40)2 𝑁 ∑ 𝑌 2 − (∑ 𝑌)2

Página | 12

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Entonces la recta queda: 𝑋̂ = −0.50 + 1.50𝑌 Ejemplo 5: Los siguientes datos corresponden a las estaturas redondeadas en pulgadas (pulg.) y los pesos redondeados en libras (lb.) de una muestra de 12 estudiantes varones obtenidas al azar de los alumnos del primer semestre de la Escuela Profesional de Educación. Estatura X (pulg.) 70 63 72 60 66 70 74 65 62 67 65 68 Peso Y (lb.) 155 150 180 135 156 168 178 160 132 145 139 152 a) b) c) d) e)

Obtenga un diagrama de dispersión de los datos. Construya una recta que se aproxime a los datos. Encuentre la ecuación de la recta construida en la parte b. Estime el peso de un estudiante cuya estatura es de 63 pulg. Calcule la estatura de un estudiante cuyo peso es de 168 lb.

CORRELACIÓN LINEAL: La correlación es un método empleado para determinar el grado de relación entre las variables que se estudian, para así determinar en qué medida una relación funcional describe o explica de forma adecuada la relación entre estas variables. Atendiendo al relacionamiento entre las variables X e Y, podemos tener. 1. Correlación directa o positiva: Cuando las variables X e Y presentan variaciones en un mismo sentido, esto es, para mayores valores de X corresponden mayores valores de Y. 2. Correlación inversa o negativa: Cuando las variaciones de X e Y, son en sentido contrario, esto es, para mayores valores de X corresponden menores valores de Y. Ejemplo: En el diagrama de dispersión de la figura 1, se observa que las dos variables presentan una cierta asociación lineal directa o (Positiva). En la figura 2 el diagrama de dispersión nos presenta una dependencia lineal inversa (o negativa), y finalmente en la figura 3 se aprecia una situación en donde las dos variables, no presentan, prácticamente correlación.

Ing. Ronald Mamani Mayta

Página | 13

UNA – PUNO

DISEÑOS ESTADÍSTICOS

CALCULO DEL COEFICIENTE DE CORRELACIÓN El coeficiente de correlación es un número abstracto que indica el grado de asociación entre las variables, y se define del siguiente modo: 𝑟=

𝑁 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌) √[𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑁 ∑ 𝑌 2 − (∑ 𝑌)2 ]

Otra fórmula es: 𝑟=

∑ 𝑥𝑦 √(∑ 𝑥 2 )(∑ 𝑦 2 )

El coeficiente de correlación lineal es un número comprendido entre -1 y 1, esto es: −1 ≤ 𝑟 ≤ 1 Valores positivos indican que las dos variables aumentan o disminuyen al mismo tiempo, mientras que valores negativos significan que cuando una variable aumenta la otra disminuye o viceversa. Si r es exactamente igual a -1 ó +1, quiere decir que hay una perfecta asociación entre las dos variables, en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra cambia siempre igual número de unidades. En dichas ocasiones los puntos en el grafico caerían todos sobre una línea recta. Si r=0, significa que no hay ninguna asociación entre las dos variables o de existir, no es una relación lineal En resumen para la interpretación del coeficiente de correlación tenemos el siguiente cuadro:

Ejemplo 6: Con los datos del ejemplo 3 hallar e interpretar el coeficiente de correlación lineal. Solución: Reemplazando los valores hallados en la formula tenemos: 𝑟=

𝑁 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌) √[𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑁 ∑ 𝑌 2 − (∑ 𝑌)2 ]

=

(8)(364) − (56)(40) √[(8)(524) − (56)2 ][(8)(256) − (40)2 ]

= 0.977

El valor de 𝑟 = 0.977 indica que existe una muy fuerte correlación lineal positiva entre las variables. La otra forma de calcular el coeficiente de correlación lineal es utilizando la fórmula: 𝑟=

Ing. Ronald Mamani Mayta

∑ 𝑥𝑦 √(∑ 𝑥 2 )(∑ 𝑦 2 )

Página | 14

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Donde: 𝑥 = 𝑋 − 𝑋̅ 𝑎𝑑𝑒𝑚á𝑠 𝑦 = 𝑌 − 𝑌̅ El procedimiento para el cálculo requiere realizar el siguiente arreglo: ̅) (𝑿 − 𝑿 -6 -4 -3 -1 1 2 4 7

𝑿 𝑿 1 1 3 2 4 4 6 4 8 5 9 7 11 8 14 9 Σ𝑋 = 56 Σ𝑌 = 40 56 40 𝑋̅ = = 7 𝑌̅ = =5 8 8 𝑟=

̅) (𝒀 − 𝒀 -4 -3 -1 -1 0 2 3 4

∑ 𝑥𝑦 √(∑ 𝑥 2 )(∑ 𝑦 2 )

=

𝒙𝟐 36 16 9 1 1 4 16 49

𝒙𝒚 24 12 3 1 0 4 12 28

𝒙𝟐 16 9 1 1 0 4 9 16

Σ𝑥 2 = 132

Σxy = 84

Σ𝑦 2 = 56

84 √(132)(56)

= 0.977

Ejemplo 7: Los siguientes datos corresponden a las estaturas X e Y respectivas en pulgadas (pulg.) de una muestra de 12 padres y sus hijos mayores. Estatura X del padre (pulg.) 65 63 67 64 68 62 70 66 68 67 69 71 Estatura Y del hijo (pulg.) 68 66 68 65 69 66 68 65 71 67 68 70 a) b) c) d)

Construya un diagrama de dispersión. Calcule la recta de regresión de mínimos cuadrados de Y sobre X. Determine la recta de regresión de mínimos cuadrados de X sobre Y. Calcule e interprete el coeficiente de correlación lineal.

Ing. Ronald Mamani Mayta

Página | 15

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF