Capitulo 9 Interpretaciones Geometricas
Short Description
Descripción: Capítulo 9 del libro que se utiliza en la cátedra Álgebra Lineal I de la Escuela de Estadística y Ciencias ...
Description
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Capítulo
9
INTERPRETACIONES GEOMÉTRICAS
9.1. INTRODUCCIÓN. En este capítulo se presenta el tema del Álgebra Lineal que mayor contribución tiene en el Análisis de Datos Multivariante como lo son las Interpretaciones Geométricas. Se exponen sus principales tópicos asociados como lo son la Representación Gráfica de los Vectores Filas y Columnas de una Matriz de Datos, Ángulo entre 2 vectores y Rectas y Planos en ℜn, y los Subespacios de Mejor Ajuste Mínimo Cuadrático, herramienta que justamente es la que permite la reducción de datos. 9.2. REPRESENTACIÓN GRÁFICA DE LOS VECTORES FILAS Y VECTORES COLUMNAS DE UNA MATRIZ DE DATOS. Sea X∈Mnxp(ℜ) una matriz de datos. Dicha matriz tiene n vectores filas que puede representarse gráficamente como puntos en ℜp; estos puntos representan a los elementos. Igualmente tiene p vectores columnas que pueden representarse gráficamente como puntos en ℜn; estos puntos representan a las variables. Si p = 1, 2, 3 es posible representar gráficamente a los elementos pero si p ≥ 4 esto resulta imposible. De la misma forma, si n = 1, 2, 3 es posible representar gráficamente a las variables pero si n ≥ 4 esto resulta imposible. De allí que es más factible representar gráficamente a los elementos de una matriz de datos que a las variables siempre y cuando se midan a lo sumo 3 variables.
Figura 9.1.
El gráfico obtenido es un gráfico de dispersión. A primera vista se observan 3 grupos de elementos: {C, B}, {A, F, G} y {E, D}. Sin embargo, no se dispone de mayor información para caracterizar esos grupos. Para ello, consideremos la matriz de datos centrada: ⎡ −0,43 −1,57 ⎤ ⎥ ⎢ ⎢ − 2,43 − 0,57 ⎥ ⎢ − 4,43 1,43 ⎥ ⎥ ⎢ ˆ X = ⎢ 4,57 6,43⎥ ⎢ 2,57 0,43⎥ ⎥ ⎢ ⎢ − 0,43 − 2,57⎥ ⎥ ⎢ ⎣ 0,57 − 3,57 ⎦ La representación gráfica de los 7 vectores filas (elementos) sobre ℜ2 se puede apreciar en la figura 9.2.:
Ejemplo Aplicado 9.1. Consideremos la matriz de datos cuyas columnas son las 2 primeras columnas de la matriz de datos del ejemplo aplicado 1.3.:
⎡12 ⎢ ⎢10 ⎢08 ⎢ X = ⎢17 ⎢15 ⎢ ⎢12 ⎢ ⎣13
11⎤ ⎥ 12 ⎥ 14 ⎥ ⎥ 19 ⎥ 13 ⎥ ⎥ 10 ⎥ ⎥ 09⎦
En este caso se pueden representar gráficamente los 7 vectores filas (elementos) sobre ℜ2 (Figura 9.1.).
Figura 9.2.
En este caso el punto (0,0) representa el punto de medias de las 2 columnas de ˆ , de manera que los 4 cuadrantes del gráfico anterior tienen características X particulares: 315
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Primer Cuadrante: Son los alumnos cuyas notas en el 1er y 2do parcial están por encima de la media. En este caso, están los alumnos E y D. Segundo Cuadrante: Son los alumnos cuya nota en el primer parcial está por debajo de la media pero cuya nota en el segundo parcial está por encima de la media. En este caso, está solamente el alumno C.
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
cercanos a D son E y A (aunque lejos), los más cercanos a E son A y F, los más cercanos a F son A y B y los más cercanos a G son F y A. Esto también permite construir grupos internamente homogéneos y externamente heterogéneos. Sin embargo, en la práctica no es común encontrar matrices de datos con sólo 2 columnas. Si tuviesen 3 columnas aún es posible representar gráficamente los elementos pero todavía se torna complicado analizar los grupos de elementos que se originan. Si tuviesen 4 o más columnas entonces es imposible representar gráficamente los elementos. El objetivo fundamental de este capítulo es justamente resolver este problema a través del Álgebra Lineal.
Tercer Cuadrante: 9.3. ÁNGULO ENTRE 2 VECTORES, RECTAS Y PLANOS EN ℜn.
Son los alumnos cuyas notas en el 1er y 2do parcial están por debajo de la media. En este caso, están los alumnos B, A y F.
Teorema 9.1.
Cuarto Cuadrante:
Sean X, Y∈ℜn. Entonces el ángulo φ entre los vectores X e Y es tal que:
Son los alumnos cuya nota en el primer parcial está por encima de la media pero cuya nota en el segundo parcial está por debajo de la media. En este caso, está solamente el alumno G.
Cos(φ) =
XtY X Y
De esta manera se aprecian 4 grupos de elementos plenamente caracterizados.
Demostración
Otra forma de hacer este análisis es considerando la distancia euclídea entre elementos, digamos los elementos i-ésimo y s-ésimo:
Por el teorema 5.2., d 2 (X, Y) = X + Y − 2 < X, Y > . Si X, Y∈ℜn
2
2
entonces:
d((Xi)t, (Xs)t) = ||(Xi)t – (Xs)t|| 2
De hecho, es la forma más útil cuando se trata de matrices con 3 o más columnas. Por ejemplo, la distancia entre los elementos B y D es:
2
d 2 ( X , Y ) = X + Y − 2X t Y
(1)
Gráficamente se puede apreciar en la figura 9.3.:
d ((X 2 ) , (X 4 ) ) = (10 − 17) + (12 − 19) = 9,90 t
t
2
2
Se puede determinar la matriz simétrica de distancias entre elementos cuyo elemento genérico es:
En este caso: ⎡0,00 ⎢ ⎢2,24 ⎢5,00 ⎢ D = ⎢9,43 ⎢ 3,61 ⎢ ⎢1,00 ⎢ ⎣2,24
d(X, Y)
||X||
Dij = d((Xi)t, (Xj)t)
φ 2,24
5,00
9,43
3,61 5,10
0,00
2,83
9,90
2,83
0,00
10,30 7,07
9,90 10,30
0,00
6,32
5,10
7,07
6,32
0,00
2,83
5,66
10,30 4,24
4,24
7,07
10,77 4,47
2,24 ⎤ ⎥ 2,83 4,24 ⎥ 5,66 7,07 ⎥ ⎥ 10,30 10,77 ⎥ 4,24 4,47 ⎥ ⎥ 0,00 1,41 ⎥ ⎥ 1,41 0,00 ⎦
Figura 9.3.
Por la ley del coseno se tiene que: 2
Se puede observar claramente que los elementos más cercanos a A son F y B, los más cercanos a B son A y F, los más cercanos a C son B y A, los más
316
||Y||
1,00
2
d 2 (X, Y) = X + Y − 2 X Y Cos(φ)
317
(2)
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Igualando (1) y (2) se tiene que: 2
2
2
2
X + Y − 2X t Y = X + Y − 2 X Y Cos(φ)
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
El vector (X – Y) se dice que es el vector director de la recta LYX. Si Y = θnx1 entonces la recta LθX es una recta en ℜn que pasa por el origen θnx1. La figura 9.4., muestra una recta LθX en ℜ3.
⇒ 2 X Y Cos(φ) = 2X t Y
⇒ X Y Cos(φ) = X t Y XtY X Y
⇒ Cos(φ) =
LθX
Teorema 9.2.
Sea X∈Mnxp(ℜ) una matriz de datos. Entonces el coseno del ángulo φ entre los ˆ j es: ˆh y X vectores X Cos(φ) = rhj Figura 9.4.
Siendo rhj el coeficiente de correlación lineal de Pearson entre las variables h-ésima y j-ésima.
Ejemplo 9.1.
Demostración
Sean X, Y∈ℜ3 los vectores:
1.
ˆ h )t X ˆj= (X
n
∑ Xˆ
ih
n
∑ (X
ˆ = X ij
i =1
2.
ˆ h = (X ˆ h )t X ˆh = X
ih
⎡ −1 ⎤ ⎢ ⎥ X = ⎢ 2⎥ , Y = ⎢⎣− 2⎥⎦
− X h )(X ij − X j ) = nShj
i =1
n
∑ (Xˆ
ih
)2 =
i =1
n
∑ (X
ih
− X h ) 2 = nS2h = n Sh
⎡1⎤ ⎢ ⎥ ⎢0 ⎥ ⎢⎣3⎥⎦
i =1
En este caso, 3.
ˆ j = (X ˆ j )t X ˆj = X
n
∑ (Xˆ )
2
ij
n
∑ (X
=
i =1
ij
⎡ −2 ⎤ ⎢ ⎥ X – Y = ⎢ 2⎥ ⎢⎣ − 5⎥⎦
− X j ) 2 = nS2j = n S j
i =1
Luego,
Cos(φ) =
nShj n Sh n S j
=
Shj Sh S j
= rhj
ˆh y X ˆ j coincide con el Es decir, el coseno del ángulo φ entre los vectores X coeficiente de correlación lineal de Pearson entre las variables h-ésima y j-ésima. Definición 9.1.
Luego,
⎡ −2 ⎤ ⎡1⎤ ⎢ ⎥ ⎢ ⎥ LYX = {Z∈ℜ3: Z = ⎢0⎥ + c ⎢ 2⎥ ; c∈ℜ} ⎢⎣3⎥⎦ ⎢⎣ − 5⎥⎦ Ejemplo 9.2.
Sea X∈ℜ3 el vector:
Sean X, Y∈ℜ tales que X ≠ Y. Se define como recta que pasa por X e Y, y se denota por LYX al conjunto: n
LYX = {Z∈ℜn: Z = Y + c(X – Y); c∈ℜ}
318
⎡ 1⎤ ⎢ ⎥ X = ⎢ − 2⎥ ⎢⎣ 3⎥⎦
319
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
La recta que pasa por el origen θ3x1 y el vector X es:
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
En este caso, W = LθX. Es claro que una base de LθX esta formada por un solo vector y es {X}. Por lo tanto, una base ortonormal de LθX es {V}, siendo X X . Luego, V= = X XtX
⎡ 1⎤ ⎢ ⎥ LθX = {Z∈ℜ3: Z = c ⎢− 2⎥ ; c∈ℜ} ⎢⎣ 3⎥⎦
Pr oy LYθX = < Y, V > V Teorema 9.3.
⇒ Pr oy LYθX = (Y t V)V
Sea X∈ℜ . Entonces la Recta LθX es un subespacio de ℜ . n
n
⇒ Pr oy LYθX = (Y t (
Demostración
⇒ Pr oy LYθX =
Por definición: LθX = {Z∈ℜn: Z = cX; c∈ℜ}
Es claro que si c = 0 entonces Z = 0X = θnx1. Luego, θnx1∈LθX. Sean Z1, Z2∈LθX. Luego, existen c1, c2∈ℜ tales que Z1 = c1X y Z2 = c2X. Luego, dZ1 + Z2 = d(c1X) + c2X, es decir, dZ1 + Z2 = (dc1 + c2)X; d∈ℜ. Por lo tanto, (dZ1 + Z2)∈LθX.
1. 2.
))
X XtX
YtX ⎛ XtX ⎞ ⎜ ⎟ ⎝ ⎠
⇒ Pr oy LYθX =
Veamos que LθX es un subespacio de ℜn.
X XtX
2
X
YtX X XtX
(
)
⇒ Pr oy YLθX = ψ YLθX X En la figura 9.5., se puede apreciar gráficamente la proyección ortogonal de un vector Y sobre una recta LθX en ℜ3.
Por consiguiente, LθX es un subespacio de ℜn. Teorema 9.4.
Sean X, Y∈ℜn. Entonces la Proyección Ortogonal de Y sobre la Recta LθX es:
(
)
Pr oy YLθX = ψ YLθX X
(
Siendo ψ
Y L θX
)
Y
Y − Pr oy LYθX
LθX
Pr oy LYθX
YtX = t la componente de proyección. XX
Demostración
Por el teorema 9.3., LθX es un subespacio de ℜn. Es claro que V = ℜn es un espacio euclídeo con el producto interno usual < X, Y > = X t Y , ∀ X, Y∈ℜn.
Figura 9.5.
Se aprecia claramente que (Y − Pr oy YLθX ) ⊥ Pr oy YLθX .
Por definición de proyección ortogonal (definición 5.6.): Observaciones: p
Pr oy YW =
∑ < Y, V
j
> Vj
j=1
Siendo {V1, V2, …, Vp} una base ortonormal de W.
1.
Por el teorema 5.11., d2(Y, LθX) = d2(Y, Pr oy LYθX ), es decir: d2(Y, LθX) = d2(Y, = (Y –
320
YtX X) XtX
YtX YtX X )t(Y – t X ) t XX XX
321
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
= YtY – Yt ( = YtY – (
= (Yt – (
YtX YtX X )t)(Y – t X ) t XX XX
= (Yt – (
YtX t YtX )X )(Y – t X ) t XX XX
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
⎡ 1⎤ ⎢ ⎥ 2 1]⎢− 2⎥ ⎢⎣ 3⎥⎦ 2 YtX = (ψ LYθX ) = t = ⎡ 1⎤ 14 XX [1 − 2 3]⎢⎢− 2⎥⎥ ⎢⎣ 3⎥⎦
[3
YtX YtX YtX YtX )X – ( t )X t Y + ( t )X t t X t XX XX XX XX
YtX t YtX YtX YtX )Y X – ( t ) Y t X + ( t ) t ) X t X t XX XX XX XX
Luego,
YtX YtX = YtY – 2 ( t )Y t X + ( t )Y t X XX XX t
= YtY – ( = YtY – (
Pr oy
YX t )Y X XtX
YtX t XtX )Y X( t ) XtX XX
= Y Y – (ψ 2.
2
d ( Pr oy
Y L θX
, θnx1) = || Pr oy
Y 2 L θX
Y L θX
⎡3⎤ ⎡ 1⎤ 2 ⎢ ⎥ ⎛ 2⎞ ⎢ ⎥ = [3 2 1]⎢2⎥ − ⎜ ⎟ [1 − 2 3]⎢− 2⎥ 14 ⎠ ⎝ ⎢⎣1 ⎥⎦ ⎢⎣ 3⎥⎦
) XX
|| = ( Pr oy
⎡ 1⎤ ⎡ 1 7 ⎤ 2 ⎢ ⎥ ⎢ 2 ⎥ )X = ⎢− 2⎥ = ⎢ − ⎥ 14 ⎢ 7⎥ ⎣⎢ 3⎦⎥ ⎢⎣ 3 7 ⎥⎦
d2(Y, LθX) = YtY – (ψ LYθX ) 2 X t X
t
2
= (ψ
Y L θX
Además,
YtX = YtY – ( t ) 2 X t X XX t
Y L θX
Y L θX
t
) Pr oy
(( ) ) ( ) = (ψ ) X X
Y L θX
t
= ψ YLθX X ψ YLθX X 2 Y L θX
⎛ 4 ⎞ = 14 − ⎜ ⎟14 ⎝ 196 ⎠
t
2 7
= 14 −
Ejemplo 9.3.
Consideremos la recta LθX del ejemplo 9.2.: ⎡ 1⎤ ⎢ ⎥ LθX = {Z∈ℜ3: Z = c ⎢ − 2⎥ ; c∈ℜ} ⎣⎢ 3⎦⎥ ⎡ 3⎤ ⎢ ⎥ Calculemos la proyección ortogonal del vector Y = ⎢ 2⎥ sobre la recta LθX: ⎣⎢1 ⎦⎥
Pr oy LYθX = (ψ LYθX )X
=
96 7
Finalmente, 2
2 ⎛ 2 ⎞ d 2 (Pr oy LYθX , θ3 x1 ) = (ψ LYθX ) 2 X t X = ⎜ ⎟ .14 = 7 ⎝ 14 ⎠ Definición 9.2.
Sean X0, X1, X2, …, Xp∈ℜn vectores L.I. Se define como plano de dimensión p+1 en ℜn generado por los vectores X0, X1, X2, …, Xp y se denota por Ppn+1 al conjunto:
La componente de proyección es:
Ppn+1 = {Z ∈ ℜ n : Z = X 0 +
p
∑ B X ; B ∈ ℜ, ∀j = 1, 2, ..., p} j
j
j=1
322
323
j
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Si X0 = θnx1 entonces se dice que el plano pasa por el origen, es generado por los vectores L.I. X1, X2, …, Xp y se denota por Ppn . Es claro que si Z∈ Ppn+1 entonces Z es combinación lineal de los vectores X0, X1, X2, …, Xp. Por otro lado, Si Z∈ P
entonces Z = X + 0
∑B X j
j
Pp3
X2
p
, es decir:
…
n p +1
j=1
X1
p
X
[
Z = X0
X1
X2
⎡1⎤ ⎢ ⎥ ⎢ B1 ⎥ p ⎢ L X B2 ⎥ = XB ⎢ ⎥ ⎢ M ⎥ ⎢B ⎥ ⎣ p⎦
]
Figura 9.6. Ejemplo 9.4.
Siendo X∈Mnx(p+1)(ℜ) = [X0
⎡1⎤ ⎢ ⎥ ⎢ B1 ⎥ 1 2 p p+1 X X …. X ] y B∈ℜ = ⎢B 2 ⎥ ⎢ ⎥ ⎢ M ⎥ ⎢B ⎥ ⎣ p⎦
De modo que: Ppn+1 = {Z ∈ ℜ n : Z = XB; X ∈ M nx(p +1) (ℜ), B ∈ ℜ p +1} En particular, si p = 1 entonces: P1n+1 = {Z ∈ ℜ n : Z = X 0 + B1X1 ; B1 ∈ ℜ} = L X 0X1
Sean X1, X2∈ℜ3 los vectores: ⎡ −1 ⎤ ⎢ ⎥ X1 = ⎢ 2⎥ , X2 = ⎢⎣− 2⎥⎦
⎡1⎤ ⎢ ⎥ ⎢0 ⎥ ⎢⎣3⎥⎦
El plano de dimensión 2 en ℜ3 que pasa por el origen y es generado por los vectores X1 y X2 es: ⎡1⎤ ⎡ −1 ⎤ ⎢ ⎥ ⎢ ⎥ P23 = {Z ∈ ℜ3 : Z = B1 ⎢ 2⎥ + B2 ⎢0⎥; B1 , B2 ∈ ℜ} = {Z ∈ ℜ3 : Z = XB; B ∈ ℜ 2 } ⎢⎣3⎥⎦ ⎢⎣ − 2 ⎥⎦ Siendo:
Si además X0 = θnx1 entonces:
⎡ −1 1⎤ ⎡B ⎤ ⎥ ⎢ X = ⎢ 2 0⎥ y B = ⎢ 1 ⎥ ⎣B 2 ⎦ ⎢⎣ − 2 3⎥⎦
Ppn = {Z ∈ ℜ n : Z = XB; X ∈ M nxp (ℜ), B ∈ ℜ p } Para p = 1 entonces: P1n = {Z ∈ ℜ n : Z = B1X1 ; B1 ∈ ℜ} = L θX1 En la figura 9.6., se puede apreciar un plano Pp3 .
Teorema 9.5.
Sean X1, X2, …, Xp∈ℜn tales que los vectores X1, X2, …, Xp son L.I. Entonces el plano Ppn que pasa por el origen y es generado por los vectores X1, X2, …, Xp es un subespacio de ℜn. Demostración
Por definición:
324
325
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
p
En este caso, W = Ppn . Es claro que como {X1, X2, …, Xp} es L.I., entonces es
∑ B X ; B ∈ ℜ, ∀j = 1, 2, ..., p}
Ppn = {Z ∈ ℜ n : Z =
j
j
j
j=1
una base de Ppn . Por consiguiente, para determinar una base ortonormal aplicamos el proceso de ortonormalización de Gram-Schmidt sobre {X1, X2, …, Xp}. Así se obtienen los vectores V1, V2, …, Vp de modo que existen escalares Cji; i = 1, 2, …, p; j = 1, 2, …, p tales que:
Veamos que Ppn es un subespacio de ℜn. 1.
2.
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Es claro que si B1 = B2 = … = Bp = 0 entonces Z = θnx1. Luego, θnx1∈ Ppn . Sean Z , Z ∈ 1
2
Ppn
p
∑B
1 jX
j
Z2 =
y
j=1
dZ
2
+
Z
=
d
∑
B1 jX + j
j=1
p
dZ1 + Z2 =
∑ (dB
1j
p
∑B
2 jX
j
.
Luego,
p
∑
B2 jX ,
es
Pr oy YPn = p
decir,
+ B 2 j )X j ; d∈ℜ. Por lo tanto, (dZ1 + Z2)∈ Ppn .
j=1
ji X
i
>(
i =1
p
∑C
ji X
i
))
i =1
Ahora bien, < Y,
Por consiguiente,
p
∑ (< Y, ∑ C
j=1
j=1
Ppn
i
Por lo tanto,
p
j
ji X
i =1
j=1
p
1
p
∑C
. Luego, existen Bij∈ℜ; i = 1, 2; j = 1, 2, …, p tales
Z1 =
que
Vj =
p
∑C
ji X
i
>=
i =1
es un subespacio de ℜ . n
p
∑C
ji
< Y, X i > =
i =1
p
∑C
ji ( Y
t
Xi ) =
i =1
p
∑C
ji ( X
) Y = Dj
i t
i =1
Luego,
Teorema 9.6.
p
p
∑ ( D (∑ C
Sean Y, X1, X2, …, Xp∈ℜn tales que los vectores X1, X2, …, Xp son L.I. Entonces la Proyección Ortogonal de Y sobre el plano Ppn generado por los
Pr oy YPn =
vectores X1, X2, …, Xp es:
⇒ Pr oy YPn =
∑∑ D C
⇒ Pr oy YPn =
∑∑ D C
p
j
j=1
p
Pr oy YPn = HY p
p
ji X
i
))
i =1
p
p
j
ji X
i
ji X
i
j=1 i =1 p
p
j
i =1 j=1
Siendo: 1.
X = [ X1
2.
H = X (X t X) −1 X t . Esta matriz se denomina Matriz de Proyección.
⇒ Pr oy YPn = [ X1
Demostración
X2
p
espacio euclídeo con el producto interno usual < X, Y > = X Y , ∀ X, Y∈ℜ . Por definición de proyección ortogonal (definición 5.6.): =
∑ < Y, V
n
⇒ Pr oy YPn = [ X1
p
Pr oy YW
j
>V
j=1
p
j
X2
⎡ C11 ⎢ C12 L Xp ] ⎢ ⎢ M ⎢ ⎣⎢C1p
Siendo {V1, V2, …, Vp} una base ortonormal de W.
326
∑
∑
Por el teorema 9.5., Ppn es un subespacio de ℜn. Es claro que V = ℜn es un t
⎤ ⎡ p ⎢ D jC j1 ⎥ ⎥ ⎢ j=1 ⎥ ⎢ p ⎢ D jC j2 ⎥ L Xp ] ⎢ ⎥ j=1 ⎥ ⎢ M ⎥ ⎢ p ⎢ D jC jp ⎥ ⎥⎦ ⎢⎣ j=1
∑
X2 L Xp ]
327
C 21 L C p1 ⎤ ⎡ D1 ⎤ ⎥⎢ ⎥ C 22 L C p 2 ⎥ ⎢D 2 ⎥ M M ⎥⎢ M ⎥ ⎥⎢ ⎥ C 2 p L C pp ⎦⎥ ⎣⎢D p ⎦⎥
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
X2
p
⇒
Pr oy YPn p
1
=[X
X
1
[X
X
M C2p
∑
∑
∑
p
⎡ C 2r1 ⎢ ⎢ r =1 ⎢ p C r 2 C r1 C=⎢ ⎢ r =1 M ⎢ ⎢ p ⎢ C rp C r1 ⎣⎢ r =1
∑
∑
∑
∑C
∑C
r1C r 2
L
C 2r 2
L
r =1 p
∑ r =1
p
M
∑C
⎤ C r1C rp ⎥ r =1 ⎥ ⎡ ( X1 ) t ⎤ p ⎥⎢ 2 t ⎥ C r 2 C rp ⎥ ⎢(X ) ⎥ Y r =1 ⎥⎢ M ⎥ M ⎥⎢ p t ⎥ p ⎥ ⎢⎣(X ) ⎥⎦ C 2rp ⎥ ⎥⎦ r =1
Cr2 L
r1
rp C r 2
r =1
L
∑
∑
∑ r =1
p
C 2r 2
L
M
∑C
⎤ C rp ⎥ r =1 ⎥ p ⎥ C r 2 C rp ⎥ una matriz de orden pxp r =1 ⎥ M ⎥ p ⎥ C 2rp ⎥ r =1 ⎦⎥
rp
r =1
Cr2 L
∑C
(Y – Pr oy YPn )tXj = 0 p
⇒ (Y – Pr oy YPn )tXj = 0 p
⇒ Y X – ( Pr oy YPn )tXj = 0 t
j
p
∑
p
r =1 p
Figura 9.7.
p
p
p
X1
Luego,
⇒ Pr oy YPn = XCXtY; siendo: p
Pr oy
Xp
∑
=
∑
p
Y Pp3
∑
C2p
⎡ p 2 C r1 ⎢ ⎢ r =1 p ⎢ p L X ] ⎢ C r 2 C r1 ⎢ r =1 M ⎢ ⎢ p ⎢ C rp C r1 ⎢⎣ r =1
p
⎤ ⎡ p i t ⎢ C1i (X ) ⎥ L C p1 ⎤ ⎢ i =1 ⎥ ⎥ p L C p 2 ⎥ ⎢ C (X i ) t ⎥ ⎥Y ⎢ 2i ⎥ M ⎥ ⎢ i =1 ⎥⎢ M ⎥ L C pp ⎦⎥ ⎢ p ⎥ i t ⎢ C pi (X ) ⎥ ⎦⎥ ⎣⎢ i =1
C 21
(Y − Pr oy YP3 )
Y
X2
1 t
p
⇒ Pr oy YPn = [ X1 X 2
∑
C 22 M
Pr oy YPn p
Pp3
C 21 L C p1 ⎤ ⎡ C11 C12 L C1p ⎤ ⎡ (X ) ⎤ ⎥ ⎥⎢ ⎥⎢ C 22 L C p 2 ⎥ ⎢C 21 C 22 L C 2 p ⎥ ⎢(X 2 ) t ⎥ Y M M ⎥⎢ M M M ⎥⎢ M ⎥ ⎥⎢ p t ⎥ ⎥⎢ C 2 p L C pp ⎦⎥ ⎣⎢C p1 C p 2 L C pp ⎦⎥ ⎣⎢(X ) ⎦⎥
⎡ C11 ⎢ C12 L X ]⎢ ⎢ M ⎢ ⎣⎢C1p
2
∑
C 22
p
⇒
∑
C 21
⎡ C11 ⎢ C12 L X ]⎢ ⎢ M ⎢ ⎣⎢C1p
2
⎡ p ⎤ i t ⎢ C1i (X ) Y ⎥ L C p1 ⎤ ⎢ i =1 ⎥ ⎥ p L C p 2 ⎥ ⎢ C (X i ) t Y ⎥ ⎢ ⎥ 2i ⎥ M ⎥ ⎢ i =1 ⎥⎢ M ⎥ L C pp ⎦⎥ ⎢ p ⎥ i t ⎢ C pi (X ) Y ⎥ ⎣⎢ i =1 ⎦⎥
…
⇒ Pr oy YPn = [ X1
⎡ C11 ⎢ C p ⎢ 12 L X ] ⎢ M ⎢ ⎣⎢C1p
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
⇒ YtXj = ( Pr oy YPn )tXj p
Por lo tanto, [ Y t X1 Y t X 2 L Y t X p ] = [ (Pr oy PYn ) t X1 (Pr oy PYn ) t X 2 L (Pr oy PYn ) t X p ] p
⇒ Yt[ X1
p
X 2 L X p ] = (Pr oy PYn ) t [ X1 p
⇒ Y X = (Pr oy ) X Y t Ppn
t
⇒ (YtX)t = ( (Pr oy PYn ) t X)t p
r1
∑
∑
p
X2 L Xp ]
⇒ X Y = X Pr oy YPn t
t
p
⇒ XtY = XtXCXtY Como X tiene sus p columnas L.I. entonces Rango(X) = p. En consecuencia, por el teorema 8.10., la matriz XtX es definida positiva y por lo tanto no singular. Luego, (XtX)-1XtY = CXtY ⇒ ((XtX)-1 – C)XtY = θpx1
Por otra parte, Pr oy YPn ∈ Ppn ⇒ (Y – Pr oy YPn ) ⊥ Ppn ⇒ (Y – Pr oy YPn ) ⊥ Xj; ∀ j = 1, 2, …, p (Ver figura 9.7. en ℜ3)
Como XtY ≠ θpx1 entonces (XtX)-1 – C = θpxp. Por consiguiente, C = (XtX)-1. De esta forma:
328
329
p
p
p
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Pr oy YPn = XCXtY = X(XtX)-1XtY = HY
= YtY −
p
n
∑ (Y X ) t
j 2
j=1
Observaciones: 1.
= YtY −
n
∑ ⎛⎜⎝ ψ j=1
Por el teorema 5.11., d2(Y, Ppn ) = d2(Y, Pr oy YPn ), es decir:
Y L j θX
⎞⎟ ⎠
2
p
2.
d2( Pr oy YPn , θnx1) = ( Pr oy YPn )t Pr oy YPn = (HY)t(HY) = YtHtHY = p
d2(Y, Ppn ) = d2(Y, HY)
p
p
YtHY. Es decir, el cuadrado de la longitud de la proyección ortogonal de Y sobre el plano Ppn es una forma cuadrática con
= (Y – HY)t(Y – HY) = ((In – H)Y)t(In – H)Y = Yt(In – H)t(In – H)Y = YtQtQY
matriz simétrica asociada H, la cual por ser simétrica e idempotente de orden nxn y de rango p es semidefinida positiva.
Siendo Q = In – H. Las matrices Q y H son simétricas e idempotentes (ver Ejercicio 23, Capítulo 1).
3.
Si los vectores X1, X2, …, Xp forman una base ortonormal de ℜn entonces XtX = Ip. Luego, H = XXt y Q = Ip – XXt. En consecuencia:
Por lo tanto: 3.1.
Pr oy YPn = HY = XXtY.
3.2.
d (Y, Ppn ) = Yt(Ip – XXt)Y.
3.3.
d2( Pr oy YPn , θnx1) = YtXXtY.
p
d2(Y, Ppn ) = YtQY Es decir, el cuadrado de la distancia de un vector Y al plano Ppn es una forma cuadrática con matriz simétrica asociada Q, la cual por ser simétrica e idempotente de orden nxn y de rango n – p es semidefinida positiva. En particular, si los p vectores columnas que generan el plano Ppn
p
Ejemplo 9.5.
Consideremos el plano P23 del ejemplo 9.3.:
( )
⎡ −1 ⎤ ⎡1⎤ ⎢ ⎥ ⎢ ⎥ P23 = {Z ∈ ℜ3 : Z = B1 ⎢ 2⎥ + B2 ⎢0⎥; B1 , B2 ∈ ℜ} ⎢⎣ − 2 ⎥⎦ ⎢⎣3⎥⎦
t
forman una base ortonormal de ℜn entonces X j X j = 1 , ∀ j = 1, 2, …, p y XtX = Ip. Luego, Q = In – H = In – XXt y YtX j ψ LY j = = Y t X j . En consecuencia: t θX Xj Xj
( )
d2(Y, Ppn ) = YtQY = Yt(In – XXt)Y
2
⎡ 3⎤ ⎢ ⎥ Calculemos la proyección ortogonal del vector Y = ⎢2⎥ sobre el plano P23 : ⎢⎣1 ⎥⎦
= YtY – YtXXtY = YtY − Yt
n
∑ X (X ) Y t
i
En este caso,
i
i =1
= YtY − Yt
⎡ −1 1⎤ ⎢ ⎥ X = ⎢ 2 0⎥ ⎢⎣ − 2 3⎥⎦
n
∑ X (X ) Y j
j t
j=1
n
∑ Y X (X ) Y
= Y Y− t
t
j
j t
j=1
= YtY −
∑ (Y X )((X ) Y) t
j
j t
j=1
= YtY −
Luego,
n
n
∑ (Y X )(Y X ) t
j=1
330
j
t
j
⎡ −1 1⎤ ⎡ − 1 2 − 2⎤ ⎢ ⎥ ⎡ 9 − 7⎤ XtX = ⎢ ⎥ ⎢ 2 0⎥ = ⎢ ⎥ 1 0 3 ⎣ ⎦ ⎢ − 2 3⎥ ⎣− 7 10 ⎦ ⎣ ⎦
331
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Se puede determinar que:
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
9.4. SUBESPACIOS DE MEJOR AJUSTE MÍNIMO CUADRÁTICO.
7 ⎤ ⎡10 41⎥ (X t X) −1 = ⎢ 41 9 ⎥ ⎢7 41⎦ ⎣ 41 La matriz de proyección es:
Definición 9.3.
Sea X∈Mnxp(ℜ) tal que Rango(X) = p. Se define como subespacio de mejor ajuste mínimo cuadrático de dimensión q (q < p) al conjunto de vectores filas de X y se denota por SMA(X) q al plano generado por vectores ortonormales n
V1, V2, …, Vq que verifica que −1
H = X (X X) X t
2
(X i , SMA(X) q ) es mínima.
i =1
t
12 ⎤ ⎡ 5 −6 ⎡ − 1 1⎤ ⎡10 41 41 41⎥ 7 ⎤ ⎡ − 1 2 − 2⎤ ⎢ ⎢ ⎥ ⎢ 41 41⎥ 6 40 2 ⎥ ⇒ H = ⎢ 2 0⎥ ⎢ ⎥ = ⎢ − 41 41 41 7 9 3⎦ ⎢ ⎢ ⎥ 1 0 ⎥ ⎢⎣− 2 3⎥⎦ ⎣ 41 41⎦ ⎣ 37 ⎥ 2 ⎢⎣ 12 41 41 41⎦
∑d
Observaciones: 1.
Como
d 2 (X i , SMA (X) q ) = d 2 (X i , Pr oySMAX(iX )q )
entonces
el
subespacio de mejor ajuste mínimo cuadrático SMA(X) q es aquel
Por lo tanto,
n
que verifica que
Pr ow
Y P23
⎡ 5 41 ⎢ = HY = ⎢ − 6 41 ⎢ ⎢⎣ 12 41
12 ⎤ ⎡3⎤ ⎡15 ⎤ −6 41 41⎥ ⎢ 41⎥ 40 2 ⎥ ⎢2⎥ = ⎢64 ⎥ ⎢ ⎥ 41 41 ⎥ ⎢ 41⎥ 37 ⎥ ⎢⎣1 ⎥⎦ ⎢77 ⎥ 2 41 41⎦ ⎣ 41⎦
∑d i =1
2.
2
(X i , Pr oy SMAX( Xi ) q ) es mínima.
Si X es una matriz de datos entonces independientemente del valor de p es posible representar los vectores filas (elementos) de X sobre un plano de dimensión q (q = 1, 2, 3).
Teorema 9.7.
Por otra parte, 5 ⎡1 0 0⎤ ⎡⎢ 41 ⎢ ⎥ ⎢ 6 Q = I 3 − H = ⎢0 1 0 ⎥ − − 41 ⎢⎣0 0 1⎥⎦ ⎢⎢ 12 41 ⎣
6 12 ⎤ ⎡ 36 −6 − 12 ⎤ 41 41⎥ ⎢ 41 41 41⎥ 40 6 2 ⎥=⎢ 1 −2 ⎥ 41 41 ⎥ ⎢ 41 41 41 ⎥ 37 ⎥ ⎢ − 12 4 ⎥ 2 −2 41 41 41 ⎦ 41 41⎦ ⎣
En consecuencia, 6 ⎡ 36 − 12 ⎤ ⎡3⎤ 41 41 41⎥ ⎢ 324 ⎢ ⎥ 1 − 2 ⎥ ⎢ 2⎥ = d2(Y, P23 ) = [3 2 1] ⎢ 6 41 41 41 41 ⎢ ⎥ ⎢ ⎥ 4 ⎥ ⎣1 ⎦ ⎢⎣ − 12 41 − 2 41 41 ⎦
Sea X∈Mnxp(ℜ) tal que Rango(X) = p. Entonces se cumple que: SMA (X)1 = L θV1 Siendo V1 el autovector normalizado de la matriz XtX asociado con su mayor autovalor. Demostración
Por definición, el subespacio de mejor ajuste mínimo cuadrático SMA(X)1 es el plano de dimensión 1 generado por un vector normalizado V1 con la n
condición (V1)tV1 = 1 que verifica que
∑d
2
(X i , SMA(X)1 ) es mínima. Es
i =1
Finalmente, ⎡15 ⎤ ⎢ 41⎥ 250 d ( Pr oy , θ3x1) = Y HY = [3 2 1]⎢64 ⎥ = ⎢ 41⎥ 41 ⎢⎣77 41⎥⎦ 2
Y P23
claro que SMA(X)1 es la recta L θV1 (ver figura 9.8., en ℜ3).
t
332
333
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
∑ ((V ) X )((X ) V ) n
=
t
1 t
i
1
i
i =1
⎞ ⎛ n = (V1 ) t ⎜⎜ X i (X i ) t ⎟⎟V1 ⎠ ⎝ i =1
∑
… Xn
Pr oy LX 21
⎛ ⎡ (X1 )t ⎤ ⎞ ⎜ ⎢ ⎥⎟ ⎜ (X )t ⎟ = (V1 ) t ⎜ [X1 X 2 L X n ]⎢⎢ 2 ⎥⎥ ⎟V1 M ⎟ ⎜ ⎢ ⎥ t ⎟ ⎜ ⎢ ( X ⎣ n ) ⎥⎦ ⎠ ⎝
L θV1
d(X1 , L θV1 )
X1
Pr oy LX11 θV
θV
d(X 2 , L θV1 )
Pr oy LX n1 θV
X2 d (X n , L θV1 )
= (V1 ) t X t XV1
Figura 9.8.
n
Es decir,
∑ ⎛⎜⎝ ψ i =1
Ahora bien,
2
θV1
⎞⎟ es una forma cuadrática con matriz simétrica asociada ⎠
XtX. Por lo tanto, el subespacio de mejor ajuste mínimo cuadrático de dimensión 1 es la recta L θV1 que maximiza la forma cuadrática (V1)tXtXV1
d 2 (X i , SMA(X)1 ) = d 2 (X i , LθV1 ) = d 2 (X i , Pr oy LXi 1 ) θV
con la restricción (V1)tV1 = 1. Para hallar el vector V1 utilizaremos el método de los multiplicadores de Lagrange:
Por la observación 1 del teorema 9.4.: 2
Xi L
Definimos las funciones:
( )
t d 2 (X i , Pr oy L Xi1 ) = (X i ) t X i − ⎛⎜ ψ L Xi1 ⎞⎟ V1 V1 θV ⎝ θV ⎠
f(V1) = (V1)tXtXV1 y g(V1) = (V1)tV1 – 1
( )
La expresión (V1)tV1 es una forma cuadrática con matriz simétrica asociada Ip.
t
Pero V1 V1 = 1 . Luego,
Luego, d 2 (X i , Pr oy L Xi1 ) = (X i ) t X i − ⎛⎜ ψ L Xi1 ⎞⎟ θV ⎝ θV ⎠
⇒
∑d i =1
2
(X i , Pr oy LXi 1 ) = θV
∑ (X ) X t
i
∇ f ( V1 ) = λ ∇ g ( V1 )
n
n
n
2
–
i
∑ ⎛⎜⎝ ψ i =1
i =1
Xi L
θV1
⎞⎟ ⎠
⇒ 2X t XV1 = λ(2I p V1 )
2
⇒ 2X t XV1 = 2λV1 ⇒ X t XV1 = λV1
n
El
término
∑
(X i ) t X i
es
constante.
Por
lo
tanto,
minimizar
i =1
n
n
∑ d (X , Pr oy 2
i
i =1
Xi L
θV1
) equivale a maximizar
∑ ⎛⎜⎝ ψ
Xi L
i =1
θV1
2
⎞⎟ , expresión que puede ⎠
escribirse de la siguiente manera: n
∑
⎛⎜ ψ X i ⎞⎟ ⎝ L θV1 ⎠ i =1
⎛ (X i )t V1 ⎞ ⎟ ⎜ = ⎜ 1 t ⎟ i =1 ⎝ ( V ) V ⎠ n
2
∑
∑ ((X ) V ) n
=
t
1 2
i
i =1
∑ ((X ) V )((X ) V ) n
=
t
t
1
i
1
2
⇒ X t XV1 = λV1 Por lo tanto, el multiplicador de Lagrange λ es autovalor de la matriz XtX con autovector asociado V1. Además, si premultiplicamos a ambos lados de la igualdad anterior por (V1)t se obtiene que: (V1 ) t X t XV1 = (V1 ) t (λV1 ) = λ (V1 ) t V1 = λ ⇒ f(V1) = λ
Es decir, maximizar f(V1) sujeto a (V1)tV1 = 1 equivale a maximizar λ, siendo éste último autovalor de XtX con autovector asociado V1. En consecuencia, el vector V1 es el autovector normalizado asociado al mayor autovalor de la matriz XtX.
i
i =1
334
335
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Observación:
Alumno
Las filas de X en lugar de representarse en ℜ se pueden representar en el subespacio de ajuste mínimo cuadrático P1p (X ) = L θV1 a través de su p
A B C D E F G H I J K
proyección ortogonal sobre dicha recta, específicamente a través de su componente de proyección, la cual toma la siguiente forma: ψ LXi 1 = θV
[
= X i1 X i 2
(Xi )t V1 = (Xi )t V1 = (X )t V1
(V1 ) t V1
i
1
( ) ( ] )
⎡ V1 1 ⎤ ⎢ 1 ⎥ V 2⎥ = L X ip ⎢⎢ M ⎥ ⎢ 1 ⎥ ⎢⎣ V p ⎥⎦
( )
∑ X (V ) p
1
ij
j
Algebra Lineal II 1 1 1 1 0 1 1 1 1 1 1
Teoría de la Probabilidad II 1 0 1 1 1 0 1 1 1 0 1
Determinemos SMA (X)1 . En este caso, la matriz de datos es: ⎡1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢0 ⎢ X = ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎣⎢1
( )
permite caracterizar intervalos de la recta de mejor ajuste mínimo cuadrático para así caracterizar los grupos de elementos de X cuyas componentes de proyección se encuentran en dichos intervalos. Para obtener el vector de componentes de proyección se hace lo siguiente:
θV
Introducción a la Economía -1 -1 -1 -1 -1 0 -1 -1 -1 0 0
j=1
Es decir, la componente de proyección de la i-ésima fila de X sobre la recta de mejor ajuste mínimo cuadrático es una combinación lineal de las mediciones de las p variables sobre el i-ésimo elemento. De tal forma que el coeficiente V1 j mide la contribución de la j-ésima variable en la componente. Esto
ψ LX1
Matemática IV -1 0 0 -1 0 0 0 0 1 -1 0
⎡ψ LX1 ⎤ ⎡ t t 1 ⎤ ⎡ ⎤ ⎢ XθV1 ⎥ ⎢ (X1 ) V ⎥ ⎢ (X1 ) ⎥ t 1 2 ⎢ψ L 1 ⎥ ⎢ ( X 2 ) V ⎥ ⎢ ( X 2 ) t ⎥ 1 = ⎢ θV ⎥ = = V = XV1 ⎢ ⎥ ⎢ M ⎥ M M ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ψ X n ⎥ ⎢(X ) t V1 ⎥ ⎢(X ) t ⎥ ⎦ ⎣ n ⎦ ⎣⎢ LθV1 ⎦⎥ ⎣ n
−1
−1 −1
0 0 −1
−1
0
−1
−1
0
0
0
−1
0
−1
1
−1
−1
0
0
0
1⎤ ⎥ 0⎥ 1⎥ ⎥ 1⎥ 1⎥ ⎥ 0⎥ ⎥ 1⎥ 1⎥ ⎥ 1⎥ 0⎥ ⎥ 1⎦⎥
Se puede verificar que: Ejemplo Aplicado 9.2.
⎡ 10 ⎢ −2 XtX = ⎢ ⎢− 7 ⎢ ⎣⎢ 7
En el período II-2004 se le consultó a un grupo de once (11) alumnos del curso de Algebra Lineal II su apreciación acerca del nivel de dificultad de las cuatro (4) materias del 4º semestre de la EECA, es decir, Algebra Lineal II, Matemática IV, Introducción a la Economía y Teoría de la Probabilidad II. Para cada respuesta se adoptó la siguiente escala:
−2
−7
7⎤ ⎥ 1 − 1⎥ 8 − 7⎥ ⎥ −1 − 7 8 ⎦⎥ 4 1
Igualmente se puede constatar que los autovalores y autovectores ortonormalizados de la matriz XtX son:
1: Nivel de dificultad alto. 0: Nivel de dificultad medio. -1: Nivel de dificultad bajo.
λ1 = 23 , λ 2 = 4 , λ 3 = 2 y λ 4 = 1
Los resultados de la consulta se muestran a continuación: ⎡ −0,2294 ⎤ ⎡ 0,7559⎤ ⎡ 0 ⎤ ⎡ 0,6131⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ 0 , 9177 0 , 3780 − 0 , 1226 2 3 4 ⎥, V =⎢ ⎥ y V =⎢ 0 ⎥ ⎥, V =⎢ V =⎢ ⎢ − 0,2294⎥ ⎢ 0,3780⎥ ⎢0,7071⎥ ⎢ − 0,5518⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢⎣ 0,2294⎦⎥ ⎣⎢ − 0,3780 ⎦⎥ ⎣⎢0,7071⎦⎥ ⎣⎢ 0,5518⎦⎥ 1
336
337
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Luego,
SMA(X)1 = L θV1
⎡ 0,6131⎤ ⎢ ⎥ − 0,1226 ⎥ = {Z∈ℜ : Z = c ⎢ ; c∈ℜ} ⎢− 0,5518⎥ ⎢ ⎥ ⎣⎢ 0,5518⎦⎥ 4
ψ LX 1 θV
Por lo tanto, ψ LX i 1 = 0,6131Xi1 – 0,1226Xi2 – 0,5518Xi3 + 0,5518Xi4 θV
Analicemos la estructura de esta componente: 1.
Las mayores contribuciones a ψ LXi 1 son 0,6131 y 0,5518, las
2.
cuales se corresponden con las materias Álgebra Lineal II y Teoría de la Probabilidad II. Se puede apreciar que ψ LXi 1 es máxima cuando Xi1 = 1, Xi2 = –1,
3. 4.
5.
6.
7.
8.
θV
⎡1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢0 ⎢ 1 = XV = ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎢⎣1
−1
−1
0
−1
0
−1
−1
−1
0
−1
0
0
0
−1
0
−1
1
−1
−1
0
0
0
1⎤ ⎥ 0⎥ 1⎥ ⎥ 1⎥ 1⎥ ⎥ 0⎥ ⎥ 1⎥ 1⎥ ⎥ 1⎥ 0⎥ ⎥ 1⎥⎦
⎡ 1,8393 ⎤ ⎢ ⎥ ⎢ 1,1649 ⎥ ⎢1,7167 ⎥ ⎢ ⎥ ⎢ 1,8393 ⎥ ⎡ 0,6131⎤ ⎢ 1,1036 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ − 0,1226 ⎥ = ⎢ 0,6131⎥ ⎢− 0,5518⎥ ⎢ ⎥ ⎢ ⎥ ⎢1,7167 ⎥ ⎢⎣ 0,5518⎦⎥ ⎢1,7167 ⎥ ⎢ ⎥ ⎢ 1,5941 ⎥ ⎢0,7357 ⎥ ⎢ ⎥ ⎢⎣ 1,1649 ⎥⎦
El gráfico de dichas componentes sobre la recta de mejor ajuste mínimo cuadrático se puede apreciar en la figura 9.9.
θV
Xi3 = –1 y Xi4 = 1, mientras que es mínima cuando Xi1 = –1, Xi2 = 1, Xi3 = 1 y Xi4 = –1. Los valores máximo y mínimo son 1,8893 y –1,8893, respectivamente. El valor intermedio es 0, el cual se obtiene cuando Xij = 0, ∀ j = 1, 2, 3, 4. Componentes de proyección tendientes a 1,8893 indicarán que son alumnos que perciben que Álgebra Lineal II y Teoría de la Probabilidad II tienen un alto nivel de dificultad (principalmente Álgebra Lineal II) y Matemática IV e Introducción a la Economía tienen un nivel de dificultad bajo (principalmente Introducción a la Economía). Componentes de proyección tendientes a –1,8893 indicarán que son alumnos que perciben que Álgebra Lineal II y Teoría de la Probabilidad II tienen un bajo nivel de dificultad (principalmente Álgebra Lineal II) y Matemática IV e Introducción a la Economía tienen un nivel de dificultad alto (principalmente Introducción a la Economía). Componentes de proyección tendientes a 0 indicarán que son alumnos que perciben que todas las materias tienen un nivel de dificultad medio. Si un alumno percibe a las 4 materias con alto nivel de dificultad, es decir, Xij = 1, ∀ j = 1, 2, 3, 4 entonces su componente de proyección es de 0,4905, Si un alumno percibe a las 4 materias con bajo nivel de dificultad, es decir, Xij = –1, ∀ j = 1, 2, 3, 4 entonces su componente de proyección es de –0,4905.
Calculemos las componentes para cada uno de los alumnos:
Figura 9.9.
Se puede apreciar que todas las componentes son positivas. El mínimo valor encontrado es de 0,6131. Esto indica que prácticamente todos los alumnos consideran que la materia Álgebra Lineal II tiene un nivel de dificultad alto. Asimismo se aprecia que 2 alumnos (A y D) tienen los valores máximos de las componentes; esto es porque consideran que Álgebra Lineal II y Teoría de la Probabilidad II tienen un alto nivel de dificultad y Matemática IV e Introducción a la Economía tienen un nivel de dificultad bajo. Pero también se observan a los alumnos E, B y K los cuales se encuentran hacia el centro de las componentes de todos los alumnos. Estos 3 alumnos tienden a considerar a Álgebra Lineal II como de alto nivel de dificultad y combinaciones de los 3 niveles con respecto a las otras 3 materias. Finalmente, en la figura 9.10., se pueden distinguir 3 grupos de alumnos internamente homogéneos y externamente heterogéneos.
Figura 9.10. Teorema 9.8.
Sea X∈Mnxp(ℜ) tal que Rango(X) = p. Entonces se cumple que:
SMA(X) 2 = P2p
338
339
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Siendo P2p el plano de dimensión 2 en ℜp generado por los vectores V1 y V2, autovectores ortonormalizados de la matriz XtX asociados con sus 2 mayores autovalores.
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
n
∑d i =1
∑ i =1
d 2 (X i , Pr oy SMAX(iX ) 2 ) es mínima, es decir, es el plano P2p generado por los
θV1
n
2
vectores V y V que verifica que
∑d
2
i =1
Xi
(X i , Pr oy P p ) es mínima (ver figura 2
9.11., en ℜ3).
∑ (X ) X
t
– λ1 – V 2 X t XV 2
t
) =
i
i
i =1
n
∑ (X ) X
Donde λ1 es el mayor autovalor de XtX y el término
t
i
es constante.
i
i =1
n
∑d
Por lo tanto, minimizar
i =1
2 t
1
t
( )
n
Xi L
i =1
n
i
i =1
n
i
( )
t
– V1 X t XV1 – V 2 X t XV 2
t
i
θV
2
Por definición el subespacio de mejor ajuste mínimo cuadrático SMA (X) 2 es el plano de dimensión 2 generado por 2 vectores ortonormalizados V1 y V2 ((V1)tV1 = 1, (V2)tV2 = 1 y (V1)tV2 = 0) que verifica que
∑ (X ) X
(X i , Pr oy LXi 1 ) =
∑ d (X , Pr oy
Demostración
( )
n
2
t
2
(X i , Pr oy LXi 1 ) equivale a maximizar la forma θV
2
cuadrática (V ) X XV con las restricciones (V2)tV2 = 1 y (V2)tV1 = 0. Para hallar el vector V2 utilizaremos el método de los multiplicadores de Lagrange: Definimos las funciones: f(V2) = (V2)tXtXV2, g(V2) = (V2)tV2 – 1 y h(V2) = (V2)tV1 La expresión (V2)tV2 es una forma cuadrática con matriz simétrica asociada Ip y (V2)tV1 es una función lineal en V2. Luego,
P23 … Xn
⇒ 2X t XV 2 = λ 2 (2I p V 2 ) + μ1V1
Pr oy XP31
Pr oy XP32
2
2
Pr oy XP3n
∇f (V 2 ) = λ 2∇g (V 2 ) + μ1∇h (V 2 )
d(X1 , P23 )
X1
⇒ 2X t XV 2 = 2λ 2 V 2 + μ1V1
d (X 2 , P23 )
2
(V ) 2X XV = (V ) 2λ V + (V ) μ V (V ) 2X XV = (V ) 2λ V + (V ) μ V 2(V ) X XV = 2λ (V ) V + μ (V ) V ⇒ 2(V ) X XV = 2λ (V ) V + μ (V ) V 2(V ) X XV = 2λ .0 + μ .1 ⇒ 2(V ) X XV = 2λ .1 + μ .0 2(V ) X XV = μ ⇒ (V ) X XV = λ
X2
d (X n , P23 )
⇒
1 t
t
2
1 t
2 t
t
2
2 t
2
1 t
2
2 t
1
1
2
2
Figura 9.11.
1 t
t
2
2 t
t
2
1 t
1
2 t
1
1
t
2
2 t
t
2
1 t
t
2
1
2
1
2
1
d (X i , SMA(X) 2 ) = d 2
2
(X i , P2p )
= d (X i , Pr oyP p ) 2
2
d 2 (X i , Pr oyXPpi ) = (X i ) t X i − ⎛⎜ ψ L Xi1 ⎞⎟ − ⎛⎜ ψ L Xi2 ⎞⎟ 2 ⎝ θV ⎠ ⎝ θV ⎠ n
n
n
d 2 (X i , Pr oy LXi 1 ) = θV
∑
(X i ) t X i –
i =1
∑
2
⎛⎜ ψ X i ⎟⎞ – ⎝ L θV1 ⎠ i =1
⎛⎜ ψ X i ⎞⎟ ⎝ L θV 2 ⎠ i =1
∑
(XtXV1)t = (λ1V1)t ⇒ (V1)tXtX = λ1(V1)t En consecuencia,
2
2λ1 (V1 ) t V 2 = μ1
(V ) X XV 2 t
De forma análoga al teorema anterior se deduce que: 340
2
Ahora bien, V1 es autovector de XtX con autovalor asociado λ1, es decir, XtXV1 = λ1V1. Por lo tanto:
2
n
t
2
Xi
2
Como V1 y V2 forman una base ortonormal de ℜp entonces por la observación 1 del teorema 9.6., se tiene que:
i =1
2
1
1 t
2 t
∑
2
2 t
2
Ahora bien,
⇒
1 t
2
El vector V1 necesariamente debe ser el vector director de la recta de mejor ajuste mínimo cuadrático SMA(X)1, ya que de lo contrario existiría otro plano de dimensión 2 mejor. El objetivo es determinar el vector V2.
1
1
t
2
= λ2
⇒
2λ1.0 = μ1
(V ) X XV 2 t
t
341
2
= λ2
⇒
μ1 = 0
(V ) X XV 2 t
t
2
= λ2
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Por consiguiente,
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
1.
La mayor contribución a ψ LX i 2 es 0,9177, la cual corresponde con
2.
la materia Matemática IV. Se puede apreciar que ψ LX i 2 es máxima cuando Xi1 = –1, Xi2 = 1,
2X XV = 2λ 2 V + μ1V ⇒ 2X XV = 2λ 2 V + 0.V t
2
2
1
t
2
2
1
⇒ 2X t XV 2 = 2λ 2 V 2 + θ px1 ⇒ 2X XV = 2λ 2 V t
2
2
⇒ X t XV 2 = λ 2 V 2 Es decir, maximizar f(V2) = (V2)tXtXV2 sujeto a (V2)tV2 = 1 y (V2)tV1 = 0 equivale a maximizar λ2 que a su vez es autovalor de XtX con autovector asociado V2. En consecuencia, el vector V2 es el autovector normalizado asociado al segundo mayor autovalor de la matriz XtX. Teorema 9.9.
3. 4.
5.
Sea X∈Mnxp(ℜ) tal que Rango(X) = p. Entonces se cumple que: SMA(X) q = Pqp 6. Siendo
Pqp
el plano de dimensión q en ℜ generado por los vectores p
V1, V2, …, Vq autovectores ortonormalizados de la matriz XtX asociados con sus q mayores autovalores.
7.
Demostración
8.
Este teorema es una extensión de los teoremas 9.7., y 9.8., de forma tal que su demostración es análoga a las demostraciones de estos teoremas.
θV
θV
Xi3 = –1 y Xi4 = 1, mientras que es mínima cuando Xi1 = 1, Xi2 = –1, Xi3 = 1 y Xi4 = –1. Los valores máximo y mínimo son 1,6059 y –1,6059, respectivamente. El valor intermedio es 0, el cual se obtiene cuando Xij = 0, ∀ j = 1, 2, 3, 4. Componentes de proyección tendientes a 1,6059 indicarán que son alumnos que perciben que Álgebra Lineal II e Introducción a la Economía tienen un bajo nivel de dificultad y Matemática IV y Teoría de la Probabilidad II tienen un nivel de dificultad alto (principalmente Matemática IV). Componentes de proyección tendientes a –1,6059 indicarán que son alumnos que perciben que Álgebra Lineal II e Introducción a la Economía tienen un alto nivel de dificultad y Matemática IV y Teoría de la Probabilidad II tienen un nivel de dificultad bajo (principalmente Matemática IV). Componentes de proyección tendientes a 0 indicarán que son alumnos que perciben que todas las materias tienen un nivel de dificultad medio. Si un alumno percibe a las 4 materias con alto nivel de dificultad, es decir, Xij = 1, ∀ j = 1, 2, 3, 4 entonces su componente de proyección es de 0,6883, Si un alumno percibe a las 4 materias con bajo nivel de dificultad, es decir, Xij = –1, ∀ j = 1, 2, 3, 4 entonces su componente de proyección es de –0,6883.
Calculemos las componentes para cada uno de los alumnos: Ejemplo Aplicado 9.3.
En relación al ejemplo aplicado 9.2., determinemos SMA(X) 2 . Como λ1 = 23 y λ 2 = 4 entonces:
SMA(X) 2 =
P24
⎡ 0,6131⎤ ⎡ −0,2294 ⎤ ⎢ ⎢ ⎥ ⎥ 0 , 1226 − ⎥ +B ⎢ 0,9177 ⎥ ; B1, B2∈ℜ} = {Z∈ℜ : Z = B1 ⎢ ⎢− 0,5518⎥ 2 ⎢− 0,2294⎥ ⎢ ⎢ ⎥ ⎥ ⎣⎢ 0,5518⎦⎥ ⎣⎢ 0,2294⎦⎥ 4
Anteriormente observamos la forma de ψ LX i 1 . Veamos ahora la forma de θV
ψ LXi 2 : θV
ψ
Xi L
θV 2
= –0,2294Xi1 + 0,9177Xi2 – 0,2294Xi3 + 0,2294Xi4
ψ LX 2 θV
⎡1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢0 ⎢ 2 = XV = ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎢1 ⎢1 ⎢ ⎣⎢1
−1 0 0 −1 0 0 0 0 1 −1 0
−1 −1 −1 −1 −1 0 −1 −1 −1 0 0
⎡ −1,6883 ⎤ ⎢ ⎥ ⎢ 0,0000⎥ ⎢ 0,2294⎥ ⎢ ⎥ ⎢ − 0,6883⎥ ⎡ −0,2294 ⎤ ⎢ 0,4588⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0,9177 ⎥ = ⎢− 0,2294⎥ ⎢− 0,2294⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0,2294⎥ ⎢⎣ 0,2294⎦⎥ ⎢ 0,2294⎥ ⎢ ⎥ ⎢ 1,1471 ⎥ ⎢ − 1,1471 ⎥ ⎢ ⎥ ⎣⎢ 0,0000⎦⎥
El gráfico de las componentes sobre el subespacio de mejor ajuste mínimo cuadrático de dimensión 2 se puede apreciar en la figura 9.12.
Analicemos la estructura de esta componente:
342
1⎤ ⎥ 0⎥ 1⎥ ⎥ 1⎥ 1⎥ ⎥ 0⎥ ⎥ 1⎥ 1⎥ ⎥ 1⎥ 0⎥ ⎥ 1⎦⎥
343
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Siendo D
λ
(A) ∈Mrxr(ℜ) la matriz diagonal definida por:
(D
λ
)
⎧⎪ λ si i = j (A) = ⎨ i ij ⎪⎩0 si i ≠ j
Donde λ1, λ2, …, λr son los autovalores comunes no nulos de XtX y XXt. Demostración
Por el teorema 7.23., se sabe que: Figura 9.12.
Se puede observar que el gráfico se divide en 2 cuadrantes; el I y el IV. En el I cuadrante se encuentran los alumnos cuyas componentes son positivas con respecto a V1 y V2, es decir, los alumnos que en general opinan que Álgebra Lineal II, Matemática IV y Teoría de la Probabilidad II son materias con alto nivel de dificultad. En el IV cuadrante se encuentran los alumnos cuyas componentes son positivas con respecto a V1 y negativas con respecto a V2, es decir, los alumnos que en general opinan que Álgebra Lineal II y Teoría de la Probabilidad II son materias con alto nivel de dificultad pero Matemática IV tiene bajo nivel de dificultad. De esta forma se pueden obtener con mayor precisión grupos de alumnos internamente homogéneos y externamente heterogéneos (figura 9.13.).
X=
r
∑
λ i U i (V i ) t
i =1
⇒ X=
[λU
( ) ⎤⎥ ( ] )⎥
⎡ V1 ⎢ 2 ⎢V λr Ur ⎢ ⎢ M ⎢⎣ V r
λ2 U2 L
1
1
t
t
( )
[
⇒ X = U1
U2
⎡ ⎢ ⎢ L Ur ⎢ ⎢ ⎢ ⎣
]
λ1
0
L
0
L
M
λ2 M
0
0
⇒ X = UD
λ
(A)V
L
t
⎥ ⎥ ⎥⎦
( ) ⎤⎥ ( )⎥
0 ⎤ ⎡ V1 ⎥⎢ 0 ⎥⎢ V2 ⎥ M ⎥ ⎢⎢ M λ r ⎥⎦ ⎢⎣ V r
t
t
( )
t
⎥ ⎥ ⎥⎦
t
Definición 9.4.
Sea X∈Mnxp(ℜ) tal que Rango(X) = p. Se define como matriz aproximada de X por el subespacio de mejor ajuste mínimo cuadrático de dimensión q ~ ~ SMA(X) q y se denota por X q a la matriz X q ∈ M nxp (ℜ) definida por: ~ X q = UD
Figura 9.13. Teorema 9.10.
λ
(A )V t
Siendo V∈Mpxq(ℜ) y U∈Mnxq(ℜ) las matrices cuyas columnas son los autovectores ortonormalizados de las matrices XtX y XXt, respectivamente, asociados con los q mayores autovalores comunes de ambas matrices. Definición 9.5.
Sean X∈Mnxp(ℜ) tal que Rango(X) = r, V∈Mpxr(ℜ) y U∈Mnxr(ℜ). Si V y U son las matrices cuyas columnas son los autovectores ortonormalizados de las matrices XtX y XXt, respectivamente, asociados con los autovalores comunes no nulos entonces: X = UD
λ
344
(A)V t
Sea X∈Mnxp(ℜ). Se define como Norma de Frobenius de X y se denota por X F al escalar siguiente: X
F
=
Traza (X t X)
345
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Observación:
q
Por el teorema 7.13. (lema de Schur), si λ1, λ2, …, λp son los autovalores
BSMA(X) q =
p
comunes no nulos de XtX entonces Traza(XtX) =
∑λ
i
. Luego,
∑λ i =1 p
∑
i
.100% λi
i =1
i =1
Ejemplo Aplicado 9.4.
X
p
F
∑λ
=
En relación a los ejemplos aplicados 9.2., y 9.3., se tiene que:
i
i =1
BSMA (X )1 =
Definición 9.6.
Sea X∈Mnxp(ℜ). Se define como Medida de la Bondad del Ajuste del Subespacio de Mejor Ajuste Mínimo Cuadrático de dimensión q a las filas de X y se denota por BSMA(X)q a:
(
y BSMA(X) 2 =
2 ~ ⎛⎜ X ⎞⎟ q F⎠ ⎝ BSMA(X) q = .100% 2 XF
)
Teorema 9.11.
Sean X∈Mnxp(ℜ) y λ1, λ2, …, λp∈ℜ. Si λ1, λ2, …, λp son los autovalores de la matriz XtX tales que λ1 ≥ λ2 ≥ … ≥ λp entonces:
23 .100% = 76,67% 23 + 4 + 2 + 1
23 + 4 .100% = 90,00% 23 + 4 + 2 + 1
Se aprecia que el subespacio de mejor ajuste mínimo cuadrático de dimensión 1 tiene una bondad de la aproximación del 76,67%, medida que es relativamente alta y bastante buena para ser 1 dimensión. Sin embargo, el subespacio de mejor ajuste mínimo cuadrático de dimensión 2 tiene una bondad de la aproximación del 90%, medida que es excelente por lo cual resulta el subespacio de mejor ajuste mínimo cuadrático idóneo para analizar el comportamiento de los vectores filas de X (elementos).
q
BSMA(X) q =
∑λ
i
∑λ
i
i =1 p
.100%
i =1
Demostración
Por definición: 2 ~ ⎛⎜ X ⎞⎟ q F⎠ BSMA(X) q = ⎝ .100% 2 XF
(
)
También por definición: 1. 2.
~ ⎛⎜ X ⎝ q
2
2 ~ t~ ⎞ ~ t~ ⎞⎟ = ⎛ Traza ((X ⎜ q ) X q ) ⎟ = Traza (( X q ) X q ) = F⎠ ⎝ ⎠
(X )
2
F
2
= ⎛⎜ Traza (X t X) ⎞⎟ = Traza (X t X) = ⎝ ⎠
q
∑λ
i
.
i =1
p
∑λ
i
.
i =1
En consecuencia,
346
347
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
EJERCICIOS PROPUESTOS. 1.
A continuación se muestra una matriz de datos X∈M10x3(ℜ) que contiene información de las notas definitivas obtenidas por diez (10) alumnos de primer semestre de la escuela en Matemática I, Estadística I y Computación I en un determinado semestre:
1.1.
1.2.
1.3.
2.
Alumno
Matemática I
Estadística I
Computación I
A
10
12
14
B
12
14
15
C
6
10
12
D
6
8
10
E
8
10
12
F
7
5
10
G
12
10
12
H
11
14
16
I
13
18
19
J
5
9
10
Represente gráficamente los puntos fila de la matriz de datos anterior sobre ℜ3. Ubique también el punto fila de las medias aritméticas de las 3 materias. Construya la matriz de datos centrada asociada a la matriz de datos. Represente gráficamente sobre ℜ3 los nuevos puntos obtenidos. Compare las representaciones gráficas de los 2 apartados anteriores.
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
3.
Para la matriz X del ejercicio 1, halle la correspondiente matriz R e interprete sus componentes.
4.
Sea X∈Mnxp(ℜ) una matriz de datos. Consideremos 2 puntos filas de dicha matriz, digamos el i-ésimo y el h-ésimo, es decir: (Xi)t = [ Xi1 Xi2 … Xip] y (Xh)t = [Xh1 Xh2 … Xhp]. Justifique la distancia euclídea para dar una medida del parecido entre estos 2 puntos. Luego seleccione aleatoriamente 3 pares distintos de puntos filas; manteniendo siempre 1 punto fila común en cada par, de la matriz de datos del ejercicio 1 y analice el parecido entre los puntos de cada par y compare los análisis realizados con los 3 pares de puntos.
5.
Sean X, Y∈ℜn tales que (1n)tX = (1n)tY = 0 y además X = Y = 1 . Demuestre que: 5.1. 5.2. 5.3.
6.
2.2.
p
siendo E = Y – Pr oy 7.
D=
1 Xˆ 1
0
L
0
0
1 Xˆ 2
L
0
M
M
0
0
348
L
M 1 Xˆ p
⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦
Y Ppn
. Demuestre que Y
2
2
= E + Y Pr oy YPn . t
p
Sean Y∈ℜn y L θ1n la recta en ℜn definida por: L θ1n = {Z∈ℜn: Z = c 1n , c∈ℜ} Demuestre que:
ˆ tX ˆ tiene la siguiente forma: La matriz V = X ⎧ ˆj 2 si i = j ⎪X Vij = ⎨ i j ˆ ˆ β X X Cos ( ) si i ≠ j ⎪ ij ⎩ t La matriz R = D VD es la matriz de correlaciones asociada a la matriz de datos X, siendo la matriz D∈Mpxp la matriz diagonal definida por: ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
Sean Y∈ℜn, X∈Mnxp(ℜ) una matriz de rango columna completo cuyas columnas generan el plano Ppn . La proyección ortogonal de Y sobre Ppn induce la siguiente partición del vector Y: Y = Pr oy YPn + E,
Sean X∈Mnxp(ℜ) una matriz de datos. Demuestre que: 2.1.
Si φ1 es el ángulo entre X e Y entonces Cos(φ1) = rXY. Si se define el vector Z = X – Cos(φ1)Y y φ2 es el ángulo entre Z e Y entonces Cos(φ2) = 0. A partir de lo obtenido en el apartado anterior, ¿podría asegurarse que las variables Z e Y están incorrelacionadas?
7.1.
Pr oy YLθ1 = Y1n .
7.2.
Si φ es el ángulo entre Y e Pr oy YLθ1 entonces:
n
n
Cos(φ) =
nY
2
.
n
∑Y
2
i
i =1
7.3. 8.
d2(Y, L θ1n ) = nS 2Y .
En relación al ejercicio 1 tome las notas de 3 alumnos en las materias Matemática I y Estadística I. Llame a estos 2 vectores columnas X e Y.
349
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Determine la mejor representación en el sentido de mínima distancia del vector X sobre la recta L θ13 en ℜ3.
8.1.
11.2.
ˆ y Y ˆ . Determine el coseno del ángulo entre los vectores X
8.2. 9.
ALGEBRA LINEAL PARA ESTADÍSTICOS Y ACTUARIOS
Sean X, Y∈ℜn y P2n el plano de dimensión 2 en ℜn que contiene al origen definido por:
11.3. 12.
P = {Z∈ℜ : Z = B1 1n + B2X, B1, B2 ∈ℜ} n 2
Sean Y∈ℜn y X∈Mnx2(ℜ) tal que X1 y X2 son ortogonales.
n
12.1.
Demuestre que: 12.2.
Pr oy YPn = a 1n +bX 2
12.3.
Siendo: n
a=
n
n
n
∑ Yi ∑ X i 2 − ∑ Xi ∑ X i Yi i =1
i =1
i =1
i =1
⎞ ⎛ n n ∑ X i − ⎜⎜ ∑ X i ⎟⎟ i =1 ⎝ i =1 ⎠ n
2
n
y b=
n
i =1
i =1
YtY −
((X1 ) t Y) 2 ((X 2 ) t Y) 2 − (X1 ) t X1 (X 2 ) t X 2
2
2
Note que Pr oy YPn define la ecuación de regresión lineal estimada por
13.
Se le consultó a un grupo de once (11) personas su apreciación acerca de tres (3) programas de televisión del canal Venevisión: “Cásate y Verás”, “Que Locura” y “Sábado Sensacional”. Para cada respuesta se adoptó la siguiente escala:
el método de los mínimos cuadrados de Y en función de X.
1: “Le gusta el programa y lo ve con regularidad”. 0: “Es indiferente al programa y lo ve casualmente”. -1: “No le gusta el programa y nunca lo ve”.
En relación al ejercicio 1 tome las notas de los alumnos en las materias Matemática I y Estadística I. Llame a estos 2 vectores columnas X e Y.
Los resultados de la consulta se muestran a continuación:
2
10 2
10.1.
Describa el plano P
10.2.
por 110 y X. Determine la Proyección Ortogonal del vector Y sobre el plano anterior. ¿Qué representa este vector? Determine la distancia del vector Y al plano dado.
10.3. 11.
d(Y, P2n ) =
i =1
⎞ ⎛ n n ∑ X i − ⎜⎜ ∑ X i ⎟⎟ i =1 ⎝ i =1 ⎠ n
2
Describa el plano P2n que contiene el origen y está generado por X1 y X2. Demuestre que: (X 2 ) t Y (X1 ) t Y Pr oy YPn = 1 t 1 X1 + 2 t 2 X 2 2 (X ) X (X ) X Demuestre que:
n
n ∑ X i Yi − ∑ X i ∑ Yi
Observación:
10.
⎡1 ⎤ ⎢ ⎥ Determine la Proyección Ortogonal del vector Y = ⎢2⎥ sobre ⎢⎣3⎥⎦ el plano anterior. Determine la distancia del vector Y al plano anterior.
que contiene el origen y está generado
Sean X∈M3x2(ℜ), Y∈ℜ3 y P23 el plano de dimensión 2 en ℜ3 que contiene al origen definido por las columnas de X, siendo X: ⎡1 0⎤ ⎢ ⎥ X = ⎢0 2 ⎥ ⎢⎣0 1 ⎥⎦ 11.1.
Describa la ecuación del plano P23 .
350
Individuo I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 13.1.
13.2.
Cásate y Verás 1 0 1 0 1 0 0 0 0 1 0
Que Locura 0 1 0 1 0 1 1 0 0 0 1
Sábado Sensacional 0 0 -1 0 0 1 0 0 1 1 1
Si se desea tener una medida de la bondad de la aproximación de por lo menos 60%, determine el subespacio de mejor ajuste a las filas de la matriz de datos anterior. Interprete la estructura general de la(s) componente(s) de proyección.
351
CAPÍTULO 9: INTERPRETACIONES GEOMÉTRICAS
Calcule y grafique las componentes de proyección ortogonal de las filas de la matriz de datos sobre el subespacio de ℜ3 generado en el apartado 13.1. Realice e interprete el gráfico.
13.3.
14.
Se le consultó a un grupo de diez (10) personas si les gusta o no hacer las siguientes actividades: “Ir al Cine”, “Ir a la Playa”, “Pasear en Centros Comerciales.” y “Rumbear”. Para ello se utilizó la siguiente escala: 1: Si les gusta y 0: No les gusta. A continuación se muestran los resultados: Persona
Ir al Cine
Ir a la Playa
Pasear en C.C.
Rumbear
A
1
1
0
0
B
0
0
1
1
C
1
1
0
1
D
1
1
0
0
E
0
1
0
0
F
0
0
0
1
G
0
1
0
0
H
1
1
1
1
I
0
1
0
0
J
1
0
1
0
14.1.
14.2. 14.3.
Determine el sub-espacio de ajuste mínimo cuadrático a las filas de la matriz de datos anterior que Ud. mejor considere para este caso. Justifique su respuesta. Interprete la estructura general de la(s) componente(s) de proyección. Calcule y grafique las componentes de proyección de las filas de la matriz de datos sobre el sub-espacio de ℜ4 generado en el apartado 16.1. Interprete el gráfico.
352
View more...
Comments