March 18, 2017 | Author: Lina Gutierrez Garcia | Category: N/A
Download Elementos de Estadistica Multivariada...
Elementos de Estadística Multivariada
Universidad Nacional de Colombia Sede Medellín Facultad de Ciencias Agropecuarias Departamento de Ciencias Forestales Año 2001
ALVARO DE J. LEMA TAPIAS
40 9
6
35
1 3
ensional pondera do y
i
2
20
po q
Es
pa
7
25
im i-d cio
rD
ESPECIE 2
30
di
5
8
15 10
10
^ yi
4
^ yi
—
5
io n
spac
sube
0 10
20
30
S
y
nal
sio imen
-d
y i
40
ESPECIE 1
12 × p* 1
DISTANCIAS
10 8
é x1 ù ê ú êx 2 ú ê M ú =ê ú ê xi ú ê ú ê M ú êx p ú ë û
Sn p* p
é s11 s12 ês s22 ê 21 ê M M =ê s s 1 i i2 ê ê M M ê ëês p1 s p 2
s13 s23 M si 3 M sp3
K K s1 p ù K K s2 p ú ú M ú ú sij K sip ú O M ú ú K K s pp ûú
R p* p
K g 1p ù K g 2p ú ú K M ú ú K M ú O M ú ú K 1 úû
é 1 g 12 g 13 g 14 êg M M 1 ê 21 ê M M M 1 =ê M M M 1 ê ê M M M M ê g g g g p2 p3 p4 ëê p1
6 4
Consumo
2 0
1
2
3
4
Pared 2
4000
A
3000
5
a3 Pa
red
1
3000
Ex
nes
io tac
1000
D
a1 O
2000
por
a2
1000
2000
3000 Imp
orta
Piso
cion
es
C
Alvaro Lema Tapias PROFESOR TITULAR
Elementos de Estadística Multivariada
Universidad Nacional de Colombia Sede Medellín.
Elementos de Estadística Multivariada Editor académico: Stalin Fernández Vásquez Ingeniero Forestal
[email protected] Universidad Nacional de Colombia, Sede Medellín. Diseño portada: Juan Manuel Cardona.
[email protected] Edición gráfica: Juan Manuel Cardona.
2001, Alvaro Lema Tapias. 2001, Stalin Fernández Vásquez. Primera edición - Julio del 2001
Derechos reservados. No podrá reproducirse esta obra total o parcialmente por ningún medio sin el permiso por escrito del autor y editor académico. Para contactar al autor sírvase escribir a
[email protected]
Introducción Este libro está escrito para estudiantes que quieran iniciarse en el mundo de la estadística multivariada, sin presupuestos del conocimiento matemático necesario pues es parte de su encanto ir descubriendo el manejo adecuado de conceptos que dejan su complejidad al ir mostrando las nuevas facetas de cada tema. Se trata de un curso introductorio sin la obsesión de agotar los temas tratados. La única pretensión de las siguientes notas de clase convertidas a texto es presentar en español la interpretación que se pueda lograr de libros magníficos como los de Johnson y Wichern, didácticamente presentado, Mardia et al; y Seber, solventes, rigurosos y profundos, y algunas aclaraciones practicistas de Pielou, Podani y Legendre y Legendre, hasta el análisis de correspondencia magníficamente expuesto por Greenacre y Lebart y Morineau, que se fueron tomando para dar clases sin dejar la constancia bibliográfica rigurosa de ello, por lo cual de antemano se piden las disculpas del caso. La mayoría de los ejemplos propuestos se pueden resolver manualmente o con la ayuda de algún paquete estadístico, lo que facilita su comprensión. Queda claro, que la intención de estas notas es dar a conocer una ciencia hermosa, de mucha actualidad sobre todo en el campo de las ciencias ecológicas y ambientales, con el solo aporte personal de las interpretaciones y la visión didáctica del autor y, algunos de los ejemplos presentados. Al final se da una pequeña bibliografía que se considera la parte más rica de la obra. El libro se compone de 8 capítulos y algún día serán más. El primero aborda los conceptos introductorios y elementales, como enlace con la estadística multivariada, haciendo énfasis en el concepto de distancia como la clave alrededor de la cual se entienda el concepto de iguales niveles de incertidumbre. El segundo, por el tipo de personas al que va dirigido es un breve repaso de conceptos de matrices y vectores aleatorios, que abren totalmente la capacidad a la comprensión de muchos de los temas tratados y predispone al abordaje de conceptos necesarios para muchos de los procesos posteriores, con énfasis en matrices ortogonales, descomposición espectral y matriz de varianzas covarianzas y explicaciones matriciales de las distancias y muchas de sus propiedades y posibilidades como elementos sintéticos para el manejo de grandes bases de datos. El tercer capítulo aborda algunos elementos de la geometría vectorial en su forma más simple, los tipos de representaciones dimensionales y los conceptos de muestras como vectores aleatorios, varianza generalizada y combinaciones lineales matriciales.
El cuarto, es una visión obligada de las distribuciones multinormales y algunos elementos necesarios para futuras inferencias y pruebas que si bien no son absolutamente necesarias para muchos análisis facilitan las interpretaciones cuando se sabe si las distribuciones se asimilan a ellas. El quinto capítulo aborda desde su visión más elemental uno de los pilares de la multivariada como es el análisis de componentes principales, proceso de ordenación y rotación de ejes para facilitar algunas interpretaciones imposibles por otro lado, prueba por si misma algunas veces, como paso obligado en otros procesos. Se aborda en el la descomposición en valores singulares, pieza clave en el futuro análisis de correspondencia. El sexto aborda el análisis de factores, intento por descubrir ideas subyacentes inobservables, un gran reto para caracterizaciones cuando se carece de elementos previos, abordados en diversos contextos desde un análisis de componentes principales, incluso más elaborado que este hasta estimadores de máxima verosimilitud. El séptimo capítulo es el análisis de cluster, un intento clasificatorio de cierto número de elementos en grupos o clases homogéneas, para tratar de comprender desde otros ángulos, a través algunas veces desde distancias y disimilaridades la complejidad de ciertas relaciones multivariadas. El último capítulo aborda el análisis de correspondencia, una búsqueda de estructuras que resultan inadecuadamente analizadas por otros procesos y que buscan establecer patrones de comportamiento e interrelaciones entre variables sometidas a diversos criterios de clasificación. Parte de tablas de contingencia simple, hasta las múltiples tablas de Burt, con sus análisis de inercia y gráficos duales para la mejora interpretativa de muchos procesos. No se podría finalizar esta introducción sin agradecer lo más profundamente que sea posible el tesón, la insistencia y la dedicación de los Ingenieros Forestales Stalin Fernández y Juan Manuel Cardona, editores artífices de la levantada, edición y correcciones y aun de soliviantar el veto a que esto sólo fuera un manuscrito con el único deseo de guiar una clase. Gracias.
Contenido CAPÍTULO 1................................................................................................. 1 ELEMENTOS DE ESTADÍSTICA MULTIVARIADA........................................... 1 1.1 OBJETIVOS DE LOS MÉTODOS MULTIVARIADOS ................................................1 1.2 ORGANIZACIÓN DE LOS DATOS ......................................................................2 1.3 DESCRIPTORES ESTADÍSTICOS.......................................................................3 1.4 OTRAS SUMATORIAS IMPORTANTES ................................................................6 1.5 ARREGLOS PARA LAS ESTADÍSTICAS DESCRIPTIVAS ..........................................6 1.6 TÉCNICAS GRÁFICAS ....................................................................................7 1.6.1 Diagrama de dispersión......................................................................... 7 1.6.2 Diagramas marginales........................................................................... 7 1.7 TIPOS DE REPRESENTACIÓN ........................................................................ 10 1.7.1 Representación de n puntos en p dimensiones .................................... 10 1.7.2 Representación de p puntos en n dimensiones..................................... 11 1.8 DISTANCIA ................................................................................................ 12 1.8.1 Distancia euclidiana ............................................................................ 12 1.8.2 Distancia entre dos puntos .................................................................. 14 1.8.3 Distancia estadística............................................................................ 15 1.8.4 Distancias para elementos en variables no independientes................. 17 1.8.5 Coeficientes de distancia ..................................................................... 21 1.9 LECTURA COMPLEMENTARIA (ACLARACIÓN DE ÍNDICES DE DIVERSIDAD, DATOS Y TRANSFORMACIONES) ............................................................................... 23 1.9.1 Indices de diversidad. Escalas nominales .......................................... 23 1.9.2 Tipos de datos y transformaciones ...................................................... 26 1.9.3 Estandarizaciones de variables ........................................................... 27 CAPÍTULO 2............................................................................................... 33 ALGEBRA DE MATRICES Y VECTORES ALEATORIOS................................. 33 2.1 VECTORES................................................................................................ 33 2.1.1 Expansión o contracción de vectores.................................................... 34 2.1.2 Suma de vectores................................................................................. 34 2.1.3 Características de un vector................................................................. 35 2.1.4 Vector unitario...................................................................................... 36 2.1.5 Dirección .............................................................................................. 37 2.1.6 Ángulo entre dos vectores .................................................................... 37 2.1.7 Producto interior; interno o producto punto de dos vectores ................. 38 2.1.8 Expresión generalizada para el ángulo entre dos vectores .................. 38 2.1.9 Vectores linealmente dependientes ...................................................... 39 2.1.10 Vector sombra - Vector proyección ....................................................... 39 2.2 MATRICES ................................................................................................ 40 2.2.1 Matriz traspuesta................................................................................. 41 2.2.2 Multiplicación de matrices.................................................................... 41
2.2.3 Matrices especiales .............................................................................. 43 2.3 DETERMINANTE DE UNA AK*K Y FUNCIÓN DETERMINANTE ................................. 45 2.3.1 Función determinante de una Ak*k ....................................................... 45 2.3.2 Determinante de una Ak*k .................................................................... 46 2.4 VALORES Y VECTORES PROPIOS DE UNA Ak*k ................................................. 47 2.4.1 Cálculos de λi,y ei ................................................................................ 50 2.5 LECTURA COMPLEMENTARIA ....................................................................... 51 2.5.1 Repaso de conceptos............................................................................ 51 2.5.2 Traspuesta de A .................................................................................. 52 2.6 PROPIEDADES DE LAS MATRICES ................................................................. 54 2.7 TRAZA DE UNA MATRIZ ............................................................................... 55 2.8 FORMAS CUADRÁTICAS ............................................................................... 56 2.8.1 Matrices definidas positivas (precisas positivas, exactas, positivas) ... 57 2.8.2 Descomposición espectral de una matriz cuadrada simétrica .............. 57 2.9 EXPLICACIÓN MATRICIAL DE LA DISTANCIA .................................................... 59 2.10 DISTANCIA A UN PUNTO FIJO ARBITRARIO µ .................................................. 61 2.11 MATRIZ RAÍZ CUADRADA ............................................................................. 63 2.12 VECTORES Y MATRICES ALEATORIOS ............................................................ 64 2.13 VECTORES DE MEDIAS Y MATRICES DE COVARIANZAS ..................................... 65 2.14 MEDIAS Y COVARIANZAS DE UN VECTOR ALEATORIO X .................................... 67 2.15 SEPARACIÓN DE INFORMACIÓN CONTENIDA EN Σ DE LAS MEDIDAS DE ASOCIACIÓN ............................................................................................................... 70 2.16 MATRIZ DE DESVIACIÓN ESTÁNDAR .............................................................. 71 2.17 PARTICIÓN DE LA MATRIZ DE COVARIANZAS ................................................... 72 2.18 VECTOR MEDIO Y MATRIZ DE COVARIANZAS PARA COMBINACIONES LINEALES DE VARIABLES ALEATORIAS ............................................................................ 74 2.19 VECTORES DE MEDIAS Y COVARIANZAS MUESTRALES ...................................... 76 2.20 LECTURA COMPLEMENTARIA ....................................................................... 77 2.20.1 Desigualdades matriciales y maximización ......................................... 77 2.20.2 Desigualdad de Cauchy-Schwartz ....................................................... 78 2.20.3 Extensión de la desigualdad de Cauchy-Schwartz .............................. 79 2.20.4 Lema de maximización......................................................................... 79 2.20.5 Maximización de formas cuadráticas para puntos en una esfera unitaria ............................................................................................................ 79 CAPÍTULO 3............................................................................................... 83 GEOMETRÍA MUESTRAL Y MUESTREOS ALEATORIOS .............................. 83 3.1 GEOMETRÍA DE LA MUESTRA ....................................................................... 83 3.1.1 Forma p-dimensional ........................................................................... 83 3.1.2 Forma n-dimensional ........................................................................... 85 3.2 INTERPRETACIÓN GEOMÉTRICA DE LA MEDIA MUESTRAL.................................. 86 3.3 GRÁFICA DE LOS eI ................................................................................... 88 3.4 LECTURA COMPLEMENTARIA ....................................................................... 90 3.4.1 Muestras aleatorias y valores esperados de la media muestral-matriz de covarianzas ................................................................................................ 90 3.4.2 Definición de muestra aleatoria ........................................................... 91
3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15
X Y SN VISTOS COMO ESTIMADORES PUNTUALES DE µ Y Σ .............................. 92
VALOR ESPERADO DE SN ............................................................................. 93 VARIANZA GENERALIZADA ........................................................................... 94 INTERPRETACIÓN GEOMÉTRICA DE S.......................................................... 95 INTERPRETACIÓN DE LA VARIANZA GENERALIZADA EN UN DIAGRAMA P ESPACIAL . 97 DEBILIDADES DE S ................................................................................. 98 VARIANZA GENERALIZADA = 0 ..................................................................... 98 RANGO PLENO DE S ................................................................................... 99 VARIANZA GENERALIZADA DETERMINADA POR R ........................................ 100 OTRA GENERALIZACIÓN DE LA VARIANZA-VARIANZA TOTAL MUESTRAL ............. 102 OPERACIONES MATRICIALES PARA OBTENER MEDIAS, COVARIANZAS Y CORRELACIONES MUESTRALES ................................................................. 103 3.15.1 Media Χ ............................................................................................. 103 3.15.2 Matriz de medias (p * n) ..................................................................... 103 3.15.3 Matriz de desviaciones (X-M)(p*n) ........................................................ 104 3.15.4 Matriz de sumas de cuadrados y productos cruzados (n-1) S ........... 104 3.16 MATRIZ DE DESVIACIONES ESTÁNDAR D1/2 ................................................. 105 3.17 VALORES MUESTRALES DE COMBINACIONES LINEALES DE VARIABLES ............. 106 3.18 RELACIONES DE MEDIAS Y COVARIANZAS MUESTRALES PARA Q COMBINACIONES LINEALES.............................................................................................107 3.19 TRATAMIENTO DE MUESTRAS COMO POBLACIONES ....................................... 108 3.20 LECTURA COMPLEMENTARIA ..................................................................... 108 3.20.1 Desviación típica generalizada........................................................... 108 3.21 DISTANCIA DE MAHALANOBIS .................................................................... 109
CAPÍTULO 4............................................................................................. 114 DISTRIBUCIÓN MULTINORMAL................................................................ 114 4.1 DISTRIBUCIÓN NORMAL BIVARIADA ............................................................ 116 4.1.1 Ejes principales.................................................................................. 119 4.1.2 Propiedades de la distribución normal multivariada.......................... 120 4.2 LA χ2 COMO DISTANCIA............................................................................ 121 4.3 DISTRIBUCIÓN MUESTRAL DE PROMEDIOS Y VARIANZAS COVARIANZAS ............ 121 4.4 LEY DE GRANDES NÚMEROS ...................................................................... 123 4.5 TEOREMA DEL LÍMITE CENTRAL................................................................. 123 4.6 EVALUACIÓN DE LA NORMALIDAD DE DISTRIBUCIONES MARGINALES UNIVARIADAS .. ............................................................................................................. 124 4.7 GRÁFICAS Q-Q (CUANTIL-CUANTIL)............................................................ 124 4.8 ALGUNAS INFERENCIAS ACERCA DEL VECTOR DE MEDIAS .............................. 126 4.9 µ0 COMO POSIBLE VALOR PARA LA MEDIA DE UNA POBLACIÓN NORMAL ............. 127 4.10 PRUEBAS DE RAZONES DE VEROSIMILITUD PARA T2. ..................................... 128 4.11 ANÁLISIS DE VARIANZA MULTIVARIADO MANOVA. ....................................... 131 4.12 LECTURA COMPLEMENTARIA ..................................................................... 134 4.12.1 Función de verosimilitud. ................................................................... 134 4.12.2 Método de máxima verosimilitud........................................................ 138
CAPÍTULO 5............................................................................................. 140 COMPONENTES PRINCIPALES C.P. .......................................................... 140 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15
ANÁLISIS DE COMPONENTES PRINCIPALES A.C.P. ......................................... 144 POBLACIÓN DE COMPONENTES PRINCIPALES (C.P.)....................................... 144 COMPONENTES PRINCIPALES DE VARIABLES ESTANDARIZADAS ....................... 151 ESTRUCTURAS ESPECIALES ....................................................................... 153 APLICACIÓN DE C.P. A MUESTRAS.............................................................. 155 COMPONENTES PRINCIPALES DE OBSERVACIONES CENTRADAS ....................... 156 DESCOMPOSICIÓN MATRICIAL EN VALORES SINGULARES (S.V.D.) ................... 165 S.V.D. Y APROXIMACIONES MATRICIALES DE BAJO RANGO ............................ 166 HALLAZGO DE LA S.V.D. .......................................................................... 167 FORMA COMPLETA DE LA S.V.D. ............................................................... 169 APROXIMACIÓN MATRICIAL DE RANGO MÍNIMO ............................................. 169 INTERPRETACIÓN GEOMÉTRICA .................................................................. 172 CAMBIOS DE ESCALA ............................................................................... 173 INFERENCIAS PARA GRANDES MUESTRAS..................................................... 178 ALGUNAS PROPIEDADES DE λ i Y e i PARA GRANDES MUESTRAS ...................... 178
CAPÍTULO 6............................................................................................. 169 ANÁLISIS DE FACTORES E INFERENCIAS PARA MATRICES ESTRUCTURADAS DE COVARIANZA......................................................... 169 6.1 MODELO ORTOGONAL .............................................................................. 188 6.1.1 Asunciones adicionales del modelo.................................................... 188 6.1.2 Comunalidad y singularidad ............................................................. 190 6.1.3 Ambigüedad inherente en un A.D.F. .................................................. 193 6.2 MÉTODOS DE ESTIMACIÓN ........................................................................ 194 6.3 A.D.F CON A.C.P.................................................................................... 194 6.4 SOLUCIÓN EN C.P. DE UN A.D.F. (RESUMEN) ............................................. 196 6.5 MODIFICACIÓN APROXIMADA AL A.D.F DE A.C.P. ........................................ 201 6.6 ESCOGENCIA DE LAS VARIANZAS ESPECIFICAS INICIALES ESTIMADAS .............. 202 6.7 LECTURA COMPLEMENTARIA ..................................................................... 203 6.7.1 Función de verosimilitud .................................................................... 203 6.7.2 Estimaciones máximo verosímiles ...................................................... 205 6.8 A.D.F. CON MÁXIMA VEROSIMILITUD .......................................................... 205 6.9 RESUMEN DE ESTIMADORES M.V. DE UN A.D.F. ......................................... 206 6.10 PRUEBAS PARA SELECCIONAR EL NÚMERO DE FACTORES .............................. 210 6.11 ROTACIONES DE LOS FACTORES ................................................................ 212 6.12 A.D.F CON FACTOR ROTADO ..................................................................... 214 6.13 CRITERIO DE TRANSFORMACIÓN DE KAISER-MÉTODO VARIMAX ..................... 215 6.14 CALIFICACIONES DE LOS FACTORES ........................................................... 218 6.15 MÉTODO MÍNIMO CUADRÁTICO PONDERADO ................................................ 219 6.16 MÍNIMOS CUADRADOS SIN PONDERAR ......................................................... 219 6.17 MÉTODO DE REGRESIÓN .......................................................................... 220
CAPÍTULO 7............................................................................................. 204 ANÁLISIS DE CLUSTER A.D.C. ................................................................. 204 7.1 PROBLEMA DE MUESTRAS INDIVIDUALES .................................................... 204 7.2 CASO MULTIMUESTRAL ............................................................................. 226 7.3 FORMULACIÓN PROBABILÍSTICA PARA MUESTRAS ......................................... 226 7.3.1 Caso general...................................................................................... 226 7.3.2 El caso normal ................................................................................... 227 7.4 MEDIDAS DE SIMILITUD ............................................................................ 230 7.5 DISTANCIAS Y COEFICIENTES DE SIMILARIDAD PARA PAREJAS DE ELEMENTOS .. 230 7.5.1 Distancia............................................................................................ 230 7.6 DISTANCIA DE PEARSON ........................................................................... 232 7.7 SIMILARIDADES A PARTIR DE DISTANCIAS .................................................... 236 7.8 OTRAS NOCIONES DE DISTANCIA ................................................................ 237 7.9 POBLACIONES MULTINORMALES - DATOS CUALITATIVOS ................................ 237 7.10 DISTANCIA EUCLIDIANA ............................................................................ 238 7.11 DISTANCIA TIPO MAHALANOBIS.................................................................. 238 7.12 DISTANCIA DE BHATTACHARYYA ................................................................ 239 7.13 RESUMEN DE DISTANCIAS (P-NOMINALES) ................................................... 241 7.14 COEFICIENTES DE SIMILARIDAD ................................................................. 242 7.15 MEDIDAS DE ASOCIACIÓN Y SIMILARIDAD PARA PARES DE VARIABLES .............. 242 7.16 MÉTODOS JERÁRQUICOS .......................................................................... 244 7.16.1 Métodos jerárquicos aglomerativos .................................................... 244 7.16.2 Métodos jerárquicos divisivos ............................................................ 245 7.17 ENCADENAMIENTO SIMPLE (SINGLE LINKAGE) .............................................. 246 7.18 DISTINCIÓN DE CLUSTERS ......................................................................... 250 7.19 ENCADENAMIENTO COMPLETO (COMPLETE LINKAGE) ..................................... 252 7.20 ENCADENAMIENTO PROMEDIO ................................................................... 254 7.21 OBSERVACIONES RESPECTO A LOS MÉTODOS JERÁRQUICOS .......................... 255 7.22 MÉTODOS NO JERÁRQUICOS ..................................................................... 255 7.23 MÉTODO DE LAS K MEDIAS ....................................................................... 256 7.24 PARTICIÓN DE LOS ELEMENTOS EN K CLUSTERS ........................................... 256 7.25 MÉTODO DE LA VARIANZA MÍNIMA - MÉTODO DE WARD ................................ 259 7.26 MATRICES Y SIMILITUDES COFENÉTICAS Y PROPIEDAD ULTRAMÉTRICA ............ 261 CAPÍTULO 8............................................................................................. 240 ANÁLISIS DE CORRESPONDENCIA A.D.C. ................................................ 240 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9
DIMENSIONES COORDENADAS Y BASES ....................................................... 268 PUNTOS EN SUBESPACIOS ......................................................................... 269 CENTROIDE (CENTRO DE GRAVEDAD) ......................................................... 270 DESVIACIONES CON RESPECTO AL CENTROIDE ............................................. 271 ESPACIOS MULTIDIMENSIONALES ............................................................... 272 BARICENTRO........................................................................................... 275 PROPIEDADES DE LAS BASES .................................................................... 276 DIMENSIONALIDAD Y DIMENSIÓN ............................................................... 276 DISTANCIAS, ÁNGULOS Y PRODUCTOS ESCALARES ........................................ 277
8.10 ESPACIO EUCLIDIANO PONDERADO MULTIDIMENSIONAL ................................ 280 8.11 DISTANCIAS ENTRE VECTORES DE FRECUENCIAS.......................................... 282 8.12 ASIGNACIÓN DE MASAS (PESOS) A LOS VECTORES ........................................ 284 8.13 ANÁLISIS CHI2 DE UN CONJUNTO DE VECTORES DE FRECUENCIAS .................. 285 8.14 IDENTIFICACIÓN DE SUBESPACIOS ÓPTIMOS ................................................ 287 8.15 CERCANÍA O AJUSTE DE UN SUBESPACIO A UN CONJUNTO DE PUNTOS............. 288 8.16 GENERALIZACIÓN DE LA S.V.D.................................................................. 293 8.17 GENERALIZACIÓN DE LA APROXIMACIÓN DE BAJO RANGO .............................. 294 8.18 BIPLOTS (GRÁFICAS DOBLES) .................................................................... 295 8.19 S.V.D. EN LAS MÉTRICAS Ω Y Φ . APROXIMACIÓN MATRICIAL ........................ 296 8.20 CÁLCULO DE LA S.V.D. GENERALIZADA ...................................................... 298 8.21 EJEMPLOS DE A. DE C............................................................................. 301 8.22 PROBLEMA DUAL ..................................................................................... 305 8.23 PRINCIPIO DE LA EQUIVALENCIA DISTRIBUTIVA ............................................. 310 8.24 DESCOMPOSICIÓN DE LA INERCIA .............................................................. 310 8.25 CONTRIBUCIONES A LA INERCIA ................................................................. 310 8.26 ÁNGULOS ENTRE PERFILES PUNTO VECTORES Y EJES PRINCIPALES ................. 312 8.27 PERFILES SUPLEMENTARIOS ...................................................................... 314 8.28 CONTRIBUCIONES RELATIVAS DE LOS PERFILES SUPLEMENTARIOS .................. 316 8.29 ANÁLISIS DE CORRESPONDENCIA MÚLTIPLE ................................................. 318 8.30 ESTADÍSTICAS PARA LA INTERPRETACIÓN .................................................... 321 8.30.1 Inercia mínima ................................................................................... 322 8.30.2 Contribuciones parciales.................................................................... 322 8.31 LECTURA COMPLEMENTARIA ..................................................................... 327 8.31.1 Análisis de correspondencias o de los promedios reciprocos como acercamiento al análisis de correspondencia ..................................... 327 BIBLIOGRAFÍA......................................................................................... 335 ÍNDICE DE TÉRMINOS ............................................................................. 337
Índice de tablas Tabla 1.1 Notación para los arreglos multivariados con p variables y n ítems. ... 2 Tabla 1.2 Factor de multiplicación para convertir (H , H ′, H max, H ′ max ) calculadas con bases diferentes. .......................................................................... 24 Tabla 1.3 Sitios de anidamiento de “azulejos” en la ciudad de Medellín. ............. 25 Tabla 2.1 Mediciones de variables en parcelas de 40 sitios forestales para su caracterización silvicultural.......................................................................... 81 Tabla 4.1. Tabla de Filliben. Puntos críticos de correlación para un Q-Q Plot para pruebas de normalidad. ..................................................................... 126 Tabla 4.2. MANOVA para comparar vectores de medias poblacionales. ............ 132
( )
Tabla 4.3. Tabla de la distribución lambda de Wilks Λ∗ . .............................. 132 Tabla 4.4. Análisis de procedencias de Eucalyptus spp. en 3 rodales semilleros. .................................................................................................................. 133 Tabla 5.1 Análisis de componentes principales para el ejemplo 5.2................. 149 Tabla 5.2 Datos de frecuencias en 11 parcelas para 3 especies. ...................... 157 Tabla 5.3 Valores típicos para las 3 especies estudiadas. ................................ 157 Tabla 5.4 Análisis de componentes principales. .............................................. 158 Tabla 5.5 Vectores propios. ............................................................................. 158 Tabla 5.6 Matriz original estandarizada y dividida por n − 1 . .......................... 159 Tabla 5.7 Valores de los componentes principales para la matriz estandarizada. .................................................................................................................. 160 Tabla 5.8 Censo (hipotético) de 5 variables socioeconómicas en 14 municipios del occidente del país....................................................................................... 162 Tabla 5.9 Análisis de componentes principales. .............................................. 163 Tabla 5.10 Valores propios de λi ..................................................................... 163 Tabla 5.11 Eigenvectores................................................................................. 163 Tabla 5.12 Matriz de varianzas-covarianzas. ................................................... 163 Tabla 5.13 Análisis de componentes principales ............................................. 164 Tabla 5.14 Valores de los componentes principales......................................... 164 Tabla 5.15 Dimensiones de tortugas pintadas de ambos sexos para el estudio de las relaciones de tamaño y forma. .............................................................. 170
Tabla 5.16 Promedios de los logaritmos naturales para las dimensiones de las tortugas pintadas. ...................................................................................... 171 Tabla 5.17 Análisis de componentes principales para el ejemplo de las dimensiones de tortugas pintadas. ............................................................. 172 Tabla 5.18 Valor de índice de área basal relativa IRAB para la observación de la influencia del fenómeno del Niño en el comportamiento de 5 tipos de bosque. .................................................................................................................. 175 Tabla 5.19 Análisis de componentes principales para el valor de índice de área basal relativa IRAB. .................................................................................... 176 Tabla 5.20 Eigenvectores para el ejemplo del valor del índice de área basal relativa IRAB. ............................................................................................. 176 Tabla 5.21 Inventario pecuario de los Centros Regionales del departamento de Antioquia. .................................................................................................. 181 Tabla 5.22 Análisis de componentes principales. ............................................ 181 Tabla 5.23 Pesos de las variables .................................................................... 181 Tabla 5.24 Pesos de los componentes ............................................................. 182 Tabla 6.1 Matriz de correlaciones para las características más consideradas en la adquisición de tierras................................................................................. 198 Tabla 6.2 Resultados para el análisis del factor para las características más consideradas en la adquisición de tierras Ejemplo 6.3. ............................. 198 Tabla 6.3 Pesos de los factores, comunalidades y varianzas especificas para las características más consideradas en la adquisición de tierras. ................... 199 Tabla 6.4 Soluciones conjuntas para los factores de varios tipos de bosques. . 200 Tabla 6.5 Comunalidades finales estimadas para el ejemplo de varios tipos de bosque. ...................................................................................................... 207 Tabla 6.6 Resultados para los factores considerados en el ejemplo de los tipos de bosque. ...................................................................................................... 207 Tabla 6.7 Pesos estimados de los factores y varianzas esperadas por C.P y M.V. .................................................................................................................. 208 Tabla 6.8 A.D.F. con M.V. ............................................................................... 209 Tabla 6.9 Solución del A.D.F con E.V. para una n = 2 .................................... 213 Tabla 6.10 Prueba de factor rotado empleando un ángulo de 20º.................... 214 Tabla 6.11 Resultados para los 2 factores extraídos del ejemplo 6.3. .............. 216 Tabla 6.12 Comunalidades para los factores elegidos en el ejemplo 6.3. ......... 216 Tabla 6.13 A.D.F. después de la rotación varimax........................................... 216 Tabla 6.14 Comunalidades finales estimadas por C.C. .................................... 217
Tabla 6.15 Resultados para los 2 factores por el método rotado de Correlación canónica. ................................................................................................... 217 Tabla 6.16 Comunalidades y Eigenvalores para los datos del ejemplo 6.7. ...... 221 Tabla 6.17 A.D.F. con A.C.P. ........................................................................... 221 Tabla 6.18 Matriz de transición para 4 factores. ............................................. 222 Tabla 6.19 Matriz de factores rotados por el método varimax. ......................... 222 Tabla 7.1 Área de hojas y longitud de pecíolo en dos géneros diferentes.......... 204 Tabla 7.2 Valores de los determinantes de S y W para el ejemplo 6.2............ 228 Tabla 7.3 Arreglo para la representación de las calificaciones para 5 variables binarias...................................................................................................... 233 Tabla 7.4 Definición de coeficientes de similaridad arreglando la tabla de contingencia con los items i y k ................................................................ 234 Tabla 7.5 Ccoeficientes de similaridad para agrupaciones con variables binarias. .................................................................................................................. 234 Tabla 7.6 Características de árboles tomados al azar en un bosque tropical. .. 235 Tabla 7.7 Puntajes en 6 variables binarias para los árboles 1 y 2 del ejemplo 7.3. .................................................................................................................. 235 Tabla 7.8 Arreglo de dos vías para el número de parejas y disparejas de los árboles 1 y 2. ............................................................................................. 236 Tabla 7.9 Números de similaridad para los árboles 1 y 2 del bosque tropical tomados al azar.......................................................................................... 236 Tabla 7.10 Matriz de distancia para un estudio de tipos de sangre. ................ 240 Tabla 7.11 Frecuencias relativas usando un método de encadenamiento simple. .................................................................................................................. 241 Tabla 7.12 Números del 1-10 en lenguas diferentes. ....................................... 243 Tabla 7.13 tabla de concordancias para los números del 1 - 10 en lenguas diferentes. .................................................................................................. 244 Tabla 7.14 Cantidades de 2 especies en un muestreo en parcelas equiespaciadas. .................................................................................................................. 249 Tabla 7.15 Clusters formados por medio de encadenamiento simple. .............. 249 Tabla 7.16 Matriz de distancias para las concordancias lingüísticas. .............. 250 Tabla 7.17 Formación de clusters por medio de encadenamiento completo. .... 254 Tabla 7.18 Medición de 2 variables para cada uno de cuatro elementos.......... 256 Tabla 7.19 Cálculo de las coordenadas del centroide de cada cluster para la partición de elementos. .............................................................................. 257
Tabla 7.20 Coordenadas actualizadas para los centroides en la partición de elementos en clusters. ................................................................................ 257 Tabla 7.21 Distancias cuadradas a los centroides para los cluster configurados en la partición de elementos....................................................................... 258 Tabla 8.1 Inscripción de estudiantes en 21 carreras universitarias. ................. 240 Tabla 8.2 Datos para el consumo local de un producto. .................................. 272 Tabla 8.3 Matriz de datos de hábitos de bebida............................................... 302 Tabla 8.4 Tabla de frecuencias relativas.......................................................... 302 Tabla 8.5 Análisis de los perfiles columna con respecto al plano que mejor los ajusta......................................................................................................... 306 Tabla 8.6 Inercia de los puntos con respecto al primer eje principal y contribuciones asociadas. .......................................................................... 311 Tabla 8.7 Datos suplementarios regionales. .................................................... 315 Tabla 8.8 Matriz de datos para estudiar los centros regionales bajo diversos aspectos en el programa SAS. .................................................................... 319 Tabla 8.9 Inercia y descomposición Chi cuadrada........................................... 319 Tabla 8.10 Columna de coordenadas. ............................................................. 320 Tabla 8.11 Resumen estadístico para los puntos columna. ............................. 320 Tabla 8.12 Cosenos cuadrados para los puntos columna................................ 320 Tabla 8.13 Contribuciones parciales de la inercia a los puntos columna......... 321 Tabla 8.14 índices de las coordenadas que más contribuyen a la inercia para los puntos columna. ........................................................................................ 321 Tabla 8.15 Procedimiento de análisis de correspondencia. Tabla de contingencia .................................................................................................................. 323 Tabla 8.16 Estadístico chi cuadrado para valores esperados........................... 323 Tabla 8.17 Valores esperados menos valores observados. ............................... 323 Tabla 8.18 Contribuciones al total del estadístico Chi cuadrado. .................... 323 Tabla 8.19 Archivos fila................................................................................... 323 Tabla 8.20 Archivos columna. ......................................................................... 324 Tabla 8.21 Análisis de correspondencia. Inercia y descomposición chi cuadrada. .................................................................................................................. 324 Tabla 8.22 Coordenadas fila............................................................................ 324 Tabla 8.23 Resumen estadístico para los puntos fila....................................... 324 Tabla 8.24 Contribuciones parciales a la inercia de los puntos fila.. ............... 324 Tabla 8.25 Índices de las coordenadas que más contribuyen a la inercia de los puntos fila.................................................................................................. 325
Tabla 8.26 Cosenos cuadrados para los puntos filas. ...................................... 325 Tabla 8.27 Columna de coordenadas. ............................................................. 325 Tabla 8.28 Resumen estadístisco para los puntos de columnas. ..................... 325 Tabla 8.29 Contribuciones a la inercia para los puntos de las columnas......... 325 Tabla 8.30 Índices de las coordenadas que más contribuyen a la inercia de la columna de puntos. ................................................................................... 326 Tabla 8.31 Cosenos cuadrados de la columna de puntos. ............................... 326 Tabla 8.32 Gráfico de Dim1 * Dim 2 . El símbolo es el valor de CARGO........... 326 Tabla 8.33 Valores de las variables X1 y X2 para cuatro items. ....................... 334
Índice de figuras Figura 1.1 Relaciones no lineales entre variables, datos con alta γ ik pero
Y = a + bΧ + cΧ 2 . ....................................................................................6 Figura 1.2 Representación de diagramas marginales en una dimensión y diagramas de dispersión en dos dimensiones. ................................................8 Figura 1.3 Datos de diametro promedio X1 en cm/ha y volumen X 2 en m3/ha para 14 especies en varias asociacionnes de bosque natural. .........................9 Figura 1.4 Costo de madera ($/rastra) y porcentaje de madera comercial con respecto a volumen total para varios tipos de bosques. ................................ 10 Figura 1.5 Representación de n puntos en 3 dimensiones para las variables diámetro (D), altura (H) y volumen (V). ......................................................... 11 Figura 1.6 Representación de p puntos en n dimensiones.............................. 11 Figura 1.7 Distancia euclidiana en un espacio tridimensional........................... 12 Figura 1.8 Distancia euclidiana para puntos equidistantes en un espacio bidimensional............................................................................................... 12 Figura 1.9 Distancia euclidiana para puntos equidistantes en un espacio tridimensional. ............................................................................................. 13 Figura 1.10 Relación entre los conceptos de distancia y el manejo de los niveles de probabilidades. ........................................................................................ 13 Figura 1.11 Representación de la distancia entre dos puntos............................ 14 Figura 1.12 Aplicación de la distancia estadística para variables asociadas con diferente varianza......................................................................................... 15 Figura 1.13 Distancia cuadrada para puntos sobre una elipse.......................... 16 Figura 1.14 Representación de la distancia cuadrada para puntos en un hiperboloide centrado en un punto Q .......................................................... 17 Figura 1.15 Ejes rotados para variables autocorrelacionadas............................ 18 Figura 1.16 Distancia cuadrada para puntos sobre una elipse en nuevos ejes rotados......................................................................................................... 19 Figura 1.17 Consideraciones para el cálculo de la distancia estadística. ........... 20 Figura 1.18 Ratón con base en sus datos crudos. ............................................. 27 Figura 1.19 Datos centrados por sustracción de la media. ................................ 28 Figura 1.20 Estandarización por rango. ............................................................ 28 Figura 1.21 Ratón con variables Z..................................................................... 29
Figura 1.22 Ratón Estandarizado por totales. ................................................... 29 Figura 1.23 Ratón estandarizado por sus valores máximos. .............................. 30 Figura 1.24 Ratón estandarizado por longitudes unitarias. ............................... 30 Figura 1.25 Ratón de variable logarítmica en base 10. ...................................... 31 Figura 1.26 Ratón modificado potencialmente con c = 2 . ................................. 31 Figura 1.27 Transformación arcsen a los valores de las variables pretransformadas por rango......................................................................... 32 Figura 1.28. Ratón transformado con una función de Clymo, c = 2 . ................ 32 Figura 2.1 Representación de un vector en un espacio de 3 dimensiones.......... 33 Figura 2.2 Esquema de un vector con 2 variables. ............................................ 34 Figura 2.3 Suma de vectores que parten desde el origen. .................................. 35 Figura 2.4 Representación de la longitud de un vector en 2 dimensiones.......... 36 Figura 2.5 Representación del vector unitario. .................................................. 36 Figura 2.6 Ángulo entre 2 vectores que parten desde el origen. ......................... 37 Figura 2.7 Proyección de un vector X en un vector Y . .................................... 40 Figura 2.8 Proyección de un vector X sobre Y o vector sombra. ..................... 40 Figura 2.9 Consideraciones para la rotación de ejes.......................................... 51 Figura 2.10 Notación para los conceptos de matrices ortogonales. .................... 54 Figura 2.11 Explicación matricial de distancia aplicada en variables de un árbol. .................................................................................................................... 60 Figura 2.12 Interpretación de la distancia cuadrada como una forma cuadrática positiva. ....................................................................................................... 61 Figura 2.13 Elipse con ejes determinados por sus eigenvectores. ...................... 63 Figura 2.14 Distribución de probabilidad conjunta de dos variables. ................ 66 Figura 3.1 Representación de un punto para un espacio muestral de p variables. ..................................................................................................... 84 Figura 3.2 Gráfica de la matriz X con n = 3, p = 3 ......................................... 84 Figura 3.3 Gráfica de la matriz X como p = 2 vectores en un espacio 3dimensional. ................................................................................................ 85 Figura 3.4 Descomposición de Yi para formar el vector ei ............................... 87 Figura 3.5 Descomposición del vector Yi en términos de su media y sus respectivas desviaciones............................................................................... 87 Figura 3.6 Representación de los residuales. (a.) residuales del ejemplo 3.2; (b.) residuales de la Figura 3.5. .......................................................................... 88
Figura 3.7 Interpretación geométrica para la deducción de la varianza generalizada S ............................................................................................ 95 Figura 3.8 Varianza generalizada S para n = 3 . La figura de la izquierda muestra un gran S , mientras a la derecha se muestra una menor S . ....... 96 Figura 3.9 Degeneración matricial extrema cuando S = 0 ............................... 99 Figura 3.10 Influencia de los vectores ei sobre S y R ................................. 101 Figura 3.11 Representación de la desviación típica generalizada. .................... 109 Figura 3.12 Consideraciones para el cálculo de la distancia entre aspectos físicos: peso en kg y estatura en cm para 3 personas ................................. 111 Figura 4.1 Distribuciones bivariadas en forma de campana y cambios por varianzas y coeficientes de correlación. ...................................................... 117 Figura 4.2 Elipses de contorno de una normal bivariada y papel desempeñado por ρ en la orientación de los ejes. ............................................................ 118 Figura 4.3 Gráfico Q-Q del ejemplo 4.1. .......................................................... 126 Figura 4.4 Elipse de confianza al 95% para µ1 − µ2 . ....................................... 131 Figura 4.5 Función de densidad conjunta de la muestra y estimación de la función de verosimilitud............................................................................. 136 Figura 5.1 Representación gráfica para el análisis de componentes principales: (a.) Nube de puntos; (b.) cubo asociado a la nube de puntos. .................... 140 Figura 5.2 Varianzas explicadas por los tres primeros componentes principales. .................................................................................................................. 146 Figura 5.3 Ejes principales para matrices diagonales...................................... 154 Figura 5.4 Hiperelipsoide en forma de cigarrillo para variables normales. ....... 155 Figura 5.5 Representación de las parcelas en el plano generado por las especies 1 y 2........................................................................................................... 159 Figura 5.6 Ordenamiento de las parcelas en los dos primeros ejes. ................. 161 Figura 5.7 Biplot para los datos de frecuencias en 11 parcelas para 3 especies. .................................................................................................................. 162 Figura 5.8 Biplot para el censo hipotético de 5 variables socioeconómicas en 14 municipios. ................................................................................................ 165 Figura 5.9(a.), (b.) Interpretación geométrica de los componentes principales. 173 Figura 5.10 Biplot para los 5 tipos de bosque.................................................. 178 Figura 5.11 Gráfica de los dos primeros componentes principales ponderados. .................................................................................................................. 182
Figura 5.12 Colocación de los distintos centros regionales de acuerdo con los scores alcanzados por los vectores que los representan. ............................. 183 Figura 5.13 Gráfica de las dos primeras componentes principales para los datos del inventario pecuario............................................................................... 184 Figura 6.1 Pesos de los factores y representación en un sistema de coordenadas rotado con un ángulo de 20º. ..................................................................... 214 Figura 6.2 Gráfica de los factores rotados método VARIMAX........................... 217 Figura 6.3 Gráfico de los pesos de los dos primeros factores. .......................... 223 Figura 7.1. Diagrama de dispersión para los datos de longitud de pecíolo y área foliar de la Tabla 7.1................................................................................... 229 Figura 7.2. Representación para la distancia de Bhattacharyya. ..................... 240 Figura 7.3 Representación de los métodos jerárquicos divisivos. ..................... 245 Figura 7.4 Representación de los agrupamientos jerárquicos y las distancias entre grupos por un dendrograma.............................................................. 248 Figura 7.5 Gráfica cartesiana de las especies con respecto a sus frecuencias resultado de los agrupamientos jerárquicos. .............................................. 249 Figura 7.6 Dendrograma para las concordancias lingüísticas por medio de métodos de encadenamiento simple. .......................................................... 251 Figura 7.7 Clusters formados por el método de encadenamiento simple: (a.) Se pueden dar confusiones por traslapes cercanos; (b.) Efectos de encadenamiento. ........................................................................................ 252 Figura 7.8 Dendrograma por encadenamiento completo para el ejemplo 7.8. .. 253 Figura 7.9 Resultados del agrupamiento por encadenamiento completo para el ejemplo 7.8. ............................................................................................... 254 Figura 7.10 Ubicación de parcelas según sus similitudes y dendrogama respectivo................................................................................................... 262 Figura 8.1 Perfiles de 4 carreras en un período de 5 años. .............................. 265 Figura 8.2 Perfiles de 4 carreras agrupados por análisis de correspondencia. . 266 Figura 8.3 Frecuencias relativas resultantes por análisis de correspondencia. 267 Figura 8.4 Vectores representados como puntos en un espacio bidimensional. .................................................................................................................. 268 Figura 8.5 Representación de puntos como múltiplos de un único vector. ...... 269 Figura 8.6 Definición para el vector medio o centroide en un caso de exportaciones e importaciones. .................................................................. 270 Figura 8.7 Vectores como desviacion con respecto al centroide. ...................... 271 Figura 8.8 Vectores centrados representados como un unico vector b............. 272
Figura 8.9 Espacio tridimensional para las variables que afectan un producto. .................................................................................................................. 273 Figura 8.10 Configuración de un vector para la dispersión de tres puntos. ..... 274 Figura 8.11 Elementos para la representación de un ángulo entre dos vectores. .................................................................................................................. 277 Figura 8.12 Representación de una elipse en un espacio euclidiano ponderado. .................................................................................................................. 280 Figura 8.13 Espacio i-dimensional ponderado por Dq...................................... 288 Figura 8.14 Determinación del centroide en un subespacio K * -dimensional que contiene a Y .............................................................................................. 290 Figura 8.15 Gráfica óptima 2-dimensional de las filas de la matriz Y ............. 300 Figura 8.16 Gráfico de los perfiles fila de la tabla y representación del plano que mejor ajusta los datos. Las inercias λ1 y λ 2 y sus respectivos porcentajes se colocan en los ejes respectivos. .................................................................. 303 Figura 8.17 Análisis gráfico de los perfiles columnas de la tabla y representación del plano que mejor ajusta los datos. ......................................................... 306 Figura 8.18 Representación de perfiles columna en un espacio con sus correspondientes categorías. ...................................................................... 309 Figura 8.19 Gráfico unidimensional para un A. de C. en el ejemplo grupos sociales y el hábito a la bebida. .................................................................. 311 Figura 8.20 Ángulo formado entre la posición del i-ésimo perfil con respecto al késimo eje principal. .................................................................................... 313 Figura 8.21 Gráfica de un perfil suplementario con datos regulares de adición y los perfiles columna suplementarios (de bebedores y abstemios). ............... 315 Figura 8.22 Posición tridimensional de un punto-perfil que subtiende ángulos θ1, θ 2 y θ 3 con 3 ejes ortogonales. ............................................................. 316 Figura 8.23 Diagrama de flujo para la el análisis de correspondencia. ............ 329
Capítulo 1 Elementos de Estadística Multivariada La complejidad de muchos fenómenos ha hecho necesaria la posibilidad de trabajar con estadísticas distintas a la tradicional univariada, al tener que manipular colecciones de variables en forma simultánea, dando origen a la ESTADÍSTICA MULTIVARIADA, serie de análisis o conjunto de metodologías que propician sonsacar la mayor información posible de estas colecciones de datos en múltiples variables. Lógicamente se entra a terrenos que producen ofuscaciones mentales, saturación de información con tantos datos y variables, que necesitan de ciertos tratamientos matemáticos complejos que no eran necesarios con una sola de ellas. Por muchos años y para muchos propósitos, aun vigentes, han sido los diseños experimentales los procesos más importantes en ciertos tipos de investigación estadística científica, especialmente cuando es posible controlar ciertas fuentes de error. Pero no siempre será así, otras investigaciones tienen otros ingredientes, cuando ya no es posible controlar la generación apropiada de datos, o su manipulación, intuir ciertas relaciones entre las variables, como sucede ahora en sonología, ecología y silvicultura por mencionar algunas, apareciendo entonces otros procedimientos investigativos, que se tratará de mostrar lo más simple que sea posible.
1.1 Objetivos de los métodos multivariados Los principales objetivos de los MÉTODOS MULTIVARIADOS pueden ser 1. SIMPLIFICACIÓN ESTRUCTURAL O REDUCCIÓN DE DATOS. Representaciones lo más simples posibles de algunos fenómenos sin sacrificio de información valiosa, eliminando datos y variables de acuerdo con ciertos postulados matemáticos, generalmente brindados por la geometría vectorial. 2. AGRUPAMIENTOS Y ORDENACIONES. Formación de grupos “lo más similares posibles” con base en algunas medidas características, generación de reglas de agrupamiento y reglas de clasificación u ordenación. 3. ESTUDIOS DE DEPENDENCIA ENTRE VARIABLES. Busqueda de la naturaleza de la dependencia o independencia que se de entre variables y además las cuantificaciones lo más objetivas de ello. 4. PREDICCIONES. Anticipar el comportamiento de una o más variables con base en otras de ellas, cuantitativa o cualitativamente, por configuración de modelos.
1. Elementos de Estadística Multivariada
1.2 Organización de los datos
5. CONSTRUCCIÓN DE HIPÓTESIS Y VALIDACIÓN DE PRUEBAS. Muchos métodos multivariados son en sí una hipótesis sólida de trabajo, otros las construyen y generan los argumentos para validarlas.
1.2 Organización de los datos Para simplificar la comunicación entre proceso-datos-analista, es necesaria una nomenclatura lo más simple y estructurada posible. Para ello se acude a los arreglos de los datos y variables en forma matricial. Los “DATOS MULTIVARIADOS” surgen al intentar comprender un fenómeno del cual se recoge información en “p VARIABLES/INDIVIDUO” o tratamiento experimental. El arreglo entonces usa unas notaciones que son convencionales, y acá se acogerá la propuesta por (Johnson y Wichern, 1982) como se refleja en la tabla siguiente: Tabla 1.1 Notación para los arreglos multivariados con p variables y n ítems. Número de ítem o tratamiento ⇒ 2 3 ... j ... x1j x12 x13 ... x2j x22 x23
Variable ⇓ 1 2
1 x11 x21
i
xi1
xi2
xi3
...
p
xp1
xp2
xp3
...
... ... ...
n x1n x2n
xij
...
xin
xpj
...
xpn
El arreglo se recoge en una matriz especificada por el número de variables e ítems como p * n y con algún nombre que la identifique, por ejemplo (notación clásica y notación especial, respectivamente):
Χ p* n
x11 x 21 = x i1 x p1
x12 x 22 xi2
… x1 j … x2 j …
x ij
x p 2 … x pj
… x1n … x 2n ; … x in … x pn ecuación 1.1
2
i = 1,…, p Χ p* n = {x ij } j = 1,…,n
1. Elementos de Estadística Multivariada
1.3 Descriptores estadísticos
Ejemplo 1.1 Un vivero anota sus ingresos y número de plantas vendidos en cuatro días consecutivos así: Variable Variable 1. Nº de plantas vendidas/día Variable 2. Ventas en cientos de pesos
1 21 2000
Días 2 3 78 36 7500 3000
4 87 4500
78 36 87 21 Χ2 * 4 = 2000 7500 3000 4500 fundamentalmente para facilitar los cálculos y el desarrollo computacional.
1.3 Descriptores estadísticos Un gran volumen de datos no permite penetrar en ellos y dificulta muchas apreciaciones de la información pertinente. Por ello es necesario un resumen conceptual, generalmente amparado en eficiencia, suficiencia e insesgamiento, que propicia la ESTADÍSTICA DESCRIPTIVA. De estos los más útiles, solventes y conocidos son la MEDIA, por la idea de localización, medida de tendencia central bien respaldada como síntesis informativa de una masa de datos y las distancias cuadradas de los datos con respecto a la anterior (“medidas de dispersión”). Tales distancias se vuelven nociones de la variación. Entonces:
{ }
… … … .Χ … … … tiene x
i
1 = n
n
∑
j =1
x ij (i = 1, … , p ;
j = 1, … , n )
ecuación 1.2
(para cada variable). Una medida de la dispersión de los datos x ij con respecto a x i se conoce como VARIANZA MUESTRAL y se nota como (estadística clásica y notación especial respectivamente):
1 n s = ∑ x ij − x i n j =1 2 i
(
); 2
sii ,
{i = 1,…, p}
ecuación 1.3
con violaciones a lo conocido, n en vez de n − 1 en el denominador, que se aclarará en cada caso. Lo anterior implica la matriz:
3
1. Elementos de Estadística Multivariada
1.3 Descriptores estadísticos
s11 s22 S=
s pp
A la sii se le conoce como DESVIACIÓN ESTANDAR MUESTRAL, y se da en las mismas unidades de la media. Además de las anteriores, es clave a la E.M. la relación entre variables. Considérese n pares de mediciones en 2 variables:
V1 … x11 x12 x1 j x , ,…, ,…, 1n , V2 … x 21 x 22 x 2n x 2 j aparece la noción de COVARIANZA MUESTRAL como una medida de la asociación lineal entre dos variables: s12 =
1 n
n
∑ (x
1j
− x1
j= 1
) (x
2j
− x2
)
ecuación 1.4
que si es mayor que cero V1 y V2 crecen y si es menor, V1 crece y V2 decrece y en términos generales se expresa como:
sik =
1 n ∑ x ij − x i n j =1
(
) (x
kj
− xk
)
ecuación 1.5
Cuando i = k ⇒ s ik = ski . Ejemplo 1.2 Para una especie, con potencial de explotación comercial, resulta adecuado generar una serie de datos de gran tamaño cuya ordenación y posterior interpretación nos permita interpretar como influyen diversos factores en su crecimiento. Una propuesta de agrupación puede ser la siguiente Humedad vs precipitac ión Diámetro vs peso Biomasa vs edad
4
1. Elementos de Estadística Multivariada
1.3 Descriptores estadísticos
Por las veleidades de las variables, dimensiones y escalas diferentes, la medida anterior puede distorsionarse, por lo cual se pueden eliminar las unidades de medición, apareciendo el COEFICIENTE DE CORRELACIÓN MUESTRAL. (Existen varios como el de Pearson, Sperman, etc.) n
γ ik =
s ik s ii skk
=
∑ (x
ij
− xi
j= 1
n
∑ (x
ij
− xi
j =1
) (x n
) ∑ (x 2
− xk
kj
kj
)
− xk
j= 1
)
2
ecuación 1.6
como una versión estandarizada de la covarianza muestral, en que
1) -1 ≤ γ ≤ 1 2) γ = 0 implica falta de ajuste ¨lineal¨ 3) Importa su signo {si γ < 0 un valor en el par > x implica otro valor en el par < x }, {si γ > 0 un valor en el par grande, otro valor también grande o viceversa}.
4) Los valores γ ik no cambiarán si la variable se recompone como: Yij = a + bΧ ij
(j
= 1,…,n ) ;
Ykj = c + dΧ kj
(j
= 1,…,n )
si b y d tienen igual signo!. s ik y γ ik no lo dicen todo acerca de las asociaciones de las variables pues escapan las relaciones no lineales, muy sensibles además a la presencia de observaciones remotas, por lo cual pueden aparecer a veces relaciones lineales espurias o inexistentes. Son buenas medidas de relación entonces cuando no existen asociaciones no lineales obvias y no se dan observaciones remotas; como en el caso mostrado en la Figura 1.1, que presenta un alto valor de γ ik pero no dice nada acerca de la no linealidad. SUGERENCIA. Para una mejor decisión, calcular y mirar el efecto de: γ ik con observaciones s ik sin remotas
5
1. Elementos de Estadística Multivariada
1.4 Otras sumatorias importantes
Y
Y
X
X
Figura 1.1 Relaciones no lineales entre variables, datos con alta γik pero Y = a + bΧ + cΧ 2 .
1.4 Otras sumatorias importantes Las sumatorias ligadas a s ii i y s ik se vuelven importantes estadísticamente y por ello se notarán como w ii =
n
∑ (x
ij
− xi
j =1
)
2
i = 1,… , p
ecuación 1.7
w ik =
n
∑ (x
ij
− xi
j= 1
) (x
kj
− xk
)
i, k = 1,… , p
ecuación 1.8
1.5 Arreglos para las Estadísticas Descriptivas Las estadísticas descriptivas en vectores o matrices quedan así:
x1 x 2 Χp* 1 = xi x p
6
Snp* p
s11 s 21 = si1 sp1
s12 s22 si 2 sp2
s13 … … s1p s23 … … s2 p si 3 sij … sip sp3 … … spp
R p* p
1 γ12 γ13 γ14 γ 1 21 1 = 1 γ p1 γ p2 γ p3 γ p4
… γ 1p … γ 2p … … … 1
1. Elementos de Estadística Multivariada
1.6 Técnicas gráficas
NOTA. S n p * p se escribe así como ayuda nemotécnica que le recuerda el divisor de los elementos s ik . Ejercicio 1.1 Encuéntrese los arreglos de Χ , S n y R para 3 árboles a los cuales se les midieron diámetro (D), altura (H) y volumen (V). 15 12 0.089 A ′3 * 3 = 28 23 0.566 o mejor 45 34 2.055
A3*3
28 45 15 = 12 23 34 0.089 0.566 2.055
1.6 Técnicas gráficas En la actualidad juegan un papel importante como auxiliares interpretativas, especialmente en la E.M.. La imposibilidad de representar todo un conjunto de datos y variables al mismo tiempo, ha hecho de los gráficos de pares y aun de tripletas de variables algo importante, incluso, muchos autores recomiendan dibujos a lápiz en muchos casos para auxiliarse interpretativamente. Es una buena practica hacer gráficas de pares de variables para tratar de mirar sus patrones asociativos. Por ejemplo sean los 7 pares de mediciones: 1 3 2 1.5 1 4 2.5 Χ ′1 Χ2*7 = = 2.5 2 5 3.75 2.5 3.5 2.75 Χ ′2 Bajo esta presentación es difícil determinar de primera mano los posibles patrones de asociación, pero una serie de técnicas gráficas permiten una nueva visualización de la estructura de datos.
1.6.1 Diagrama de dispersión Es la gráfica en dos dimensiones (o en p) en que cada eje representa una dimensión. Las coordenadas son productos cartesianos. Figura 1.2 y Figura 1.3.
1.6.2 Diagramas marginales Son gráficos separados de cada variable; se llaman también puntos marginales o diagramas puntuales. Se obtienen de las observaciones originales o de las proyecciones de los puntos en cada eje coordenado. La información en cada variable única permite los cálculos de x 1 y x 2 , s11 , y s 22 y una visualización por variable, además del tipo de distribución de los datos.
7
1. Elementos de Estadística Multivariada
1.6 Técnicas gráficas
X 2’
D IA G R A M A M AR G IN A L
5 4
(3.0, 3.7 5) D iagram a de dispersión
3 2 1
X 1’ 1
2
3
4
5
6
7
D IAG R AM A M AR G IN A L
Figura 1.2 Representación de diagramas marginales en una dimensión y diagramas de dispersión en dos dimensiones. Cada uno de estos gráficos muestra cosas diferentes, por ejemplo, el de dispersión indica la orientación y las coordenadas de los pares o puntos, la tendencia de la variación, permite calcular s12 . La información de los marginales no es suficiente para llegar al de dispersión, pero puede formar ideas, en largas series, de su distribución probabilística. Sus usos dependen mucho de los investigadores y de lo investigado. Los tipos de gráficas se pueden complementar entre sí. Por ejemplo dos situaciones pueden precisar lo que se busca, ver dimensiones, correlaciones, etc. Ejemplo 1.3 Luego de una serie de mediciones en varios tipos de asociaciones de bosque, fueron elegidos 14 datos de volumen promedio por hectárea contra diámetro promedio por hectárea y se graficaron como se muestra en la Figura 1.3. En la gráfica es evidente la presencia de 2 observaciones relevantes, una del CATIVAL, el bosque de los mejores volúmenes, mayor en ambos ejes X1 y X 2 cuando el CEDRAL a pesar de tener diámetro mayor que otras especies da un bajo volumen comercial entre las 14 especies. Al calcular algunos coeficientes de correlación se encontraron los siguientes valores: γ 12 =
0.96 para las 14 especies 0.80 para todas excepto el catival 0.98 para todas excepto el cedral 0.93 para todas excepto cedral y catival
Resulta claro que las observaciones remotas o atípicas tienen un efecto considerable en γ 12 .
8
1. Elementos de Estadística Multivariada
1.6 Técnicas gráficas
X2
Volum en (m ³/ha)
C atival 80 0 60 0 40 0
C edral
20 0
X1 10
20
30
40
50
60
D iám etro p rom ed io /h a
Figura 1.3 Datos de diametro promedio Χ 1 en cm/ha y volumen Χ 2 en m3/ha para 14 especies en varias asociacionnes de bosque natural. Ejemplo 1.4 Se estimaron unos datos de costo de madera ($/rastra) y el porcentaje de madera comercial con respecto a volumen total para varios tipos de bosques, de acuerdo con la siguiente tabla, en 1990 Bosque
Χ 1 = $/rastra
Χ 2 = vol. com./vol. tot.
Teca Roble Cativo Cedro Nogal Parasiempre
34980 24800 17800 17200 16400 14000
0.63 0.59 0.51 0.49 0.46 0.39
Una gráfica de estos puntos podría hacer pensar o buscar otras informaciones, aunque dudosas, pues el precio de la madera es caprichoso, tendencial y no tiene a veces relación siquiera con la real calidad de una madera; no obstante se encuentran análisis gráficos de estos. Figura 1.4. Este gráfico podría sugerirle a alguien que tipo de madera comprar, pero la relación de causa efecto no puede ser reportada ya que las asignaciones de precio a las rastras no son aleatorias y muchas preguntas estadísticas acá quedarán simplemente sin respuesta; a pesar de que los datos sugieren el comportamiento modelado de Χ 1 = 0.2974 + 1.027e −0.5 Χ 2 con un R 2 de 0.844. Sin embargo se pueden estudiar agrupaciones de madera por precio o por la cantidad de madera comercial respecto a la total, en otras interpretaciones.
9
1. Elementos de Estadística Multivariada
1.7 Tipos de representación
P orcentaje del volum en total con re sp ecto al com ercial
X2
0.8 0.6 0.4 0.2
X1 10
20
30
40
$/rastra de m a dera
Figura 1.4 Costo de madera ($/rastra) y porcentaje de madera comercial con respecto a volumen total para varios tipos de bosques.
1.7 Tipos de representación En general se puede hablar de dos tipos básicos de representación, dejando claro que por encima de 3 dimensiones no tiene mucho sentido gráfico para el cerebro acostumbrado a este espacio. En ecología se habla de representaciones tipo R y Q.
1.7.1 Representación de n puntos en p dimensiones x 1j x 2j x ij x pj
Es el usual en la geometría analítica estudiada comúnmente y representa una observación p variada para un ítem o caso j o sea que la variable 1 tiene x1 j unidades en el eje 1, la variable 2 x 2 j , la 3 x 3 j , etc. Cada punto representa una observación – los ejes entonces coinciden con las variables. En ecología se la conoce como ordenaciones tipo R (por Row = fila, o variable).
El gráfico resultante con n puntos aparte del patrón general de variación, permite ver similaridades y diferencias entre los n ítems, que se pueden hasta manifestar por ellas mismas. Ejemplo:
Diámetro Χ = Altura = Volumen
10
Χ1 D Χ = H 2 Χ 3 V
1. Elementos de Estadística Multivariada
1.7 Tipos de representación
Los ejes coinciden con las variables. V
x 3j (x 1j ,x 2j,x 3j)
H
x 2j x 1j D
Figura 1.5 Representación de n puntos en 3 dimensiones para las variables diámetro (D), altura (H) y volumen (V).
1.7.2 Representación de p puntos en n dimensiones Las n observaciones pueden mirarse como p variables punto en n dimensiones. Cada fila de Χ determina un punto único, así la i-ésima fila [x i1
x i 2 … x in ] .
consiste de n medidas de la variable i y determina el iésimo punto que generalmente coincide con un vector, de lo cual se sacará partido al hablar de geometría vectorial.
x 13
(x 11 ,x 1 2 ,x 1 3 ) X1
Χ= O
x11
x12
x13
… … x1n
x 21 x 31
x 22 x 32
x 23 x 33
… … x 2n … … x 3n
x p1
x p2
x p 3 … … x pn
x 12
x 11
Figura 1.6 Representación de p puntos en n dimensiones. En ecología se habla de ella como ordenaciones tipo Q (por columnas u ítems). Los vectores representan a cada variable y su objeto las relaciones entre ellas principalmente.
11
1. Elementos de Estadística Multivariada
1.8 Distancia
1.8 Distancia Es el concepto clave de la E.M., a pesar de su sencillez. (las más usadas: euclidiana, χ 2 , la de Malahanobis, etc.). Su aporte más importante se refiere a las relaciones entre niveles de incertidumbre y probabilidades para la agrupación de elementos que se consideran similares en la medida que posean distancias similares. La más evidente es la distancia euclidiana.
1.8.1 Distancia euclidiana X3 x3
P’
O
d (O, P ) =
x 12 + x 22 en 2 dimensione s
d (O, P ′) =
x 12 + x 22 + x 32 3 dimensione s
d (O, P ) =
x 12 + x 22 + … + x 2p p dimensiones
X2
x2
x1
P
ecuación 1.9
X1
Figura 1.7 Distancia euclidiana en un espacio tridimensional. NOTA. Todos los puntos de un plano que equidistan del origen caen en una circunferencia: X2
P (x1,x2 )
C
c = x12 + x 22
x2 x1
X1
c 2 = x12 + x 22 ecuación 1.10
Figura 1.8 Distancia euclidiana para puntos equidistantes en un espacio bidimensional.
12
1. Elementos de Estadística Multivariada
1.8 Distancia
Todos los puntos que caen a una igual distancia del origen en p dimensiones satisfacen
d 2 (O , P ) = x12 + x 22 + x 32 + … + x 2p = c 2 ecuación 1.11
V
H
D
Figura 1.9 Distancia euclidiana para puntos equidistantes en un espacio tridimensional. que es la ecuación de una hiperesfera; cuando p = 2 , circulo; p = 3 , esfera; p = p hiperesfera. Figura 1.9
H0
N ive l de in certid um b re aso ciad o a ig ua l distan cia
Ha
Figura 1.10 Relación entre los conceptos de distancia y el manejo de los niveles de probabilidades.
13
1. Elementos de Estadística Multivariada
1.8 Distancia
Las distancias así equiparadas con niveles de incertidumbre se manejan con conceptos estadísticos para su evaluación. Una prueba de hipótesis como se esboza en la Figura 1.10 aclara este concepto (que será retomado en capitulos posteriores). La hipótesis nula H 0 gobierna la distribución de los puntos que se encuentran a una misma distancia, en tanto, la hipótesis alternativa H a considera para los puntos situados a una distancia diferente que la probabilidad de que tengan una distribución igual a la representada por H 0 es tan baja que mejor es posible asignarles otro nivel de incertidumbre.
1.8.2 Distancia entre dos puntos Sean las coordenadas de los dos puntos P (x1 , x 2 ) y Q (y1, y 2 ) en los ejes X1 y
X 2 . Acudiendo a los conceptos anteriores, es posible encontrar la distancia del punto Q al punto P como:
X2 P (x 1 , x 2 )
x2
d (Q, P ) =
(x 1
− y 1 )2 + (x 2 − y 2 )2
ecuación 1.12 x 2 -y 2
y2
d(Q, P ) =
Q (y 1 , y 2 )
(x1 − y1)2 + (x2
− y2 )2 + … + (x p − yp )2
x 1 -y 1
y1
x1
X1
ecuación 1.13
Figura 1.11 Representación de la distancia entre dos puntos. La distancia euclidiana no es útil a todos los propósitos, porque cada coordenada tiene igual peso, fuerza o ponderación, para su cálculo, por lo cual variables sujetas a fluctuaciones grandes de diferentes magnitudes pueden distorsionar algunos análisis y resultará conveniente ponderar más duramente aquellas que presenten las menores fluctuaciones.
14
1. Elementos de Estadística Multivariada
1.8 Distancia
1.8.3 Distancia estadística Concepto fundamental en la E.M.; desarrollado para tener en cuenta las diferencias en las variaciones y desde luego la presencia de las correlaciones. Debido a su relación con las varianzas muestrales y covarianzas se llama distancia estadística. Para ilustrarlo mírese en la Figura 1.12 que la variable X 1 tiene más variación que la X 2 y además que son independientes, sus crecimientos no dependen de la otra variable. La propuesta es entonces ponderar más duramente a la variable Χ 2 y recalcular las distancias. X2
X1
Figura 1.12 Aplicación de la distancia estadística para variables asociadas con diferente varianza. Existen muchos criterios para hacerlo, pero lógicamente algunos presentan ventajas adicionales (como se verá en cada caso), de acuerdo con múltiples propuestas (Malahanobis, Batacharya, City Block, etc.). Por ejemplo sean las variables
x 1* =
x1 s11
x 2* =
x2 s22
1) Se estandarizan poniéndose en igualdad de características dimensionales, 2) aparecen diferentes ponderadores así: 1
0 , ecuaciones de hiperelipsoides centrados en Q . Las expresiones anteriores al cuadrado d 2 (O, P ) , d 2 (Q, P ) se conocen como FORMAS CUADRÁTICAS y en general como FORMAS CUADRÁTICAS DEFINIDAS POSITIVAS y juegan un papel importante en la E.M. y se pueden desplegar matricialmente con la matriz Α
A p* p
a11 a12 … a1p a a22 … a2 p 21 pero = a p1 a p 2 … a pp
a12 = a21 =
A p* p
a11 a12 … a1p a a22 … a2 p 12 = a1p a2 p … a pp
en la cual los aik para todo i ≠ k se dan dobleteados ya que están multiplicados por 2 en las respectivas fórmulas de distancia. Los a ik deben ser valores tales que las distancias computadas para cada par de puntos sea no negativa. La necesidad de considerar las distancias estadísticas en lugar de las euclidianas se puede ver en la Figura 1.17, un racimo de puntos cuyo centro de gravedad (media muestral) esta en Q . Se consideran ambas distancias euclidianas desde Q a P y al origen O .
Q P 0 Figura 1.17 Consideraciones para el cálculo de la distancia estadística.
20
La distancia euclidiana de Q a P es mayor que la distancia euclidiana de Q a O , sin embargo P esta entre los puntos del racimo y más cercano a los puntos que el origen. Si se tienen en cuenta las variabilidades de los puntos en el racimo y se calculan distancias entonces Q estará más cercano a P que al punto O .
1. Elementos de Estadística Multivariada
1.8 Distancia
Existen diversas distancias, algunas no relacionadas con círculos o elipses. Entonces cualquier medida de distancia d (Q, P ) entre 2 puntos Q y P es probadamente válida cuando satisface las siguientes propiedades, cuando R sea un punto intermedio:
d (Q , P ) = d (P ,Q ) d (Q, P ) > 0 si P ≠ Q d (Q, P ) = 0 si P = Q d (Q, P ) ≤ d (Q, R ) + (R , P ) ecuación 1.26
Esta ultima expresión se conoce como desigualdad triangular.
1.8.5 Coeficientes de distancia Son funciones que toman sus máximos valores (a menudo 1) para dos objetos que sean completamente diferentes y 0 cuando son idénticos entre todos los descriptores. Las distancias, semejantes a los coeficientes de similaridad, sirven para medir asociación entre los objetos de una muestra multivariada. Se dividen en MÉTRICAS, las cuales ya prácticamente fueron descritas en las cuatro propiedades anteriores. Se conocen como euclidianas, especialmente cuando sus formas binarias siguen la métrica euclidiana y jamás la violan, siempre embebidas en el espacio eudiclidiano. Se han diseñado especialmente para descriptores cuantitativos, pero ocasionalmente para algunos semicuantitativos. El segundo grupo corresponde a las DISTANCIAS PSEUDOMÉTRICAS o SEMIMÉTRICAS. Se caracterizan por no cumplir el axioma de la desigualdad triangular, por lo cual no pueden usarse con el propósito de ordenamientos de puntos en espacios euclidianos, ya que para tres puntos (a, b, c ) la suma de las distancias de a a b y de c a b , puede ser más pequeña que entre a y c . En estos casos los autores prefieren el concepto de disimilaridad en vez del distancia, el cual dejan cuando se cumplen las cuatro condiciones anteriores. No permite una propia ordenación de puntos en un espacio euclidiano, pero sí por otros procedimientos de la estadística multivariada. Una de las más conocidas es el coeficiente de Sorensen. El tercer grupo de distancias consiste de las NO MÉTRICAS, coeficientes que pueden tomar valores negativos, violando la propiedad de no negatividad de las distancias métricas. Se conocen también como no euclidianas. Un último grupo lo constituyen las DISTANCIAS ULTRAMÉTRICAS, cuando no hay inversiones en los agrupamientos, dando lugar a un concepto de similaridad llamada cofenética, nivel al cual dos objetos x 1 y x 2 llegan a ser miembros del
21
1. Elementos de Estadística Multivariada
Ejercicios de repaso
mismo grupo. Se caracterizan por cumplir la siguiente propiedad ultramétrica, para cada tripleta (x 1, x 2 , x 3 ) D (x 1, x 2 ) ≤ max [D (x 1, x 3 ), D (x 2 , x 3 )] ecuación 1. 27
Todos estos conceptos serán importantes especialmente cuando se intenten proceso ecológicos y de ecología numérica. Ejercicios de repaso Dadas las siguientes mediciones en 3 variables
Χ1 Χ2 Χ3
6
8
2
5
9
6
10
8
4
12
0
1
4
2
3
1)
Encuentre X , S n y R .
2)
Con las siguientes 3 observaciones en 2 variables
V1 V2
x1 = 2
x 12 = 3
x 13 = 4
x2 = 1
x 22 = 2
x 33 = 4
a. Grafique los pares de observaciones en un espacio bidimensional. b. Grafique los datos como 2 puntos en un espacio tridimensional k .
3)
Evalué la distancia del punto Q = (1, 0 ) al punto P = (− 1, − 1) usando la distancia euclidiana con p = 2 y la distancia estadística con a 11 = 1 3 , a 22 = 4 27 , a 12 = 1 9 . Dibuje a mano alzada el lugar de todos los puntos que estén a una distancia cuadrada = 1 desde Q .
4)
Sean los siguientes pares de mediciones en las variables Χ 1 y Χ 2 .
Χ1 Χ2
-6
-3
-2
1
2
5
6
8
-2
-3
1
-1
2
1
5
3
a. Grafique los datos como un diagrama de puntos y calcule s11, s 22 y s12 . b. Calcule estos mismos valores en las variables Χ 1 y Χ 2 asumiendo un ángulo de giro de ejes de 26º. c. Utilizando las medidas Χ 1 y Χ 2 calcule s~11 y s~22 .
(x 1, x 2 ) = (4, − 2) transformado a x1 y x 2 d (O, P ) del nuevo punto P = (x~1, x~2 ) desde el origen.
d. Considere un nuevo par calcule la distancia
22
y
1. Elementos de Estadística Multivariada
1.9 Lectura complementaria
1.9 Lectura complementaria (Aclaración de índices de diversidad, datos y transformaciones) 1.9.1 Indices de diversidad. Escalas nominales Para datos en escalas nominales no existen medidas como la media o la mediana que sirvan de referentes para discutir su grado de dispersión. En lugar del concepto anterior se habla de diversidad, cuando se trata de la distribución de unas observaciones dentro de unas categorías establecidas. Considérese por ejemplo que el ave conocida como “azulejo” (Thraupis episcopus), se a encontrado anidando en 4 localidades diferentes como enredaderas, aleros de las casas, ramas de los árboles o en las cavidades de las paredes. Si de 20 nidos observados, se encontraran de a 5/localidad, entonces se podría hablar de una gran diversidad en sitios de anidamiento, pero si 17 nidos estuvieran ubicados en las ramas de los árboles y 1 en los otros sitios, se hablaría de baja diversidad. En otras palabras, observaciones distribuidas regularmente (similarmente) entre las diversas categorías dan idea de alta diversidad, pero si el grueso de las observaciones ocurre en sólo algunas de ellas se habla de baja diversidad. La mayoría de medidas de este concepto surgieron de las teorías de la información y se basan en convertir la incertidumbre como un sinónimo de diversidad. En el ejemplo presentado, si los 17 nidos estuvieran en ramas se podría predecir con mucha certeza el hallazgo del próximo nido, casi un 85%. Cuando ocurriera el primer caso 5 nidos/sitio (alta diversidad en los sitios de anidamiento), se involucra una gran incertidumbre al predecir el próximo sitio de anidamiento, seleccionado al azar, pues cada sitio tendrá un mismo nivel de incertidumbre. Cuando un conjunto de datos en una escala nominal pueda ser considerado como una muestra aleatoria, entonces se conciben varias medidas cuantitativas para la medición de la diversidad.
1.9.1.1
Indice de Shannon (1948)
Se calcula con la expresión: H' = −
k
∑p
i
log p i
i =1
ecuación 1.28
También se conoce como Shannon-Wiener o Shannon-Weaver; con: k = número de categorías , p i = proporción de observaciones encontradas en la categoría i cuando se tiene y f i = número de observaciones en la categoría i ⇒ , n = tamaño muestral p i = f i n , con lo cual se puede reescribir como:
23
1. Elementos de Estadística Multivariada
1.9 Lectura complementaria
k
n log n −
∑f
i
log f i
i =1
H' =
n ecuación 1.29
Cualquier base logarítmica puede usarse para ello, siendo muy usadas las de 10, e y 2. Puede transitarse de una a otra de acuerdo con la siguiente tabla, así: Tabla 1.2 Factor de multiplicación para convertir (H , H ′, Hmax, H ′max ) calculadas con bases diferentes. Convertir desde la base Para convertir a la base 2 e 10 2 1.0000 1.4427 3.3219 e 0.6931 1.0000 2.3026 10 0.3010 0.4343 1.0000 Por ejemplo si H ′ = 0.255 usando base 10, → H ′ = (0.255) * (3.3219) = 0.847 usando la base 2. H ′ tiene el problema de subestimar la diversidad en las poblaciones muestreadas pero el efecto se disminuye al aumentar el tamaño de las muestras, pues es afectado tanto por la distribución de los datos como por el número de categorías, por lo que teóricamente por lo menos la máxima diversidad posible para un conjunto de datos en k categorías se obtiene por: ′ = Log (k ) H max ecuación 1.30
Muchos autores prefieren usar: J' =
H' ′ H max
ecuación 1.31
como expresión de la diversidad con respecto a la máxima diversidad, similar a un CV%. Este ha sido denominado como índice de uniformidad por Pielow, pero sería preferible asumirse como de homogeneidad o diversidad relativa. El complemento 1 − J ′ se muestra también como un índice de heterogeneidad o de dominancia. Por lo expresado acerca de k como subestimador del número de categorías de una población, la uniformidad muestral J ′ sobreestimará la de la población, siendo J ′ un estimador sesgado. Cuando el conjunto de datos no se puede asumir aleatorio, las dos primeras ecuaciones 1.28 y 1.29 no son buenas medidas de diversidad, por ejemplo si se aplican a la población completa (S ) . En ese caso, o cuando las muestras son sistemáticas se prefieren otros índices como el de Brouillon, por ejemplo.
24
1. Elementos de Estadística Multivariada
1.9.1.2
1.9 Lectura complementaria
Indice de Brouillon
Se calcula como:
n! log k Π fi ! i =1 H = n ecuación 1.32 k
en el cual Π f i ! indica el producto de k números. i =1
La expresión anterior se
puede reescribir como:
n! log f1 ! f 2 ! f k ! H = = n La máxima diversidad será: H max =
n log ! log f i ! n − ∑ i =1 n
log n !− (k − d ) log c !− d log (c + 1) ! n
;
ecuación 1.33
en que c es la porción entera de n k y d el resto. La medida de similaridad H , con 1 − J como índice de relativa de Brouillon es entonces: J = H max dominancia. Ejemplo 1.6 En la Tabla 1.3 se presentan los resultados de un muestreo de sitios de anidamiento de “azulejos”, en la ciudad de Medellín. Tabla 1.3 Sitios de anidamiento de “azulejos” en la ciudad de Medellín. (i) Localización Frecuencias observadas Muestra 1 Muestra 2 Muestra 3 2 1 5 Enredaderas 2 1 5 Aleros 2 1 5 Ramas 34 17 5 Cavidades H′ = n log n − f log f i i n ′ H max
J′ =
=
20 log 20 − 5 log 5
20 log 20 −
(3 log 1
+ 17 log 17
)
[(
5 = 0.602
20 = 0.255
40 = 0.255
log 4 = 0.602
log 4 = 0.602
log 4 = 0.602
0.255
0.255
0.602 0.602
= 1
0.602
= 0.420
]
)
40 log 40 − 3 2 log 2 − 34 log 34
= 0.420
0.602
25
1. Elementos de Estadística Multivariada
1.9 Lectura complementaria
Los cálculos le permitiran sacar las conclusiones pertinentes.
1.9.2 Tipos de datos y transformaciones Los datos generalmente provienen de experimentos de campo o laboratorio. Es crucial la escogencia de ellos así como la selección de las variables que los describen.
1.9.2.1
Tipos de datos crudos
Las propiedades de los datos determinan muchos de los procedimientos que se deben seguir para su cálculo (preparación y procesamiento), lo cual implica conocer de escalas y transformaciones.
1.9.2.2
Escala
Existen diversas escalas para medir una variable: ➢ Escala Nominal. Distingue diversos estados de una variable, a los cuales solo
se les aplica únicamente operadores relacionales
(=, ≠ ) ,
por ejemplo, las
formas de las hojas, los meses del año, los colores de un suelo. codificación se acude generalmente a números enteros no negativos.
Para su
➢ Escala Ordinal.
Además de la distinción, los valores potenciales podrían arreglarse en un orden lógico, por lo cual permiten operadores de desigualdad como ( >, 1 , los mayores valores resultarán
más ponderados que los menores, y viceversa. Los valores de c más usados son 0.5 y 2. Figura 1.26. Y ij´ 50 40 30 20 10 0 0
50
100
150
X ij´ 200
Figura 1.26 Ratón modificado potencialmente con c = 2 . ➢ Transformación arcsen X.
Para valores entre 0 y 1, especialmente porcentajes por debajo del 20% y por encima del 80%, para buscar normalizaciones fundamentalmente, se emplea x ′ij = arcsen x ij . Las
( )
transformaciones por este método son relativamente moderadas, pues los valores menores son menos enfatizados que los grandes. Figura 1.27.
31
1. Elementos de Estadística Multivariada
1.9 Lectura complementaria
Y ij´ 1.784 1.384 0.984 0.584 0.184 X ij´ -0.4 0.1
0.6
1.0
1.6
Figura 1.27 Transformación arcsen a los valores de las variables pretransformadas por rango ➢ Transformación usando la función de Clymo. Se usa la función construida
así: x ij′ =
(1 − exp (−cx )) , partiendo como en la anterior de datos entre 0 y 1 ij
(1 − exp (−c ))
o pretransformados. El efecto de los valores de c , define los efectos de enfatizar más unos valores que otros. Figura 1.28. Y ij´ 1.0 0.8 0.6 0.4 0.2 X ij´
0.0 0
0.25
0.5
0.75
1.0
Figura 1.28. Ratón transformado con una función de Clymo, c = 2 . Muchas transformaciones serán sugeridas por los mismos procesos a seguir.
32
Capítulo 2 Algebra de Matrices y Vectores Aleatorios La mayoría de resultados estadísticos presentados matricialmente facilitan la comprensión de la ESTADÍSTICA MULTIVARIADA.
2.1 Vectores Un arreglo columnar de n
Xn * 1
x1 x 2 = x n
números reales x 1, x 2, … x n ,
presentado como Xn* 1 es realmente el concepto de vector. Para efectos operacionales se propone otra notación (por necesidades lógicas, reducción de espacios, etc.), al transponer el vector ⇒
( Xn* 1 )Τ = ( Xn* 1 )′ = [x1
x 2 … x n ] = X1* n
ecuación 2.1
Un vector Χ puede representarse geométricamente como una línea dirigida en n dimensiones, por ejemplo si n = 3 X3
x3
x1
x2
X2
X1 Figura 2.1 Representación de un vector en un espacio de 3 dimensiones.
Χ ′ = [x1 x 3 en x 3 .
x2
x 3 ] ⇒ implica tomar x 1 unidades en la dirección de x 1 , x 2 en x 2 y
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
2.1.1 Expansión o contracción de vectores. El producto de una constante c por Χ n * 1 expande o contrae un vector, por ejemplo cΧ ′ = [cx1
cx 2 … cx n ] se obtiene multiplicando cada elemento por c .
2.1.2 Suma de vectores Se define la suma de Χ n * 1 y Yn * 1 como x1 y1 x 1 + y1 x y x + y 2 2 2 2 X + Y = + = = {x i + y i } x n y n x n + y n ecuación 2.2
En la física y en otras aplicaciones se da una visión interesante del vector como movimiento físico y sirve para generar otros conceptos. Ejemplo 2.1 Supóngase en un espacio n -dimensional (n = 2) que una persona presenta 163 cm 163 altura y peso Χ = ⇒ Χ 2 *1 = El vector Χ ′ = [163 60] puede 60 kg 60 verse como un viaje desde el punto de coordenadas (0, 0 ) al punto (163, 60 ) , o sea 163 unidades en la dirección Χ y 60 en la dirección Y . Entonces por una necesidad lógica u operacional aparece el concepto de vector unitario. Y (1 63 ,60 )´
P e so
60
40 20 (0 ,0)´
X 50
1 00
1 50
A ltura
Figura 2.2 Esquema de un vector con 2 variables. Se observa que coherente con lo anterior, debe haber unidades en el eje Χ y en el eje Y . El vector que denota una unidad paralela al eje Χ se denominará
34
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
e1 = [1 0]′ . Similarmente para el eje 2: e2 = [0 1]′ ⇒ vectores unitarios. La situación geométrica y algebraicamente se puede escribir así:
1 0 163 Χ = 163 e1 + 60 e2 = 163 + 60 = + 0 1 0
0 163 60 = 60
Adelantando conceptos e 1 y e 2 se conocen como vectores base estándar del espacio bidimensional.
2.1.2.1
Suma de vectores que parten del origen
Se trabajan geométricamente y algebraicamente con las definiciones anteriores 2
x1 y1 x 1 + y1 X + Y = + = x 2 y 2 x 2 + y 2
y1
x 2 +y 2
x2 0
X+
Con lo anterior comprueba su conocimiento intuitivo de la forma gráfica de sumar vectores como el acto de colocar en el punto final de uno de ellos el otro paralelo a sí mismo y encontrar la suma como el vector origen del primero al final del segundo.
Y
X y2 Y 0 x1
x1
y1
1
x 1 +y 1
Figura 2.3 Suma de vectores que parten desde el origen.
2.1.3 Características de un vector Por todo lo visto y por la noción de movimiento un vector tiene 2 características esenciales: dirección y longitud. Ya conoce la longitud pues coincide con la x 1 distancia euclidiana desde el origen. Sea el 2-vector X = ⇒ la longitud de x 2 X = Lx =
x 12 + x 22 ; ver Figura 2.4.
Por extensión la longitud del vector, usa el criterio de distancia euclidiana.
Χ ′ = [x1
x 2 … xn ]
es
x12 + x 22 + … + x n2 = L Χ
ecuación 2.3
La multiplicación de un vector Χ por un escalar c afecta a L Χ así:
Lc Χ = c 2 x12 + c 2 x 22 + … + c 2 x n2 = c
x12 + x 22 + … + x n2 = c L Χ
ecuación 2.4
35
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
2
x2
Lx
1
x1
Figura 2.4 Representación de la longitud de un vector en 2 dimensiones. Ello permite sacar las siguientes conclusiones Si c > 0 no se cambia la dirección del vector. Si c = 0 aparece un vector 0 = [0 0 … 0 ] como un vector flotante, que acomoda sus dimensiones a las necesidades de cada situación. Si c < 0 aparece un vector opuesto y el concepto de dirección. Si c > 1 el vector se alarga o expande. Si 0 < c < 1 el vector se acorta.
2.1.4 Vector unitario Si se escoge la constante c = L −Χ1 se obtiene el vector L−Χ1 Χ que tiene longitud 1 y sigue la dirección de Χ . X2
4
Por ejemplo, el vector X = tiene una 3
4
L X = 16 + 9 = 5
(4 ,3 )
3
definido por:
2 1 X1 1
2
3
4
Figura 2.5 Representación del vector unitario. 36
su
vector
unitario
4 5 1 X= , lo que se puede 5 3 5
apreciar intuitivamente en la Figura 2.5. (4 /5 ,3/5)
(0 ,0 )´
y
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
2.1.5 Dirección Está íntimamente ligado al concepto de ángulo bien sea entre dos vectores o de estos con sus ejes.
2.1.6 Ángulo entre dos vectores Sean 2 vectores Χ y Y con un ángulo θ entre ellos θˆ = θ 2 − θ1 , ver Figura 2.6, 2
Y
y2 Ly
θ2
x2
X Lx
θ
x1
y1
1
Figura 2.6 Ángulo entre 2 vectores que parten desde el origen. se puede ver que
cos θ1 =
x1 LΧ
; cos θ 2 =
y1 LY
sen θ1 =
x2 LΧ
; sen θ 2 =
y2 LY
RECUERDE: cos θ = cos(θ 2 − θ1 ) = cos θ 2 cos θ1 + sen θ 2 sen θ1 ⇒ calcular el ángulo entre dos vectores
cos θ ⇒
cos θ =
Χ ′ = [x1
una forma de
x 2 ]; Y ′ = [y1 y2 ] , usa el
y1 x1 y2 x 2 x1y1 + x 2y2 + = Ly L x Ly L x L x Ly ecuación 2.5
37
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
2.1.7 Producto interior; interno o producto punto de dos vectores y 1 x1 Sean los vectores Χ 2 * 1 = y Y2 * 1 = . Ya sabemos que el producto es y 2 x 2 posible solo si los ordenes conforman (término castellanizado del verbo ingles to conform, conformar, ajustar, concordar. Para el caso, cuando las columnas del primer vector, coincidan con las filas del segundo); así, es posible la operación y1 X′Y porque X ′1* 2 Y2 * 1 ⇒ [x 1 x 2 ] = (x 1y 1 + x 2 y 2 )1*1 . y 2 De acuerdo a lo anterior es posible calcular la longitud de un vector como L Χ = x 1x 1 + x 2 x 2 = Χ ′Χ ; similarmente LY = Y ′Y . Se llama producto punto porque su resultado siempre es un escalar.
2.1.8 Expresión generalizada para el ángulo entre dos vectores Se puede ver de acuerdo con algunas definiciones dadas que:
cos θ
=
X′ Y X ′X Y ′Y
ecuación 2.6
extendido esto a cualquier dimensión vectorial.
NOTA. Dado que
cos (90 ) º = cos (270 ) º = 0 , cuando cos θ = 0
los vectores son
perpendiculares, o sea que
cos θ = 0 =
X′ Y ⇒ X′ Y = 0 L x Ly
Ejercicio 2.1 Dados los vectores Χ ′
= [2 3 1] y Y ′ = [−1 1 −2] encontrar:
a.) 3 Χ ; b.) 4 Y ; c.) Χ + Y y d.) determinar las longitudes de Χ y de Y y el ángulo entre Χ y Y .
38
2. Algebra de Matrices y Vectores Aleatorios
2.1 Vectores
2.1.9 Vectores linealmente dependientes Un par de k vectores (de la misma dimensión) Χ y Y se definen como linealmente dependientes si existen constantes c 1 y c 2 , c 1 ≠ 0, c 2 ≠ 0 de tal forma que c 1Χ + c 2 Y = 0 ecuación 2.7
Un conjunto de vectores Χ 1, Χ 2 , … , Χ k son linealmente dependientes si existen por lo menos dos constantes c i ≠ 0 de tal forma que c 1Χ 1 + c 2 Χ 2 + … + c k Χ k = 0 ecuación 2.8
Una combinación lineal implica que algún vector del grupo pueda ser escrito como combinación lineal de los otros vectores; aquellos que tienen igual dimensión y no son linealmente dependientes se definen como linealmente independientes. Ejemplo:
Χ1
1 = 2 3
Χ2
1 = − 1 0
Χ3
1 = − 3 1
1 1 1 c1 + c 2 + c 3 0 c1 2 + c 2 −1 + c 3 −3 ⇒ 2c1 − c 2 − 3c 3 = 0 3 0 1 3c1 + 0c 2 + c 3 0 Esto solo se cumple para c 1 = c 2 = c 3 = 0 ⇒ son linealmente independientes por no poder encontrar 3 constantes c 1, c 2 y c 3 no todas cero de forma que c 1Χ 1 + c 2 Χ 2 + c 3 Χ 3 = 0
2.1.10 Vector sombra – Vector proyección Dos vectores no paralelos permiten la proyección del uno sobre el otro; esta proyección equivale al cateto adyacente del triángulo rectángulo formado con el primero sobre el segundo (de X sobre Y ). Es un vector de gran poder operacional sobre todo en la geometría vectorial. Ver Figura 2.7. La proyección de un vector Χ en un vector Y se puede establecer así:
39
2. Algebra de Matrices y Vectores Aleatorios
2.2 Matrices
Vs = X
X′ Y Y Y′ Y
para ellos se debe calcular primero la LVs = Longitud del vector sombra o sea del Vs ⇒ Sea: θ Vs
LVs = L x cos θ =
Y
Ve cto r S o m bra
Figura 2.7 Proyección de un vector Χ en un vector Y .
L x X ′Y X ′Y = L x Ly Ly
enseguida se deben encontrar las Y. unidades en el vector
La longitud LVs multiplicada por unidades de Y da el vector sombra ⇒ X ′Y 1 Y. Ly Ly Ejemplo 2.2 Sea Χ ′ = [3 3] y Y ′ = [6 0] ; la proyección del vector Χ sobre Y será:
X ’= (3,3)
3 2 1
Y ’= (0,6) 1
2
3
4
5
6
Figura 2.8 Proyección de un vector X sobre Y o vector sombra.
6 X ′Y = [3 3] = [18] 0 6 Y ′Y = [6 0] = [36] 0 Vs =
18 1 6 3 Y= = 36 2 0 0
2.2 Matrices Ya se definieron como los arreglos rectangulares de los números reales en vectores de igual longitud. A partir de ellas es posible establecer una serie de operaciones presentadas en los numerales siguientes
40
2. Algebra de Matrices y Vectores Aleatorios
A p* n
2.2 Matrices
a11 a12 … a1n a a22 … a2n 21 i = 1… p = = aij ; j = 1…n ai1 ai 2 aij ain a p1 a p 2 … a pn ecuación 2.9
2.2.1 Matriz traspuesta Resulta del cambio de filas por columnas. Ejemplo 2.3 Α2*3
a 11 a 12 = a 21 a 22
a 11 a 21 b11 b12 a 13 Α ′3 * 2 = a 12 a 22 = b 21 b 22 a 23 a 13 a 23 b 31 b 32 3 * 2
si se quiere conservar la notación. Al asumir un vector como matriz de una sola columna, todos los conceptos y operaciones de, o, en un vector se conservan en la matriz; por ejemplo: ca 11 ca 12 … ca 1n cA = ca p 1 ca p 2 … ca pk Dos matrices pueden ser sumadas cuando tienen iguales dimensiones
Α p *n = {aij }; Β p *n = {bij } ⇒ Α + Β = {aij + bij }, por ejemplo
Α3*3
0 1 2 1 0 1 = 3 4 0 ; Β 3 * 3 = −3 −2 1 1 0 1 −1 −1 0
1 1 3 Α + Β = 0 2 1 = C 0 −1 1
2.2.2 Multiplicación de matrices Es posible solo si las dimensiones conforman de la siguiente manera: si la primera tiene dimensión p * k la segunda deberá tener dimensión k * n , o sea que el número de columnas de la primera matriz iguale al número de filas de la
41
2. Algebra de Matrices y Vectores Aleatorios
2.2 Matrices
segunda. Cada elemento de la nueva matriz (el producto de las matrices) se obtiene con los productos internos (o punto) de cada fila de la primera matriz con cada columna de la segunda por ejemplo
A2*3
a 11 a 12 = a 21 a 22
a11b11 + a12b21 + a13b31 (AB)2*3 = a21b11 + a22b21 + a23b31
b11 b12 a 13 ; B 3 * 3 = b 21 b 22 a 23 b 31 b 32 a11b12 + a12b22 + a13b32 a21b12 + a22b22 + a23b32
b13 b 23 = b 33 a11b13 + a12b23 + a13b33 a21b13 + a22b23 + a23b33
NOTA. En cada posición debe haber k sumandos
NOTACIÓN. Sea
Α p* k Βk* n = (ΑΒ)p*n
a1k a11 a12 … a1 j … ⇒ ai1 ai 2 … aij … aik a p1 a p 2 a pj a pj … a pk
b11 b12 … b1 j … b1n b fi b f 2 … blj … b fn bk1 bk 2 … bkj … bkn
ecuación 2.10
⇒ el elemento de la fila i columna j será
ai1b1 j + ai 2b2 j + … + aij blj + … + aik bkj ecuación 2.11
Definición 2.1
{ }
El producto ΑΒ de una matriz Α p* k = a ij
C p* n = {c ij } cuyos elementos c ij están dados por c ij =
k
∑a b il
f =1
por ejemplo el elemento c 32 =
k
∑a l =1
42
3l
bl 2 .
lj
{ }
con una Βk* n = bij
es la matriz
2. Algebra de Matrices y Vectores Aleatorios
2.2 Matrices
NOTA. Excepto para matrices cuadradas el producto ΑΒ ≠ ΒΑ . Ejemplo 2.4 Sea la matriz Α 2 * 3 y la matriz Β 2 * 1 :
A2*3
0 1 2 0 = ; B2 *1 = 1 −1 0 1 1
( AB)2*1
0 1 2 0 2 = 1 = −1 0 1 1 1
2.2.3 Matrices especiales Las matrices Α k * k se llaman MATRICES CUADRADAS y son vitales para el desarrollo de los métodos estadísticos. Una matriz cuadrada se dice SIMÉTRICA si ′ k o sea si a ij = a ji para todos los i y j , por ejemplo Αk* k = Αk* 3 2 Α = 1 4
3 1 Α′ = 2 4
son simétricas.
2.2.3.1
Matriz identidad
Se define como una matriz con unos (1) en las posiciones a ii y ceros en las demás
1 0 0 … 0 0 1 0 … 0 Ι= 1 0 0 0 0 0 0 1 ecuación 2.12
a las posiciones a ii se les llama diagonal principal. La matriz Ι funciona como el módulo de la multiplicación en la aritmética (1 * m = m * 1 = m ) por eso su nombre; su importancia es sugerir la definición de una nueva matriz llamada MATRIZ INVERSA.
43
2. Algebra de Matrices y Vectores Aleatorios
2.2.3.2
2.2 Matrices
Matriz inversa
En los escalares existe una relación fundamental acerca de la existencia de un número a −1 tal que a −1a = aa −1 = 1 sí a ≠ 0 . En forma similar, cuando exista una matriz Β que posibilite el siguiente resultado Βk * k Α k * k = Α k * k Βk * k = Ι k * k a Β k * k se le llama la inversa de Α y se denotará como Α −1 .
NOTA. Solo tienen inversa las matrices de dimensiones k * k en las cuales las k columnas o (filas) sean linealmente independientes; o sea en que
c1a1 + c 2a2 + … + c k ak = 0 ; c1 = c 2 = … = ck = 0 donde a 1 = columna de Α k * k . Ejemplo 2.5 Dada la matriz Α 4.8 2 7 13 − 41.8 26.6 −1 Α = 3 11 17 ⇒ Α = 8 − 5 − 1 1 0 19 2.2 − 1.4 − 0.2 Verifique que ΑΑ −1 = Α −1 Α = I . Dado que usualmente se computa Α −1 por computador es bueno comprobar si ΑΑ −1 coincide con Α −1 Α . En el ejemplo anterior es confrontable que 2 c 1 3 + c 2 1
7 11 + c 3 0
13 0 17 = 0 ⇒ 19 0
c 1 = c 2 = c 3 = 0 , de tal forma que las columnas de Α son independientes.
2.2.3.3
Matriz diagonal
Es aquella que solo tiene elementos a ii ≠ 0 y ceros en las demás posiciones. 3 0 0 Α = 0 2 0 es una matriz diagonal. 0 0 1 ecuación 2.13
44
2. Algebra de Matrices y Vectores Aleatorios
2.3 Determinante de una Ak*k y función ...
NOTA. Cuando Α k * k es una matriz diagonal ⇒ su inversa se obtiene con los inversos de sus elementos aii
−1 Ak* k
0 0 … 1 a11 0 1 a 22 … 0 = 0 0 0 0 … 1 akk 0 ecuación 2.14
2.2.3.4
Matrices ortogonales
Son vitales en muchos procesos de la ESTADÍSTICA MULTIVARIADA. Se caracterizan porque QQ ′ = Q ′Q = Ι ecuación 2.15
Lo que implica que Q ′ = Q −1 . Su nombre se debe a que si la i-ésima fila de Q = [q i1
q i1 … q ik ] es qi′ ,
entonces QQ ′ = Ι implica que qi′ qi = 1 y qi′ q j = 0 para todo i ≠ j , de tal manera que las filas tienen longitud 1 y son mutuamente perpendiculares (ortogonales). Las columnas tienen la misma propiedad.
2.3 Determinante de una Ak*k y función determinante 2.3.1 Función determinante de una Ak*k Es una propiedad matricial que enlaza las matrices cuadradas Ak* k originales con las que resultan de sus transformaciones. La conección entre dos matrices es una función f ( A ) que: 1) Debe ser una funcion multilineal que responda linealmente a los cambios sufridos por las filas o columnas de A .
{ } se especifican órdenes, la f ( A )
2) Como al hablar de A = aij
debe ser capaz
de detectar a traves de la alternacion de los signos, los cambios en filas y
45
2. Algebra de Matrices y Vectores Aleatorios
2.3 Determinante de una Ak*k y función ...
columnas, pudiendose establecer que: Si dos filas son identicas f ( A ) = 0 ,
pero si dos filas idénticas se intercambian, f ( A ) debe cambiar de signo, pero permanecer idéntica, lo cual solo es posible con f ( A ) = 0 .
3) Existe un escalar asociado con esta función llamado la norma o valor, que se calibra de tal manera que el valor asociado con la matriz I sea 1, lo cual es k
posible porque el Π aka = 1 . Entonces el A es un escalar. i =1
En conclusión se puede definir el valor de f ( A ) como la suma de todos los posibles productos que contengan uno y solo uno de los elementos de cada fila y cada columna, que reciben su signo de acuerdo con la regla
A =
∑ ± (a
1 j1
, a 2 j2 ,…, akjk
)
En que j1 , j2 ,… , jk experimentan las k! permutaciones de los números entre 1 y
k , dependiendo el signo del número de inversiones en cada permutación considerada con respecto a la secuencia de los k posibles números así: si el número de inversiones es par se considera el signo ( + ) y si es impar el signo menos ( − ) . Por ejemplo, sea:
a12 a A = 11 a21 a22
El determinante entonces consta de 2! productos: a11a22 con signo
(+ )
puesto que no hay inversion y el a12a21 que tiene
una inversión por ello su signo ( − ) .
En una A 3 * 3 se puede ver que un valor como a12a 23a31 tiene signo + en cambio
a12a21a33 debe tenerlo – por la inversion en el segundo término. Debido a la cantidad de inversiones involucradas se dan algunas reglas para calcularlo!.
2.3.2 Determinante de una Ak*k La forma más fácil de obtenerlo es por reducción. propuesta; sea
Αk* k = {aij } =
Αk* k = a11 Αk* k =
k
∑a
1j
j =1
Solo se dará acá una
si k = 1
Α 1 j ( −1)
1+ j
si k > 1
ecuación 2.16
Α 1 j es una matriz de dimensión (k − 1) * (k − 1) obtenida al borrar la primera fila y la j − ésima columna de Α .
46
2. Algebra de Matrices y Vectores Aleatorios
2.4 Valores y vectores propios de una Ak*k
Ejemplo 2.6
1 3
1) = 1[4] (1) + 3 6 ( −1) = 1 * (4 ) + 3 * (6 )( −1) = 4 − 18 = −14 6 4 2
3
En general para k = 2
a11 a12 a = a11a22 − a12a21 21 a 22 3 1 6 4 5 7 5 7 4 2 3 4 2) 7 4 5 = 3 * ( −1) + 1 * (1) + 6 * ( −1) −7 1 2 1 2 −7 2 −7 1
(3 ) * (39) * (1) + (1) * (−3 ) * (−1) + (6 ) * (−57 ) * (1) = −222 Ejercicio 2.2 Demuestre y acepte como ley de cálculo que
[Α3*3 ]
a11 a12 a13 a11a22a33 + a12a23a31 + a21a32a13 − = a21 a22 a23 = a13a 22a31 − a12a21a33 − a23a32a11 a31 a32 a33
Que coincide ordenando de nuevo los términos con la famosa ley de Sarrus que se obtiene adicionando las 2 primeras columnas a las viejas y estableciendo los productos positivos de las diagonales de izquierda a derecha menos los negativos de la matriz de derecha a izquierda.
a11 a 21 a 31
a12 a22 a32
a13 a23 a33
a11 a21 a31
a12 a a a + a12a23a31 + a13a21a33 − a22 ⇒ 11 22 33 a13a 22a31 − a11a23a32 − a12a21a33 a33
2.4 Valores y vectores propios de una Ak*k Son el concepto fundamental de la ESTADÍSTICA MULTIVARIADA. Se dice que una matriz cuadrada Α tiene un valor propio (EIGENVALUE), con su correspondiente vector propio (EIGENVECTOR) Χ ≠ 0 si se cumple que ΑΧ = λΧ y más generalmente Αe i = λΧ ecuación 2.17
47
2. Algebra de Matrices y Vectores Aleatorios
2.4 Valores y vectores propios de una Ak*k
Es muy común normalizar Χ de forma que quede con longitud 1, o sea que Χ ′Χ = 12 = 1 . Estos vectores normalizados se designan como e .
PRUEBA. Entonces: 1.) Sean en λ n , e i λ i algunos vectores y valores propios de Α . Αen = λ n en y 2.) Αe i = λ i e i . Al multiplicar 1.) y 2.) por los vectores traspuestos e′i y e′n respectivamente se tiene: e ′i Αen = λ n e i′ en y en′ Αe i = λ i en′ e i Puede verse que el caso de matrices Α k * k simétricas, los miembros izquierdos de las ecuaciones anteriores son iguales, o sea e ′i Αen = en′ Αe i (o sea cuando a 12 = a 21, etc.) por lo cual los miembros derechos deben ser también iguales ⇒ λ n e i′ en = λ i en′ e i Como se habla acá de 2 valores distintos de λ; λ n , λ i entonces la única posibilidad para estas igualdades es que e ′i en = en′ e i = 0 , que es la condición de ortogonalidad para 2 vectores, por lo cual Αe i = λ i e i puede usarse para calcular los e i ortogonales cuando Α es simétrica. Si existen tales escalares λ i y sus vectores asociados e i entonces Αe i = λ i e i = 0 que es una diferencia de 2 vectores por lo cual e i puede sacarse de factor común y tener:
(Α
− λ i Ι) ei = 0
en la cual aparte de que se de la solución trivial con ei = [0 0 … 0] se tiene
la solución (Α − λ i Ι ) = 0 en términos de este determinante. Entonces 1.) (Α − λ i Ι ) e i = 0 si ei = [0 0 … 0] = [0] .
2.) ( Α − λi Ι ) ei = [0] No es generalmente cierta porque Α = λΙ implicaría que Α fuera siempre una matriz escalar. 3.) La solución más aceptable requiere entonces que λ i y e i sean tales que el producto (Α − λ i Ι ) e i sea el vector nulo, o sea que e i sea ortogonal al espacio que se forma al restarle a Α el producto λ i Ι , cuya solución es entonces Α − λ i Ι e i = 0 . Esto además conlleva a que para la matriz Α k * k , la ecuación característica sea una polinominal de grado k , cuyas soluciones son los λ i .
48
2. Algebra de Matrices y Vectores Aleatorios
2.4 Valores y vectores propios de una Ak*k
RESULTADO. Sin entrar por ahora en detalles, una matriz cuadrada, simétrica A k * k tiene k pares de valores propios con su respectivo vector propio; o sea que tiene λ 1, e 1; λ 2 , e 2 ; … ; λ k , e k . Los vectores propios pueden escogerse para satisfacer que 1 = e ′1e 1 = e ′2 e 2 = … = ek′ ek y ser mutuamente perpendiculares. A menos que resulte que un λ i = λ j los vectores propios son únicos. Ejemplo 2.7 Sea:
2 5 2 5 2 1 0 5 − λ Α2*2 = ⇒ −λ = =0 2 − λ 2 2 2 2 0 1 2
(5 − λ )(2 − λ ) − 4 = 0 ⇒
10 − 5λ − λ 2 − 4 = 0 = λ 2 − 7λ + 6 = 0
(λ − 6 )(λ − 1) = 0 ⇒
λ = 6; λ = 1
AX = λ X para λ = 6 se tiene
5x1 + 2x 2 = 6x1 2x 2 = x1 x1 5 2 x1 2 2 x = 6 x ⇒ 2x + 2x = 6x → 2x = 4x ; x = 2x 1 2 2 1 2 1 2 2 2 se le dan valores a x 2 o a x1 . Suponga x 2 = 1 → x1 = 2
5 2 2 12 2 2 2 1 = 6 = 6 1 volver el vector X unitario e1 =
1 X ⇒ X ′X = [2 1] = 4 + 1 = 5 X ′X 2
e1 =
1 5
2 2 1 = 1
5 5
para λ = 1 ⇒
5y1 + 2y2 = y1 2y2 = −4y1 y 2 = −2y1 5 2 y1 y1 2 2 y = y ⇒ 2y + 2y = y → 2y = −y → y = −2y 1 2 2 1 2 2 1 2 2 si y1 = 1; y2 = −2
49
2. Algebra de Matrices y Vectores Aleatorios
5 2 1 1 = ; 2 2 −2 −2
2.4 Valores y vectores propios de una Ak*k
e2 =
1 5 Y = . Y ′Y −2 5
2.4.1 Cálculos de λi, ei Sea Α k * k una matriz cuadrada (no necesariamente simétrica), Ι la matriz identidad conformable: los escalares λ 1, λ 2 , … , λ k que satisfacen la EIGENECUACIÓN POLINOMINAL, también llamada ECUACIÓN CARACTERÍSTICA:
Det Α − λ I = 0 = Α − λ I = 0 ecuación 2.18
se llaman valores propios o raíces características de Α . Ejemplo 2.8
0 1 0 1 0 1 0 1 − λ Α= ⇒ −λ = =0 3 − λ 1 3 1 3 0 1 1 El determinante anterior es (1 − λ)(3 − λ) ⇒ (1 − λ)(3 − λ) = 0 implica que λ 1 = 1; λ 2 = 3 . Ejercicio 2.3 Encuentre 2 vectores propios que satisfagan la anterior ecuación. Ejercicio 2.4 1 7 − 8 Encuentre para la matriz − 8 7 − 2 sus eigenvalores y eigenvectores a la 1 − 2 5 manera mostrada. Al resolver el determinante Α − λΙ = 0 debe obtener que
− λ
3
+ 19λ
2
− 50λ − 78 = 0
Para encontrar el primer eigenvector
50
∴
λ 1 = 4.65351 λ 2 = 15.4326 λ 3 = −1.08611
2. Algebra de Matrices y Vectores Aleatorios
1 7 − 8 − 8 7 − 2 1 − 2 5
2.5 Lectura Complementaria
x1 x1 x = 4.65351 x 2 2 x 3 x 3
Al resolver el sistema generado x 1 = 4.4287 ; x 2 = 1.06182 ; x 3 = 18.8883
y
ei =
− 4.4281 − 0.2279 Χ 1 = 1.06182 = e i = 0.05465 19.4296 Χ ′Χ 18.8883 0.97214
2.5 Lectura Complementaria 2.5.1 Repaso de conceptos Cuando
se
rotaron
los
x1 = x1 cos θ + x 2 sen θ
ejes
se
dijo
que
era
fácil
demostrar
que
y x 2 = − x1 sen θ + x 2 cos θ , es decir, expresar los
nuevos ejes en términos de los viejos y lo mismo las coordenadas. Considérese la siguiente figura y trate de llegar a las demostraciones hechas. X2
(x 1, x 2 )
X
~
P = ~ ~
( x 1, x 2 )
X1
2
~x
2
R
S’
~
B
x2
N
M
S
~
T
θ O
A
X1
Figura 2.9 Consideraciones para la rotación de ejes.
51
2. Algebra de Matrices y Vectores Aleatorios
2.5 Lectura Complementaria
Lo primero que puede verse al rotar los ejes es que Ρ que tiene coordenadas Ρ (Α, Β ) en los ejes viejos, pasa a ser Ρ (R, S ) en los ejes rotados. Lo segundo y que posibilita la demostración es que θ el ángulo aparece en todos los lugares marcados como ∠• (por tener sus lados respectivamente perpendiculares) ⇒
OA = BP = x1 OB = AP = x 2 en ejes X1 X 2 OR = SP = x1 RP = OS = x 2 en el sistema rotado ecuación 2.19
Lo tercero, todos los triángulos formados son rectángulos lo que lleva a trabajar con relaciones trigonométricas simples.
OR = OM + M pero OM = OA cos θ = x1 cos θ MR = MN + NR pero MN = AN sen θ ; NR = NP sen θ ⇒ MR = AN sen θ + NP sen θ = ( AN + NP )sen θ = x 2 sen θ ecuación 2.20
por ello x1 = x1 cos θ + x 2 sen θ . En idéntica forma:
OS = OT − ST = OT − S ′B OT = OB cos θ = x 2 cos θ SB ′ = BP sen θ = x1 sen θ = ST OS = x 2 cos θ − x1 sen θ = − x1 sen θ + x 2 cos θ ecuación 2.21
El presentar así el último término o aun así:
x1( − sen θ ) + x 2 cos θ ? ⇒
simplemente se entra a un manejo matricial del cual ya veremos sus ventajas ⇒ Las nuevas coordenadas se pueden expresar así
x1 cos θ x = − sen θ 2
sen θ x1 a11 a12 = ΑΧ = Χ cos θ x 2 a21 a22
Con lo cual ya podrá asociarse un nombre con la matriz Α : matriz de direcciones o matriz dirección coseno.
2.5.2 Traspuesta de A La traspuesta de Α es:
52
2. Algebra de Matrices y Vectores Aleatorios
cos θ Α′ = − sen θ
2.5 Lectura Complementaria
− sen θ a11 a21 (de la Α anterior). = cos θ a12 a22 ecuación 2.22
si hacemos
cos θ ΑΑ ′ = − sen θ
sen θ cos θ cos θ sen θ
cos 2 θ + sen 2 θ − sen θ cos θ + cos θ sen θ
− sen θ = cos θ
− cos θ sen θ + sen θ cos θ sen 2 θ + cos 2 θ
1 0 ΑΑ ′ = = Ι 0 1 ecuación 2.23
Este primer gran resultado muestra que A es una matriz ortogonal. En general así podría expandirse este resultado a matrices de cualquier tamaño!. Otra propuesta que puede mejorar conceptos posteriores en el manejo de matrices ortogonales, como resultó Α , es la posibilidad de adoptar una nomenclatura convencional de forma que se pueda identificar la posición del ángulo θ así:
θ11 ángulo entre los ejes Χ 1 y Χ 1 θ12 ángulo entre los ejes Χ 1 y Χ 2 θ 21 ángulo entre los ejes Χ 2 y Χ 1
es decir θ ij tal que i representa el eje rotado y j el eje original.
θ 22 ángulo entre los ejes Χ 2 y Χ 2 Esto permite clarificar cosas posteriormente ya que es posible ver y demostrar que θ11 = θ 22 = θ original (no se preocupe ahora del signo). También se ve que
θ12 = 900 − θ o que θ = 900 − θ12 θ 21 = 900 − θ o que θ = θ12 − 900
53
2. Algebra de Matrices y Vectores Aleatorios
2.6 Propiedades de las matrices
X2
X2
θ22 x1
~
~
~
~
θ12
x2
x2
x1
θ21 θ11 X1
X1
Figura 2.10 Notación para los conceptos de matrices ortogonales. lo anterior permite trabajar la matriz Α en otra concepción usando las siguientes desigualdades trigonométricas:
a11 = cos θ = cos θ11
a12 = sen θ = sen(90 − θ12 ) = cos θ12
a 21 = − sen θ = − sen(θ21 − 90) = cos θ 21
a22 = cos θ = cos θ 22
ecuación 2.24
o sea que cada a ij resulta siendo el correspondiente coseno del angulo θ ij , por ello una Α k * k como la que trabajamos, ortogonal, puede llegar a escribirse así
Αk* k =
cos θ11 cos θ 21
cos θ12 … cos θik cos θ 22 … cos θ 2k
cos θki
cos θk 2 … cos θkk
ecuación 2.25
los elementos a ij se llaman en esta matriz COSENOS-DIRECCIÓN de los nuevos ejes relativos a los viejos ejes. Como hallar estos elementos para una Αk* k cuando
k > 2 es complejo entonces se acude al computador!.
2.6 Propiedades de las matrices Es deseable tener a mano los siguientes resultados: para las matrices Α, Β, C , de iguales dimensiones y c y d dos escalares cualquiera se mantiene que a.) (Α + Β) + C = Α + (Β + C ) .
54
2. Algebra de Matrices y Vectores Aleatorios
2.7 Traza de una matriz
b.) (Α + Β) = (Β + Α ) . c.) c (Α + Β ) = c Α + c Β . d.) (c + d ) (Α ) = c Α + d Α . e.) (Α + Β)′ = Α ′ + Β ′ . f.) (cd ) (Α ) = c (dΑ ) . g.) (c Α )′ = c Α ′ . Para todas las matrices Α, Β, C (de dimensiones conformables para poder ejecutar productos, y algún escalar , se da:
(ΑΒ) = ( Α )Β .
a.)
b.) Α (ΒC ) = (ΑΒ ) C . c.) Α (Β + C ) = ΑΒ + ΑC . d.) (Β + C ) = ΒΑ + CΑ . e.) (ΑΒ )′ = Β ′Α ′ nótese como se invierten los términos. Sean Α y Β matrices cuadradas de la misma dimensión y con la existencia de sus inversas
(
a.) Α − 1
)′
= (Α ′)− 1
b.) (ΑΒ )−1 = Β −1 Α −1 considere detenidamente la igualdad.
2.7 Traza de una matriz
{ }
Sea Αk* k = aij , se llama traza de la matriz y se designa como tr (Α ) a la suma de los elementos de la diagonal principal tr(Α) =
k
∑a
ii
i =1
ecuación 2.26
55
2. Algebra de Matrices y Vectores Aleatorios
2.8 Formas cuadráticas
RESULTADO. Sean Α k * k , Β k * k y c un escalar cualquiera a.) tr (c Α ) = c tr (Α ) . b.) tr (Α + Β ) = tr (Α ) ± tr (Β) . c.) tr (ΑΒ) = tr (ΒΑ ) .
(
)
d.) tr Β −1 ΑΒ = tr (Α ) . e.) tr (ΑΑ ′) =
k
k
∑∑a
2 ij
.
i =1 j =1
2.8 Formas cuadráticas Una forma cuadrática Q(Χ ) en las k variables: X1 , X 2 ,…, X k es Q(Χ ) = Χ ′ΑΧ ecuación 2.27
en que Χ ′ = [X 1
X 2 … X K ] y Α es una matriz simétrica de dimensión k * k
cualquier forma cuadrática se puede escribir como: Q(Χ) =
k
k
∑∑a
ij x i x j
i =1 j =1
Ejemplo2.9
Q( Χ ) = [X1
1 1 X1 X2 ] = X12 + 2X1X 2 + X 22 1 1 X 2
1 3 0 X1 Q( Χ ) = [X1 X 2 ] 3 −1 −2 X 2 = X 12 + 6X 1X 2 − X 22 − 4X 2 X 3 + 2X 32 0 −2 2 X 3
56
2. Algebra de Matrices y Vectores Aleatorios
2.8 Formas cuadráticas
2.8.1 Matrices definidas positivas (precisas positivas, exactas, positivas) El estudio de la variabilidad (variaciones) e interrelaciones que aparecen entre datos multivariados, es basado muchas veces en el concepto de distancia (euclidiana o estadística ya estudiado) y además asumiendo que ellos son multivariada y normalmente distribuidos. Pues bien, las distancias cuadradas c 2 ya vistas y la densidad normal multivariada pueden expresarse en términos de productos matriciales como formas cuadráticas. Estas juegan un papel relevante en la estadística multivariada. Dos son de especial importancia: a.) las que siempre son NO NEGATIVAS y b.) las asociadas a las anteriores llamadas “DEFINIDAS POSITIVAS”,“EXACTAMENTE POSITIVAS”, etc.
2.8.2 Descomposición espectral de una matriz cuadrada simétrica Muchos de los resultados que involucran a las formas cuadráticas y matrices simétricas son consecuencia directa de una expansión para estas matrices, conocida como la descomposición espectral, la cual se expresa así: toda matriz simétrica Ak* k puede descomponerse como: Α k * k = λ 1 e 1 e ′1 + λ 2 e 2 e ′2 + … + λ k ek ek′ k * 1 1* k
k * 1 1* k
k * 1 1* k
En que λ i ; (i = 1, … , k ) son los valores propios de Α y e 1, e 2 , … , ek son los respectivos eigenvectores normalizados, con lo que
ei′ ei = 1; (i = 1, 2,…,k ) ; e ′i e j = 0 para i ≠ j . Ejemplo 2.10 Sea la matriz usada en el ejemplo 2.7
2 5 2 2 2 = 6 1
5 2 5
5 1
1 5 5 + 1 1 −2 5
5
−2
5
para probarlo se tiene
12 5 1 5 24 5 12 5 1 5 −2 5 2 5 1 5 = 1 5 −2 5 = ⇒ −2 5 4 5 12 5 6 5 6 5 −2 5 24 5 + 1 5 12 5 − 2 5 5 2 − 2 5 + 12 5 4 5 + 6 5 = 2 2
57
2. Algebra de Matrices y Vectores Aleatorios
2.8 Formas cuadráticas
Ejemplo 2.11 13 − 4 Sea la matriz Α = − 4 13 2 − 2 cuyos vectores característicos es Χ = Χ ′Χ
e =
con lo que e 1
2 − 2 cuyos λ 1 = 9; λ 2 = 9; λ 3 = 18 ; uno de 10 Χ ′ = [1 2 2] con lo cual
1 1 1 2 ⇒ Χ ′Χ = [1 2 2] 2 = 1 + 4 + 4= 9 ⇒ Χ ′Χ = ±3 Χ ′Χ 2 2 1 3 = 2 3 y así pueden obtenerse otros eigenvectores, lo sugiere la 2 3
solución de ΑΧ = λΧ . Con
base
en
esos
resultados
e11 = 1, e 21 = 1, e31 = 0 ⇒ e1′ = 1
se
escoge
un
2 0 , e2′ = es otro eigenvector para λ = 9 y e 3′ = [2 3 −2 3 correspondiente al λ 3 = 18 .
2 1
valor
para
el
residual
1 18 −1 18 −4 18 1 3] es otro normalizado
Puede verse que ei′ e′j = 0 para todo i ≠ j .
La
descomposición espectral de Α será entonces Α = λ1e1e1′ + λ2 e2 e2′ + λ3 e3 e3′ o sea:
13 −4 2 −4 13 −2 = 2 −2 10
1 2 1 18 91 2 1 2 1 2 0 + 9−118 1 18 −1 18 −4 18 +18 0 −4 18
9
2 3 −2 3 2 3 −2 3 1 3 = ] [ 1 3
1 2 1 2 0 1 18 − 1 18 − 4 18 49 − 49 29 1 2 1 2 0 + 9 − 1 18 1 18 4 18 + 18 − 4 9 4 9 − 2 9 0 4 18 2 9 0 0 4 18 16 18 29 1 9
La descomposición espectral es una herramienta analítica muy importante en la estadística multivariada, con la cual es posible demostrar ciertos resultados.
58
2. Algebra de Matrices y Vectores Aleatorios
2.9 Explicación matricial de la distancia
2.9 Explicación matricial de la distancia Sea una Α k * k simétrica de forma que se cumpla 0 ≤ Χ ′ΑΧ para todo Χ ′ = [X 1
X2 … XK ]
En ese caso se dice que Α es DEFINIDA NO NEGATIVA. Si la igualdad involucrada en el signo ≤ se diera únicamente para el vector Χ ′ = [0 0 … 0]1*k se dice DEFINIDA POSITIVA En otras palabras una matriz Α k * k simétrica es DEFINIDA POSITIVA si 0 < Χ ′ΑΧ . Para todos los vectores Χ ≠ 0 (acuérdese que como Χ ′ΑΧ tiene únicamente términos X i2 y términos cruzados X i X k , es una forma cuadrática). Ejemplo 2.12 Demostrar que la siguiente forma cuadrática es definida positiva:
3X12 + 2X 22 − 2 2X1 X 2 Para ilustrarlo intente escribirlo en notación matricial:
[X1
3 X2 ] − 2
− 2 X1 = Χ ′ΑΧ 2 X 2
Por definición, los eigenvalues de Α son soluciones al determinante Α − λΙ = 0 , o sea (3 − λ ) (2 − λ ) − 2 = 0 ⇒ λ 1 = 4; λ 2 = 1 usando la descomposición espectral Α = λ1e1e1′ + λ2 e2 e′2 = 4e1e1′ + 1e2 e2′ . Como lo sugiere Χ ′ΑΧ premultiplicando por Χ′ y postmultiplicando por Χ con Χ ′ = [X1 X 2 ] ≠ 0 se tiene: Χ ′ΑΧ = 4 Χ ′e 1e ′1 Χ + 1Χ ′e 2 e ′2 Χ . Sí hacemos:
Χ ′e1 = e1′ Χ = Y1 2 2 ⇒ Χ ′ΑΧ = 4 Y1 + Y2 ≥ 0 Χ ′e2 = e′2 = Y2 ya que Y1, Y2 son ambos diferentes de 0 y 4 Y1 + Y2 > 0 ⇒ Α será definida positiva. Por las definiciones dadas para Y1 , y Y2 ⇒
59
2. Algebra de Matrices y Vectores Aleatorios
Y1 e1′ Y = e ′ 2 2
2.9 Explicación matricial de la distancia
X1 X ⇒ 2Y*1 = 2E*2 2Χ*1 2
Ε es una matriz (Q ) ortogonal con inversa Ε ′ ⇒ Ε ′Y = Ε ′ΕΧ = ΙΧ ⇒ Χ = Ε ′Y pero Χ ≠ 0 lo que implica que Y ≠ 0 .
NOTA. Usando la descomposición espectral se puede demostrar que una Α k * k simétrica será definida positiva cuando cada λ i > 0 y definida no negativa si y solo si los λi ≥ 0 . Con los elementos anteriores, queda fácil ver la otra concepción de distancia. Asumamos que los p elementos X1 , X 2 ,…, X p de un vector Χ son los valores obtenidos
en
campo
de
p
variables
aleatorias
de
un
árbol,
ej.
X 1 = diámetros, X 2 = alturas, X 3 = factor de forma , X 4 = volumen , ejemplo
F o rm a X 3 C o nten ido de m ad era ó vo lum en = X 4 X2
1
2
3
...
n
22 29 ... 32.2 X1′ 20 X ′ 17.2 19.1 21.2 ... 23.7 2 = X 3′ 0.42 0.40 0.41 ... 0.39 ′ X 4 0.227 0.29 0.57 ... 0.753
X1
Figura 2.11 Explicación matricial de distancia aplicada en variables de un árbol. Se pueden mirar estos elementos como las coordenadas de un punto en un espacio p -dimensional y las distancias del punto P [X 1 X 2 X 3 X 4 ] al origen podrían interpretarse en términos de unidades de desviaciones estándar. Así podría explicarse la incertidumbre inherente (variabilidad) de las observaciones, de tal forma que los elementos a igual distancia se deben parecer más que los que estén a distancias diferentes. También podría decirse que puntos con la misma incertidumbre asociada deberán estar a distancias iguales del origen. Usando la fórmula ya conocida de distancia cuadrada = c 2 .
dist 2 = a11X12 + a22 X22 + ... + a pp X 2p + 2(a12 X1X2 + a13 X1X3 + ... + a p −1X p −1X p = c 2
60
2. Algebra de Matrices y Vectores Aleatorios
y
[X1
ya
que
la
2.10 Distancia a un punto fijo arbitrario µ
distancia
cuadrada es mayor que 0 para a ij = a ji para X 2 ,…, X P ] ≠ [0 0,…,0]1* p y tomando
todo todo
i ≠ j {i = 1, … , p; j = 1, … , p} ⇒
0 < dist 2 = [X1
X2
a11 a12 … a1 p X1 a a22 … a2 p X 2 21 = Χ ′ΑΧ ⇒ … XP ] a p1 a p 2 … a pp X p
una distancia cuadrada es una forma cuadrática definida positiva, e inversamente, toda forma cuadrática definida positiva puede interpretarse como una distancia cuadrada. Por ejemplo en 3 dimensiones se presentará una situación como la de la figura
1
X~
2
X~
X2
3
X~
X1
X3
Figura 2.12 Interpretación de la distancia cuadrada como una forma cuadrática positiva.
2.10
Distancia a un punto fijo arbitrario µ
Siendo la distancia cuadrada de Χ ′ = [X 1
X 2 … X P ] al origen de coordenadas
dada por Χ ′ΑΧ con Αk* k simétrica y definida positiva, entonces la distancia a
un punto fijo arbitrario µ ′ = [µ1
µ2 … µP ] de Χ será
dist 2 = (Χ, µ) = [Χ − µ]′ Α [Χ − µ]
61
2.10 Distancia a un punto fijo arbitrario µ.
2. Algebra de Matrices y Vectores Aleatorios
Estas expresiones de distancia permiten entonces dar interpretaciones basadas en los valores y vectores propios de Α . Ejemplo 2.13 Sea p = 2 . Los puntos Χ ′ = [X1
X 2 ] de distancia constante c desde el origen
de coordenadas deberán satisfacer la expresión
Χ ′ΑΧ = a11 X12 + a 22 X 22 + 2a12 X1 X 2 = c 2 acudiendo a la descomposición espectral ⇒ Α = λ 1e 1e ′1 + λ 2 e 2 e ′2 , se llega (recuerde el ejemplo anterior), a: Χ ′ΑΧ = λ 1(Χ ′e 1)2 + λ 2(Χ ′e 2)2 ⇒ c 2
ó :
c 2 = λ 1 Y12 + λ 2 Y22 que es la ecuación de una elipse en la cual Y1 = Χ ′e 1; Y2 = Χ ′e 2 . Como λ 1, λ 2 son ambos > 0, Α es definida positiva. Se puede ver que cada valor X 1 =
c −1 2 1
λ
e1 satisface la ecuación Χ′ΑΧ ya que
2
c λ λ1 −1 2 e1′e1 = 1 c 2 e1′e1 = c 2 que da la distancia apropiada en e 1 y que así λ1 λ1 c mismo X 2 = −1 2 e2 da la distancia apropiada en e 2 . Entonces, los puntos λ2 ubicados a una distancia c caen en una elipse cuyos ejes están dados por los EIGENVECTORES de Α con longitudes proporcionales a los recíprocos de las raíces cuadradas de los (λ ) EIGENVALORES, cuya constante de proporcionalidad es c . Gráficamente se tiene entonces
O Α = la distancia máxima en el eje e 1 = c Cuando p > 2 , los puntos Χ ′ = [X 1 constante c =
λ 1 ; OΒ = c
X 2 … X P ] ubicados a una distancia
Χ ′ΑΧ desde el origen caen en un hiperelipsoide c 2 = λ 1(Χ ′e 1)2 + λ 2(Χ ′e 2)2 + … + λ p(Χ ′e p )2 .
62
λ 2 en el eje e 2 .
2. Algebra de Matrices y Vectores Aleatorios
2.11 Matriz raíz cuadrada
X2
e 1 (x 1 , x 2 ) 1
λ
e
e2
2
λ
e
B
A
X1
-
1
λ
e
2
- e λ
0
Figura 2.13 Elipse con ejes determinados por sus eigenvectores. cuyos sus ejes estarán dados por los EIGENVECTORES de Α y los semiejes en las direcciones e i tendrán una longitud c λ i para i = 1, 2,…, p .
2.11
Matriz raíz cuadrada
La descomposición espectral permite expresar la inversa de una matriz cuadrada en términos de sus e i y λ i , produciendo un concepto de gran utilidad: LA MATRIZ RAIZ CUADRADA. Sea una
Αk* k
definida positiva;
A =
k
∑ λ e e′ . i
i
i
i =1
normalizados, las columnas de otra matriz Ρ = [e1
Ρ=
e11 e12 … e1k e21 e22 … e2k
⇒Α=
e2 … ek ] , es decir
∑ λ e e′ = i
Sean los eigenvectores
i
i
Ρ Λ Ρ′
k* k k* k k* k
ek1 ek 2 … ekk ecuación 2.28
En que ΡΡ ′ = Ρ ′Ρ = Ι ; y Λ (lambda) una matriz diagonal así:
63
2. Algebra de Matrices y Vectores Aleatorios
λ1 0 Λ = k* k 0
0
λ2
0
2.12 Vectores y matrices aleatorios
0 … 0 …
0 0 ⇒ Α − 1 = ΡΛ − 1Ρ ′ = … … λk
k
1
∑λ i =1
e i e ′i
i
ecuación 2.29
(
)
(
)
por lo cual ΡΛ −1Ρ ′ (ΡΛΡ ′ ) = (ΡΛΡ ′ ) ΡΛ −1Ρ ′ = ΡΡ ′ = Ι Sea Λ 1 2 la matriz diagonal con ⇒
k
∑
λi como los elementos de su diagonal principal
λ i e i e i′ = ΡΛ 1 2 Ρ ′ ; que será llamada MATRIZ CUADRADA DE
Α
y se
i =1
denominará como Α 1 2 o
(
a.) Α 1 2
)′
A , que tiene las siguientes propiedades:
= Α 1 2 o sea que es simétrica.
b.) Α 1 2 * Α 1 2 = Α , esto le da el nombre. c.)
(Α )
1 2 −1
=
k
∑ i =1
1
λi
ei ei′ = ΡΛ −1 2 Ρ ′ en que Λ −1 2 es la matriz diagonal con
elementos 1 λi . d.) Α 1 2 Α −1 2 = Α −1 2 Α = Ι
2.12
y
(
Α −1 2 Α −1 2 = Α −1 en a cual Α −1 2 = Α 1 2
)
−1
.
Vectores y matrices aleatorios
Un vector aleatorio tiene como elementos a variables aleatorias, similar ocurre con una matriz aleatoria. Entonces los valores esperados de un vector o matriz aleatoria consistiran de los valores esperados de cada uno de sus elementos. Sea Χ = {x ij }p *n ⇒ Ε (Χ ) es una matriz p * n , si existe, así:
E (x11 ) E (x12 ) … E (x1n ) E ( x 21 ) E ( x 22 ) … E ( x 2n ) Ε (Χ ) = E (x p1 ) E (x p 2 ) … E (x pn ) ecuación 2.30
64
2. Algebra de Matrices y Vectores Aleatorios
2.13 Vectores de medias y matrices de ...
∞ x f (x ) dx ij ij ij ij ∫ en la que: E (x ij ) = −∞ en VAC y VAD respectivamente. ∑ x ij Ρij (x ij ) ecuación 2.31
Ejemplo 2.14 Sea p = 2 y n = 1 y un vector aleatorio Χ ′ = [X1
X 2 ] para los valores de la
variable Χ 1 y Χ 2 se tienen las siguientes funciones de probabilidades: X1 -1 0 0. 1 P1(X1= x1) 0.26 0.33 0.41
⇒E ( Χ1) = ∑xi P (xi ) =1*0.26 + 2*0.33 + 3*0.41 = 2.15
X2 P1(X2 = x2)
⇒E ( Χ2 ) =1*0.7 + 2*0.3 =1.3 ⇒ E ( Χ) =
1 0.7
2 0.3
E ( Χ1) 0.1 = E (Χ2 ) 0.2
Los conceptos de esperanzas, en vectores y matrices aleatorios siguen las reglas y procedimientos vistos para la estadística univariada, ej.: E ( Χ 1 + Y1 ) = E ( Χ 1 ) + E ( Y1 ) ; E (cΧ ) = cE (Χ ) , etc. De acuerdo con ello ⇒ Sean Χ y Y matrices aleatorias de la misma dimensión y sean Α y
Β matrices
conformables de constantes ⇒ E (Χ + Y ) = E (Χ ) + E (Y ) E (ΑΧΒ) = ΑE (Χ )Β ecuación 2.32
2.13 Vectores de medias y matrices de covarianzas
{ }
Supóngase Χ = x ij
p *1
una matriz aleatoria, (en este caso vector aleatorio). Cada
elemento de Χ es una variable aleatoria con su propia distribución marginal de probabilidades. Las medias marginales µ i y las varianzas marginales σ i2 se definen como en la estadística univariada:
µi = E ( X i ) ; σ i2 = E ( X i − µi )
2
{i = 1,
2,..., p} ⇒
65
2. Algebra de Matrices y Vectores Aleatorios
µi =
∫
∞
−∞
2.13 Vectores de medias y matrices de ...
Xi fi ( Xi ) dXi * Si Χ es una variable continua con función de densidad f i ( X i ) .
∑X Ρ (X ) i i
i
∀xi
ecuación 2.33
** Si Χ es una variable discreta con distribución de probabilidad Pi ( X i ) .
∞ ( X − µ )2 f ( X ) dX i i i i ∫−∞ i 2 σi = 2 ∑ ( X i − µi ) Pi ( X i ) * *
*
ecuación 2.34
D istribució n conju nta
P (X 3 las representaciones gráficas no son posibles e incluso, la consideración de n puntos en p dimensiones provee visiones que no son avalables con expresiones matemáticas muy fácilmente. Ejemplo 3.2 Graficar y calcular el vector Χ de la matriz Χ dada con n = 3 y hacer el diagrama correspondiente X3
X1 X2 X3 4 − 1 3 2 Χ = ⇒ Χ = 1 3 5 3
Χ 1′ = [4 1] , etc.
Χ = [2 3] centro de
X2
X
X1
gravedad. Figura 3.2 Gráfica de la matriz Χ con n = 3, p = 2 .
84
3. Geometría Muestral y Muestreos Aleatorios
3.1 Geometría de la muestra
3.1.2 Forma n-dimensional Una alternativa diferente a la anterior se presenta al considerar los datos como p puntos en n dimensiones. En este caso se toman los elementos de las filas de la matriz como las coordenadas de los puntos. Sea
x11 x 21 Χ= x p1
… x1n Y1′ … x 2n Y2′ = … x pn Y ′ p
x12 x 22 x p2
ecuación 3.2
en la cual se hacen evidentes algunas cosas, como el concepto de partición que pone las variables con sus n datos y una forma de ver las cosas diferentes. Las coordenadas del primer punto Y1′ = [x i 1
x i 2 … x in ] son todas las n
medidas de la primera variable y en general Yi′ = [x i1
x i 2 … x in ] queda
determinado por la n -pla (ej. dupla, etc.) de las n mediciones de la i-ésima variable. Se mira la conveniencia de pintar Y1,… , Yn como vectores en vez de puntos. Ejemplo 3.3 Gráfica de la matriz Χ del ejemplo anterior como p = 2 vectores en un espacio
3-dimensional (n = 3 ) . Acá Y1′ = [4
−1 3]; Y2′ = [1 3 5] . 3
3 y2 y1
-1
2
4 1 Figura 3.3 Gráfica de la matriz Χ como p = 2 vectores en un espacio 3dimensional.
85
3. Geometría Muestral y Muestreos Aleatorios
3.2 Interpretación geométrica de la ...
Con esta alternativa muchas de las expresiones encontradas en capítulos anteriores como longitudes y ángulos, incluso áreas y volúmenes tendrán su significado geométrico y de gran aplicación en la estadística multivariada. Estas representaciones geométricas ordinariamente facilitan la comprensión de algunos temas y distintas visiones de un problema, aunque acostumbrados a 3 dimensiones, las representaciones gráficas para n > 3 se vuelven imposibles para nosotros. Pero no obstante las relaciones encontradas para 3 vectores, seguirán siendo válidas a pesar de su dimensión, además tres vectores aunque sean n dimensionales pueden alcanzar un espacio tridimensional, así como 2 vectores con cualquier número de componentes pueden acomodarse en una plano (bidimensional). Lo importante es seleccionar una perspectiva tridimensional adecuada o sea una porción del espacio n -dimensional que contenga los 3 vectores de interés y que se preserven L Χ y θ con una correcta escogencia de ejes. Muchos procesos multivariados se concentran en darnos esta posibilidad.
3.2 Interpretación geométrica de la media muestral Para ello debemos empezar por definir el vector 11′ * n como 1′ = [1 1 … 1] . Este vector forma ángulos iguales con cada uno de los n ejes coordenados. Como su 1 1 tiene longitud unitaria en L 1 = 12 + 12 … n veces … 12 es n entonces n las direcciones equiangulares. Considérese el vector Yi′ = [x i 1
(
)
x i 2 … x in ] . La proyección de Yi en el vector
unitario 1 n 1 se dará de acuerdo con la fórmula del vector sombra ya conocida
Vs =
Χ′ Y Y , será: Y′ Y 1 Yi′ 1 n * 1 1 = Y ′ * 1 ′ n 1 1 n 1 1 n n ecuación 3.3
ya que 11′ = 1 + 1 + … + 1 = n . Lo anterior puede expresarse entonces así: La proyección de Yi en el vector unitario será
x i1 + x i 2 + … + x in 1 = x i 1 o sea que n
la media muestral x i = Yi′ 1 n corresponde al múltiplo de 1 requerido para dar la proyección de Yi en la linea determinada por 1 . 86
3. Geometría Muestral y Muestreos Aleatorios
3.2 Interpretación geométrica de la ...
Ello permite entonces para cada Yi la siguiente descomposición mostrada en el triángulo de la Figura 3.4 en que Yi − x i 1 es perpendicular a x i 1 y se llamará e i por su obvia analogía con un vector de residuales o sea de valores o desviaciones de cada x i con respecto a su media muestral, entonces
yi
x i1 − x i x − x i ei = i 2 x in − x i
y i-x i 1
1
x i1
Figura 3.4 Descomposición de Yi para formar el vector e i .
ecuación 3.4
Todos los vectores Yi pueden descomponerse en términos de su media y sus desviaciones respectivas. Por ejemplo para p = 3 y n = 3 se tiene el siguiente gráfico de la descomposición. 3 1 x 21
x 31 y1
e1
x 11
e2 y2
e3
2
y3 1 Figura 3.5 Descomposición del vector Yi en términos de su media y sus respectivas desviaciones. Ejemplo 3.4 Usando los datos de X del ejemplo 3.2, aplíquese la descomposición de cada Yi en sus componentes x i 1 y e i = y i − x i 1 {con i = 1, 2 }. En este caso 4 − 1 + 3 x1 = = 2 , x 2 = 3 , de tal forma que: 3 1 2 1 3 x 11 = 2 1 = 2 ; x 2 1 = 3 1 = 3 1 2 1 3 87
3. Geometría Muestral y Muestreos Aleatorios
3.3 Gráfica de los
ei
De acuerdo con esto
e1
4 2 2 1 3 − 2 = Y1 − x 11 = − 1 − 2 = − 3 ; e 2 = Y2 − x 2 1 = 3 − 3 = 0 3 2 1 5 3 2
Se puede verificar que x 11 y e i son perpendiculares, buscando el coseno del ángulo entre ellos: para lo cual basta que (x 11)′ (Y1 − x 11) sea = 0. En efecto 2 ′ (x 11) − (Y1 − x 11) = [2 2 2] − 3 = 4 − 6 + 2 = 0 , y similar para x 2 1 y e 2 . 1 Las descomposiciones de Y1 y Y2 serán entonces Y1
4 2 2 = − 1 = 2 + − 3 ; 3 2 1
Y2
1 3 2 = 3 = 3 + 0 5 3 2
3.3 Gráfica de los ei Si nos concentramos en los e i = Yi − x i 1 , se pueden graficar así: Figura 3.6a. residuales del ejemplo 3.2; Figura 3.6b. Residuales de la Figura 3.5. 3
3
e1 e2
2
-2 2
O
2
e1
e2 1
1
(a .) e3
(b .)
Figura 3.6 Representación de los residuales. (a.) residuales del ejemplo 3.2; (b.) residuales de la Figura 3.5. Acá se trasladaron al origen de coordenadas, conservándoles sus longitudes y sus orientaciones. Si se consideran las longitudes cuadradas de los e i , L2e i , se tiene:
88
3. Geometría Muestral y Muestreos Aleatorios
3.3 Gráfica de los
n
∑ (x
L 2e i = e i′ e i =
− xi
ij
j =1
ei
)
2
ecuación 3.5
o sea una suma de desviaciones cuadradas. Tomando el concepto de si2 visto, se n
puede ver que
L 2e i
∑ (x
ij
− xi
j =1
=
)
2
= s ii o sea que L 2e i = ns ii , es decir, que la
n n longitud cuadrada de un vector desviación resulta proporcional a la varianza de las medidas de la i-ésima variable con constante de proporcionalidad n ; L e i será entonces proporcional a la desviación estándar. Se puede concluir entonces que a mayor variabilidad mayor longitud y viceversa. Este resultado resulta relevante. Por analogía con este resultado, debe aparecer alguna relación que evalúe los conceptos de covarianza. Acuérdese que ns ik =
n
∑ (x
ij
− xi
j =1
) (x
kj
− xk
)
ecuación 3.6
Observe que para 2 vectores e i y ek se puede ver que e ′i ek =
n
∑ (x
ij
− xi
j =1
) (x
kj
− xk
)
= ns ik
ecuación 3.7
al buscar el cos θ ik =
e i′ ek se tiene L ei L ek ns ik ns ii ns kk
=
s ik s ii skk
= γ ik
ecuación 3.8
El coeficiente de correlación muestral γ ik coincide entonces con el coseno del ángulo formado entre los vectores e i y ek . Los vectores desviación que tengan aproximadamente la misma orientación tendrán un γ ik cercano a 1, y cuando ellos son perpendiculares γ ik → 0 . Si los e i y ek se orientan en direcciones opuestas γ ik = −1.
89
3. Geometría Muestral y Muestreos Aleatorios
3.4 Lectura complementaria
Ejemplo 3.5 Acudiendo
nuevamente
al
ejemplo
anterior
en
que
e2′ = [−2 0 2] como lo muestra la Figura 3.6, se tiene:
e1 = [2 −3 1]
y
2 e1′e1 = [2 −3 1] −3 = 14 = 3s11 1 e ′2 e 2 = 8 = 3s 22 ; e ′1e 2 = −2 = 3s 12 ⇒
γ 12 =
− 23 14 8 3 3
= −0.189 ⇒ S n =
R =
14 3 − 2 3 1 14 − 2 ; = − 23 83 3 − 2 8
1 − 0.189 − 0.189 1
CONCLUSIÓN. Los conceptos de proyección de un vector, ángulo y longitud, permiten interpretaciones geométricas de una muestra, haciendo la salvedad que para ello se ha asumido n en vez de (n − 1) grados de libertad, para facilitar las deducciones respectivas.
3.4 Lectura complementaria 3.4.1 Muestras aleatorias y valores esperados de la media muestral-matriz de covarianzas Para poder estudiar la variabilidad muestral de los estadísticos Χ y S n con el fin de hacer inferencias, es preciso hacer algunas asunciones acerca de las variables cuyos valores observados se presenten en la matriz X . Al proponer muestrear se intenta colectar n datos en p variables. Antes de hacer las respectivas mediciones no se sabe que valores alcanzará cada una de ellas, o sea que sus valores no pueden predecirse exactamente. Por ello deberán tratarse como variables aleatorias, o sea cada entrada (i, j ) en la matriz de datos será una x ij (variable aleatoria). Cada conjunto de medidas X i en p variables será entonces un vector aleatorio y se producirá una matriz aleatoria
90
3. Geometría Muestral y Muestreos Aleatorios
(Matriz de variables aleatoria) ⇒ Xp*n
3.4 Lectura complementaria
x11 x12 … x1n x x22 … x2n 21 = Χ Χ … Χ … Χ = n 2 j 1 x p1 x p2 … xnp
ecuación 3.9
3.4.2 Definición de muestra aleatoria Si los vectores columna, representan observaciones independientes de una distribución conjunta común con función de densidad f ( X ) = f Χ 1, Χ 2 ,…, Χ p , entonces X 1, X 2 ,… , X n se dice que forman una
(
)
muestra aleatoria de f (X ) . Matemáticamente, además, se cumple que estos vectores forman una muestra aleatoria si su función de densidad conjunta esta f ( Χ 1 ) * f ( Χ 2 ) *,…,* f ( Χn ) , dada por el producto en que
f ( Χ j ) = f (x1 j , x 2 j ,…, x pj ) , sea la función de densidad para el j ésimo vector
columna. Dos puntos deben llamar nuestra atención:
1.) En un ensayo cualquiera las medidas de las
Χ ′j = x1 j
x2 j
p
variables tales como
… x pj resultan muy comunmente relacionadas, y además,
se espera que sea así. Pero las medidas para diferentes ensayos deberán ser sin embargo independientes. (p. ej., diámetros, alturas y volúmenes en un árbol). 2.) La independencia de medidas de ensayo a ensayo no permanece cuando las variables están modificadas, influenciadas por el tiempo, como un conjunto de diámetros y alturas, o precios de mercancías y ciertos indicadores económicos. La violación de los supuestos de independencia trae sus impactos en la calidad de la inferencia estadística, siendo muy común y a veces descuidando este criterio. Ejemplo 3.6 La siguiente tabla muestra el costo promedio Χ 1 , de la matricula de 32 % de estudiantes de la Universidad Nacional de Colombia entre 1991 y 1996 y Χ 2 el número de estudiantes que ingresaron en esa misma franja: Año Χ 1 = costo matricula Χ 2 = Número de estudiantes
1991 52000 6800
1992 57600 6200
1993 59200 5400
1994 63000 5300
1995 72000 5000
1996 85000 4310
Podra tratarse de una muestra aleatoria de tamaño n = 6 ? . Parece que no ! puesto que una variable se incrementa con el tiempo y la otra disminuye sistemáticamente. Sería muy raro que estos valores permanecieran
91
3. Geometría Muestral y Muestreos Aleatorios
3.5
X y Sn vistos como estimadores ...
independientes del tiempo como observaciones de la misma distribución. Haciendo un estimativo del θ ij entre estas variables se encuentra un valor de 114º aproximadamente o un γ ik = −0.911 o sea que hay una alta correlación entre ellos. Ya se vió la implicación que este concepto de independencia estadística tenia para la noción de distancia, ya que se expresó que la distancia euclidiana sería la apropiada cuando los componentes del vector fueran independientes y tuvieran iguales varianzas. Si los n componentes no eran independientes o las distribuciones marginales no son idénticas se consideraron las distancias ponderadas, o el concepto de distancia estadística, que involucra las formas cuadráticas vistas; en las cuales la influencia de las medidas individuales en la localización es asimétrica, por lo cual se las pondera con el inverso de las varianzas, etc.
3.5 Χ y Sn vistos como estimadores puntuales de µ yΣ Sin hacer asunciones acerca de las formas subyacentes de las distribuciones conjuntas de las variables, se pueden presentar X y S n como si fueran los estimadores puntuales de los correspondientes parámetros poblacionales. RESULTADO. Sea X 1, X 2 ,… , X n una muestra aleatoria de una distribución conjunta que tiene media µ y una matriz de covarianzas S . Entonces X es un estimador insesgado 1 de µ y su matriz de covarianzas será Σ , o sea: n
( )
E X = µ Vector medio poblacional ecuación 3.10
Cov ( X ) =
1 Σ (acuérdese del teorema del límite central). n ecuación 3.11
NOTA. Para
la
matriz
de
covarianzas
Sn ;
Ε ( Sn ) =
n −1 1 Σ=Σ− Σ n n
o
sea
n n S n = Σ de tal forma que S n es un estimador insesgado de Σ , o E − n − 1 n 1 S n es sesgado con un sesgo dado por la expresión
92
3. Geometría Muestral y Muestreos Aleatorios
3.6 Valor esperado de Sn
1 sesgo = E (S n ) − Σ = − Σ . n ecuación 3.12
PRUEBA. Sea Χ = ( Χ 1 + X 2 + … + Xn ) n , la esperanza de Χ ⇒
1 nµ 1 1 1 1 E ( Χ ) = E X1 + E X2 + … + E Xn = E ( X1 ) + … + E ( Xn ) = =µ n n n n n n Hágase n 1 n ′ 1 ′ = 1 Χ µ Χ µ X µ X µ − − − − ) = 2 ( )( ) n ∑( j ) n ∑( = = 1 1 j n
n
n
∑∑ (X
− µ ) ( X − µ )′
j
j =1 =1
1 n n ′ COV ( Χ ) = E ( Χ − µ )( Χ − µ ) = 2 ∑∑ E ( X j − µ )( X j − µ )′ n j =1 j =1 Para j ≠
(
cada entrada en E X j − µ
) (X
− µ ) es cero ya que es la covarianza
entre una componente de X j y una de X y estas se asumen independientes.
⇒ COV ( Χ ) =
′ 1 n X j − µ )( X j − µ ) pero habíamos definido 2 ∑( n j =1
′ 1 1 1 Σ = E ( X j − µ )( X j − µ ) ⇒ COV ( Χ ) = 2 ( Σ + Σ + … n veces Σ ) = 2 n Σ = Σ . n n n
3.6 Valor esperado de Sn Sin la demostración, para obtener el valor esperado de S n se debe notar que x ij − x i x kj − x k (i, k ) ésimo elemento del producto es el
( (Χ j
−
)( Χ ) (Χ j
−
) ′ Χ) .
La matriz que representa las sumas y los productos n
cruzados puede escribirse como
∑ (Χ
j
)(
− Χ Χj − Χ
j =1
)′
=
n
∑Χ
j
Χ ′j − nΧΧ ′ , de
j =1
donde sería posible llegar a que E (S n ) =
(n − 1) n
Σ.
ecuación 2.13
93
3. Geometría Muestral y Muestreos Aleatorios
3.7 Varianza generalizada
Pero vimos en la estadística univariada que las desviaciones estándar s ii calculadas con n o (n − 1) como divisores no son estimadores insesgados de las correspondientes
σ ii . Además, tampoco los γ ik lo son de los correspondientes
(
)
ρ ik . Entonces aparecen los sesgos E s ii − σ ii , o E (γ ik ) − ρ ik que simplemente se ignoran cuando el tamaño de la muestra es moderadamente grande. Estas consideraciones motivan una significativa modificación a la definición de la matriz de varianzas covarianzas muestrales, buscando una matriz de estas insesgadas así: 1 n S = Sn = n − 1 n − 1
n
∑ (Χ j =1
j
)(
− Χ Χj − Χ
)′
ecuación 3.14
en la que cada entrada (i, j ) será n
(n − 1)− 1 ∑ (x ij − x i ) (x kj − x k ) . j =1
ecuación 3.15
Esta ultima concepción o resultado, es el que se usa en la mayoría de pruebas estadísticas multivariadas, y reemplaza la vieja definición S n , en la mayoría de procedimientos, a menos que se quiera aceptar el sesgo introducido.
3.7 Varianza generalizada Así como en la estadística univariada la varianza permite estimar o describir la cantidad de variación de una variable, es posible asignar un valor único para la variación multivariada expresada por S , la cual ya se sabe contiene p varianzas y p (p − 1) 2 diferentes potencialmente covarianzas, de acuerdo con
s11 s 12 S= s1 p
s12 … s1 p n s22 … s2 p = s = 1 x ij − x i )( x kj − x k ) ( ∑ ik n − 1 j =1 s2 p … s pp ecuación 3.16
El valor único escogido es el determinante de S , que coincide con la varianza muestral de una sola variable cuando p = 1. Varianza muestral generalizada = S ecuación 3.17
94
3. Geometría Muestral y Muestreos Aleatorios
3.8 Interpretación geométrica de
S
Ejemplo 3.7 Al medir alturas y alturas comerciales a unos árboles de eucalipto (Eucalyptus aff. grandis.) del cerro Volador (Medellín, Colombia) se obtuvo la siguiente S
237.5 230.1 S= ⇒ S = 6975,24 230.1 252.3 o sea que proporciona en un solo número la información de todas las varianzas y covarianzas. Cuando p > 1 se pierde parte de la información en este proceso.
3.8 Interpretación geométrica de S Una interpretación de este tipo busca mostrar las fortalezas y debilidades de este estadístico. Para ello se va a considerar el área (o volumen) generada en un plano por dos vectores desviación, ya conocidos e 1 y e2 = yi − x i 1 {i = 1, 2}. Sean L e1 y L e 2 sus longitudes. Por geometría se encuentra, el trapecio e1
Le 1
Le 2
Le 1 se n θ
θ Le 2
e2
Figura 3.7 Interpretación geométrica para la deducción de la varianza generalizada S . cuya área es L e1 sen θ * L e 2 . Sabiendo que sen 2θ + cos 2θ = 1 ⇒ senθ = puede expresar como:
1 − cos 2θ , el área anterior se
Área = L e1 Le2 1 − cos 2θ pero de las expresiones encontradas para L e i y γ ik se puede concluir
95
3. Geometría Muestral y Muestreos Aleatorios
Le1 = Le 2 =
n
∑ (x j =1 n
∑ (x j =1
− x1 ) = 2
1j
− x2 ) = 2
2j
3.8 Interpretación geométrica de
S
(n − 1) s11 ; y cos θ = γ 12
(n − 1) s22
ecuación 3.18 2 2 ⇒ Área = (n-1) s11 s22 1 − γ 12 = (n − 1) s11s22 (1 − γ 12 ) . Pero de la definición
de varianza generalizada
s11 s11 s12 S = = s12 s22 s11 s22 γ 12 en términos de la ecuación de área
(volumen ) = p −1 (n − 1)( )
s11 s22 γ 12 2 = s11s22 − s11s22 (1 − γ 12 ) s22 ⇒ S = (área )
2
Si se asume que S
(n − 1)
2
− ( p −1)
= (n − 1)
2
volumen 2 , se mantiene, para el
volumen generado en un espacio n -dimensional por (p − 1) vectores desviación e 1, e 2 , … , e p − 1 , y se puede establecer por inducción que: Varianza generalizada muestral = S = (n − 1)
−p
(volumen )
2
ecuación 3.19
o sea que para cada conjunto fijo de datos, la varianza muestral generalizada, es proporcional al cuadrado del volumen generado por p vectores e i = y i − x i 1 . Para apreciar el significado de esta información se presentan 2 regiones trapezoidales generadas por los mismos vectores e 1, e 2 y e 3 .
3
3
e2 e3
e2
e1 e3
e1 2
1
(a .)
2 1
(b .)
Figura 3.8 Varianza generalizada S para n = 3 . La figura de la izquierda muestra un gran S , mientras a la derecha se muestra una menor S .
96
3. Geometría Muestral y Muestreos Aleatorios
3.9 Interpretación de la varianza ...
Se puede concluir intuitivamente que para una muestra aleatoria de tamaño fijo, el volumen se incrementa cuando la longitud de algún ei = Yi − x i 1 , o s ii se incrementa. Por otro lado el volumen se incrementará si los vectores residuales de longitud fija se mueven hasta que alcancen ángulos rectos entre ellos, como en la Figura 3.8a. También, el volumen o S se hará más pequeño si alguna de las sii es pequeño o alguno de los vectores desviación cae más cerca del hiperplano formado por los otros, o ambos casos. Observe que en la Figura 3.8b. el trapezoide que forman e 1 y e 2 tiene menor altura que la Figura 3.8a. y que e 3 cae muy cerca del plano que ellos forman.
3.9 Interpretación de la varianza generalizada en un diagrama p espacial La interpretación más intuitiva se relaciona con la dispersión de los puntos alrededor del punto medio Χ ′ = x1 x 2 … x p . Para ello considérese la medida de distancia en forma cuadrática
0 < dist 2 = Χ ′ΑΧ para Χ ≠ 0 ecuación 3.20
con X como punto fijo y S −1 como Α .
Χ ′ = X 1
satisfacen
Con esta elección las coordenadas
X 2 … X p de los puntos a una distancia constante c de Χ
(Χ
′ − Χ S−1 Χ − Χ = c 2
)
(
)
ecuación 3.21
Obsérvese que cuando p = 1, será la distancia cuadrada de x 1 a x 1 en unidades de desviación estándar. La ecuación 3.21 define un hiperelipsoide (si p = 2 una de las elipses vistas en los ejemplos) centrado en Χ . Utilizando cálculo integral se puede encontrar el volumen de este hiperelipsoide, con base en S como:
′ 12 Volumen de Χ: ( Χ-Χ ) S −1 ( Χ − Χ ) ≤ c 2 = k p S c p ecuación 3.22
o también: el (volumen del elipsoide )2 = constante por varianza generalizada. k p se obtiene un poco complicadamente como k p = 2π p
2
pΓ (p 2) . Γ es una
función fácilmente evaluable incluso con tablas (gamma).
97
3. Geometría Muestral y Muestreos Aleatorios
3.10
3.10 Debilidades de S
Debilidades de S
A pesar de las interpretaciones geométricas muy plausibles ya anotadas, tiene debilidades como estadístico descriptivo. Un ejemplo permite verlo.
10 9 S= ; 9 10
S = 19
10 −9 S = ; −9 10
0 4.3589 S = ; 43589 0
S = 19
Los 3 tienen igual S = 19 pero poseen distintas estructuras de correlación o sea que diferentes estructuras de correlación no son detectadas por S y cuando p > 2 , la cuestión se vuelve más confusa. Por otra parte S puede expresarse como el producto de λ 1, λ 2 , … , λ p , de los valores propios de S , además que el elipsoide centrado en la media, basado en S−1 tiene sus ejes con longitudes proporcionales a las λ i , que como se vio proporcionan información de la variabilidad en todas las direcciones del espacio p -dimensional, como se verá en el análisis de componentes principales
3.11
Varianza generalizada = 0
En algunas situaciones S = 0 , ello indica una degeneración extrema matricial, en que se dan filas o columnas linealmente dependientes de otras en la matriz de desviaciones:
Y1′ − x11 x11 − x1 Y′ − x 1 x − x 2 21 2 2 = ′ Yp − x p 1 x p1 − x p
x12 − x 2 x 22 − x 2 x pp − x p
… x1n − x1 … x 2n − x 2 = Χ − Χ1 . … x pn − x p
ecuación 3.23
Como el caso ya mencionado de que algún e i caiga en el hiperplano generado por e 1, … , e i − 1; e i + 1, … , e p . Ejemplo 3.8
Mostrar que S = 0 para Χ 3 * 3
98
1 4 4 3 = 2 1 0 ⇒ Χ = 1 5 6 4 5
3. Geometría Muestral y Muestreos Aleatorios
3.12 Rango pleno de S
− 2 1 1 Χ − Χ1 = 1 0 − 1 cuyos vectores residuales son entonces: 0 1 − 1 e ′1 = [− 2 1 1] ;
e ′2 = [1 0 − 1] ;
e ′3 = [0 1 − 1] .
Se puede ver que e 3 = e 1 + 2e 2 , o sea que hay degeneración por filas lo que significa que e 3 e3 cae en el plano generado por los otros 2 vectores y el 3volumen dimensional = 0. Este caso se ilustra así: 3
e1
2 e3 1
e2
Figura 3.9 Degeneración matricial extrema cuando S = 0 . En un análisis estadístico S = 0 indica que algunas variables podrían ser suprimidas del estudio, claro matemáticamente hablando, porque a veces no es fácil una de tales decisiones.
3.12
Rango pleno de S
Existen algunas condiciones para establecer si ello ocurre. 1) Si n ≤ p si el tamaño muestral ≤ número de variables S = 0 para todas las muestras. 2) Sean los vectores columna X 1, X 2 ,…, Xn de una matriz de datos X , como determinaciones independientes de los vectores X 1, X 2 ,…, Xn .
99
3. Geometría Muestral y Muestreos Aleatorios
3.13 Varianza generalizada ...
a. Si una combinación lineal l ′ Χ j tiene varianza positiva para cada vector de constantes
≠ 0 y p < n ; S tiene rango pleno con probabilidad de 1 y
S > 0. b. Si, con probabilidad 1 l ′Χ j es una constante c para todo j ⇒ S = 0 .
Varianza generalizada determinada por R
3.13
La varianza muestral generalizada esta indudablemente afectada por la variabilidad de las mediciones de las variables singulares (o por sus unidades). Suponga que sii es o muy grande o muy pequeño. Geométricamente el vector residual ei = Yi − x i 1 , por ser o muy largo o muy corto afectará el volumen. Por lo anterior conviene escalar los vectores residuales de modo que alcancen la misma longitud, o sea una acción equivalente a reemplazar cada observación original x ij por su valor estandarizado
(x
ij
− xi ) sii
ecuación 3.24
en cuyo caso la matriz de covarianzas de variables estandarizadas muestral, será R . Se puede definir: (Varianza muestral generalizada de variables estandarizadas) = R ecuación 3.25
con vectores residuales
( x i1 − x i )
sii , ( x i 2 − x i )
sii ,…, (x in − x i )
′ sii = ( Yi − x i 1)
sii
ecuación 3.26
todos con longitud
(n − 1) .
La varianza generalizada muestral de las variables
estandarizadas será grande en la medida que estos vectores estén cercanos a la perpendicularidad, y pequeña cuando 2 o más de ellos vayan más o menos en la misma dirección.
( Yk
− x k 1)
Nótese que el coseno del ángulo θ ik entre
( Yi
− x i 1)
sii y
skk es el coeficiente de correlación muestral γ ik .
Ello conduce también a que: R es grande cuando todos los σik son cercanos a 0 y pequeños cuando uno o más de ellos son cercanos a a + 1 o a − 1. resumen sean
100
En
3. Geometría Muestral y Muestreos Aleatorios
x i1 − x i sii xi2 − xi ( Yi − x i 1) s = ii sii x in − x i sii
(i = 1,
3.13 Varianza generalizada ...
Los vectores residuales de las variables estandarizadas.
2,…, p )
El volumen generado en el p espacio por estos vectores esta relacionado con la varianza generalizada a la manera mostrada en la ecuación 3.19.
(Varianza generalizada muestral de variables estandarizadas) = R = (n − 1)
−p
(volumen )
2
ecuación 3.27
Se muestra el volumen generado por los vectores desviación de variables estandarizadas, que ya se había mostrado al finalizar el numeral 3.8; (a.) y (b.), y revela que la influencia del vector e 2 (gran variabilidad de X 2 ) sobre el volumen cuadrado S , es mucho mayor que su influencia sobre el volumen cuadrado R . 3 3
e3
e1
e2
e3
e1
e2
2 (a .)
2 (b .)
1 1 Figura 3.10 Influencia de los vectores e i sobre S y R .
S y R se relacionan así: S = s11 s22 … s p R de tal forma que
(n − 1)
p
S = (n − 1)
p
(s
11
s22 … s pp ) R
ecuación 3.28
101
3. Geometría Muestral y Muestreos Aleatorios 3.14 Otra generalización de la varianza ...
o
sea
que
(n − 1)
p
S
es
proporcional
a
( (n − 1) R con p
constante
de
proporcionalidad igual al producto de las varianzas, las cuales a su vez son proporcionales al producto de las longitudes cuadradas (n − 1) sii de los e i . La ecuación 3.8 algebraicamente como un cambio en la escala de medición de X 1 por ejemplo alterará las relaciones entre las varianzas generalizadas: mientras R (basada en medidas estandarizadas) no se afecta por los cambios en escala, S cambiará siempre que el factor s11 lo haga. Ejemplo 3.9 Mostrar las relaciones de S y R para un espacio 3-dimensional suponiendo que
9 4 1 S = 4 16 2 ⇒ s11 = 9; s22 = 16; s33 = 1 1 2 1 1 1 3 1 3 R = 1 3 1 1 2 ⇒ 1 3 1 2 1
S = 9(16 − 4) − 4(4 − 2) +1(8 −16) = 92; 92 = S = 9 * 16 * 1 *
1 1 1 1 1 1 1 23 R =11− − − + − = ⇒ 4 3 3 6 3 6 3 36 23 = 9 * 16 * 1 R = 92 36
3.14 Otra generalización de la varianza-varianza total muestral Se define la varianza total muestral como la suma de los elementos de la diagonal de la matriz S ⇒
Varianza total muestral = s11 + s22 + … + s pp ecuación 3.29
Para los ejemplos 3.7 y 3.8 se tiene: 237.5 230.1 S = ⇒ VTM = 237.5 + 252.3 = 489.8 y 230.1 252.3
102
3. Geometría Muestral y Muestreos Aleatorios
3.15 Operaciones matriciales para ...
1 4 4 2 1 0 ⇒ VMT = 1 + 1 + 4 = 6 5 6 4 Geométricamente la VARIANZA MUESTRAL TOTAL es la suma de las longitudes al cuadrado de los p vectores residuales ei = ( Yi − x i 1) , divididos por (n − 1) . Este criterio no presta atención a la orientación de los vectores residuales (estructuras de correlación) y por ejemplo le asigna los mismos valores a los conjuntos de vectores residuales (a.) y (b.) del ejemplo 3.8.
3.15 Operaciones matriciales para obtener medias, covarianzas y correlaciones muestrales Es posible el cálculo directo de Χ y S a partir de la matriz Χ de datos.
3.15.1 Media Χ Acudiendo a las fórmulas ya vistas como
x i = (x i1 * 1 + x i 2 * 1 + … + x in * 1) n = Yi′ 1 n ⇒ x1 Y1′1 n x11 x Y ′1 n x 2 = 1 21 Χ= = 2 n x p Yn′ 1 n x p1
x12 … x1n 1 x 22 … x 2n 1 = 1 Χ1 ⇒ n x p 2 … x pn 1
ecuación 3.30
Χ se obtiene premultiplicando a Χ por 1 n y postmultiplicando por 1 .
3.15.2 Matriz de medias ( p * n ) Es posible crear una matriz de medias ( p * n ) =
x1 x 2 x p
x1 … x1 x2 … x2 =Μ x p … x p ecuación 3.31
103
3. Geometría Muestral y Muestreos Aleatorios
3.15 Operaciones matriciales para ...
vital para el cálculo de residuales con base en la matriz Χ vista en la ecuación 3.30, simplemente postmultiplicando por 1′ ⇒ Χ1′ =
1 Χ11′ = Μ n
ecuación 3.32
3.15.3 Matriz de desviaciones ( Χ − Μ )( p*n ) Se obtiene la matriz de desviaciones con respecto a la media, o de residuales así
x11 − x1 x − x 1 21 2 ′ Χ − Χ11 = n x p1 − x p
x12 − x1 x 22 − x 2 x p2 − x p
… x1n − x1 … x 2n − x 2 =D … x pn − x p
ecuación 3.33
3.15.4 Matriz de sumas de cuadrados y productos cruzados (n-1) S La matriz que contiene sumas de cuadrados y productos de cuadrados es simplemente DD ′ ⇒ 1 1 DD ′ = Χ − Χ11′ Χ − Χ11′ n n x 11 − x 1 x − x 2 21 x p 1 − x p
x 12 − x 1 x 22 − x 2 x p2 − x p
… x 1n − x 1 … x 2n − x 2 … x pn − x p
(n
x 11 − x 1 x − x 1 12 x 1n − x 1
′
=
x 21 − x 2 x 22 − x 2 x 2n − x 2
… x p1 − x p … x p2 − x p = … x pn − x p
− 1) S =
ecuación 3.34
1 Χ Ι − 11′ Χ ′ que se obtiene al extraer n
Χ
de factor común, ya que
′ 1 1 1 1 1 1 Ι − n 11′ Ι − n 11′ = Ι − n 11′ − n 11′ + n 2 11′11′ = Ι − n 11′ en resumen 104
3. Geometría Muestral y Muestreos Aleatorios
Χ =
3.16 Matriz de desviaciones estándar ...
1 1 1 Χ1 y S Χ Ι − 11′ Χ ′ . n n − 1 n ecuación 3.35
El resultado para Sn será similar, salvo que 1 n reemplaza a 1 n − 1.
La
ecuación 3.35 muestra como con operaciones matriciales de Χ se llega a Χ y a S . Cuando esta ultima es calculada se puede llegar fácilmente a R .
3.16
Matriz de desviaciones estándar D1/2
Se puede definir una matriz p * p de desviaciones estándar D 1 2 como:
D1p*2 p
s11 0 = 0
0
…
s22
…
0
…
0 0 0 s pp
y
D −p*1 2p
1 s11 0 1 s22 0 = 0 0
0 … … 1 s pp …
0
ecuación 3.36
sabiendo que
s 11 s12 s s 22 22 S = s p1 s p 2
s11 … s 1p s11 s11 … s2p = R = s 1p … s pp s 11 s pp 1 R = γ 1p
γ 12 1 γ 2p
s12 s11 s 22 s2p s 22 s pp
…
…
s 1p s11 s pp s pp s pp s pp
⇒
… γ 1p … = D − 1 2 SD − 1 2 … 1
o también S = D 1 2 RD 1 2 .
105
3. Geometría Muestral y Muestreos Aleatorios
3.17 Valores muestrales de ...
3.17 Valores muestrales de combinaciones lineales de variables Ya se conoce que C ′ Χ = C1Χ 1 + C 2 Χ 2 + … + C p Χ p , cuyo valor observado en el j ésimo ensayo será
(j
C ′ Χ j = c1x1 j + c 2 x 2 j + … + c p x pj
acuerdo con n observaciones de estas se tiene: Media muestral =
(C ′X1 + C′X 2 + … + C′Xn ) n
= 1, 2,…, n ) .
= C ′ ( x1 + x 2 + … + x n )
De
1 = C′ Χ . n
ecuación 3.37
(
Puesto que C ′Χ j − C ′Χ
)
2
( (
= C′ Χ j − Χ
))
2
′ = C′ Χ j − Χ Χ j − Χ C ⇒
(
)(
)
Varianza muestral =
′ ′ ′ C ′ ( Χ 1 − Χ )( Χ 1 − Χ ) C + C ′ ( Χ 2 − Χ )( Χ 2 − Χ ) C + … + C ′ ( Χn − Χ )( Χn − Χ ) C
(n − 1)
=
(Χ − Χ ) Χ − Χ ′ + Χ − Χ Χ − Χ ′ + … + Χ − Χ Χ − Χ ′ n n 1 2 2 C C ′ 1 (n − 1)
(
)
(
)(
)
(
)(
)
o sea que:
Varianza muestral de C ′Χ = C′SC ecuación 3.38
Análogas a las vistas en la ecuación 2.45 y siguientes, en que se han sustituido los valores Χ y S por µ y Σ y viceversa (caso anterior). Si se considera una segunda combinación lineal b′Χ = b1 Χ1 + b2 Χ 2 + … + b p Χ p cuyo valor observado en el j ésimo ensayo es
b′X j = b1x1 j + b2 x 2 j + … + b p x pj Varianza muestral
j = 1,…, n ⇒ b′Χ = b′Χ ⇒
( b′Χ ) = b′Sb
ecuación 3.39
La covarianza muestral computada para los pares de observaciones en b ′Χ y C ′Χ será:
106
3. Geometría Muestral y Muestreos Aleatorios
3.18 Relaciones de medias y
Covarianza Muestral ( b′Χ, C ′Χ ) =
(b′Χ
1
(
)(
) (
)(
) (
)(
)
(
)(
)
− b′Χ C′Χ1 − C′Χ + b′Χ2 − b′Χ C′Χ2 − C′Χ + … + b′Χn − b′Χ C′Χn − C′Χ = (n − 1)
)(
)
(
)(
)
Χ − Χ Χ1 − Χ + Χ 2 − Χ Χ 2 − Χ + … + Χn − Χ Χn − Χ b ′ 1 C ⇒ (n − 1)
Covarianza muestral ( b′Χ, C ′Χ ) = b′SC ecuación 3.40
En resumen se tiene; para las combinaciones lineales
b′Χ = b1 X 1 + b2 X 2 + … + b p X p C ′Χ = c1x1 + c 2 x 2 + … + c p x p Media Muestral de b′Χ = b′Χ Media muestral de C ′Χ = C′Χ Varianza muestral de b′Χ = b′Sb Varianza muestral de C ′Χ = C′SC Covarianza muestral ( b′Χ, CΧ ) = b′SC
3.18 Relaciones de medias y covarianzas muestrales para q combinaciones lineales Considérense q combinaciones lineales
ai1 X 1 + ai 2 X 2 + … + aip X p ;
i = 1,… , q
en matrices expresadas como
ai1x1 + ai 2 x 2 + … + aip x p a11 a12 … a1 p X 1 a x + a x + … + a x a a22 … a2 p X 2 22 2 2p p 21 21 1 = ΑΧ = aq1x1 + aq 2 x 2 + … + aqp x p aq1 aq 2 … aqp X p ecuación 3.41
107
3. Geometría Muestral y Muestreos Aleatorios
3.19 Tratamiento de muestras como ...
Al tomar la i-ésima fila de Α = a ′i y b ′ la k-ésima fila de Α = a k′ como si fueran C ′ , las ecuaciones anteriores implican que la i-ésima fila de ΑΧ tiene media a ′i Χ y las i-ésima y k -ésima filas de ΑΧ tienen covarianza muestral a ′i Sa k , o sea que estos son los elementos de ΑSΑ ′ .
3.19
Tratamiento de muestras como poblaciones
Esto es posible en algunos casos y útil porque 1.) sirve como un poderoso mecanismo para deducir propiedades generales de las muestras de las correspondientes poblacionales y 2.) propicia las relaciones para calcular medias poblacionales y covarianzas de los datos colectados en un censo completo, o sea cuando la matiz de datos contiene toda la información disponible acerca de un tema. Sea: n
columnas de valores observados de una matriz
p *n
de datos
Χ = [X1 … Xn ] en un censo completo, con columnas igualmente informativas, con peso 1 n ⇒ E (Χ ) = Χ 1
1 1 1 + Χ2 + … + Χn = Χ. n n n ecuación 3.42
Similarmente COV = E (Χ − E (Χ )) (Χ − E (Χ ))′ =
′ ′1 ′1 ′1 E ( Χ − Χ) ( Χ − Χ) = ( Χ1 − Χ) ( Χ1 − Χ) + ( Χ2 − Χ) ( Χ2 − Χ) +…+ ( Χn − Χ) ( Χn − Χ) = Sn n n n ecuación 3.43
es decir, la matriz de covarianzas muestrales.
3.20
Lectura complementaria
3.20.1 Desviación típica generalizada Similar a lo definido para la varianza generalizada se puede definir el concepto de DESVIACIÓN TÍPICA GENERALIZADA como
DTG = S
108
12
= s11s22 1 − γ 12 para 2 dimensiones por ejemplo.
3. Geometría Muestral y Muestreos Aleatorios
3.20 Lectura complementaria
Sí las variables son independientes, la mayoría de sus valores caerían dentro de un rectángulo de lados 6 s11 , 6 s22 ya que por el teorema de Tchevichev entre la media y 3 desviaciones típicas se deberán situar un 90 % de los datos, en consecuencia el volumen (área en este caso) ocupado por ambas variables es directamente proporcional al producto de las desviaciones típicas, como (a).
s 22 r s 22 (a .)
s 11
(b .)
r s 11
r s 22
(c.)
r s 11
(d .)
Figura 3.11 Representación de la desviación típica generalizada. Si las variables están relacionadas linealmente, el coeficiente de correlación será distinto significativamente de cero. Supóngase que sea positivo como en la Figura 3.11b. La mayoría de los puntos tienden a agruparse en una franja como se espera en estos casos, y habrá una reducción ostensible del área cuando γ se acerca a 1, como se muestra en (c.) convirtiéndose en (d.) cuando γ = 1 y todos los puntos caigan en una recta, en cuyo caso el área = 0. En resumen, la desviación típica generalizada intenta describir la dispersión conjunta de un grupo de variables, dependiendo de la correlación entre ellos.
3.21
Distancia de Mahalanobis
Al hablar de distancia se propuso el concepto de distancia estadística que muchos autores llaman distancia estandarizada en la cual las diferencias entre las medidas se dividen por la desviación típica para llegar a la adimensionalidad. Esta distancia no tiene en cuenta las posibles dependencias entre variables, o simplemente se ignoran o trata de hacerse al rotar los ejes. El cuadrado de la distancia estandarizada puede escribirse como
109
3. Geometría Muestral y Muestreos Aleatorios
3.21 Distancia de Mahalanobis
d 2 (Χ 1, Χ 2 ) = (Χ 1 − Χ 2 )′ D − 1 (Χ 1 − Χ 2 ) ecuación 3.44
en que D es la matriz diagonal cuyos términos son los sii de las variables. Si en lugar de D se utiliza la matriz Σ o S se obtiene la distancia de Mahalanobis definida como: d M2 (Χ 1, Χ 2 ) = (Χ 1 − Χ 2 )′ Σ - 1 (Χ 1 − Χ 2 ) ecuación 3.45
d M2 (Χ 1, Χ 2 ) = (Χ 1 − Χ 2 )′ S − 1 (Χ 1 − Χ 2 ) ecuación 3.46
las distancias euclidianas y la estandarizada son casos particulares de ella colocando Σ o S = D o Σ o S = Ι . Esta distancia aparece naturalmente en la estadística por una estrecha relación con la distribución normal, ya que en estas el exponente de la función de densidad normal multivariada es
(Χ − µ )′ Σ - 1 (Χ − µ ) ecuación 3.47
y representa la distancia de Mahalanobis entre cada punto y la media. curvas de nivel de esta distancia están definidas por el conjunto de puntos
Las
′ constante = ( Χ − µ ) Σ -1 ( Χ − µ ) ecuación 3.48
y son como ya se sabe elipses con centro en µ . Para la distancia euclidiana son circunferencias. Se encuentran algunas relaciones entre este tema y lo abordado acerca de la varianza generalizada. Se aclara un poco el concepto, cuando se trata de medir la distancia entre aspectos físicos de un grupo de personas a las cuales se les toma estatura (Χ ) y peso (Y ) para caracterizar a cada una de ellas. La medida de la distancia estandarizada será: x1 − x 2 σ1
y − y2 + 1 σ2
en que σ 1 =
s x2 y σ 2 =
s y2 .
ecuación 3.49
Esta distancia no tuvo en cuenta la dependencia entre variables. Por ejemplo si un individuo Α tuviera (175 cm., 70 kg.) y σ1 = 5 y σ 2 = 5 , los individuos Β (185, 80) y C (165, 80) quedan a igual distancia, 8 unidades lo que no es
110
3. Geometría Muestral y Muestreos Aleatorios
Ejercicios de repaso
razonable siendo el B más alto, pero con proporciones similares a C , más bajo pero más pesado. En lugar de ello, tómese Mahalanobis que dará: 1 2 1 − ρ
x − x 2 1 σ 1
2
y − y2 + 1 σ2
2
x − x2 − 2 ρ 1 σ1
y1 − y 2 σ2
ecuación 3.50
Si la relación entre ambas variables es positiva, al moverse aumentado ambas, la distancia debe disminuir, mientras que al moverse en dirección opuesta debe aumentar. Ej.: ρ = 0.8 d (A, B) =
2 10 2 1 10 10 + − 2 * 0.8 2 1 − 0.8 5 5 5
10 = 4.4 5
d ( A, C ) = 40.0 lo que indica que la apariencia física del individuo Α esta más próxima al Β , que al C , de acuerdo con nuestra intención. 80 70 P eso (kg.)
60 50 40 30 20 10
0
20
40
60
80
10 0 12 0
14 0 16 0
18 0
E sta tu ra (cm .) Figura 3.12 Consideraciones para el cálculo de la distancia entre aspectos físicos: peso en kg y estatura en cm para 3 personas Ejercicios de repaso 1) Sea la matriz de datos 9 5 1 Χ = 1 3 2
111
3. Geometría Muestral y Muestreos Aleatorios
Ejercicios de repaso
a. Grafique los puntos en p = 2 dimensiones. Localice la media muestral en el diagrama. b. Dibuje el gráfico 3-dimensional y grafique los vectores desviación Y1 − x11 y
Y2 − x 21 . c. Dibuje
los
anteriores
vectores
ei
emanando
desde
el
origen
de
coordenadas. Calcule la longitud de estos vectores y el coseno de θ12 entre ellos. Relacione estas cantidades con S n y R . 2) Usando la primera fila de la matriz de datos 1 4 4 Χ = 2 1 0 5 6 4 a. Ejecute la descomposición de Y1 en x11 y Y1 − x11 . b. Encuentre si existe algún grado de degeneración. 3) Calcular la varianza generalizada muestral S para la matriz dada en 1). − 1 2 5 4) Sea la matriz Χ = 3 4 2 − 2 2 3 a. Calcule la matriz de desviaciones Χ − Χ1′ . rango pleno. Explique porque !.
Pruebe si esta matriz tiene
b. Determine S y calcule la varianza muestral generalizada. Interprete este ultimo concepto geométricamente. c. Calcule la varianza total. ′ 5) Dibuje los elipsoides sólidos Χ − Χ S − 1 Χ − Χ ≤ 1 , para las siguientes 3 matrices e interprete sus resultados.
(
5 4 S = ; 4 5 6) Dados
112
)
(
− 4 5 S = ; − 4 5
)
3 0 S = 0 3
3. Geometría Muestral y Muestreos Aleatorios
1 0 0 S = 0 1 0 ; 0 0 1
Ejercicios de repaso
− 1 2 − 1 2 1 1 − 1 2 S = − 1 2 1 − 1 2 − 1 2
a. Calcule la varianza total muestral para cada S y compare los resultados. b. Calcule la varianza muestral generalizada para cada S y compare los resultados. c. Comente si encuentra alguna, las discrepancias entre a. y b. 1 6 8 7) Considere la matriz de datos Χ = 4 2 3 con 3 observaciones en tres 3 6 3 variables a. Forme las combinaciones lineales.
b′Χ = [1 1 1]
X1 X 2 X 3
y
C′Χ = [1 2 −3]
X1 X 2 X 3
b. Evalúe las medias muestrales, varianzas y covariazas de b ′Χ y C ′Χ desde sus principios, esto es calcule los valores observados de b′Χ y C′Χ usando las fórmulas de varianza muestral, media y covarianzas. c. Haga lo mismo usando las fórmulas al final del numeral 3.17. Compare los resultados obtenidos en a. y b.
113
Capítulo 4 Distribución multinormal Muchos de los elementos de la estadística con múltiples variables requieren por lo menos el conocimiento de la multinormalidad, tanto por las pruebas como por los principios basados y derivados de ella que ayudan a explicar otros conceptos de la estadística multivariada. Su lógica se basa, como en la estadística tradicional, en el teorema del límite central. La normal univariada tiene como función de densidad de probabilidades a:
f (x ) =
1 2πσ 2
e
2
− (x − µ ) / σ / 2
−∞ 0 , Ρ −ε < Y − µ < ε se aproxima a 1 cuando ˆ = S ) que igualmente converge a Σ , n → ∞ . Esto vale igualmente para S (o Σ n lo que queda más precisamente establecido en el teorema del límite central.
4.5 Teorema del Límite Central Sean Χ 1, Χ 2 ,…, Χn las observaciones independientes de una población con media µ y covarianza finita Σ . Entonces:
(
)
n Χ − µ tiene una distribución aproximada a una N p (0, Σ ) para grandes muestras, o sea cuando n resulta muy grande relativo a p . Similarmente cuando n es grande, S es cercano a Σ con una probabilidad alta. Todo lo anterior se resume, usando los resultados de la distancia como una χ 2 : si
Χ 1, Χ 2 ,… , Χn las observaciones independientes de una población con media µ y covarianza finita Σ . _ n X − µ
tiene una distribuci ón aproximada a una N p (0, S ) y,
′ n ( Χ − µ) S−1 ( Χ − µ) tiene una distribución aproximada a una χ 2 para n - p grande .
123
4. Distribución multinormal
4.6 Evaluación de la normalidad de ...
4.6 Evaluación de la normalidad de distribuciones marginales univariadas Los diagramas de puntos para pequeños valores de n e histogramas para n > 25 , sirven de ayuda cuando aparece una cola mayor que otra. Si el histograma de la Χ i se ve razonablemente simétrico se pueden contar los elementos entre las medias más o menos una, dos o tres desviaciones estándar, ya que se conoce una probabilidad de 0.683 para el intervalo
(µ
i
)
− σ ij , µi + σ ij , de 0.954 para
(µ
i
)
− 2 σ ij , µi + 2 σ ij .
Cuando n es
grande, la proporción estimada observada de observaciones que caen entre x i − s ij , x i + s ij = 0.683 y similar para dos desviaciones observadas.
(
)
Usando entonces la distribución de probabilidades estimadas de pi , se tiene: ˆi1 − 0.683 > 3 p
(0.683)(0.317) n
ˆi 2 − 0.954 > 3 p
1.396
=
(0.954)(0.046) n
n =
; o,
0.628 n
como indicadores de alejamientos de la normalidad asumida para la variable i .
4.7 Gráficas Q-Q (Cuantil-cuantil) Se usan para evaluar la normalidad en distribuciones marginales de las observaciones de una variable dada. Se hacen con base en cuantiles muestreados contra los que se esperaría observar si las observaciones fueran normalmente distribuidas. Si los puntos se acomodan cerca de una línea recta, la asunción de normalidad parece sostenible, por el contrario si se desvían de ella, es dudosa, en cuyo caso se debe acudir a las transformaciones para provocarla. Para simplificar sean x (1), x (2 ), … , x (n ) , n observaciones de una característica
Χ1 .
Denótese
x (1) ≤ x (2 ) ≤ … ≤ x (n )
a
las
observaciones
ordenadas de menor a mayor. Los x ( j ) , se constituirán en los cuantiles muestrales. Cuando los x ( j ) son distintos, exactamente j observaciones serán menores o iguales a x ( j ) cuando las variables son cuantitativas. La proporción j n de la muestra, a/o a la izquierda de x ( j ) , se aproxima en una
de las alternativas más conocidas como ( j − 1 2) n . cuantiles q ( j ) , serán definidos por la relación:
124
De acuerdo con ello, los
4. Distribución multinormal
4.7 Gráficas Q-Q (Cuantil-cuantil)
P Z ≤ q( j ) =
∫
2 1 e − z / 2dz = p( j ) = 2π
q( j )
−∞
j−
1 2
n
que se puede consultar en una tabla de probabilidades normales estandarizadas. p j , es la probabilidad de obtener un valor menor o igual a q ( j ) , en una muestra aleatoria de una población normal estándar. Para ello se auscultan las parejas de cuantiles q ( j ), x ( j ) con la misma probabilidad acumulativa asociada,
(j
se
(
)
(
− 1 2 ) n . Si los datos vienen de una población normal, las parejas q ( j ), x ( j )
relacionarán
aproximadamente
lineales,
puesto
que
σq ( j ) + µ ,
)
es
aproximadamente también el cuantil muestral esperado. Ejemplo 4.1 Los siguientes datos, tomados de Johnson y Wichern, muestran: Observación ordenada x ij
Niveles de probabilidad ( j − 1 2) n
Cuantiles normales estándar
-1,00 -0,10 0,16 0,41 0,62 0,80 1,26 1,54 1,71 2,30
0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
-1,645 -1,036 -0,674 -0,385 -0,125 0,125 0,385 0,674 1,036 1,645
en la cual, por ejemplo, sacada de la tabla normal estandarizada se tiene: P [Z ≤ 0.385] =
0.385
1
−∞
2π
∫
e −z
2
/2
dz = 0.65
la que permite construir el gráfico llamado Q-Q plot o cuantil-cuantil en que los datos parecen seguir una línea recta, por lo cual no se podría rechazar la hipótesis de que sean normalmente distribuidos. Lo estrecho de esta relación se podría determinar calculando el coeficiente de correlación de los puntos del gráfico, definido como n
_ _ x (j ) − x q (j ) − q j =1
∑
rQ = n
_ x (j ) − x j =1
∑
2
n
_ q (j ) − q j =1
∑
2
la cual se evalúa contra la TABLA DE FILLIBEN.
125
4. Distribución multinormal
4.8 Algunas inferencias acerca del vector ...
Tabla 4.1. TABLA DE FILLIBEN. Puntos críticos de correlación para un Q-Q Plot para pruebas de normalidad. Niveles de significancia α Tamaño muestral n 0.01 0.05 0.10 10 0,880 0,918 0,935 15 0,911 0,938 0,951 20 0,929 0,950 0,960 25 0,941 0,958 0,966 30 0,949 0,964 0,971 40 0,960 0,972 0,977 50 0,966 0,976 0,981 60 0,971 0,980 0,984 75 0,976 0,984 0,987 100 0,981 0,986 0,989 150 0,987 0,991 0,992 200 0,990 0,993 0,994 2,00 0
cu an tiles ob serva do s
1,500 1 ,000 0,50 0
1 ,50
-1,00
-0 ,50 -0,500
0,5 0
1,0 0
1,50
2 ,00
2 ,50
-1 , 000 -1,500 -2,00 0
cua ntiles estim a do s Figura 4.3 Gráfico Q–Q del ejemplo 4.1.
4.8 Algunas inferencias acerca del vector de medias Uno de los criterios importantes que establece el concepto multivariado, es la necesidad de evaluación conjunta de las p variables. Como parte inicial de muchas discusiones está el vector de medias.
126
4. Distribución multinormal
4.9 µ0 como posible valor para la media ...
4.9 µ 0 como posible valor para la media de una población normal Se debe considerar el problema de determinar si un vector p * 1 dado, µ 0 , es un valor para tipificar la media de la población como hipótesis nula H 0 , para lo cual se hace la analogía con la estadística univariada en que
t=
(Χ − µ ) , 0
X=
donde
s/ n
1 n ∑X j n j =1
s2 =
y
1 n ∑ Xj − X n − 1 j =1
(
)
2
Rechazar H 0 , cuando t es grande, equivale a rechazarla si su cuadrado: t2 =
(Χ − µ 0)2 s /n 2
( )
= n (Χ − µ 0) s 2
−1 _
(X − µ 0)
es grande, o sea la distancia al cuadrado. Cuando se han determinado Χ promedio y s 2 , la prueba se convierte en rechazar H 0 en favor de H 1 a un nivel dado de significancia α , si: (Χ − µ 0)2 s /n 2
( )
= n (Χ − µ 0) s 2
−1
(Χ − µ 0) > t n2 − 1 (α / 2)
Una generalización de esta distancia al cuadrado tiene su analogía multivariada en el estadístico Τ 2 DE HOTELLING, el primero en obtener esta distribución muestral, en que
Τ
Χ =
1 n
2
′S = ( Χ − µ0 ) n
n
∑Χ j =1
j,
S =
−1
1 n − 1
′
(Χ − µ ) = n (Χ − µ ) S (Χ − µ ) −1
0
n
∑ (Χ j =1
j
0
− Χ)(Χ j − Χ)′ , y
µ0
µ 10 µ 20 = µ p 0
que permite la siguiente decisión: sí la distancia observada Τ 2 es suficientemente grande, o sea que Χ promedio está bastante lejos de µ 0 , entonces la hipótesis nula H 0 : µ = µ 0 es rechazada, sin que se necesiten tablas para ello por el conocido resultado de que una t 2 se comporta como una F , por lo cual también:
127
4.9 µ0 como posible valor para la media de ...
4. Distribución multinormal
T 2 se distribuye como
(n − 1) F (n − p ) p,n − p
Se puede resumir lo anterior así: sea Χ 1, Χ 2 , … , Χ n , una muestra aleatoria, con
Χ = 1 n ∑xj y S = 1
((n − 1)) ∑ ( Χ
j
′ − Χ )( Χ j − Χ ) de una población Ν p (µ, Σ ) ,
′ (n − 1) (n − 1) α = P T 2 > Fp,n − p (α ) = P n ( Χ − µ) S−1 ( Χ − µ) > Fp,n − p (α ) (n − p ) (n − p ) ecuación 4.16
cualesquiera sean µ y Σ y F (α ) el mayor pecentil de la F con los grados de libertad ya anotado. Se podría anotar que si H 0 es rechazada es preciso determinar cuales son los valores que cumplen pues algunos pueden no hacerlo. Otro hecho importante radica en que el estadístico de Hotelling es invariante a los cambios de las unidades de Χ de la forma: Y
( p * 1)
4.10 T2.
=
X +
C
( p * p ) ( p * 1)
d
C no singular
( p * 1)
Pruebas de razones de verosimilitud para
Existen unos procedimientos para construir pruebas llamadas pruebas de razones de verosimilitud para H 0 : µ = µ 0 que escapan a nuestro alcance pero que resumidas se pueden presentar así: El máximo de verosimilitud de la multivariada normal para µ y Σ sobre sus posibles valores está dado por:
max L (µ, Σ ) = µ,Σ
1
(2π )
np / 2
ˆ Σ
n /2
e −np / 2
en que:
ˆ = 1 ∑ ( X j − X) ( X j − X )′ Σ n
y,
ˆ =X= µ
1 n ∑Xj n j =1
son estimados de máxima verosimilitud, que son los que posiblemente explican mejor los valores observados de una muestra aleatoria. Entonces bajo la hipótesis nula H 0 : µ = µ 0 la verosimilitud normal especifica que
L (µ, Σ ) =
128
1
(2π )
np / 2
Σ
n /2
1 n ′ exp − ∑ ( X j − µ0 ) Σ -1 ( X j − µ0 ) 2 j =1
4. Distribución multinormal
4.10 Pruebas de razones de verosimilitud ...
en que µ 0 es ahora fijado pero Σ puede variarse para encontrar el valor más probable que permita tenerlo. Para determinar si el valor de µ 0 es plausible para µ , el máximo de L (u 0 , Σ ) es comparado con el máximo irrestricto de L (µ, Σ ) que es lo que se conoce como razón de verosimilitud estadística y que se puede expresar grosso modo así:
Razón de verosimilitud = Λ =
max L ( µ 0 , Σ ) Σ
max L (µ, Σ ) Σ
=
ˆ Σ ˆ0 Σ
n /2
ˆ Σ El estadístico equivalente: Λ = es llamado lambda (λ ) de Wilks. ˆ0 Σ Si el valor observado de esta razón de verosimilitud es bastante pequeño, la hipótesis nula H 0 : µ = µ 0 es improbablemente cierta y debe rechazarse. Específicamente la prueba de la razón de verosimilitud de H 0 : µ = µ 0 contra H 1 : µ ≠ µ 0 rechaza H 0 sí:
Λ2 n
=
n 2
ˆ Σ ˆ0 Σ
=
n 2
′ ( X j − X )( X j − X ) ∑ j =1 n ′ X µ X µ − − ( )( ) ∑ j j 0 0 j =1 n
< cα
en que cα es el más bajo (100 α ) –ésimo percentil de la distribución de Λ , que afortunadamente no tiene que ser determinada a causa de la conocida relación entre Τ 2 y Λ :
Λ
2n
Τ2 = 1 + (n − 1)
−1
o sea:
Λ2 n =
ˆ Σ ˆ0 Σ
Τ2 = 1 + (n − 1)
con los valores de Τ 2 dado por la ecuación 4.17. Ejemplo 4.2 Encontrar un intervalo de confianza para la diferencia de medias µ1 − µ2 , al 95% para 50 plántulas de eucalipto (Eucalyptus spp.)sembradas en cada una de dos maneras, bajo sombra del 30% y a plena exposición. A los 25 días se les
129
4. Distribución multinormal
4.10 Pruebas de razones de verosimilitud ...
midieron dos características: altura de fuste en cm y diámetro del cuello de la raíz en mm. Los resultados estadísticos para ambos métodos fueron: 8.5 3.9
X1 =
S1 =
2 1 ; 1 8
X2 =
10.4 3.8
S2 =
2 1 1 6
Como parece razonable que S 1 ≈ S 2 , se procederá a trabajar con la varianza mezclada
Smezclada =
(50 − 1) S1 + (50 − 1) S2 50 + 50 − 2
=
1 0.5 1 0.5 2 1 49 2 1 49 2 1 + = + = 0.5 4 0.5 3 1 7 98 1 8 98 1 6
También,
(S
2 mezc ii
)e
i
2 1 1 7
= λe i =
e 11 e 11 = λ e 21 e 21
→
2e 11 + e 21 = 7.19e 11 e 11 + 7e 21 = 7.19e 21
se pueden obtener los vectores propios normalizados como:
e1 =
1 ; 5.19
e1n =
0.816 ; 0.9637
e2 =
−5.26 ; 1
e2n =
−0.982 0.187
Por lo tanto de acuerdo con la estadística univariada se construye un procedimiento similar así: −1
1 ′ 1 Τ = X 1 − X 2 − ( µ1 − µ 2 ) + S mezc X 1 − X 2 − (µ1 − µ 2 ) n1 n 2 2
se distribuye como una
(n 1
+ n 2 − 2)p F p,n 1 + n 2 − p − 1 (α ) → + n 2 − p − 1)
(n 1 pero
c2 =
1 1 (n1 + n2 − 2) p 1 98 * 2 1 Fp,n +n − p −1 (α ) → + c 2 = F2, 97 (0.05) + (n1 + n2 − p − 1) 50 50 97 n1 n2 1
1 1 + n1 n 2
2
2 2 c = * 2.021 * 3.1 = 0.251con F2,97 (0.05 ) = 3.1 50
Las elipses de contorno se extienden hasta
130
4. Distribución multinormal
4.10 Pruebas de razones de verosimilitud ...
1 1 2 λi + c = λi * 0.251 n n 2 1 unidades a lo largo del vector propio e i , o 1.343 unidades en la dirección de e 1 , y 0.674 en la de e 2 . En la figura siguiente se muestra dicha elipse, y se ve que claramente µ 1 − µ 2 no queda dentro de ella, por lo cual los tipos de sombra producen diferentes resultados, sin mucha diferencias en los diámetros del cuello de la raíz, pero si mayor altura a plena exposición. µ1 2 … µ2 2
1 µ11 … µ2 1
1
Figura 4.4 Elipse de confianza al 95% para µ 1 − µ 2 .
4.11
Análisis de varianza multivariado MANOVA.
Surge como en la univariada de un modelo lineal aditivo para comparar g vectores poblacionales de medias así:
X ij = µ + τ l + eij , j = 1, 2,
,n l
y,
= 1, 2,
,g
en que los errores eij son variables Ν p (0, Σ ) , y τ 1 representa el
-ésimo efecto de
tratamientos con g
∑n τ
l 1
=0
l =1
lo cual conduce a la siguiente tabla
131
4. Distribución multinormal
4.11 Análisis de varianza multivariado
Tabla 4.2. MANOVA para comparar vectores de medias poblacionales. Fuente de variación Sumas de cuadrados y productos Grados de libertad cruzados g g − 1 ′ B = n l (x − x )(x − x ) Tratamiento
∑ l =1
g
n
Residual (Error)
∑n
=1 j = g
Total
g
W = ∑∑ (x j − x j )(x j − x j )′
−g
l =1
n
g
B + W = ∑∑ (x j − x j )(x j − x j )′
∑n
=1 j =
−1
l =1
Una prueba para H 0 = τ 1 = τ 2 = … = τ g = 0 involucra las varianzas generalizadas, por lo cual se rechaza H 0 si la razón de varianzas generalizadas g
Λ* =
W B+W
=
nl
∑∑ (x
j
− x j )(x j − x j )′
n
∑∑ (x =1 j =
− x )′
−x
l =1 j =1 g
)(x
j
j
ecuación 4.17
resulta muy pequeña. Esta forma propuesta originalmente por Wilks, corresponde a la ya vista de la prueba de F . Λ* para grandes tamaños muestrales es modificada por Bartlett, para probar y rechazar H 0 sí:
(p + g) (p + g) W * − n − 1 − ln Λ = − n − 1 − ln 2 2 B + W
2 > χ p (g −1) (α )
excepto los casos de la siguiente tabla:
( )
Tabla 4.3. Tabla de la distribución lambda de Wilks Λ∗ . Nº variables
Nº de grupos
p = 1
g ≥ 2
p = 2
g ≥ 2
p ≥ 1
g = 2
p ≥ 1
g = 3
132
Distribución muestral para datos multivariados
∑n − g 1 − Λ∗ → Fg −1, ∑ n − g ∗ g −1 Λ ∑n − g − 1 1 − Λ∗ → F2 (g −1),2 ( n − g −1) ∑ g −1 Λ ∗ ∑n − p − 1 1 − Λ∗ → F p , ∑ n − p −1 ∗ Λ p ∑ n − p − 2 1− Λ ∗ → F2 p , 2 ( n − p − 2 ) ∗ ∑ p Λ
4. Distribución multinormal
4.11 Análisis de varianza multivariado
Ejemplo 4.3 En un análisis de procedencias de eucalipto (Eucalyptus spp.) para 3 rodales semilleros provenientes de lugares y circunstancias distintas, se les midieron las siguientes características a los 4 años de sembrados Χ 1 = radio promedio de copa en m, Χ 2 = factor de forma promedio, Χ 3 = porcentaje promedio de biomasa entre ramas y fuste y Χ 4 = densidad promedia de fuste, con el fin de indagar el efecto de la procedencia en ellas, para lo cual se tomaron 250 de la primera procedencia, 150 de la segunda y 100 de la tercera. Los siguientes datos resumen del experimento: Tabla 4.4. Análisis de procedencias de Eucalyptus spp. en 3 rodales semilleros. Grupo Número de Obs Vectores muestrales promedios n 1 = 250 l = 1 (Cauca) Χ1 Χ2 Χ3
n 3 = 100
2,1000 0,4500 0,0800 0,4000
2,2500 0,6000 0,1250 0,4200
2,3000 0,5000 0,1300 0,3900
0,2800 -0,0010 0,0020 0,0100
-0,0010 0,0120 0,0000 0,0030
0,0020 0,0000 0,0101 0,0000
0,0100 0,0030 0,0000 0,0100
0,5700 0,0110 0,0010 0,0400
0,0110 0,0200 0,0040 0,0050
0,0010 0,0040 0,0040 0,0020
0,0400 0,0050 0,0020 0,0200
0,2500 0,0300 0,0020 0,0180
0,0300 0,0190 0,0000 0,0050
0,0020 0,0000 0,0030 0,0010
0,0180 0,0050 0,0010 0,0110
179,4000 4,3600 0,8450 10,2320
4,3600 7,8490 0,5960 1,9870
0,8450 0,5960 3,4079 0,3970
10,2320 1,9870 0,3970 6,5590
Χ1 -0,0850 -0,0550 -0,0235 -0,0040
Χ2 0,0650 0,0950 0,0215 0,0160
Χ3 0,1150 -0,0050 0,0265 -0,0140
2,0375 2,1125 0,6163
1,0138 0,6163 0,2776
0,0800 0,2900 0,0380
l = 2 (Costa Rica)
n 2 = 150
l = 3 (Australia) s1 =
s2 =
s3 =
W=
detW = W = 26010.0138 Χ 2,185 0,505 0,1035 0,404
[B] =
3,7625 2,0375 1,0138
133
4. Distribución multinormal
4.12 Lectura complementaria
Tabla 4.4 (continuación) rodales semilleros.
Análisis de procedencias de Eucalyptus spp. en 3
[Β + W] = Det
0,0800 183,1625 6,3975 1,8588 10,3120
(B + W ) =
0,2900 6,3975 9,9615 1,2123 2,2770
0,0380 1,8588 1,2123 3,6855 0,4350
0,0620 10,3120 2,2770 0,4350 6,6210
B + W = 35652.1184
lambda = 0.7296
Para los cálculos anteriores:
W = (n1 − 1) S1 + (n2 − 1) S2 + (n3 − 1) S3 ;
B=
∑ n (x
1
′ − X )(x 1 − X )
∑n l − p − 2 1 − Λ∗ p Λ∗
X=
Λ∗ =
n1x1 + n2x 2 + n3x3 , y n1 + n2 + n3 W
B+W
= 0.7296
500 − 4 − 2 1 − 0.7296 = = 21.085 4 0.7296
A un 99% de probabilidades, F2(4),2(500) (0.01) = χ 82 (0.01) 8 = 20.0902 8 = 2.5113. Puesto que 21.085 > 2.51 se rechaza H 0 al 1% y se concluye que las procedencias influyen en las características medidas. Si se hubiera usado el resultado general se habría obtenido un valor de 156.21 que comparado con el valor de χ 2p (g − 1) (0.01) 8 = χ 82 (0.01) = 20.0902 igualmente se hubiera rechazado H 0 , pues 156.21 > χ 82 (0.01) . Quedan muchas cosas por decir en este capítulo, pero que escapan realmente al nivel del texto por lo cual se insta a consultar obras más especializadas al respecto.
4.12
Lectura complementaria
4.12.1 Función de verosimilitud. Supóngase una variable aleatoria continua (VAC) cuya función de densidades f (x θ ) ,
134
depende
un
parámetro
θ = θ1 θ 2 … θ p .
Sea
4. Distribución multinormal
Χ m = [X1
4.12 Lectura complementaria
X 2 … X n ] , una muestra aleatoria de ella. La función de densidad
conjunta de la muestra es:
f ( X m /θ ) = f ( X1 /θ ) * f ( X 2 /θ ) *
* f ( X n /θ ) =
∏ f (X
i
/θ )
ecuación 4.18
Sí θ
es conocido, entonces
f ( Χ m θ ) determina la probabilidad de cada
muestra. En un problema de estimación, se conoce un valor particular de Χ m pero no de θ , a pesar de lo cual la función conjunta sigue siendo útil ya que si se substituye el valor de Χ m por el valor observado Χ 0 = (Χ 10 , Χ 20 , … , Χ n 0 ) , la f (Χ 1 θ) , proporciona para cada valor de θ , la probabilidad de obtener el valor muestral Χ 0 para ese θ . Cuando se varía θ y se deja a Χ 0 fijo se obtiene una llamada función de verosimilitud, L (θ Χ ) = L (θ ) , entonces
L (θ / X ) = L (θ ) = f ( X 0 /θ ) ;
X 0 fijo;
θ variable.
ecuación 4.19
que parece invertir el papel de una función de densidad y permitir evaluar la verosimilitud de los posibles valores de θ . Por ejemplo si se toman muestras de tamaño uno, tipo Poisson, y x toma únicamente valores de 0,1, … entonces: P (x / λ ) =
e − λ λx x!
ecuación 4.20
al observar Χ = 3 , la función de verosimilitud de esta muestra es
L (λ ) =
e −λ λ 3 3!
ecuación 4.21
continua en λ y proporcional a la probabilidad de observar Χ = 3 , para cada valor posible de λ . Esta función se usará para comparar distintos valores del parámetro θ dada la muestra. Entonces sí:
L (θ1 ) = f ( X 0 /θ1 ) > f ( X 0 /θ2 ) = L (θ 2 ) ecuación 4.22
135
4. Distribución multinormal
l
(θ
1
)
f
(X
0
/
θ
1
)
>
f
(X
0
/
θ
4.12 Lectura complementaria
)
2
l
(θ
2
)
se dirá que θ 1 tiene un valor más probable que θ 2 ya que la probabilidad de obtener la muestra observada Χ 0 es mayor con θ 1 que con θ 2 . θ 0 I(/X) P (x)
Muestra
Población
x f (x/)θ Figura 4.5 Función de densidad conjunta de la muestra y estimación de la función de verosimilitud. Se puede observar que la función de verosimilitud tiene las mismas unidades que las de medición de X por lo cual las diferencias de verosimilitud carecen de sentido al cambiar las escalas. Por ejemplo, sea X la altura de un árbol medida en m, con una f Χ ( X θ ) . Si una función Y = 100 X , representa esta misma altura en cm, entonces: f y (Y ) =
1 Y fx 100 100
ecuación 4.23
Las funciones de verosimilitud para θ son:
L (θ / X ) =
∏ f (x x
n
1 100
i
/θ ) en m ; y L (θ /Y ) =
∏ f (y /θ ) = Yx
i
n
y 1 ∏ f x 100i θ = 100 L (θ X ) ecuación 4.24
que deja ver que: n
1 L (θ1 Y ) − L (θ2 Y ) = 100
(L (θ
ecuación 4.25
se altera con la escala de medición. Cuando:
136
1
X ) − L (θ 2 X ))
4. Distribución multinormal
4.12 Lectura complementaria
L (θ1 Y )
L (θ2 Y )
=
L (θ1 X )
L (θ2 X )
ecuación 4.26
permanecen invariantes; siendo irrelevantes los valores absolutos de las verosimilitudes, pero no sus cocientes. En lugar de estos es posible usar la diferencia en logaritmos ln L (θ 2 ) − ln L (θ1 ) para comparar la función de verosimilitud en distintos puntos. Al logaritmo de esta función se le denominará l (θ ) − ln L (θ ) . Se le conoce como función básica de verosimilitud y tiene la ventaja de no depender de constantes arbitrarias por lo cual permite lo que se conoce como discriminación relativa entre parámetros θ 2 y θ 1 así:
l (θ 2 ) − l (θ1 )
θ 2 − θ1
=
ln L (θ 2 ) − ln L (θ1 )
θ 2 − θ1
ecuación 4.27
que, cuando θ 2 → θ 1 permite encontrar la tasa de discriminación de la muestra Χ m respecto al parámetro θ en el punto θ 1 , llamada d (θ 1 ) o “score” por Fisher, así:
d (θ1 ) = lim
θ2 →θ1
l (θ 2 ) − l (θ1 )
=
θ 2 − θ1
dl (θ ) dθ
|θ =θ1
ecuación 4.28
y que juega un papel preponderante en la inferencia estadística. Por ejemplo, si d (θ 1 ) > 0 la verosimilitud aumenta para valores superiores a θ 1 y viceversa. Ejemplo 4.4
(
)
1 L ( µ , σ ) = ∏ f ( x i / µi , σ ) = n σ
1
Para estimar la media y la varianza de una N µ, σ 2 , entonces 2
2
(
2π
1 − 2 2σ
n
e
i
− µ)
)
2
∑ (x i − µ )
cuya función básica de verosimilitud sería:
l ( µ ,σ 2 ) = −
n 1 ln σ 2 − 2 2σ 2
∑ (X
2
ecuación 4.29
como
137
4. Distribución multinormal
∑ (X
i
− µ )2 =
∑ (X
4.12 Lectura complementaria
i
− X + X − µ
)
2
=
∑ (X
i
− X
)
(
2
+ nX − µ
)
2
entonces
l ( µ ,σ 2 ) = −
1 ns 2 n n ln σ 2 − − (X − µ ) 2 2 2 σ 2σ 2
por ello sí θ 2 es o se supone conocida, entonces: n s2
− − 2 n 2 σ2 l (µ ) = k − X − µ → L µ = ke e ( ) ( ) 2σ 2
2
n (X − µ ) 2σ
2
Sí lo conocido fuera µ →
∑ (x i − µ )
2
n (X − µ )
2
( ) = (σ )
2 se co n v ie rte en con stan te y ; L σ
2
2
−n / 2
e
−
2σ
2
4.12.2 Método de Máxima Verosimilitud. Sí se supone conocida la L (θk ) para θ k entonces se debe escoger aquel valor de
θ que máximice la probabilidad de aparición de los valores muestrales realmente observados. Para ello si se suponen diferenciables las verosimilitudes de los estimados de θ ,
( )=0
∂L θˆk
∂ (θ1 )
( )=0
∂L θˆk
∂ (θ2 )
( )=0
∂L θˆk
∂ (θk )
ecuación 4.30
entonces los valores resultantes estimados de θ k corresponden a un máximo si la matriz de las segundas derivadas, evaluadas en dicho punto, resultan negativas. En la práctica los ESTIMADORES MÁXIMO VEROSÍMILES (E.M.V.) se obtienen derivando la función básica, ya que por ser el logarítmo una transformación monótona continua, entonces L (θ ) y l (θ ) tienen el mismo máximo, con la ventaja
138
4. Distribución multinormal
4.12 Lectura complementaria
para la función básica de que las constantes se hacen aditivas y desaparecen al derivar. Ejemplo 4.5
(
)
Los estimadores MV de µ y σ 2 en una N µ, σ 2 se obtiene derivando la ecuación 4.29 e igualando a 0, entonces
∂l 1 nX − n µ = 0 = 2 ∑ (x i − µ ) = ∂µ σ σ2 ∂l n 1 1 2 =0=− + x − µ) 2 2 2 ∑( i ∂σ 2σ 2σ ecuación 4.31
entonces al resolver este sistema aparecen: µ = x
y
ˆ σ
2
=
∑ (x
− µ)
2
i
n
⇒
Para distribuciones cuyo rango de valores posibles no dependen de ningún parámetro y se conoce de antemano, en forma general los métodos de MV proporcionan estimadores: 1) Asintóticamente centrados, 2) Con distribución asintóticamente normal, 3) Asintóticamente de varianza mínima, o sea que son eficientes, 4) Invariantes en algunos sentidos.
139
Capítulo 5 Componentes Principales C.P. Es el más simple de todos los métodos de ordenación, en el cual una nube de puntos se proyecta tal como es (sin ponderación de las filas) en un espacio p dimensional, rotando los ejes rígidamente hasta alcanzar que el patrón que subyace o explique la nube de puntos sea lo más simple posible. Esta simpleza, no es fácil de explicar, por lo cual matemáticamente hablando se acude al análisis de componentes principales. Intuitivamente se puede visualizar así la situación: En la parte (a.) de la Figura 5.1 se presenta una nube de puntos en 3 dimensiones. 2
2 S S
R
R
1
3
P (a .)
Q
1
3 (b .)
Q P
Figura 5.1 Representación gráfica para el análisis de componentes principales: (a.) Nube de puntos; (b.) cubo asociado a la nube de puntos. En esta nube de puntos no se vislumbra un patrón convencional que pudiera parecerse a algo conocido y no es relevante ello además, pero sería deseable. Sin embargo es posible, haciendo gala de un poco de imaginación intentar una forma que aglutine dichos puntos para lo cual entre todas las posibles combinaciones de ellos se escogío alguna, ya se verá que el proceso matemático, lo hará más fácil que cuando se intenta intuitivamente. Se obtiene entonces la Figura 5.1(b.). Si además se viera ahora tal cajón o cubo como un elemento sólido, solo veríamos sus 7 esquinas y además seguramente ubicaríamos el centro en el origen de coordenadas como se muestra en la Figura 5.1(c.). En este caso además solo son visibles 7 de sus esquinas; pero ya se vislumbro por lo menos un patrón de comportamiento. Si además de lo anterior, se puede rotar rígidamente, como una estructura total este cubo, y los puntos de las esquinas fueran proyectadas en las 3 direcciones aparecería una estructura más evidente y trabajable por nosotros, o por lo menos con dominio de escala y orientación como en la Figura 5.1(d.). Además de lo anterior, en que se rotó la estructura de puntos, hubiera podido ser
5. Componentes Principales C.P.
rotado el sistema de coordenadas, relativo al cubo. pretenderá encontrar las coordenadas y clasificarlas.
De cualquier manera se ~ y2
2
2 S
S
R
~ y3
3 Q (c.)
~ y1
1 R
1
3 P
P
Q
(d .)
Figura 5.1 Representación gráfica para el análisis de componentes principales: (c.) Cubo como elemento sólido asociado a la nube de puntos; (d.) Coincidencia de los ejes rotados con el centro del cubo como elemento sólido. Cualquiera de las opciones mencionadas, rotar el cubo o los ejes era posible, lo importante es encontrar las coordenadas del cubo en el nuevo espacio rotado (d), ~ ~ ~ en el cual se dará nombre a las dimensiones en los ejes como Y1, Y2 , Y3 rotados. Se observa que la matriz de datos originales era una matriz, dígase Y3 * 8 , por lo cual habrá que acudir a la matriz de direcciones o de cosenos-dirección Α 3 * 3 ya mencionada en la página 54, que debe ser ortogonal. En la nueva posición ~ Figura 5.1(d.) se observa que la arista PQ es paralela al eje 1 o eje Y1 , RS al 2 y QR al 3. De acuerdo con ello las proyecciones de las aristas en los ejes serían
~ ~ Proyección de la arista ΡQ = ΡQ en el eje Y1 o en Y2 y ~ ~ Proyección de la arista RS = RS en el eje Y2 o en Y1 y ~ ~ Proyección de la arista QR = QR en el eje Y3 o en Y1 y
~ Y3 ~ Y3 ~ Y2
En todos los casos las aristas paralelas a cada una de ellas tendrán iguales proyecciones. Se puede aclarar un poco lo anterior viendo el proceso con un paralelepípedo cuyas aristas se localicen así: Figura 5.1(e.) cuando se logre el proceso anterior y se busquen las posiciones para que ejes y aristas sean paralelos se llega a la Figura 5.1(f.). En este caso se puede conocer longitud exacta tanto de EA como de CA .
141
5. Componentes Principales C.P.
y2
C
A
B
~ y2
E
(-n,t,-z)F
A
(-n,t,z) E
~ y3 y3
F
E
Q
B (m ,t,-z)
A (m ,t,z)
~ y1
D
y1
H G
G
C
H
(f.)
(e .)
C (m ,-t,z)
(g .)
Figura 5.1 Representación gráfica para el análisis de componentes principales: (e.), (f), (g.) Configuración de las coordenadas de los componentes principales en el nuevo espacio rotado. En términos matriciales, la matriz de los puntos en la Figura 5.1(e.) será de la forma: − y 11 Y = y 21 y 31 A
− y 12 y 22 0
y 13 y 23 − y 33
B
C
− y 14 y 24 − y 34
y 15 − y 25 y 35
− y 16 − y 26 y 36
y 17 − y 27 0
y 18 − y 28 − y 38
D
E
F
G
H
~ La matriz Y de los puntos una vez producida la rotación daría los valores coordenados siguientes m ~ Y = t z A
m t − z
m − t z
m − t − z
− m t z
− m t − z
− m − t z
− m − t − z
B
C
D
E
F
G
H
La Figura 5.1(g.) muestra las nuevas posiciones adoptadas por los puntos una vez ~ se ha hecho ΑY = Y en que Α ′Α = ΑΑ ′ = Ι .
0 d11 0 0 es una matriz diagonal por formar el Se podría notar que YY ′ = 0 d22 0 0 d33 paralelepípedo alineado con los ejes de Y . Lo que sigue es intuitivamente cierto:
( ΑY )( ΑY )′ = YY ′ ⇒ ΑYY ′Α ′ = YY ′ ecuación 5.1
142
5. Componentes Principales C.P.
~~ Se puede observar que YY ′ y YY ′ son matrices de sumas simétricas, con lo cual haciendo un eigenanálisis de YY ′ , ~~ diferentes de cero, deberán coincidir con los λ de YY ′ . En problema se resuelve haciendo el eigenanálisis de la matriz cuadrados de YY ′ en que Y es la matriz de datos originales.
cuadradas, y los elementos conclusión el de sumas de
Ejemplo 5.1 Sea la matriz Y de datos originales − 2.88 2.88 − 1.73 8.66 4.04 − 4.04 − 8.66 1.73 Y = 7.07 1.41 7.07 1.41 − 1.41 − 7.07 − 1.41 − 7.07 0.00 − 4.89 − 8.16 8.16 4.89 0.00 − 3.26 3.26 Luego de la rotación se tiene, usando una matriz Α conveniente: 6 6 − 6 − 6 − 6 − 6 6 6 ~ 5 Y = 5 5 − 5 − 5 5 − 5 − 5 4 − 4 4 − 4 4 − 4 4 − 4 De acuerdo con lo anterior 3.74 205.21 − 65.21 YY ′ = − 65.21 207.89 − 46.06 3.74 − 46.06 202.25 Los eigenvectores de YY ′ serán las filas de Α , en que Α será: − 0.57735 0.70911 − 0.40825 0 0.81650 Α = − 0.57735 0.57735 0.10711 0.40825 Los eigenvalores de YY ′ son los elementos ≠ 0 de ΑYY ′Α ′ que llamaremos Λ 0 288 0 ~~ Λ = 0 200 0 = YY ′ 0 0 128 ~ con los cuales se llega a ΑY = Y . La mayoría de desarrollos en sistemas le facilitará el hallazgo de Α que acá no se muestra. De todos modos la solución intuitiva del problema conduce a establecer la potencia del uso de los componentes principales. Por complicadas que sean las estructuras de puntos originales, es posible lograr reducciones de dimensionalidad.
143
5. Componentes Principales C.P.
5.1 Análisis de componentes principales ...
5.1 Análisis de componentes principales A.C.P. Su principal uso esta relacionado con la explicación de la estructura de varianzas y covarianzas de una serie de variables originales, mediante unas pocas combinaciones lineales de ellas, con lo cual se busca: 1.) reducción de datos, 2.) simplificación de procesos, 3.) reducción de dimensionalidad de un problema y 4.) mejorar algunas interpretaciones que no son posibles por otros métodos estadísticos. Como surge del ejemplo anterior con p componentes es posible reproducir la variabilidad total del sistema, pero incluso con k < p se lograrán buenas explicaciones, ya que es posible tener tanta información en estos k como en los p componentes. Un A.C.P. revela a menudo relaciones insospechadas en las variables pero a veces no puede satisfacer lo buscado y se convierte en un paso más de otros análisis multivariados.
5.2 Población de componentes principales (C.P.) Algebraicamente hablando los C.P. son combinaciones lineales particulares de p variables aleatorias Χ 1, Χ 2 ,…, Χ p y geométricamente como se vio en el ejemplo anterior representan la selección de un nuevo sistema coordenado al rotar el viejo sistema de coordenadas Χ 1, Χ 2 ,…, Χ p . Las nuevas direcciones representan las que tienen máxima variabilidad, permitiendo una mejor explicación de las estructuras Σ o S de varianzas y covarianzas, sin siquiera tener que asumir multinormalidad, pero si a veces se acude a ello, se posibilitan algunas inferencias similares a las vistas en la estadística univariada.
Χ ′ = Χ 1 Χ 2 … Χ p con su matriz de
Considérese un vector aleatorio
covarianzas Σ (o su matriz de correlaciones ρ ) con eigenvalores λ 1 ≥ λ 2 , … ≥ λ p . Se consideraran las combinaciones lineales con factores de carga
=
11
11
21
22
… …
2i
… …
i1
i2
…
ii
…
p1
p2
…
pi
…
1i
2p ; 2p pp
1p
Y1 = ′1Χ =
11
Y2 = ′2 Χ = Y p = ′p Χ =
ecuación 5.2
144
Χ1 +
21
Χ2 + …
p1
12
Χ1 +
22
Χ1 + …
p2
1p
Χ1 +
2p
Χ2 + …
Χp Χp
pp
Χp
5. Componentes Principales C.P.
5.2 Población de componentes principales ...
Usando las expresiones de la página 75, (2.18 y siguientes) encontramos:
Var
(Yi ) =
′i Σ
i
i = 1, 2,…, p ;
Cov (Yi ,Yk ) = ′i Σ
k
i, k = 1, 2,…, p
ecuación 5.3
Los componentes principales son entonces aquellas combinaciones lineales incorrelacionadas Y1, Y2 ,…, Y p cuyas varianzas son tan grandes como sea posible. El primer componente principal es la combinación lineal con máxima varianza, es decir el que maximiza Var (Y1 ) = ′1Σ 1 (pero debe dejarse claro que es posible incrementar tal varianza al multiplicar 1 por una constante > 1, lo que traería indeterminación a este valor. Para eliminarlo entonces se restringe la atención a vectores coeficientes de longitud unitaria, de acuerdo con ello: Primer componente principal = combinación lineal ′1Χ que maximiza Var ( ′1Χ ) sujeto a ′1
1
=1
Segundo componente principal = combinación lineal ′2 Χ que maximiza Var ( ′2 Χ ) sujeto a que ′2
2
= 1 y covarianza Cov ( ′1Χ, ′2 Χ ) = 0 .
y en el i-ésimo paso: i-ésimo componente principal = Combinación lineal ′i Χ que maximiza Var ( ′i Χ ) sujeto a ′i
i
= 1 y covarianza Cov ( ′i Χ, ′k Χ ) = 0 para todo k < i .
Resultado 1. Siendo
Χ ′ = Χ 1
Σ
la matriz de varianzas covarianzas asociadas con el vector Χ 2 … Χ p y los pares de su descomposición espectral
(λ 1, e 1 ) (λ 2 , e 2 )
…
(λ
p, ep
)
cuando
λ1 ≥ λ 2 … ≥ λ p ≥ 0 ,
el
i-ésimo
componente principal es dado por
Yi = ei′ Χ = e1i Χ 1 + e 2i Χ 2 + … + e pi Χ p
i = 1, 2,…, p
ecuación 5.4
con estas opciones
Var (Yi ) = ei′ Σei = λi
i = 1, 2,…, p
Cov (Yi ,Yk ) = ei′ Σek = 0
i ≠k
ecuación 5.5
cuando algunos λi sean iguales las opciones de los correspondientes coeficientes vectores e i y desde luego λi no son únicos.
145
5. Componentes Principales C.P.
5.2 Población de componentes principales ...
X2 Y 2 = e´ 2 X
Y 1 = e´ 1 X
X1
Y 3 = e´ 3X X3 Figura 5.2 Varianzas explicadas por los tres primeros componentes principales.
PRUEBA. Acudiendo a las fórmulas de maximización página 79 del documento de álgebra de matrices, cuando en vez de B , coloquemos Σ tenemos que:
max ≠0
′1Σ = λ1 (logrado cuando ′
= e1 )
Pero e ′1e 1 = 1 puesto que estos eigenvectores son normalizados ⇒
max ≠0
′1Σ e′ Σe = λ1 = 1 1 = e1′ Σei = Var (Y1 ) ′ e1′ e1
Similar a lo anterior usando la última fórmula de las mencionadas:
max
⊥ e1 ,e2 ,…,ek
Si se escogiera
′1Σ = λk +1 ′
= ek + 1 , con ek′ + 1ek = 0
k = 1, 2,…, p − 1 k = 1, 2,…, p − 1
ek′ +1Σek +1 = ek′ + 1Σek + 1 = Var (Yk+ 1 ) e′k +1ek +1 Pero e ′k + 1 (Σek + 1 ) = λ k + 1ek′ + 1ek + 1 = λ k + 1 de modo que Var (Yk+ 1 ) = λk +1 .
146
5. Componentes Principales C.P.
5.2 Población de componentes principales ...
Sólo resta demostrar que e i es perpendicular a ek , o sea que e ′i ek = 0 , i ≠ k lo que da Cov (Yi ,Yk ) = 0 .
Todos los eigenvectores de Σ son ortonormales si
todos los eigenvalores λ 1, λ 2 , … , λ p son diferentes. Si ello no ocurre, los que sean iguales podrán escogerse para que sean ortogonales. Desde luego para 2 Puesto que Σek = λ k ek al eigenvectores e i y ek , e ′i ek = 0 , i ≠ k . premultiplicar esto por e′i se tiene
Cov (Yi ,Yk ) = ei′ Σek = ei′ λk ek = λk ei′ ek = 0 Para i ≠ k con lo cual se completa la prueba. CONCLUSIÓN. Los componentes principales son incorrelacionados y tienen sus varianzas iguales a los λ de Σ . RESULTADO 2. Sea
Χ ′ = Χ 1 Χ 2 … Χ p
con
(λ 1, e 1 ), (λ 2 , e 2 ), … , (λ p , e p )
su
matriz
y
Σ
y
los
pares
λ1 ≥ λ 2 … ≥ λ p ≥ 0 .
Si Y1 = e1′ Χ, Y2 = e2′ Χ,…, Y p = e′p Χ son los componentes principales entonces:
σ 11 + σ 22 + … + σ pp =
p
∑Var ( X i ) = λ1 + λ2 + … + λp = i =1
p
∑Var (Y ) i
i =1
ecuación 5.6
Ya se sabe que la traza de una matriz es la suma de los elementos diagonales. La anterior ecuación se puede escribir como:
σ 11 + σ 22 + … + σ pp = tr (Σ ) ecuación 5.7
De la página 63, sabemos que toda matriz k * k simétrica definida positiva Α se puede escribir Α =
k
∑ λ e e′ i
i =1
i
i
= Ρ Λ Ρ ′ en que Λ es una matriz diagonal k* k
k* k
con λii y Ρ = e1 e2 … e p en que ΡΡ ′ = Ρ ′Ρ = Ι . Usando los resultados de la página 56 y haciendo Α = Σ ⇒
tr (Σ ) = tr (ΡΛΡ ′) = tr ( ΛΡ ′Ρ ) = tr ( Λ ) = λ1 , λ2 ,…, λp
147
5. Componentes Principales C.P.
p
Entonces
∑Var ( X ) i
i =1
5.2 Población de componentes principales ...
= tr (Σ ) = tr ( Λ ) =
p
∑Var (Y ) . i
i =1
En otras palabras esto significa que: Varianza total poblacional = σ 11 + σ 22 + … + σ pp = λ 11 + λ 22 + … + λ p * p ecuación 5.8
De acuerdo con ello, la proporción de la varianza total debida a (o explicada por) el k -ésimo componente principal es: Proporción varianza total poblaciona l =
λ1
λk + λ2 + … + λ p
k = 1, 2 , … , p .
ecuación 5.9
Si la mayor parte (un alto %) de la varianza total poblacional puede atribuirse al primero, segundo o tercer componentes principales, entonces (asumiendo p grande), estos componentes pueden reemplazar las p -variables originales sin mucha perdida de información. NOTA. Cada componente de los coeficientes vectores ei′ = e1i e 2i … eki … e pi amerita ser inspeccionado. La magnitud de e ki mide la importancia de la k ésima variable en el i -ésimo componente principal, independiente de las demás variables. En particular, e ki es proporcional al coeficiente de correlación entre Yi y Χ k . RESULTADO 3. Si Y1 = e1′ Χ, Y2 = e′2 Χ,… , Y p = e′p Χ son los componentes principales obtenidos de Σ ⇒
ρYi , Χk =
eki λi
σ kk
i, k = 1, 2,…, p .
ecuación 5.10
ρYi ,Χk son los coeficientes de correlación entre el componente Yi y la variable Χ k . PRUEBA. Sea ′k = [0 0 … 0 1 0 … 0] con 1 en la posición k tal que Χk = ′k Χ ⇒
148
5. Componentes Principales C.P.
5.2 Población de componentes principales ...
Cov ( Χ k ,Yi ) = Cov ( ′k Χ, ei′ Χ ) = ′k Σei Como ya se sabe: Σei = λi ei ⇒ Cov ( X k , Yi ) = ′k λi ei = λi eki pero Var (Yi ) = λi y Var ( Χ k ) = σ kk ⇒
ρYi , Χk =
Cov (Yi , Χ k )
Var (Yi ) Var ( Χ k )
=
e λ λi eki = ki i λi σ kk σ kk
i , k = 1, 2,…, p
Ejemplo 5.2 Sean la variables aleatorias Χ 1, Χ 2 ,…, Χ 3 , cuya 1 − 2 0 Σ = − 2 5 0 0 2 0 Ya se sabe encontrarle sus parejas (λ1 , e1 ) , (λ2 , e2 ) ,…, (λ3 , e3 ) . Estas son
λ1 = 5.83;
e1′ = [0.383 −0.924 0]
λ2 = 2.00; λ3 = 0.17;
e′2 = [0 0 1]
e1′ = [0.924 0.383 0]
entonces sus componentes principales serán:
Y1 = e1′ Χ = 0.383 Χ 1 − 0.924 Χ 2 Y2 = e2′ Χ = Χ 3 Y3 = e′3 Χ = 0.924 X 1 + 0.383 X 2 En la Tabla 5.1 se presentan los resultados obtenidos en procesador. Tabla 5.1 Análisis de componentes principales para el ejemplo 5.2. Componentes Principales Número de componente Porcentaje de varianza Porcentaje acumulado 1 72.85534 72.85534 2 25.0000 97.85534 3 2.14466 100.0000 Valores Propios λ 1 = 5.82843 λ 2 = 2 .0 λ 3 = 0.171573
149
5. Componentes Principales C.P.
5.2 Población de componentes principales ...
Tabla 5.1 (continuación). Análisis de componentes principales para el ejemplo 5.2. Vectores Propios (1,1) – 0.38268 (1,2) 0.0 (1,3) 0.92388 (2,1) 0.92388 (2,2) 0.0 (2,3) 0.38268 (3,1) 0.00000 (3,2) 1.0 (3,3) 0.00000 La variable X 3 = Y2 es entonces uno de los C.P. ya que no está correlacionada con las otras dos variables. Además de lo anterior, usando los resultados se puede mostrar que:
((0.383) Var X
Var (Y1 ) = Var (0.383 X1 − 0.924 X 2 ) =
2
)
+ ( −0.924 ) Var X 2 + 2 (0.383 )( −0.924 )Cov ( X 1, X 2 ) ⇒ 2
1
Var (Yi ) = 0.1467 (1) + 0.8538 (5 ) − 0.7078 ( −2 ) = 5.83 = λ1 Cov
0.383 Cov ( X 1,
(Y1,Y2 ) = Cov (0.383X 1 − 0.924 X 2 , X 3 ) = X 3 ) − 0924 Cov ( X 2 , X 3 ) = 0.383 (0 ) − 0.924 (0 ) = 0
También se tiene que σ 11 + σ 22 + σ 33 = 1 + 5 + 2 = λ 1 + λ 2 + λ 3 = 5.83 + 2.0 + 0.17 = 8 . La proporción de la varianza total explicada por el primer componente es λ1 5.83 = = 0.729 ≈ 0.73 Σλ i 8
Los 2 primeros componentes explicarían (5.83 + 2) 8 = 0.978 ≈ 0.98 . En este caso, los componentes Y1 y Y2 pueden muy bien reemplazar a las tres variables originales con escasa perdida de información. También es posible ver que
ρY1, Χ1 =
e11 λ1
σ 11
=
0.383 5.83 = 0.925; 1
ρY1, Χ2 =
−0.924 5.83 = −0.998 5
Se puede concluir que X 1 y X 2 tienen una gran importancia para Y1 . De igual manera ρY 2,Χ1 = ρY 2,Χ 2 = 0 ;
ρY2 ,Χ 3 = 1 .
Los resultados ρY3 ,Χ1 , … , etc. pueden ignorarse ya que este componente no importa!.
150
5. Componentes Principales C.P.
5.3 Componentes principales de variables ...
5.3 Componentes principales de variables estandarizadas Ya se sabe que Ζ i = notación
(x i
matricial
(
Cov (Z ) = V
) ∑ (V )
1 2 −1
1 2 −1
− ui ) σ ii
es la variable Χ i estandarizada, y que en
(
Ζ = V1 2
)
−1
(Χ − u ) ;
E (Ζ ) = 0
con
y
= ρ.
Los componentes principales de Ζ pueden obtenerse de los vectores propios de la matriz de correlaciones ρ de Χ . Se simplifican muchos de los resultados anteriores ya que la Var (Ζ i ) = 1. Debe tenerse presente que aunque sigamos llamando Yi al componente principal y (λ i , e i ) a los pares valor propio–vector propio, los valores obtenidos con Σ son en general diferentes de los obtenidos con ρ.
RESULTADO 1. El i-ésimo C.P. de las variables estandarizadas Ζ ′ = Z1 Cov (Ζ ) = ρ se dará como:
Yi = ei′ Z ( V 1 2 )
−1
(Χ − µ );
Z 2 … Z p cuya
i = 1, 2,…, p
ecuación 5.11
y además p
∑Var (Yi ) = i =1
p
∑Var (Ζ ) = p , i
i =1
y ρYi , Ζi = eki λi ;
i = 1, 2,…, p
ecuación 5.12
En este caso
(λ1, e1 ), (λ2 , e2 ),…, (λp , e p )
son los pares de valores y vectores
propios de ρ (en lugar de X 1 se tomó Ζ ) con λ 1 ≥ λ 2 … ≥ λ p ≥ 0 y ρ en lugar de Σ . De la ecuación 5.12 vemos que la varianza poblacional total es igual a p , o sea la suma de los elementos de la matriz diagonal ρ = tr ( ρ ) . De acuerdo con ello la proporción de la varianza explicada por el k -ésimo componente principal de Ζ esta dado por
151
5. Componentes Principales C.P.
5.3 Componentes principales de variables ...
(Proporción de la varianza estandarizada poblacional debida al k -ésimo componente principal) =
λk ; p
k = 1, 2,…, p
ecuación 5.13
en que λk son los valores propios de ρ . Ejemplo 5.3
1
4
1
Sea Σ = ⇒ ρ = 0.4 4 100 Los pares (λ i , e i ) , de Σ, son
Los pares (λi, ei ) de ρ, son
0.4 1 e1′ = [0.040 0.999] . e′2 = [0.999 −0.040]
λ1 = 100.16; λ2 = 0.84;
λ1 = 1 + ρ = 1.4; λ2 = 1 − ρ = 0.6;
Los respectivos C.P. son de Σ,
e1′ = [0.707 0.707] e′2 = [0.707 −0.707]
Y1 = 0.040X 1 + 0.999 X 2 Y2 = 0.999 X 1 − 0.040 X 2
y de ρ son
X − µ2 X − µ1 Y1 = 0.707 Z 1 + 0.707 Z 2 = 0.707 1 + 0.707 2 = 1 10 0.707 ( X1 − µ1 ) + 0.0707 ( X 2 − µ2 ) X − µ2 X − µ1 Y2 = 0.707 Z 1 − 0.707 Z 2 = 0.707 1 − 0.707 2 = 1 10 0.707 ( X1 − µ1 ) − 0.0707 ( X 2 − µ2 ) Debido a su gran variación (alta varianza) X 2 domina completamente el primer componente principal en Σ y explica 100.16 101 = 0.992 / de la varianza total. Cuando se estandarizan las variables X 1 y X 2 las variables resultantes contribuyen por igual a los componentes determinados por ρ . Además ρY1,Ζ1 = e 11 λ 1 = 0.707 1.4 = 0.837 ;
152
ρY1,Ζ2 = e 21 λ 2 = 0.707 1.4 = 0.837.
5. Componentes Principales C.P.
5.4 Estructuras especiales
El primer C.P. en este caso explica una proporción
λ1 1.4 = = 0.7 de la 2 p
varianza total poblacional estandarizada. Lo más llamativo en los procesos vistos con Σ o con ρ es la forma como se presenta la importancia relativa de las variables, por ejemplo el primer C. P. se afecta muchísimo con la estandarización. Cuando los C.P. obtenidos con la matriz ρ se expresan en términos de X 1 y X 2 , las magnitudes relativas de sus pesos (0.707 y 0.0707) están en oposición a lo encontrado en la matriz Σ que eran (0.040 y 0.999). Ello demuestra que los C.P. son diferentes dependiendo de Σ o ρ , y además que no guardaron una relación de modo que pudiera pensarse que uno es una simple función del otro, por lo cual el proceso de estandarización es importante, tanto más si las variables están en escalas muy diferentes, por ejemplo los diámetros de un árbol (cm) y la biomasa (ton), esta última variable podría robarse totalmente la explicación de la variabilidad. Es posible que al estandarizarlas, (quedan del mismo orden de magnitud), X i y Z i jueguen papeles importantes en la construcción de los C.P., pues de lo contrario el primer componente principal lo hubiera dicho todo.
5.4 Estructuras especiales Existen algunas estructuras de varianzas covarianzas muy suigeneris, que conducen a formas simples de C. P. ejemplo una Σ diagonal σ 11 0 Σ = 0 Tomando ei′ = [0, … 0, i
0 … σ 22 … 0
0 0 … σ pp
0, … 0] con 1 en la posición i -ésima es posible
ei′ X será su primer componente principal y por la propiedad Σei λi = λi Σei =
ver que
0 … … 0 0 0 σ 11 0 0 σ 22 1 1 σ 33 = = σ ii ei 0 … … … … σ pp 0 0 0
153
5. Componentes Principales C.P.
5.4 Estructuras especiales
o sea que (σ ii , ei ) es el i -ésimo par (valor propio, vector propio) o que λi = σ ii . En este caso la estandarización no altera sustancialmente la situación dada por Σ. X2
X1
0
Figura 5.3 Ejes principales para matrices diagonales. Otro patrón que describe a menudo el comportamiento de correspondencia entre ciertas variables biológicas, como el tamaño de seres vivientes, presenta una estructura de covarianzas parecida a σ2 2 ρσ Σ = ρσ 2
ρσ 2 σ2
ρσ 2
ρσ 2 … ρσ 2 1 ρ ρ 1 2 … … ρσ … cuya ρ = … ρ ρ ρσ 2 … σ 2
ρ … ρ ρ … ρ 1 ρ … 1
ecuación 5.14
Lo
que
implica
que
las
variables
Χ 1, Χ 2 ,…, Χ p
están
igualmente
correlacionadas. En este caso los p-valores propios, vectores propios se pueden agrupar en 2 clases cuando ρ = 0 . Primer grupo λ1 = 1 + ( p − 1) ρ = 1.4;
1 e1′ = p
1 p
…
1 p
Segundo grupo λ2 = λ3 = λ p = 1 − ρ y una escogencia para sus vectores será
154
5. Componentes Principales C.P.
ei′ =
5.5 Aplicación de C.P. a muestras
1
1
(i − 1) i
(i − 1) i
pos 1
1
…
pos i
Yi = ei′ X =
1 p
0 0 … ⇒
pos1+1
...
(i − 1) i
(i − 1) i
pos 2
− (i − 1)
p
∑X
i
1 =1
y si todas las variables fueran normales Z → N (0, 1) Figura 5.4.
1
X~
2
X~
X2
3
X~
X1
X3
Figura 5.4 Hiperelipsoide en forma de cigarrillo para variables normales.
5.5 Aplicación de C.P. a muestras Asúmase que Χ 1, Χ 2 ,…, Χn representa n sucesos independientes de una población p -dimensional que tuviera µ y Σ como su media y estructura de varianza, con estos datos se obtendrían Χ , S y R , la media muestral, la estructura de covarianzas muestrales y la matriz de correlaciones muestrales). Como en la población, las combinaciones incorrelacionadas ′i Χ i con sus varianzas máximas constituirán sus componentes principales, por ejemplo
′i S i ′1 1
es maximizado por el primer C.P., etc.
155
5. Componentes Principales C.P.
5.6 Componentes principales de ...
ˆ obtenido Nuevamente acudiendo al lema de maximización, el máximo sería λ 1
ˆ 1 de S y así sucesivamente respetando las escogencias con 1 = e mostradas para poblaciones. En resumen: Si S = {sik } es una estructura muestral de covarianzas respectivos pares
(λˆ , eˆ ), (λˆ , eˆ ),…, (λˆ , eˆ ) , 1
1
2
p
p
2
′1
1
= 1 etc. ya
(p * p ) con sus
el i-ésimo componente principal
será obtenido como:
ˆ i′ Χ = e ˆ 1′ X1 + e ˆ ′2 X 2 + … + e ˆ ′p X p ; Yˆi = e
i = 1, 2,…, p
ecuación 5.15
ˆ ≥ λ ˆ ≥ … ≥ ~ en que λ λ p ≥ 0 y X cualquier observación de las variables 1 2
Χ 1, Χ 2 ,…, Χ p . También: Varianza Muestral (Yk ) = λˆk ;
(
k = 1,2,… , p
)
Covarianza Muestral Yˆi ,Yˆk = 0; Varianza Total Muestral =
p
∑s
ii
i =1
i ≠k
= λˆ1 + λˆ2 + … + λˆp = tr (S )
γ Yi ,Χk = Correlación C. P. Variable késima ˆ
λi eˆki ˆ skk
ecuación 5.16
Se debe notar, como en el caso poblacional que es posible seguir llamando
Yˆ1, Yˆ2 ,…, Yˆp a los componentes principales, así sea que provengan de S o de
R , pero que como se vio, en general no coinciden y permiten explicaciones diferentes dependiendo de la magnitud de las variables.
5.6 Componentes principales de observaciones centradas Una observación cualesquiera Χ j conviene a veces centrarla alrededor de Χ , como se vio en la estadística univariada para efectos de normalización, etc. Esto no afecta la matriz S y permite estimar los C. P.:
ˆ i′ ( Χ − Χ ) ; Yˆi = e
i = 1,…, p para cualquier vector observado Χ . ecuación 5.17
156
5. Componentes Principales C.P.
Si
se
consideran
ˆ i′ ( Χ j − Χ ) ; Yˆij = e
5.6 Componentes principales de ...
los
valores
del
i -ésimo
componente
i = 1,…, p generados al sustituir cada observación Χ j por
la X en la ecuación 5.17, se tiene:
1 1 n 1 n ˆ i′ ( Χ j − Χ ) = eˆ i′ ∑ ( Χ j − Χ ) = eˆ i′ 0 = 0 Yˆi = ∑ e n j =1 n j =1 n ecuación 5.18
o sea que la media muestral de cada componente principal es cero pero se conservan las varianzas estimadas por los λˆi . Ejemplo 5.4 Se realizará un A.C.P. tipo R o por filas, o por variables, que consiste en analizar la matriz de correlación o de varianzas-covarianzas, o de productos entre las variables. Para visualizar la teoría se trabajará con el análisis R de correlación por su asociación con el coseno como un indicador de similitud entre variables. Para ello se estudiará la frecuencia de 3 especies denominadas spi en 11 parcelas cuyos datos fueron: Tabla 5.2 Datos de frecuencias en 11 parcelas para 3 especies. Parcela 1 2 3 4 5 6 7 8 9 3 15 9 21 6 3 9 8 14 sp1
sp2 sp3
10 20
11 4
3
17
5
14
8
7
14
1
6
13
4
16
3
9
3
10
19
6
19
2
4
15
con Tabla 5.3 Valores típicos para las 3 especies estudiadas. Medias Desviación estándar
sp1
sp2
sp3
10.181 6.462
7.454 4.457
9.636 6.607
0.63 −0.82 1 Con las cuales se calculó la matriz R = 0.63 1 −0.66 . −0.82 −0.66 1 Al mirar las correlaciones se observa que en la medida que las correlaciones entre variables sean altas, mejor será el proceso. Con base en ella se hizo el A.C.P. que mostró los resultados de la Tabla 5.4.
157
5. Componentes Principales C.P.
5.6 Componentes principales de ...
Tabla 5.4 Análisis de componentes principales. Componente Nº Eigenvalor Porcentaje de varianza 1 2.410650 80.355 2 0.413497 13.783 3 0.175853 5.862
Porcentaje acumulado 80.355 94.138 100.000
Con los cuales se encontraron los respectivos vectores propios Tabla 5.5. Tabla 5.5 Vectores propios. Componente 1 0.590312 = e11 sp1
Componente 2 -0.437045 = e12
Componente 3 0.6786190 = e13
0.542412 = e 21
0.837399 = e 22
0.0674728 = e 23
-0.597763 = e 31
0.328261 = e 32
0.7313850 = e 33
sp2 sp3
que conducen a las respectivas ecuaciones
Y1 = CP1 = 0.590312 * sp1 + 0.542412 * sp2 − 0.597763 * sp3 Y2 = CP2 = −0.43704 * sp1 + 0.837399 * sp2 + 0.328261 * sp3 Y3 = CP3 = 0.678619 * sp1 + 0.067473 * sp2 + 0.731385 * sp3 Cuyos valores fueron obtenidos estandarizando por substracción de la media y dividiendo por la desviación estándar. Como la máxima variabilidad en este proceso sería 3, el primer componente explica 2.4111/3 = 80.36%, el segundo un 13.78% y el tercero un 5.86% de tal manera que con los dos primeros se podría obtener casi toda la explicación de dicha variabilidad. Además según Ter Braak, en procesos de esta naturaleza, valores propios mayores de 0.30 se pueden considerar altos. Puede verse que el primer eje resulta casi seis veces el segundo, pero entre los dos explican más del 94% de la absorción de la variación original, al pasar de 1/3 por variable en las originales, a los valores de los nuevos ejes. ANÁLISIS. Al mirar los vectores propios sin otras consideraciones se observa que la especie 3 es la que más contribuye al eje 1 y se dirige hacia la izquierda y hacia arriba por ser el segundo eje positivo, en el eje 2, sp2 , es la más alta y positiva en ambos ejes, etc. Se puede a manera de ejemplo representar las parcelas en el plano generado por las dos primeras especies, Figura 5.5; de acuerdo con ella se ve que las parcelas 1 y 4 son las más alejadas y por tanto las más diferentes, en tanto que 1 y 6 son las más parecidas. La figura también muestra los ejes que pasan por los puntos medios en el concepto de ejes centrados.
158
5. Componentes Principales C.P.
5.6 Componentes principales de ...
P2 15
P4 P7
10
P6
(x, y)
P5
P9 5 P 11
P3 P 10
P1 P8 5
10
15
20
Figura 5.5 Representación de las parcelas en el plano generado por las especies 1 y 2. ➢ Cálculo de coordenadas y ordenamiento de las parcelas. aplicando los componentes principales así:
Yij = ei′ Χ j o Yij = ei′ Z j ; i = 1,…, p;
Se hacen
j = 1,…, n , en que:
Yij = coordenada de la parcela j en el eje i ei = elemento del vector propio correspondiente al eje i Χ j o Z j = coordenadas de la parcela j , j = 1,…, n . Para calcular la matriz ρ o Σ , se puede también encontrando Z ′ Z , lo que equivale a elevarla al cuadrado por lo que deberá dividirse por n o n − 1 como en el caso presente, pues si no se hubieran formado los grados de libertad al cuadrado. Esta matriz estandarizada y dividida por n − 1 queda así Tabla 5.6 Matriz original estandarizada y dividida por n − 1 . Parc. 1 2 3 4 5 6 7 8 9 sp1 -0.35 0.23 -0.06 0.53 -0.20 -0.35 -0.06 -0.11 0.19
sp2 sp3
-0.32 -0.03 -0.17 0.30
0.46
0.04
-0.03
0.46
-0.46 -0.10
-0.32 -0.03 -0.32 0.02
0.44
-0.17 0.45
10 0.48
11 -0.30
0.39
-0.25
-0.36 -0.27 0.26
yi1 = 0.59z i1 + 0.54z i 2 − 0.598z i 3
159
5. Componentes Principales C.P.
5.6 Componentes principales de ...
que para el caso de la parcela 1 sería
yi1 = 0.59x ( −0.35 ) + 0.54x ( −0.32 ) − 0.598x (0.30 ) que daría para todas las parcelas las siguientes coordenadas Tabla 5.7. Tabla 5.7 Valores de los componentes principales para la matriz estandarizada. Parcela Cp1 Cp2 Cp3 1 -0.56074342 -0.01101103 -0.03524057 2 0.31156670 -0.23419981 -0.07371513 3 -0.11027780 -0.13045468 -0.07194726 4 0.75392314 0.05311655 0.15543089 5 -0.11016697 0.12751704 -0.12391612 6 -0.49281588 0.27358080 0.08660068 7 0.32161497 0.35681622 -0.13845785 8 -0.57915016 -0.18958190 0.22719061 9 0.27286969 -0.28788873 -0.14613558 10 0.65798391 0.03082470 0.15288807 11 -0.46480000 0.01130000 -0.03270000 ➢ Importancia de las variables. Se mide el aporte de las variables, en este caso las especies por su correlación lineal con los respectivos ejes o componentes principales, calculadas como el producto de la raíz cuadrada del eigenvalor, por el elemento correspondiente de vector propio, ejemplo para la variable k , y el eje i sería
γ Yi Xk = eki λi aunque
γ Y1 * X1 = e11 λ1 = 0.59 2.411 = 0.916
γ Y2 * X1 = e12 λ2 = −0.44 0.414 = −0.282
γ Y1 * X2 = e21 λ1 = 0.542 2.411 = 0.84
γ Y2 * X2 = e22 λ2 = 0.837 0.414 = 0.539
γ Y1 * X3 = e31 λ1 = 2.411 * 0.59 = −0.93
γ Y2 * X3 = e32 λ2 = 0.326 0.414 = 0.21
La Figura 5.7, representa la disposición de las variables en el plano generado por los dos primeros C.P. Esto se logra ya que se conoce la longitud del vector y el coseno del ángulo; notando que los ejes coordenados pueden tener diversas escalas. Existen varias propuestas para calificar las variables 1) El método de los franceses que proponen un circulo de radio igual a 1, para ver la importancia de ellas de acuerdo con su cercanía ya que la máxima correlación alcanza este valor.
160
5. Componentes Principales C.P.
5.6 Componentes principales de ...
0,4
P7 0,3
P6
C o m po nente p rincipal 2
0,2
P5
0 ,1
-0,6
P1
-0 ,4
P4
P 10
P 11 -0,2
0 ,2
0 ,4
0 ,6
0 ,8
1
-0,1
P3
P8
-0,2
P2 -0 ,3
P9
-0,4
C om pon ente p rincipal 1
Figura 5.6 Ordenamiento de las parcelas en los dos primeros ejes. 2) Los canadienses usan el llamado circulo de equilibrio con radio
d en que p
d = dimensiones en que se mira el problema y p número de variables por ejemplo si solo se mirará la dimensión 1, sería d = 1. analizado sería
En el problema
2 = 0.82 . 3
3) Algunos autores brasileros proponen el uso de un circulo con γ significativo con α = 0.05 para el tamaño de muestra menos 2, en este caso con 9 grados de libertad, este valor sería de 0.602. variables que lo superen se consideran significativas. Se recuerda que variables con ángulos pequeños entre ellas exhiben altas correlaciones, con ángulos opuestos altas correlaciones negativas y con ángulos cercanos a 90 independencia. ➢ Biplot o gráfico dual. Presenta al mismo tiempo variables (especies) e ítems (parcelas) Figura 5.7. Aquellos valores más cercanos y perpendiculares individuos variable, permiten ver la variable que más aporta para explicar la posición del individuo.
161
5. Componentes Principales C.P.
5.6 Componentes principales de ...
1.0
sp 1
0.5 0.0 sp 3 -0.5
-1.0 sp 2 -1.5 -2.4
-1.4
-0.4
0.6
1.6
2.6
C om pon ente principal 1
Figura 5.7 Biplot para los datos de frecuencias en 11 parcelas para 3 especies. Ejemplo 5.5 Un censo llevado a cabo en el occidente del país (hipotéticamente) produjo la siguiente información con 5 variables socioeconómicas, en 14 municipios. Tabla 5.8. Tabla 5.8 Censo (hipotético) de 5 variables socioeconómicas en 14 municipios del occidente del país Municipio Pob. total Escolaridad Empleados Emp Salud Valor casa 1 5.935 14.2 2.265 2.27 2.91 2 1.528 13.1 0.597 0.75 2.62 3 2.599 12.7 1.237 1.11 1.72 4 4.009 15.2 1.649 0.81 3.02 5 4.687 14.7 2.312 2.50 2.22 6 8.044 15.6 3.641 4.51 2.36 7 2.766 13.3 1.244 1.03 1.97 8 6.538 17.0 2.618 2.39 1.85 9 6.451 12.9 3.147 5.52 2.01 10 3.314 12.2 1.606 2.18 1.82 11 3.777 13.0 2.119 2.83 1.80 12 1.530 13.8 0.798 0.84 4.25 13 2.768 13.6 1.336 1.75 2.64 14 6.585 14.9 2.763 1.91 3.17 El análisis revela que el primer componente principal da una buena explicación con el 74.13% de la varianza total, el segundo solo explica 19.1%, pero entre los 2
162
5. Componentes Principales C.P.
5.6 Componentes principales de ...
primeros explican un 93.22% de la variación total, suficiente para pensar que los dos primeros explican muy bien la variación muestral de los datos analizados, y ello equivale a que de 5 variables con 14 observaciones cada una, se pasa a 2 C.P., lo que supone una notable reducción de dimensiones y de datos. Tabla 5.9 Análisis de componentes principales. Componente Número Porcentaje de Varianza 1 74.13268 2 19.09337 3 4.16758 4 2.45497 5 0.15140
Porcentaje acumulado 74.13268 93.22605 97.39363 99.84860 100.00000
Tabla 5.10 Valores propios de λi . λ1 λ2 λ3 λ4 λ5
= = = = =
6.93107 1.78514 0.38695 0.229529 0.014155
Tabla 5.11 Eigenvectores. (1,1) 0.7810 (2,1) 0.3060 (3,1) 0.3340 (4,1) 0.4260 (5,1)-0.0543
ρY1,Χ1 =
*(0.99) *(0.61) *(0.98) *(0.80) *(-0.2)
(1,2) 0.071 (2,2) 0.764 (3,2)-0.083 (4,2) -0.579 (5,2) 0.262
6.93107 * 0.781208 4.30756
*(0.04) *(0.76) *(-0.12) *(-0.50) *(0.49)
= 0.9909 ; ρY1,Χ2 =
(1,3) (2,3) (3,3) (4,3) (5,3)
3.657E-3 -0.162 0.015 0.220 0.962
(1,4) (2,4) (3,4) (4,4) (5,4)
6.93107 * 0.305649 1.76747
–0.541 0.545 -0.051 0.636 -0.051
= 0.6052
*( ): valores de ρYi , Χi Tabla 5.12 Matriz de varianzas-covarianzas. poto esco empl poto 4.30756 1.68368 1.80278 esco 1.68368 1.76747 0.58803 empl 1.80278 0.58803 0.80067 emsa 2.15533 0.17798 1.06483 vaca -0.25347 0.17555 -0.15834 Al calcular los eigenvectores.
Emsa 2.15533 0.17798 1.06483 1.96947 -0.35681
Vaca -0.25347 0.17555 -0.15834 -0.35681 0.50438
ei′ = [0.7812 0.3056 … −0.054 ] muchos
autores atribuyen altos valores de cada e ki como relativos a la importancia de las variables, pero mejor explorar ρYi , Xk .
163
5. Componentes Principales C.P.
5.6 Componentes principales de ...
Los valores entre * ➢ Cálculo de correlación C.P variable cualquiera. paréntesis dados en Tabla 5.11 corresponden a estos valores para el primer componente principal. Así vista la situación se podría pensar que el C.P. 1 es simplemente el promedio ponderado de las 4 primeras variables, ya que la última con ρY1,Χ 5 = −0.20 no pesa mucho en él. El segundo C. P. parece ser un contraste entre la escolaridad promedia y promedio ponderado contra empleos sanitarios. ponerle atención a cada eˆki , en parte ayuda a que surgirían ante el olvido de la magnitud de También es importante darle una mirada a covarianzas σ ik . Tabla 5.12.
el valor de las casas como Se ve pues la necesidad de corregir las interpretaciones las escalas de las variables. la estructura de varianzas
El primer componente principal se escribiría como
CP1 = 0.7817 * pobtot + 0.3060 * esco + 0.3341* empl + 0.4252 * emsa − 0.0544 * vaca Al mirar el biplot para las variables sin ninguna transformación, se comprendió que era necesario estandarizar los datos por cuanto una sola variable parecía llevarse el peso de la explicación, por ello se corrío el nuevo análisis estandarizado, que aunque disminuye con la absorción de las varianzas mejora en otros aspectos explicativos. El siguiente fue el resultado Tabla 5.13 Análisis de componentes principales Componente Nº Eigenvalor Porcentaje de varianza 1 30.30710 60.614 2 1.29125 25.825 3 0.57243 11.449 4 0.09438 1.888 5 0.01123 0.225 Tabla 5.14 Valores de los componentes principales. Componente 1 Componente 2 Pobtot 0.558578 0.131378 Esco 0.313648 0.628953 Empl 0.568088 0.003992 Emsa 0.486285 -0.309898 Vaca -0.174409 0.700789
Porcentaje acumulado 60.614 86.439 97.888 99.775 100.000 Componente 3 0.005542 -0.547525 0.118649 0.456150 0.691401
La ecuación del primer C.P. estandarizado sería
CP1 = 0.5586* pobtot + 0.3136* esco + 0.5681* empl + 0.4863* emsa − 0.1744* vaca y el respectivo biplot de la Figura 5.8 le muestra la descomposición de las variables y municipios
164
5. Componentes Principales C.P.
5.7 Descomposición matricial en valores ...
n
n
i =1
i =1
σ X σ X2 XY ∑ X i ∑ X i2
2.4
1 n x−µ ( X i − X )2 X 1,…, X n ∑ n i =1 σ
vaca
esco
1.4 pob to 0.4
em pl
-0.6 em sa 1.6 -2.5
-1.5
-0.5
1.5
2.5
3.5
C om pon ente principal 1
Figura 5.8 Biplot para el censo hipotético de 5 variables socioeconómicas en 14 municipios. En este análisis todas las variables resultan representativas, aunque población total y empleo están íntimamente correlacionadas, lo que permitiría suprimir posiblemente a la primera. Los demás análisis se harían mirando exhaustivamente las ubicaciones de los municipios con respecto a las variables.
5.7 Descomposición matricial en valores singulares (S.V.D.) La técnica llamada S.V.D. (Singular Value Decomposition) es una de las herramientas más útiles del álgebra matricial, y constituye otro sustento analítico - matemático de los componentes principales. Su origen puede rastrearse desde finales del siglo XIX, producto de trabajos de matemáticos italianos y franceses. Se ha conocido también como estructura básica matricial, formas canónicas, reducción tensoríal, etc., pero el nombre escogido puede acomodarse a múltiples técnicas y a diferentes análisis estadísticos.
165
5. Componentes Principales C.P.
5.8 S.V.D. y aproximaciones matriciales ...
5.8 S.V.D. y aproximaciones matriciales de bajo rango La S. V. D. es la descomposición de una matriz como el producto de 3 matrices de formas particularmente simples. Cualquier matriz Α ij puede ser expresada como ′ Α ij = U ik D αkk Vkj ecuación 5.19
en que: D α : es una matriz diagonal de números positivos α1, α 2 , … , α k , {valores singulares; k : es el rango de Α o sea k ≤ menor (i, j ) U y V son matrices ortogonales, más exactamente ortonormales, o sea que
U′ U = V ′ V = Ι
Una forma equivalente para la ecuación 5.19 es que Α =
k
∑α
k Uk
Vk′ , en que
k =1
U1, U 2 ,…, Uk y V1, V2 ,… , Vk son las columnas de U y V , αk = α1, α 2 , … , αk son los valores singulares Α , mientras que los vectores U k y Vk son llamados los vectores singulares a izquierda y derecha de Α . Los vectores singulares a izquierda forman una base ortonormal para las columnas de Α en un espacio i -dimensional, mientras los vectores singulares a derecha forman una base ortonormal para las filas de Α en el espacio j dimensional.
U=
Base ortonormal para
a 1, a 2 ,…, a j en un espacio i dimensional
a11 a12 … a1 j a1′ a a 22 … a2 j a′2 21 = A ij = ai1 ai 2 … aij ai′
Base ortonormal para
a 1, a 2 ,…, a i
=V
en un espacio j -dimensional
La S.V.D. en su forma equivalente no es más que una combinación lineal de matrices estandarizadas de rango k , U k Vk′ , k = 1, … , k , con los valores singulares indicando la magnitud de la matriz en cada una de sus k dimensiones. El origen del nombre S. V. D. es posiblemente debido al hecho de eliminar algunos términos α k , U k , Vk′ de la matriz Α , para llegar a una matriz
166
5. Componentes Principales C.P.
5.9 Hallazgo de la S.V.D.
singular. Como un caso especial de ella se encuentra la descomposición en componentes principales (eigenvalores y eigenvectores) de una Α p * p simétrica de rango k ≤ p : k
∑λ
Α p * p = V p * k D λk * k Vk′ * p =
k Vk
Vk′
k =1
ecuación 5.20
Coincidente con la conocida descomposición espectral, en cuyo caso los vectores singulares a derecha e izquierda son idénticos y ya conocidos como los eigenvectores de Α , y λ como sus eigenvalores. NOTA. La S.V.D. consiste de matrices reales y se da en cualquier matriz rectangular, mientras que la descomposición espectral o eigendescomposición se refiere a matrices k * k simétricas. Cuando no hay simetría, la descomposición espectral puede involucrar elementos complejos. La S.V.D. puede escribirse entonces como la combinación lineal Α =
k
∑α
k Uk
Vk′
k =1
ecuación 5.21
5.9 Hallazgo de la S.V.D. El hallazgo de la S.V.D. de una matriz Α ij se facilita asumiendo la existencia de la eigendescomposición de otra matriz Βk * k simétrica definida positiva: Β ≡ Α ′Α = VD λ V ′ con eigenvalores positivos. A partir de esta es posible ver que la S.V.D. de Α es UD α V ′ en la cual V es la matriz de vectores propios de Β , los valores singulares son las raíces cuadradas de los valores propios, y
e11 e12 … e1 j e e 22 … e 2 j 21 ; V = e j1 e j 2 … e jj
Dα = D1λ 2
λ1 0 = 0
0
…
λ2 … 0
…
0 0 λ j
ecuación 5.22
y U = ΑVDα−1
167
5. Componentes Principales C.P.
5.9 Hallazgo de la S.V.D.
0 a11 a12 … a1 j e11 e12 … e1 j 1 λ1 a a22 … a2 j e21 e22 … e2 j 0 1 λ2 21 0 0 ai1 ai 2 … aij e j1 e j 2 … e jj 0 0
0 0 0 0 1 λ j 0
0
Existen otras formas de llegar a ello. Ejemplo 5.6
Hallar la S.V.D. de la matriz Α 4 *2
214
4 3 5 1 = 13 7 2 50
208
La matriz Β = Α ′Α = con λ1 = 2577.310; y 208 2559
0.00 50.767214 Dα = ; 0.00 13.989031
λ2 ≈ 195693
0.996149 0.0876734 V= 0.996149 −0.0876734
0.06577356 0.26603527 0.02825674 0.34977916 0.00 0.01969775 -1 −1 Dα = , U = ΑVDα = 0.15980387 0.8818497 0.00 0.07148458 0.98454875 −0.17094622 con ellas
3.9999 2.9999 4.9999 0.9999 A= 12.9999 6.9999 1.9999 49.9999 A la manera vista para el A.C.P. se asumirá que α 1 ≥ α 2 ≥ … ≥ α k > 0 con sus correspondientes vectores singulares ordenados en igual forma. No hay multiplicidad de valores singulares, ellos quedan inequívocamente determinados por las reflexiones de sus correspondientes vectores, pues si hubiera un α k = α k + 1 bastará haces sus vectores singulares ortogonales.
168
5. Componentes Principales C.P.
5.10
5.10 Forma completa de la S.V.D.
Forma completa de la S.V.D.
Es interesante y útil completar las bases ortonormales de U y V en sus respectivos espacios dimensionales para obtener matrices cuadradas
U ≡ [U1 U 2 … Uk
… Ui ] y V ≡ V1
V2 … Vk
… V j .
Por ejemplo
U k + 1,… , U i son (i − k ) vectores ortonormales que también resultan ortogonales
a los U 1,… , U k , de tal forma que U ′ U = Ι . Similarmente para V , que una vez completada haga que V ′ V = Ι . como
De esta manera podría escribirse la S. V. D.
~ ~ Α ij = U i * i ∆ i * j V ′j * j ecuación 5.23
D α en la que ∆ ≡ 0
5.11
0 que completa la S.V.D. de Α . 0
Aproximación matricial de rango mínimo
De acuerdo con la ecuación 5.21, si algunos valores singulares α k * + 1, … , α k resultan pequeños comparados con α1, … , αk * , entonces es posible eliminarlos, o sea borrar k − k * términos del lado derecho de la ecuación 5.21 y obtener una buena aproximación para Α , que es mínimo cuadrática y que vuelve la S.V.D. una herramienta mucho más interesante. El teorema de aproximación matricial de rango mínimo producido por Eckart y Young en 1936 (Psycometrics) que establece que cualquier matriz rectangular Y pueda ser descompuesta como Yn* p = V(n* p ) Wdiagonal p* p U p* p que hemos recompuesto a nuestra notación convencional X . Se establece así: Sea Α [k * ] ≡
k
∑α
k Uk
Vk′ la (i * j ) matriz de rango k * formada por los mayores
k =1
k * valores singulares con sus respectivos vectores singulares de Α .
Α [k * ] es la
aproximación mínimo cuadrática de Α de rango k * que minimiza: i
j
∑ ∑ (a i =1 j =1
ij
− x ij
)
2
{
= tr (Α − Χ ) (Α − Χ )′
}
ecuación 5.24
169
5. Componentes Principales C.P.
5.11 Aproximación matricial de rango ...
Para todas las matrices Χ de rango k * o menores. La demostración no es complicada pero se dejará de lado, para hacer énfasis en la MATRIZ DE RESIDUALES:
Α − Α k* = U k − k* Dα
(
)
V′ * (k −k* ) (k − k )
ecuación 5.25
Como la suma de los elementos cuadrados de una matriz Y es igual a la tr ( YY ′ ) , la suma de los elementos cuadrados de Α , Α k* y Α − Α k* serán
k
respectivamente
∑α
k*
2 k
k =1
,
∑α
k =1
k
2 k
y
∑α
2 k
, con lo cual se puede producir una
k =k +1 *
medida de la calidad lograda por la aproximación mínimo cuadrática en porcentaje de las sumas cuadradas así: k*
τ k* ≡
100 ∑ αk2 k
k =1
∑α
2 k
k =1
ecuación 5.26
Es por ello que es posible decir en lo visto en el A.C.P. que se eliminan aquellos que no aportan mucho a la explicación de la variabilidad. Ejemplo 5.7 Para mirar otras interpretaciones del A.C.P. se conocen las siguientes dimensiones en tortugas pintadas, longitud, ancho y alto, además de su sexo. Se sugiere una transformación logarítmica para el estudio de sus relaciones de tamaño y forma, ejemplo tomado de Jhonson y Wichern. Tabla 5.15 Dimensiones de tortugas pintadas de ambos sexos para el estudio de las relaciones de tamaño y forma. Hembras Machos Nº Lon Anc Alt Sex Nº Lon Anc Alt Sex 1 98 81 38 1 25 93 74 37 2 2 103 84 38 1 26 94 78 35 2 3 105 86 42 1 27 96 88 35 2 4 105 86 42 1 28 101 84 39 2 5 109 88 44 1 29 102 85 38 2 6 123 92 50 1 30 103 81 37 2 7 123 95 46 1 31 104 83 39 2 8 133 99 51 1 32 106 83 39 2 9 133 102 51 1 33 107 82 38 2 10 133 102 51 1 34 112 89 40 2
170
5. Componentes Principales C.P.
5.11 Aproximación matricial de rango ...
Tabla 5.15 (continuación). Dimensiones de tortugas pintadas de para el estudio de las relaciones de tamaño y forma. Hembras Machos Nº Lon Anc Alt Sex Nº Lon Anc 11 134 100 48 1 35 113 88 12 136 102 49 1 36 114 86 13 138 98 51 1 37 116 90 14 138 99 51 1 38 117 90 15 141 105 53 1 39 117 91 16 147 108 57 1 40 119 93 17 149 107 55 1 41 120 89 18 153 107 56 1 42 120 93 19 155 115 63 1 43 121 95 20 155 117 60 1 44 125 93 21 158 115 62 1 45 127 96 22 159 118 63 1 46 128 95 23 162 124 61 1 47 131 95 24 177 132 67 1 48 135 106
ambos sexos Alt 40 40 43 41 41 41 40 44 42 45 45 45 46 47
Sex 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Los promedios de los logaritmos naturales de sus dimensiones fueron. Tabla 5.16 Promedios de los logaritmos naturales para las tortugas pintadas. Machos y hembras Variable Lon Anc Alt Lon Tamaño de la 48 48 48 24 muestra Media 4.81345 4.55024 3.82174 4.72544 aritmética Mediana 4.80399 4.5326 3.79543 4.74489
dimensiones de las Machos Anc 24
Alt 24
4.47757
3.70319
4.48864
3.68888
El A.C.P. para los logaritmos de las dimensiones en los machos sugiere que el primer componente principal explica casi totalmente la relación pues alcanza el 96.1% de la varianza total. Al escribirlo se tiene
Yˆ1 = 0.6831 * ln (long ) + 0.51022 * ln (anch ) + 0.52254 * ln (alt ) Aplicando las leyes de los logaritmos
Yˆ1 = ln long 0.6831 * anch 0.51022 * alt 0.52254 o sea como el logaritmo natural del volumen de una caja con dimensiones ajustadas. Por ejemplo la altura ajustada es alt 0.5225 la cual explica intuitivamente la forma redondeada del caparazón.
171
5. Componentes Principales C.P.
5.12 Interpretación geométrica
Tabla 5.17 Análisis de componentes principales para el ejemplo de las dimensiones de tortugas pintadas. Componente Número Porcentaje de varianza Porcentaje acumulado 1 96.05077 96.05077 2 2.46607 98.51864 3 1.48316 100.00000 Valores propios de λ i λ 1 = 0.0233033 λ 2 = 5.98305E - 4 λ 3 = 3.59836E - 4 Eigenvectores (1,1) 0.683102 (1,2) –0.159479 (1,3) –0.712697 (2,1) 0.51022 (2,2) –0.594020 (2,3) 0.621953 (3,1) 0.522539 (3,2) 0.78849 (3,3) 0.324401
5.12
Interpretación geométrica
Geométricamente se pueden graficar los puntos como n puntos en p dimensiones. Si S n es definida positiva, todos los vectores (P * 1) Χ satisfarán
(Χ
′ − Χ S−1 Χ − Χ = c 2
)
(
)
ecuación 5.27
que, ya sabemos, define hiperelipsoides centrados en Χ , con sus ejes definidos por los eigenvectores de S −1 o equivalentemente de S y proporcionales a λˆ ; i = 1, 2,… , p y λˆ ≥ λˆ ≥ … ≥ λ valores principales de S ). i
1
p
2
Los componentes principales muestrales sostienen entonces las mismas relaciones que los ejes de los elipsoides de distancias constantes c 2 , vistos como el resultado de rotar el sistema de coordenadas originales, hasta que los ejes coordenados pasen a través de las direcciones de máxima variabilidad.
(
ˆ i′ Χ − Χ El valor absoluto yˆi = e
(Χ
)
)
dará la longitud del vector proyección de
− Χ en el vector unitario e i . Para p = 2 la Figura 5.9 lo ilustra. La Figura ˆ > ˆ 5.9(a.) muestra la elipse centrada en Χ con λ λ2 . Los componentes 1 principales están muy definidos y caen en las direcciones de máxima varianza. ˆ ≈ ˆ En la Figura 5.9(b.) λ λ 2 , se tiene un circulo y hay homogeneidad en la 1 variación de Χ 1 y Χ 2 . Acá no se pueden representar los datos con menos de p dimensiones , pues todas son igualmente importantes.
172
5. Componentes Principales C.P.
X2
5.13 Cambios de escala
^y 2
X2 ^y 1
y 1 =e ´ 1 (X -X ) x- 2
x2 -
(X -X )’S -1(X -X )= c²
(a .)
x- 1 ^ ^ λ1>λ2
X1
X1
x- 1 (b .)
^ ^ λ1≈λ2
Figura 5.9(a.), (b.) Interpretación geométrica de los componentes principales.
5.13
Cambios de escala
Los componentes principales muestrales son en general no invariantes con respecto a los cambios de escala, o al efecto de rangos muy grandes entre ellos por lo cual se acude a la estandarización, como
(x1 j − x1 ) (x − x 2 ) Ζ j = D−1 2 ( Χ j − Χ ) = 2 j (x pj − x p )
s11 s22 ⇒ Ζ [Z1 Z 2 … Z n ] = s pp
z11 z12 … z1n z z 22 … z 2n 21 z p1 z p 2 … z pn
ecuación 5.28
y además se sabe que
n ∑ (x1 j − x1 ) j =1 n 1 1 ∑ (x 2 j − x 2 ) Ζ = Ζ1 = = j =1 n n n (x pj − x p ) ∑ j =1
s11 s22 =0 s pp
ecuación 5.29
173
5. Componentes Principales C.P.
5.13 Cambios de escala
y Sz
′ ′ 1 1 1 1 1 = Ζ11′ Ζ − Ζ11′ = Ζ − Ζ1′ Ζ − Ζ1′ = ΖΖ ′ = Ζ − n − 1 n n n −1 n −1
(
(n − 1) s11 s11 1 (n − 1) s12 s11 s22 n −1 (n − 1) s1 p s11 s pp
)(
(n − 1) s12 s11 s22 (n − 1) s22 s22
…
(n − 1) s2 p
…
…
s22 s22
)
(n − 1) s1 p (n − 1) s2 p
s11 s pp s22 s pp =R (n − 1) s pp s pp
ecuación 5.30
como ya se había intuído al trabajar el ejemplo 5.4. los C.P. de las observaciones estandarizadas están dadas en la muestra con la matriz R en lugar de S . Como las observaciones están centradas por construcción no es necesario escribir los componentes en la forma de la ecuación 5.18. En resumen: si Z1 , Z 2 ,…, Z n son observaciones estandarizadas con matriz R el
ˆ i′ Ζ = eˆ1′i Z1 + eˆ2′ i Z 2 + … + eˆ ′pi Z p ; i = 1, 2,…, p en que i-ésimo C.P. será Yˆi = e ˆ , eˆ λ son las parejas de valores y vectores principales de R con i i ˆ ˆ ˆ ≥ 0 . Además λ ≥ λ ≥ … ≥ λ
(
)
1
2
p
(Yˆ ) = λˆ ;
Varianza muestral de yˆi = Var
i
(
i
i = 1, 2,…, p .
)
Covarianza muestral Yˆi ,Yˆk = 0; i ≠ k . ˆ + … + λ ˆ . λ1 + λ Varianza total muestal estandarizada tr (R ) = p = ˆ p 2 ecuación 5.31
γ Yˆi ,Yˆk = eˆki λˆi ; i,k = 1, 2,…, p ecuación 5.32
La proporción de la varianza total explicada por el i-ésimo componente principal λ′ muestral es i ; i = 1, 2 ,… , p . p Una regla muy intuitiva sugiere retener únicamente aquellos C.P. cuyas varianzas ˆ ≥ 1 o sea que individualmente expliquen siquiera 1 p de la varianza total. (no λ i
174
5. Componentes Principales C.P.
5.13 Cambios de escala
tiene mucho soporte técnico, por lo cual no puede aplicarse a ciegas), pero en algunos ordenamientos ecológicos, Ter Braack, holandés, sostiene que valores > 0.30 son importantes para la explicación de una R . Ejemplo 5.8 Durante 24 meses en la época del fenómeno climático del Niño se hicieron mediciones del área basal promedio a 10 árboles escogidos en todas las categorías diamétricas, para cada uno de 5 bosques: PP1: Pinus patula de 25 años, PP2: P. patula de 8 años, C: Cupressus. lusitanica de entre 21 y 25 años, ROB: robledal en Piedras Blancas y BN: Bosque natural en Piedras blancas, con el fin de detectar cambios en su comportamiento. Para analizar los datos se creo un índice de cambio del área basal relativa así: IRAB =
g i +1 − g i en que área gi
basal medida en el mes i , en la creencia que los cambios eran independientes del fenómeno climático considerado, aunque se intuía que las variaciones deberían producirse simultáneamente como consecuencia de el. Los datos obtenidos de muestran en la tabla Tabla 5.18 Valor de índice de área basal relativa IRAB para la observación de la influencia del fenómeno del Niño en el comportamiento de 5 tipos de bosque. Mes PP1 PP2 C ROB BN 1 -0.013164 -0.004013 -0.039012 -0.042406 -0.048899 2 0.000000 -0.017295 0.017318 0.054420 0.033950 3 -0.097000 -0.075742 -0.073527 -0.053133 -0.026039 4 0.039390 0.054301 -0.014801 0.011432 -0.005258 5 0.015153 0.029148 -0.021452 -0.009878 -0.021274 6 -0.036951 0.011864 0.014517 0.007126 0.016218 7 0.069101 0.014662 0.016359 0.038134 0.063900 8 0.059235 0.077191 0.018991 -0.012178 0.039019 9 -0.004201 0.014518 -0.031701 -0.004443 -0.014351 10 0.069281 0.056877 0.040954 0.040815 0.020001 11 -0.040812 -0.035654 0.000010 0.014328 0.004978 12 0.000010 0.025799 -0.017509 0.018992 -0.004699 13 0.000010 -0.011421 -0.010341 -0.005209 0.028306 14 0.034851 -0.008153 -0.018991 0.008821 -0.014153 15 -0.023730 -0.019258 -0.032558 -0.001224 0.023568 16 0.000000 -0.036729 -0.014133 -0.007186 0.004582 17 0.022876 0.033579 0.001917 0.026192 0.004543 18 -0.009318 0.013814 0.021651 -0.014929 -0.009015 19 0.003325 -0.041481 -0.029017 -0.002429 -0.004671 20 0.026315 -0.016335 -0.009701 0.032486 0.027531 21 -0.026668 -0.061365 -0.056681 -0.013459 -0.040361 22 0.010271 0.023304 0.034338 -0.018182 -0.004701 23 -0.039459 -0.029298 -0.065882 -0.015831 -0.045760 24 0.045453 0.046371 0.074571 0.014561 0.018801
175
5. Componentes Principales C.P.
5.13 Cambios de escala
Los cuales presentaron el siguiente vector de promedios:
IRAB′ = [0.00510788 0.00186183 0.00811167 0.00278417 0.00192567] y las siguientes desviaciones estándar:
S IRAB = [0.0388686 0.0384504 0.0346315 0.0252230 0.0277354] con las cuales se llego, con las siguientes transformaciones, a las variables
Zi =
IRAB i − IRAB sIRABii
y a la siguiente matriz de covarianzas estandarizadas
1.0000 0.7593 γ = 0.6314 0.5906 0.5332
0.7593 1.0000 0.6682 0.3345 0.3622
0.6314 0.6682 1.0000 0.5396 0.6367
0.5906 0.3345 0.5396 1.0000 0.6661
0.5332 0.3622 0.6367 0.6661 1.0000
que dieron el siguiente análisis de componentes principales: Tabla 5.19 Análisis de componentes principales para el valor de índice de área basal relativa IRAB. Componente Nº Eigenvalor Varianza Porcentaje acumulado 1 3.298260 65.965 65.965 2 0.845899 16.918 82.883 3 0.429945 8.599 91.482 4 0.270885 5.418 96.900 5 0.155015 3.100 100.000 con sus respectivos eigenvectores: Tabla 5.20 Eigenvectores para el ejemplo relativa IRAB. CP1 CP2 PP1 0.479398 -0.262688 PP2 0.425635 -0.631085 CIP 0.474102 -0.089427 ROB 0.421618 0.522899 BNA 0.431830 0.501304
del valor del índice de área basal CP3 -0.478402 -0.009787 0.602939 -0.513109 0.379762
Así los dos primeros componentes quedarían como:
176
CP4 -0.321808 -0.055349 0.533646 0.464021 -0.627122
CP5 0.607242 -0.646070 0.344843 -0.264986 -0.157211
5. Componentes Principales C.P.
5.13 Cambios de escala
Yˆ1 = CP1 = eˆ 1′ Z = 0.4794Z1 + 0.4256Z 2 + 0.4741Z 3 + 0.4216Z 4 + 0.4318Z 5 ˆ 2′ Z = −0.2627Z1 − 0.6311Z 2 − 0.0894Z 3 + 0.5229Z 4 + 0.5013Z 5 Yˆ2 = CP2 = e Los dos primeros componentes explican casi un 83% del total de la varianza muestral estandarizada. El primero prácticamente no privilegia ninguno de los bosques al ser una suma ponderada por coeficientes casi iguales. Podría identificar un índice general silvicultural que le diera a cada bosque una pequeña caracterización por este aspecto. El segundo muestra un marcado contraste entre los tres primeros bosques, de coníferas contra los dos restantes de bosque natural. Este podría ser un indicador del tipo de bosque. Para el tercer componente que de todos modos tiene un buen peso, casi del 9% no tiene claro su significado. El biplot por su parte muestra una alta correlación entre los bosques ROB y BNA, lo cual es obvio, pues el robledal a pesar de la cierta dominancia de Quercus humboldtii hacía parte de un bosque degradado natural de la cuenca. Por otro lado es lógica la correlación mayor entre los bosques PP1 y CIP, pues ambos son coníferas casi de la misma edad y tienen comportamientos silviculturales muy parecidos en estructura, volúmenes y distribuciones diamétricas. NOTA. Un valor usualmente pequeño para los últimos (o el ultimo) eigenvalor de la matriz S o de la R puede ser indicio de una dependencia lineal no notada en el conjunto de los datos. Si ello ocurre, una o más variables pueden ser redundantes y deben ser omitidas. Por ejemplo considérese que Χ 1, Χ 2 , Χ 3 son puntajes parciales de una prueba y que la calificación total Χ 4 = Χ 1, Χ 2 , Χ 3 . La combinación e′Χ = [1 1 1 −1] será siempre = 0, con errores de redondeo se podría llegar a λ muy pequeños ≠ 0 .
( Χ 1,
Si la expresión Χ 4 que la relaciona a
Χ 2 , Χ 3 ) fuera pasada por alto, un λi pequeñísimo podría concluir esta
relación.
177
5. Componentes Principales C.P.
5.14 Inferencias para grandes muestras
ROB BNA
1.7 0.7
-0.3
C IP PP1
-1.3 PP2
-2.3 -4.4
-2.4
-0.4
1.6
3.6
C om pone nte prin cipal 1
Figura 5.10 Biplot para los 5 tipos de bosque.
5.14
Inferencias para grandes muestras
Ya se sabe que los valores y vectores propios de Σ o de S constituyen la esencia de un A.C.P. los ei determinan las direcciones de máxima varianza, así como los λi determinan las máximas varianzas. Cuando los primeros C.P. son mucho mayores que el resto, la mayoría de la varianza total puede explicarse en menos de p dimensiones. En la practica, al trabajar con las parejas (λi , eˆi ) extraídas de
S o R permite que de pronto tenga variaciones y diferencias con los valores reales de la población. No es fácil el trabajo con distribuciones muestrales de ellos, por lo cual se darán algunas ideas al respecto.
5.15 Algunas propiedades de λ i y e i para grandes muestras ˆi Algunos resultados relativos a inferencias e intervalos de confianza para ˆ λi y e asumen que Χ 1, Χ 2 ,…, Χn sea una muestra aleatoria de poblaciones normales. Se asume también en la mayoría de los casos que los valores desconocidos λ de Σ sean distintos y positivos de tal forma que λ 1 > λ 2 > … > λp , con algunas excepciones en que algunos λi resulten iguales. Conviene asumir pues que los λ son diferentes a menos que alguna razón muy fuerte hiciera pensar que Σ tiene una estructura muy especial que posibilite lo ultimo. Algunos autores han generado teorías para tales distribuciones (Anderson et. al.).
178
5. Componentes Principales C.P.
Sean: λˆ′ = λˆ1
5.15 Algunas propiedades de
λi y ei para ...
λˆ2 … λˆp y e = eˆ1 eˆ2 … eˆ p de una S ; entonces:
1) Sea Λ la matriz definida y conocida, diagonal con λ , de Σ . Se asume que ˆ − λ es aproximadamente ≈ Ν 0, 2Λ 2 . n λ p
(
)
(
)
2) Sean los errores estándar
Ε i = λi ∑
k =1 i ≠k
λk
(λk
− λi )
2
ek ek′
ecuación 5.33
Entonces
ˆ i − ei ) se comporta como ∼ Ν p (0, Ε i ) , y cada ˆ n (e λi se distribuye
ˆ′i asociado. independientemente de los elementos de su e De acuerdo con lo anterior se puede esperar que para n → ∞ (o n muy grande), ˆ sean independientemente distribuidos, además ˆ los λ λi ∼ Ν λ i , 2λ2i n . Usando i esta distribución normal
(
)
P λˆi − λi ≤ Ζ(α 2)λi 2 n = 1 − α ecuación 5.34
Entonces, una gran muestra al 100 (1 − α ) % de confianza presenta unos intervalos para λi así
(1 + Ζ(
λˆi
α 2)
2n
)
≤ λi ≤
(1 − Ζ(
λˆi
α 2)
2n
)
ecuación 35
En que Ζ (α 2) es el 100 (α 2 ) -ésimo percentil superior de una distribución normal estándar.
ˆ i son normalmente distribuidos como los ei De igual manera por lo anterior los e ˆ i son correlacionados y su en grandes muestras. Los elementos de cada e correlación depende en gran medida de la separación de los λ 1, λ 2 , … , λ p , la cual es desconocida, y del tamaño muestral n . De acuerdo con esto, los errores estándar aproximados para los coeficientes eˆki son dados por los elementos de la ˆ , con Ε ˆ derivado de Ε al sustituir los λ por los λˆ . diagonal de (1 n ) Ε i
i
i
i
i
179
5. Componentes Principales C.P.
5.15 Algunas propiedades de
λi y ei para ...
Ejemplo 5.9 Construir un intervalo de confianza al 95% para λ 1 , varianza del primer C.P. del ejercicio del ejemplo 5.8. Asumiendo que los IRAB de los valores representan sucesos independientes en una (V5 (U, Ζ )) , con Σ positiva definida y con distintos λi λ 1 > λ 2 > … > λ 5 >0 y que
n = 24 es aceptable, se tiene: λ1 = 3.29826; Ζ (0.025 ) = 1.96 ⇒ con un 95% de
confianza:
(
3.29826
1 + 1.96 * 2 24
)
≤ λ1 ≤
(
3.29826
1 − 1.96 * 2 24
)
⇒ 2.10643 ≤ λ1 ≤ 7.59623
Cuando un λ es grande tal como 100 o mayor 1000 por ejemplo estos intervalos resultan bastante amplios, a pesar de valores de n muy grandes. En general los ˆ lleguen a ser intervalos de confianza serán más amplios en la medida que los λ i muy grandes. Ejemplo 5.10 Del Anuario Estadístico del Sector Agropecuario en el Departamento de Antioquia 1992, se tomaron los siguientes datos del Inventario Pecuario y de otros recursos, con el fin de conocer su situación, de acuerdo con algunas de sus principales variables con el de caracterizar los distintos Centros Regionales que conforman el departamento Las variables estudiadas fueron cr = centro regional, caracterizado por un municipio nbovi = número total de bovinos. npas = total de hectáreas en pastos npor = número total de porcinos nequ = número total de equinos. nave = número total de aves. hbos = Total de hectáreas en bosques. prpes = producción de pescado en kg/m2/año. ncol = número de colmenas regional.
180
5. Componentes Principales C.P.
5.15 Algunas propiedades de
λi y ei para ...
Tabla 5.21 Inventario pecuario de los Centros Regionales del departamento de Antioquia. Centro región nbovi npas npor nequ nave hbos prpes ncol 1) Amalfi 175043 192988 23270 34110 247200 286514 1.4 26 2) Andes 157833 169288 31045 29094 88315 186179 2.7 2451 3) Santa Rosa 156204 154935 61340 7950 196105 35711 17.2 0 4) Antioquia 79034 1411979 13130 16889 231300 11414 2.2 50 5) Caucasia 276816 328944 29880 29128 76050 444495 0.8 0 6) Frontino 87417 108421 10581 15191 217506 215649 0.5 42 7)Puerto Berrio 295014 318570 22686 31318 65138 129323 2.8 0 8) Rionegro 80780 66978 35764 12726 1349025 55754 4.3 34 9) San Carlos 53707 77381 10413 21775 134865 113278 1.3 71 10) Sonson 126722 127747 38690 24340 201500 93446 10.5 32 11) Yarumal 107471 181624 27083 19620 126240 173547 5.7 30 12) Apartado 424443 311018 40313 32198 267300 270957 1.2 0 13) Támesis 119912 101979 32061 16958 856450 7502 1.0 805 ➢ Resultados del A.C.P.
El análisis de componentes principales muestra que los cuatro primeros componentes principales estandarizados explican el 90 % de la estructura de varianzas covarianzas de los datos. A pesar de aumentos significativos de otros componentes, se vuelve difícil de interpretar cada uno de ellos. Sin embargo es posible escoger a lo sumo los tres primeros, de acuerdo con algunas teorías que pesan el valor de los eigenvalores cuando son mayores que 1. Se entregan los datos presentados a continuación. Tabla 5.22 Análisis de componentes principales. Componente Nº Porcentaje de varianza 1 43.42559 2 23.44919 3 13.17392 4 11.38194 Tabla 5.23 Pesos de las variables (1, 1) 0.437572 (1, 2) 0.310988 (2, 1) 0.481731 (2, 2) 0.236017 (3, 1) -0.072008 (3, 2) 0.677547 (4, 1) 0.047276 (4, 2) –0.109740 (5, 1) -0.303001 (5, 2) –0.046646 (6, 1) 0.446151 (6, 2) –0.048366 (7, 1) –0.238585 (7, 2) 0.593362 (8, 1) 6.75956E-4 (8, 2) –0.140982
(1, (2, (3, (4, (5, (6, (7, (8,
3) 3) 3) 3) 3) 3) 3) 3)
Porcentaje Acumulado 43.42559 66.87478 80.04870 91.43064
8.38349E-3 –0.073647 0.234202 0.177136 –0.010012 –0.082402 8.29787E-3 0.949378
(1, (2, (3, (4, (5, (6, (7, (8,
4) 4) 4) 4) 4) 4) 4) 4)
0.307953 0.056272 0.208778 0.039234 0.852864 0.017829 –0.356767 –0.043518
181
5. Componentes Principales C.P.
5.15 Algunas propiedades de
Tabla 5.24 Pesos de los componentes (1, 1) 1.47175 (1, 2) –0.661298 (2, 1) 0.66349 (2, 2) –0.60761 (3, 1) –2.11673 (3, 2) 3.42781 (4, 1) –1.11768 (4, 2) –1.13829 (5, 1) 3.02314 (5, 2) 0.26966 (6, 1) –0.53035 (6, 2) –1.58659 (7, 1) 2.00294 (7, 2) 0.285533 (8, 1) –2.72446 (8, 2) –0.072070 (9, 1) –0.791723 (9, 2) –1.719030 (10, 1) –0.803009 (10, 2) 1.10217 (11, 1) –0.221955 (11, 2) 0.0748914 (12, 1) 2.86593 (12, 2) 1.21013 (13, 1) –1.72134 (13, 2) –0.585308
λi y ei para ...
(1, 3) –0.286278 (2, 3) 3.166310 (3, 3) –0.019807 (4, 3) 0.575303 (5, 3) –0.519559 (6, 3) –0.772768 (7, 3) –0.3744675 (8, 3) –0.300644 (9, 3) –0.502406 (10, 3) –0.0356613 (11, 3) –0.437471 (12, 3) –0.144441 (13, 3) 0.802709
npo r
0.55 prpes 0.45
nbo vi
0.25
hpa s
0.0 hbo s nave -0.31
neq u
ncol
-0.15 -0.11
0.0
0.20
0.40
C om pone nte prin cipal 1
Figura 5.11 Gráfica de los dos primeros componentes principales ponderados. El primer componente principal se puede escribir como
Y1 = 0.4375 * nbovi + 0.4817 * hpas − 0.072 * npor + 0.4728 * nequ − 0.303 * nave + 0.4462 * hbos − 0.2386 * prpes + 0.0000675 * ncol Parece medir un factor único relacionado con la magnitud de las actividades pecuarias, por mostrar un equilibrio entre las variables nbovi, hpas, nequ en contraste con otras menores como las porcícolas, aves y peces npor, nave, y nprpes. La Figura 5.11, muestra, por la distancia desde el origen la importancia de las variables, y se aprecia el poco efecto de npor y ncol. El segundo componente principal, escrito como:
182
5. Componentes Principales C.P.
5.15 Algunas propiedades de
λi y ei para ...
Y2 = 0.311 * nbovi + 0.236 * hpas − 0.678 * npor + 0.1097 * nequ − 0.646 * nave − 0.0484 * hbos − 0.593 * prpes + 0.14175 * ncol da énfasis a la actividad porcícola y a la producción de peces, en un contraste general contra las demás variable. Sin profundizar en la teoría sustentatoria, la importancia de las variables es directamente proporcional a su longitud vectorial, o la longitud de cada vector es proporcional a su contribución a los componentes principales. Así mismo, el ángulo entre dos variables es inversamente proporcional a la correlación entre ellas. En el gráfico de la Figura 5.12 llamada biplot se observan algunos de estos aspectos importantes del comportamiento entre las variables. Ejemplo, la alta correlación entre número de equinos y hectáreas de bosques, similar caso para número de bovinos y hectáreas en pastos, casi nula correlación entre estas y las actividades porcícolas, que deben depender de otras, concentrados, medicamentos, etc. y la producción de peces, de seguro solo medida como actividad artificial. npo r prpes
3.2
2.2
nbo vi hpa s
1.2
0.20 nave
hbo s neq u
ncol
-0.15
-1.0 -2.5
-1.5
-0.5
0.20
1.2
2.2
3.2
C om pone nte prin cipal 1
Figura 5.12 Colocación de los distintos centros regionales de acuerdo con los scores alcanzados por los vectores que los representan. La Figura 5.13 permite observar la colocación de los distintos centros regionales, de acuerdo con los scores alcanzados por los vectores que los representan.
183
5. Componentes Principales C.P.
5.15 Algunas propiedades de
λi y ei para ...
3.5 C auca sia A partadó 2.5 1.5
P uerto B errío
0.5
A ndes
A m alfi
Yarum al Fro ntino S anta R osa A ntioquia
-0.5
-1.5 -1.5
-0.5
0.5
Tá m e sis
1.5
2.5
R io negro
3.5
C om pon ente principal 1
Figura 5.13 Gráfica de las dos primeras componentes principales para los datos del inventario pecuario. De acuerdo con esta gráfica, se apartan notable y positivamente Támesis y Rionegro, y Caucasia no tanto pero negativamente, los otros centros regionales parecen presentar un equilibrio con respecto a la componente 1. Con respecto a la componente 2, se apartan positivamente Caucasia y Apartado y negativamente pero en menor escala, San Carlos y Antioquia. Ello sugiere un análisis más profundo de las variables, para establecer el origen de las diferencias. Es de notar que no siempre es posible dar algunas interpretaciones con los datos estandarizados, aunque se piensa que con los datos trabajados, fue posible hacerlo. Por ultimo se presenta el A.C.P. sin estandarizar, pero las diferencias de magnitud de las variables, parecen hacerlo poco recomendable para el caso Tabla Análisis de componentes principales. Componente Nº 1 2 3 4 5 6 7 8
184
Porcentaje de varianza 83.17048 12.50185 3.86706 0.36436 0.08344 0.01261 0.00022 0.00000
Porcentaje acumulado 83.17048 95.67232 99.53938 99.90374 99.98718 99.99978 100.00000 100.00000
5. Componentes Principales C.P.
Ejercicios de repaso
En este caso con solo dos componentes principales es posible asumir una explicación de la variabilidad de casi el 96 %. No se insiste en el análisis por las diferencias manifiestas expresadas entre variables. Ejercicios de repaso 1) Determine los C.P. poblacionales CP1 y CP2 para la matriz de covarianzas 5 2 Σ = 2 2 y calcule la proporción de la varianza total poblacional explicada por el primer componente principal. 2) Convierta la matriz Σ de 1) a una ρ y a. Determine los componentes principales de ρ y las proporciones explicadas. b. Compare los componentes principales con los obtenidos en 1), son iguales? Podrán serlo?. c. Calcule las ρYi ,Ζk y concluya algo de ello
8 0 0 3) Sea una matriz Σ = 0 4 0 0 0 4 a. Determine los componentes principales. Que podría decir usted de los eigenvectores y λ s asociados con los valores propios que no son distintos?. 4) Encuentre los componentes principales y la proporción de la varianza total explicada por cada uno de ellos cuando
σ 2 σ 2ρ 0 2 2 Σ = σ ρ σ σ 2ρ , 0 σ 2ρ σ 2
si −
1 1 1 (en valor absoluto),
= 1.323 resulta muy grande. Además de lo anterior 1 =
permite encontrar ψ 1 = 1 −
2 11
2 11
+ ψ1
= −0.323 que es negativo, o sea Var (ε1 ) = ψ 1
resulta negativa. En este caso para m = 1 a pesar de encontrar una solución numérica para Σ = LL ′ + Ψ , esta no es consistente estadísticamente y por lo tanto no es satisfactoria.
6.1.3 Ambigüedad inherente en un A.D.F. Cuando m > 1 se da siempre algún grado de ambigüedad (inherente) asociado con este modelo. Para verlo sea Τ m * m tal que ΤΤ = Τ ′ Τ = Ι ⇒
Χ − µ = LF + ε = LΤΤ ′F + ε = L* F * + ε ecuación 6.16
o
sea
que
( )=
Cov F *
resulta
una
L* = LΤ
y
F * = Τ ′F ⇒ Ε (F * ) = Τ ′Ε (F ) = 0 .
Τ ′Cov (F )Τ = Τ ′Τ = Ι m * m , en cuyo caso no sería posible distinguir
la diferencia entre los pesos L y L* ya que los factores F y F * tendrían las mismas propiedades estadísticas a pesar de que L* será en general diferente de L pero generan la misma estructura de covarianzas Σ , o sea
′ Σ = LL ′ + Ψ = LΤΤ ′L ′ + Ψ = (L* )(L* ) + Ψ , lo que es una ambigüedad.
Lo anterior da las bases para el proceso conocido como Factores rotados, rotación del factor, etc. Ya que una matriz ortogonal propicia algunas rotaciones y reflexiones del sistema de coordenadas de Χ como ya se vio. Los factores y sus pesos L se determinan con base en una matriz ortogonal Τ de forma que L* = LΤ y L tengan la misma representación. Las comunalidades dadas por los
193
6. Análisis de factores e inferencias para matrices
( )(L )′ .
elementos diagonales de LL ′ = L* escogencia de Τ .
*
6.2 Métodos de estimación
tampoco quedarán afectadas por la
En resumen: el modelo A.D.F. arranca imponiendo unas condiciones que conduzcan a unos estimados únicos de L y Ψ . la matriz de pesos es rotada (al multiplicarla por una matriz ortogonal, de acuerdo con algún criterio más fácil de interpretar. Una vez se encuentren los pesos y variaciones especificas, se identifican los factores, y, los valores estimados para ellos llamados ¨puntajes de los factores¨ permiten construirlos de nuevo, graficarlos e interpretarlos.
6.2 Métodos de estimación Para unas observaciones X 1, X 2 ,…, Xn de p variables generalmente correlacionadas el A.D.F. busca responder si el modelo que el propone con un pequeño número de factores, puede representar adecuadamente los datos, o si es capaz de acomodarse a la estructura de covarianzas. Ya se sabe que S es un estimador de la desconocida Σ . Si los elementos por fuera de la diagonal principal son pequeños, o los equivalentes en la matriz R esencialmente ≈ 0 , se tiene un indicio de la impotencia del A.D.F., ya que son los factores específicos los que juegan el papel dominante. Si Σ parece alejarse significativamente de una matriz diagonal se puede intentar un A.D.F., y el problema será estimar los ij y las ψ i . Para ello se proponen varios métodos, de los cuales el A.D.F. con base en A.C.P. y A.D.F. con máxima verosimilitud son los más populares, y además, suceptibles de rotación para simplificar la interpretación de los factores. NOTA. A veces es prudente intentar más de un método de solución A.D.F. Si son apropiados, las soluciones deberán ser consistentes entre si. El A.D.F. requiere grandes posibilidades informáticas ya que puede necesitar muchas iteraciones de solución.
6.3 A.D.F con A.C.P. Se basa en la descomposición espectral. Sea Σ descompuesta espectralmente:
Σ = λ1e1e1′ + λ1e2 e2′ + … + λ p e p e′p , presentada en particiones como:
194
6. Análisis de factores e inferencias para matrices
λ1 e1
λ2 e2
6.3 A.D.F con A.C.P.
λ1 e1′ λ e′ 2 2 λp e p λp e′p
…
ecuación 6.17
con ello se ajusta la prescrita Σ con un A.D.F. teniendo tantos factores como variables, o sea m = p y ψ i = 0 para todo i . La matriz de pesos tiene su jλ j e j , por ello:
ésima columna dada por
Σ p* p =
L′ +
L
p* p p* p
0
p* p
= LL ′
ecuación 6.18
Aparte de
λ j que es un factor de escala, los pesos de los factores en el jésimo
factor son los coeficientes para la población del jésimo C.P. con lo que la representación de Σ resulta exacta. Pero esto no es particularmente útil evidentemente, ya que buscamos m < p . Se buscará entonces como en el A.C.P. eliminar los p − m componentes cuyos λ sean pequeños, o sea que se ignorarán
′ 1 + … + λp e p e′p , con lo cual se llega a la aproximación: λm +1em + 1em+
Σ =
[λe 1
1
λ m em
…
]
λ 1 e 1′ = λ e′ m m
′ *p L Lm
p* m
ecuación 6.19
que ignora los factores específicos
ε, i
pero que pueden retomarse de Σ − LL ′
permitiendo ⇒ Σ = LL ′ + Ψ en que ψ i = σ ii −
∑
2 ij
; i = 1, 2 , … , p .
Para aplicar esta aproximación al conjunto de datos X 1, X 2 ,…, Xn acostumbra centrar las observaciones con respecto a la media, o sea:
se
195
6. Análisis de factores e inferencias para matrices
Χj
x 1j x1 x 1j x x x 2j 2 2j = − − Χ = … … x pj x pj x pj
6.4 Solución en C.P. de un A.D.F...
− x1 − x2 ; … − xp
j = 1, 2 … , n
ecuación 6.20
que tiene la misma matiz de covarianzas S de las variables originales. Si además de lo anterior son desproporcionadas las unidades de medición en las diversas variables se acude a valores Ζ j ; j = 1, 2 ,… , n ya conocidos, en cuyo caso la matriz de covarianzas muestrales coincide con R . La solución Σ = LL ′ + Ψ aplicada a S o a R se conoce como solución en componentes principales de un A.D.F.. El nombre radica en que los “pesos” de los factores son los coeficientes escalados de los primeros componentes principales.
6.4 Solución en C.P. de un A.D.F. (Resumen) El A.C.P. de un A.D.F. de una matriz de covarianzas S queda especificado en ˆ ,ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ términos de sus λ 1 e 1 , λ 2 , e 2 , … , λ p , e p en que λ 1 ≥ λ 2 ≥ … ≥ λ p .
(
)(
)
(
)
Haciendo m < p al número de factores comunes, la matriz de pesos estimados esta dada por ij
{ }
~ ˆ e ˆ L = λ 1 1
ˆ ˆ λ 2 e2
ˆ ˆ λ m em
ecuación 6.21
Las varianzas especificas se obtienen de los elementos de la diagonal de la matriz ~~ S − LL ′ , tales que ~ 0 ψ 1 0 ψ ~ ~ 2 Ψ = 0 0
… …
0 0 ~ = s − en que ψ i ii ˆ p … ψ ecuación 6.22
su comunalidad se estimará como: ~ ~ ~ ~2 h i2 = i21 + i22 + … + im ecuación 6.23
196
m
∑
j =1
~2 ij
6. Análisis de factores e inferencias para matrices
6.4 Solución en C.P. de un A.D.F...
Para esta solución A.C.P. de A.D.F. los pesos estimados de los factores para un factor dado no cambian aunque se incremente el número de ellos. Ejemplo si ~ ~ ˆ ˆ ˆ ˆ ˆ e ˆ ˆ ˆ ˆ ˆ ; si m = 2 , L m = 1, L = λ λ = λ λ e 1 e1 , λ 2 e 2 2 e 2 en que 1 1 1 1 son los dos primeros valores y vectores propios de S (o de R ).
(
)(
)
~ los elementos de la diagonal de S son iguales a los de la Por definición de ψ i ~~ diagonal de LL ′ + Ψ , pero vimos que los elementos por fuera de la diagonal de ~~ S no son usualmente reproducidos por LL ′ + Ψ . Como seleccionar entonces m ?. Si no se tienen consideraciones de antemano, por teoría o investigaciones previas, se acude a lo visto en el A.C.P. Considérese la matriz residual
(
)
~~ S − LL ′ + Ψ ecuación 6.24
como resultado de la aproximación de S por una solución en A.C.P. Sí los elementos de la diagonal son 0, y los otros elementos resultan bastante pequeños, subjetivamente podemos pensar en un A.D.F. con m factores. Analíticamente se tiene:
(
(
~~ Suma de cuadrados de S − LL ′ + Ψ
)) ≤
ˆ2 ˆ2 ˆ2 λ m +1 + λm + 2 … + λ p
ecuación 6.25
como se preconizó en la solución mínimo cuadrática de la S.V.D. y de los A.C.P. Consecuentemente un pequeño valor para la suma de cuadrados de los autovalores (λ ) ignorados, implica un pequeño valor para la suma de errores cuadrados de la aproximación propuesta. Por lo menos idealmente, la contribución de algunos pocos de los primeros C.P. es usualmente (o se espera esto) grande. La contribución a la varianza muestral, sii del primer factor común ~2 es La contribución de la varianza muestral total i1 . s 11 + s 22 + … + s pp = tr (S ) . Entonces 2 11
+
2 21
+…+
2 p1
=
(
λˆ1eˆ1
′
)(
)
λˆ1eˆ1 = λˆ1
ecuación 6.26
para el primer factor común, ya que eˆi tiene longitud 1. En general entonces: ˆ λ j para un A.D.F. de S Proporción de la varianza total s + s 22 … + s pp = 11 ˆ muestral debida al jesimo factor λj para un A.D.F. de R p ecuación 6.27
197
6. Análisis de factores e inferencias para matrices
6.4 Solución en C.P. de un A.D.F...
este criterio es un artificio investigativo para determinar el manejo de factores comunes que se desea retener en el modelo, de acuerdo con lo proporción de la variación total que se acepte como bien estimada por ellos. Se dan otros criterios convencionales, que incluso se acogen en muchos paquetes estadísticos como hacer m igual al número de valores propios (λ ) de R que sean mayores de 1 si es factorada la matriz de correlaciones, o igual al número de λ positivos de S si lo factorado (A.D.F.) es la estructura cruda de covarianzas muestrales. Lógicamente debe ser discrecional una de tales reglas. La mejor aproximación sería retener tantos factores, pocos naturalmente, que al fuero del investigador le permitan explicaciones satisfactorias del ajuste de S o de R , porque si lo factorado es S siempre tiene p λ positivos y no es lo que se desea. Ejemplo 6.3 Una investigación diseñada por una Oficina de Espacio Territorial hizo una encuesta, por medio de la cual encontró que las características más consideradas por los habitantes para la adquisición de predios eran: el paisaje, el costo de la tierra, la calidad del suelo, ubicación y productividad. Al procesar la información se encontró los siguientes resultados que se procesaron como una matriz de correlaciones: Tabla 6.1 Matriz de correlaciones para las características más consideradas en la adquisición de tierras. Característica Paisaje Costo de Calidad del Ubicación Productividad la tierra suelo Paisaje 1.00 0.03 0.97 0.39 0.02 Costo de la tierra 0.03 1.00 0.11 0.74 0.87 Calidad del suelo 0.97 0.11 1.00 0.28 0.09 Ubicación 0.39 0.74 0.28 1.00 0.81 Productividad 0.02 0.87 0.09 0.81 1.00 Por los valores cruzados de ella pareciera que las características paisaje y calidad del suelo y costo de la tierra y productividad formarán grupos, pero también se observaría que la ubicación se acerca más al segundo grupo. Para detectar si esa aparente relación lineal entre las características se podría explicar en términos de al menos dos factores comunes se corrió un A.F. por medio del A.C.P., Tabla 6.2 Resultados para el análisis del factor para las características más consideradas en la adquisición de tierras Ejemplo 6.3. Porcentaje acumulativo Factor número Eigenvalor Varianza Porcentaje 1 2.78976 55.551 55.551 2 1.85546 36.947 92.498 3 0.259236 5.162 97.660 4 0.117497 2.340 100.000 5 0.00000 0.000 100.000
198
6. Análisis de factores e inferencias para matrices
6.4 Solución en C.P. de un A.D.F...
dando como resultado dos eigenvalores > 1, por lo cual se cree que con dos factores a los sumo; m = 2 podrían satisfacer las espectativas generadas ya que
λˆ1 + λˆ2 2.79 + 1.86 = = 0.93 de la varianza total estandarizada. 5 5
Tabla 6.3 Pesos de los factores, comunalidades y varianzas especificas para las características más consideradas en la adquisición de tierras. Varianzas Características Pesos de los factores estimados Comunalidades 2 específicas ˆ ˆ ˆˆ h
lij = λï eij
Paisaje Costo de la tierra Calidad del suelo Ubicación Productividad Eigenvalores Proporción de la varianza total acumulada
i
ψ i = 1 − hˆi2
F1
F2
0.50 0.84
-0.86 0.43
0.99 0.89
0.01 0.11
0.51
-0.84
0.97
0.03
0.92 0.86 2.79 0.556
0.13 0.45 1.86 0.925
0.86 0.94
0.14 0.06
Por lo anterior
0.50 0.84 LL′ + Ψ = 0.51 0.92 0.85
−0.87 0.10 0.00 0.43 0.50 0.84 0.551 0.92 0.85 −0.84 + 0.00 −0.87 0.43 −0.84 0.13 0.45 0.13 0.00 0.45 0.00 1.1069 0.0459 0.9858 0.3469 0.0335
0.0459 1.0005 0.0672 0.8287 0.9075
0.9858 0.0672 0.9957 0.3600 0.0555
0.3469 0.8287 0.3600 1.0033 0.8405
0.00 0.00 0.00 0.00 0.11 0.00 0.00 0.00 0.00 0.03 0.00 0.00 = 0.00 0.00 0.14 0.00 0.00 0.00 0.00 0.06
0.0335 0.9075 0.0555 0.8405 0.9850
Que casi reproduce la R original. Además las comunalidades estimadas 0.99 0.89 0.97 0.86 0.94 indican que dos factores podrían responder por un alto porcentaje de la varianza muestral de cada variable. No se hará interpretación de los factores hasta hacerles una rotación que la facilite o la mejore. 199
6. Análisis de factores e inferencias para matrices
6.4 Solución en C.P. de un A.D.F...
Ejemplo 6.4 Para los datos presentados en el ejemplo de bosques, 5.8, con base en m = 1 y m = 2, con base en los eigenvectores se pueden obtener los factores simplemente multiplicándoles por λi así, el peso del PP1
PP1 = 0.479398 * 3.29826 = 0.8706 , PP2 = −0.631085 * 0.845899 = −0.5804
el ,
etc.
peso Se
en
2 presentan
ambas
soluciones conjuntas Tabla 6.4 Soluciones conjuntas para los factores de varios tipos de bosques. Un factor Dos factores ~ = 1 − h2 ~ = 1 − h2 ˆ ˆ ψ Común ψ i i i i ij ij Variables ~ ~ ψ F1 F2 ψ F1 h i2 i i PP1 0.871 0.242 PP2 0.773 0.402 CIP 0.861 0.259 ROB 0.766 0.414 BNA 0.784 0.385 Prop. Acum. de la var. estándar explicada = 0.660
0.871 0.773 0.861 0.766 0.784
-0.241 0.184 -0.580 0.065 -0.082 0.252 0.481 0.182 0.461 0.172 0.660 + 0.169 = 0.828
0.816 0.934 0.748 0.818 0.829
La proporción de la varianza total explicada por el modelo de 2 factores es mucho mayor que la explicada por un solo factor. Para el caso: LL ′ + Ψ con m = 1 da
1.00000000 0.67300523 R = 0.74964024 0.66665363 0.68280063
0.67300 0.99952978 0.66557041 0.59189049 0.60622666
0.7496 0.6666 0.6828 0.66557041 0.59189094 0.60622 1.00035883 0.65928898 0.675257 0.65928898 1.00030443 0.6005053 0.67525761 0.6005053 1.00005012
LL ′ + Ψ para m = 2 da
1.00038542 0.81323706 R = 0.7695116 0.55046154 0.57140712
0.81323706 0.7695116 0.55046154 0.57140712 0.99942452 0.7133096 0.31274914 0.33861345 0.7133096 1.00012364 0.61973366 0.63733586 0.31274914 0.61973366 0.99959298 0.82224195 0.33861345 0.63733586 0.82224195 0.99962936
La solución con m = 2 produce además una estructura de correlaciones cuyos números son en general mayores que los mostrados para el ejercicio 5.3,
200
6. Análisis de factores e inferencias para matrices
6.5 Modificación aproximada al ...
especialmente γ 13 y γ 15 . Asumiendo el modelo con m = 2 factores se podrían analizar así: F1 se comporta muy parecido al primer C.P. ya analizado, y podría ser llamado “Factor Silvicultural General” todos los pesos de los factores son altos y casi iguales . El segundo factor contrasta los bosques de coníferas con relativos algunos grandes pesos negativos contra los de bosque natural, con más altos valores de ellos y positivos. F 2 podría entonces diferenciar los tipos de bosques de acuerdo a las diferencias entre coníferas y angiospermas y podría ser llamado “Factor Forestal”. Para resumir, los IRAB estudiados parecen determinados por condiciones generales de los bosques y características que son propias y diferencian los tipos de bosques, tanto como las varianzas residuales o factor especifico de cada uno de los estudiados.
6.5 Modificación aproximada al A.D.F de A.C.P. Se describirá para R , pero igual sería para S . Si el A.D.F. ρ = LL ′ + Ψ queda correctamente especificado, los m factores comunes deberían explicar muy bien los elementos por fuera de la diagonal principal de ρ así como las porciones de las comunalidades de la diagonal ρii = 1 = h i2 + ψ i . Si la contribución del factor especifico ψ i fuera removida de la diagonal, o sea, los 1.00 reemplazados por h i2 , resultaría la matriz ρ − Ψ = LL ′ . Supóngase que se tienen unos estimados iniciales ψ *i de las varianzas especificas, entonces reemplazando los iésimos elementos diagonales de R por 2
h i*
= 1 − ψ i2 se tiene una matriz de correlación muestral “reducida”. 2
γ 12
… γ 1p
γ 12
2 h 2*
… γ 2p
γ 1p
γ 2p
… h *p
h 1* Rγ =
2
ecuación 6.28
en la cual, aparte de la variación muestral, todos los elementos de R γ , deberían explicar los m factores comunes. En este caso R γ se sometería a un A.D.F. como
Rγ = L*γ Lγ′ * en que L*γ =
{ } de modo que * ij
ˆ* eˆ* L*γ = λ 1 1
ˆ* eˆ* … λ 2 2
ˆ* eˆ* λ m m
ecuación 6.29
201
6. Análisis de factores e inferencias para matrices
ψ *i = 1 −
m
∑
6.6 Escogencia de las varianzas ...
*2 ij
j =1
ecuación 6.30
(
)
* ˆ* , ˆ en que λ i e i , i = 1, 2 , … , m son los mayores pares de valores y vectores propios determinados de R γ . A su vez las comunalidades deberían reestimarse
como 2
h i*
=
m
∑
*2 ij
j =1
ecuación 6.31
y así podría seguirse evaluando iterativamente con las comunalidades anteriores como las nuevas estimadas para la etapa siguiente. Los λ*i determinarían el número de factores comunes en cada etapa, pero podrían aparecer valores negativos de ellos debido al estimado de las comunalidades.
6.6 Escogencia de las varianzas especificas iniciales estimadas De las muchas posibilidades, una es particularmente popular cuando se trabaja con una matriz de correlación y consiste en hacer ψ *i = 1 γ ii en que γ ii es el iésimo elemento diagonal de R −1 , con lo cual las comunalidades iniciales estimadas serían 2
h i*
= 1 − ψ *i = 1 − 1 γ ii ecuación 6.32
Que es igual al R 2 múltiple entre Χ i y los otros p − 1 variables. Para factorar
S se escogerían las varianzas especificas estimadas como s ii , elementos diagonales de S −1 . Recuerde que un R 2 se puede escribir como 1 − SSE SSTO , asumiendo ψ i* como un error relativo.
202
6. Análisis de factores e inferencias para matrices
6.7 Lectura complementaria
6.7 Lectura complementaria 6.7.1 Función de verosimilitud Suponiendo que X 1, X 2 ,…, Xn es una muestra aleatoria con una función de
distribución de probabilidades f ( Χ, θ ) , en que θ es un parámetro de vectores,
la función de verosimilitud de tal muestra es
L ( Χ, θ ) =
n
∏ f (X , θ ) i
j =1
ecuación 6.33
en
que
→ L (X j , θ ) = f
el
símbolo
( X1, θ ) f ( X 2 , θ )… .
Π
significa
multiplicación
El logaritmo de la función de verosimilitud es
( Χ, θ ) = log L ( Χ, θ ) =
n
∑ log f (x j =1
j
, θ)
ecuación 6.34
Dada una muestra Χ , ambos L ( Χ; θ ) y del parámetro θ . Para el caso especial n
( Χ; θ ) se consideran como funciones = 1, L ( Χ; θ ) = f ( Χ; θ ) y la distinción
entre la función de distribución de probabilidades y la función de verosimilitud debe ser notada: f ( Χ; θ ) se interpreta como una función de distribución de probabilidades para θ fijado y cuando Χ varía, y se interpreta como función de verosimilitud cuando Χ es fijo y θ varía. Ejemplo 6.5 Supóngase que X 1, X 2 ,…, Xn es una muestra aleatoria normal p variada o sea
Χ~N p ( µ , Σ ) ⇒
1) L ( Χ; µ, Σ ) = 2π Σ
−n 2
1 n ′ exp − ∑ (x j − µ ) Σ −1 ( x j − µ ) 2 j =1
ecuación 6.35
203
6. Análisis de factores e inferencias para matrices
( Χ;
2)
µ, Σ ) = log L ( Χ; µ, Σ ) = −
6.7 Lectura complementaria
′ n 1 n log 2π Σ − ∑ (x j − µ ) Σ −1 (x j − µ ) 2 2 j =1
ecuación 6.36
La última ecuación puede simplificarse ya que la identidad
(x
j
′ ′ ′ ′ − µ) Σ−1 (x j − µ) = (x j − x ) Σ−1 (x j − x ) + (x j − µ) Σ−1 ( x − µ) + 2 (x − µ ) Σ−1 (x − µ ) ecuación 6.37
sumada desde i = 1,… , hasta µ hace que el término final a la derecha desaparezca haciendo que
′ ∑ ( x j − µ ) Σ −1 ( x j − µ ) = n
i =1
n
∑ (x i =1
j
′ ′ − x ) Σ −1 ( x j − x ) + n ( x − µ ) Σ −1 ( x − µ )
ecuación 6.38
′
(x − x ) Σ (x − x ) es un escalar, es entonces (x − x ) Σ (x − x ) = tr Σ (x − x )(x
ya que
−1
j
igual a la traza de si mismo,
j
−1
j
−1
j
j
sustituyendo en 3 en la ecuación 6.38:
j
′ − x) .
Sumando sobre i
n ′ ′ (x j − µ ) Σ (x j − µ ) = tr Σ ∑ (x j − x )(x j − x ) + n ( Χ − µ ) Σ −1 ( Χ − µ ) ∑ j =1 j =1 ′
n
−1
−1
ecuación 6.39 n
pero haciendo
∑ (x j =1
j
− x )(x j − x ) = n S
y llevando la ecuación 6.39 a la ecuación 6.36 se tiene:
( Χ;
µ, Σ ) = −
′ n n n log 2π Σ − tr Σ −1S − ( Χ − µ ) Σ −1 ( Χ − µ ) 2 2 2 ecuación 6.40
Para el caso especial en que Σ = Ι y µ = θ ⇒
( Χ; θ ) = −
′ np n n log 2π − tr S − ( Χ − θ ) ( Χ − θ ) 2 2 2 ecuación 6.41
204
y
6. Análisis de factores e inferencias para matrices
6.8 A.D.F. con máxima verosimilitud
6.7.2 Estimaciones máximo verosímiles El caso general dice: un estimado máximo verosímil (E.M.V.) de un parámetro desconocido es el valor del parámetro que maximiza la función de verosimilitud de las funciones dadas. Esto puede hacerse por diferenciación y se encuentra que ( Χ; θ ) es máximo cuando L ( Χ; θ ) lo es ⇒ sería resolver la ecuación δ δθ = 0 ecuación 6.42
6.8 A.D.F. con máxima verosimilitud Si los factores comunes F y los factores específicos ε pueden asumirse como normalmente distribuidos, entonces los estimadores máximo verosímiles de los pesos de los factores y de las varianzas especificas pueden determinarse con cierta facilidad. Cuando F j y ε j son conjuntamente normales, las observaciones
X j − µ = LF j + ε j son normales. La verosimilitud es
L ( µ, Σ ) = (2π )
−
= (2π)
−
(n−1) p 2
Σ
−
(n−1) 2
np 2
Σ
−
n 2
1 n ′ ′ exp − tr Σ−1 ∑ (x j − x )(x j − x ) + n (x − µ )(x − µ ) 2 j =1
p 1 −1 n ′ − −12 n ′ exp− tr Σ ∑(xj − x)(xj − x) *(2π) 2 Σ exp− (x −µ) Σ−1 (x −µ) 2 2 j =1
ecuación 6.43
la cual depende de L y Ψ de acuerdo con Σ = LL ′ + Ψ , no bien definido aun por las múltiples posibilidades de escogencia de L , por las transformaciones ortogonales. Lo deseable es hacer a L bien definido por medio de una condición de singularidad, que es atractiva computacionalmente:
L ′ Ψ −1L = ∆; matriz diagonal . ecuación 6.44
ˆ y Ψ ˆ se deben obtener por maximización Los estimados máximo verosímiles de L numérica de la ecuación 6.43, que es facilitada con las técnicas de computación actual.
205
6. Análisis de factores e inferencias para matrices
6.9 Resumen de estimadores M.V. ...
6.9 Resumen de estimadores M.V. de un A.D.F. RESULTADO. Sea X 1, X 2 ,…, Xn una muestra aleatoria de una población N p (µ, Σ ) en que Σ = LL ′ + Ψ es la matriz de covarianzas para los m factores comunes del ˆ, Ψ y µ ˆ = Χ maximizan modelo ya expresado en la ecuación 6.5. Los E.M.V. L ˆ ′Ψ ˆ −1L sea una matriz diagonal. Los E.M.V. de la ecuación 6.43 sujetos a que L las comunalidades son: hˆi2 = ˆ 2i 1 + ˆ 2i 2 + … + ˆ 2im para i = 1, 2 , … , p . ecuación 6.45
de tal manera que
(la proporcion de la varianza total muestral debida al j - factor ) =
ˆ12j + ˆ22 j + … + ˆ2pj s11 + s22 + …spp
ecuación 6.46
ello se probaría por una propiedad de la varianza de los E.M.V., por la cual las ˆ y Ψ ˆ . En funciones de L y Ψ se estiman por las mismas funciones de L 2 2 2 2 particular entonces las comunalidades h i = i 1 + i 2 + … + im tienen como E.M.V. a hˆi2 = ˆ 2i 1 + ˆ 2i 2 + … + ˆ 2im ecuación 6.47
Lo mismo sucede cuando es preciso estandarizar las variables, para lo cual es preciso hacer algunas modificaciones que escapan a nuestro alcance. A pesar de ello ya se sabe que las variables estandarizadas Ζ = V −1 2 ( Χ − µ ) tienen a
(
)(
ρ = V − 1 2 ΣV − 1 2 = V − 1 2 L V − 1 2 L
(
ˆΖL ˆ Ζ′ + Ψ ˆΖ = V ˆ −1 2L ˆ cual ρˆ = L −1 2
)′
)( Vˆ
(
)
+ V − 1 2 ΨV − 1 2 , en que L Ζ = V − 1 2 L , por lo
−1 2
′ ˆ −1 2 y L ˆ +V ˆ −1 2 ΨV ˆ − 1 2 , en que V ˆ son los L
)
E.M.V. de V y L . De todos modos es preciso acudir a programas sólidos de computo para este A.D.F. Ejemplo 6.6 Se compararán los E.M.V para el ejemplo 6.4, estimando las matrices residuales correspondientes al efectuado con A.D.F con base en A.C.P Para el ejemplo situado se calcula la matriz de residuales correspondiente a la solución con m = 2 de :
206
6. Análisis de factores e inferencias para matrices
6.9 Resumen de estimadores M.V. ...
−0.000 −0.054 −0.138 0.040 −0.038 −0.054 0.000 −0.045 0.022 0.024 R − LL ′ Ψ = −0.138 −0.045 −0.000 −0.080 −0.000 (1) 0.040 0.022 −0.080 0.000 −0.156 −0.038 0.024 −0.000 −0.156 0.000 En seguida se presenta el A.D.F. con E.M.V. estimadas fueron
Las comunalidades finales
Tabla 6.5 Comunalidades finales estimadas para el ejemplo de varios tipos de bosque. 1 2 3 4 5 0.719 1.000 0.656 0.671 0.694 Para los dos factores extractados se tiene Tabla 6.6 Resultados para los factores considerados en el ejemplo de los tipos de bosque. PP1 PP2 CIP ROB BNA
F1
F2
0.759 1.000 0.668 0.334 0.362
0.377 -0.000 0.458 0.748 0.750
La varianza explicada por los factores, fue de 2.27 para el F1 y 1.47 para el F2 , o sea del 74.8%. Con base en la información anterior se construyó
−0.0000 0.000 R − LL ′ Ψ = −0.048 0.055 −0.024
0.000 −0.048 0.055 −0.024 0.000 0.000 0.000 0.000 0.000 0.000 −0.026 0.047 (2) 0.000 −0.026 0.000 −0.016 0.000 −0.052 −0.016 0.000
como se aprecia (2 ) < (1) por lo cual se deberían preferir los E.M.V. La proporción acumulativa de la varianza total muestral explicada es mayor en el A.D.F. con A.C.P. que con M.V., lo que no es sorprendente, y este criterio siempre favorecerá el A.C.P., ya que los C.P. tienen por diseño varianza optimizada. El análisis de F1 es similar al ya enunciado en A.C.P. La interpretación del segundo factor ya no es tan clara como para el A.C.P. Sigue habiendo un contraste entre los bosques naturales que tienen altos aunque parecidos pesos, así las magnitudes sean pequeñas en algunos casos, pero se intuye además una
207
6. Análisis de factores e inferencias para matrices
6.9 Resumen de estimadores M.V. ...
comparación entre PP1 y PP2 por la presencia del signo menos en PP2 quizás a causa de una menor edad. Este segundo factor podría ser también de tipos de bosques entre naturales y plantados. Ejemplo 6.7 Linden, presentado por (Johnson y Wichern, 1988) hizo un A.D.F. de los puntajes de las decatlones olímpicas a partir de la II guerra mundial con base en 160 partidas completas, hechas por 139 atletas, (incluso algunos que repitieron olimpíadas). Esos puntajes fueron estandarizados y la matriz R analizada con A.D.F. (C.P. y M.V.), esta última mostró que las distribuciones de los puntajes estandarizados eran normales o aproximadamente normales para cada una de las 10 pruebas en cada decatlón. La matriz de correlación muestral basada en n = 160 dió: 1.00 0.59 0.35 0.34 1.00 0.42 0.51 1.00 0.38 1.00 R =
0.63 0.49 0.19 0.29 1.00
0.40 0.52 0.36 0.46 0.34 1.00
0.28 0.31 0.73 0.27 0.17 0.32 1.00
0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00
0.11 0.21 0.44 0.17 0.13 0.18 0.34 0.24 1.00
− 0.07 0.09 − 0.08 0.18 0.39 0.00 − 0.02 0.17 − 0.00 1.00
Con base en el A.C.P. se consideraron importantes los 4 primeros C.P. ya que sus λ fueron: 3.78, 1.62, 1.11 y 0.91 para R , lo que hizo pensar en m = 3 , o m = 4 . Al analizar con ambos métodos se encuentran algunas diferencias. Tabla 6.7 Pesos estimados de los factores y varianzas esperadas por C.P y M.V. Pesos estimados de F ij Var esp Variables Ψ = 1 − hˆi2 F1 F2 F3 F4 1. 100 m libres 2. Salto largo 3. Lanzamiento de bala 4. Salto alto 5. 400 m libres 6. 100 m con vallas 7. Lanzamiento de disco 8. Lanzamiento con garrocha 9. Lanzamiento de jabalina 10. 1500 m libres Proporción acumulada de la variación total explicada
208
0.691 0.789 0.702 0.674 0.620 0.687 0.621 0.538 0.434 0.147 0.380
0.217 0.184 -0.535 0.134 0.551 0.042 -0.521 0.087 -0.439 0.596 0.530
-0.520 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658 0.640
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.440 -0.235 -0.279 0.730
0.16 0.30 0.19 0.35 0.13 0.38 0.28 0.34 0.43 0.11
6. Análisis de factores e inferencias para matrices
6.9 Resumen de estimadores M.V. ...
Para este A.D.F., el F1 muestra pesos positivos y relativamente altos en todas las pruebas, excepto para los 1500 m libres. Este factor podría denominarse “habilidad atlética general”. El segundo F 2 , muestra pesos altos negativos en bala, disco y jabalina, altos positivos en 400 y 1500 libres. Este es un factor que mide fortaleza de lanzamiento y de carrera o “Fortaleza muscular”. El F 3 prácticamente contrasta las pruebas de los 100m libres con la dureza de los 1500 m libres o, o sea de “velocidad y resistencia”. El F 4 ¿debe ser interpretado por un atleta, aunque contrasta con 100, bala, 400m, disco, jabalina y 1500 m (negativos) contra salto alto, vallas y garrocha, o sea un contraste entre otras habilidades o características atléticas, resistencia contra habilidad para saltar por ejemplo. Tabla 6.8 A.D.F. con M.V. Variables 1. 100 m libres 2. Salto largo 3. Lanzamiento de bala 4. Salto alto 5. 400 m libres 6. 100 m con vallas 7. Lanzamiento de disco 8. Lanzamiento con garrocha 9. Lanzamiento de jabalina 10. 1500 m libres Acumulado
F1 -0.090 0.065 -0.139 0.156 0.376 -0.021 -0.063 0.155 -0.026 0.998 0.120
A.D.F. con E.M.V. F2 F3 0.341 0.433 0.990 0.406 0.245 0.361 0.728 0.264 0.441 0.059 0.370
0.830 0.595 0.000 0.336 0.671 0.425 0.030 0.229 -0.010 0.000 0.550
F4 -0.169 0.295 0.000 0.445 -0.137 0.388 0.019 0.394 0.098 0.000 0.610
ˆi ψ 0.16 0.38 0.00 0.50 0.33 0.54 0.46 0.70 0.80 0.00
El F1 solo presenta un muy alto valor para el peso de 1500 metros libres, privilegiando la “resistencia al correr”. El F 2 privilegia lanzamiento de bala y disco, como un factor de fortaleza. El F 3 tiene altos pesos en 100 y 400 metros libres (con relativamente altos en salto largo 100 con vallas) que pueden deberse a la “velocidad”. El F 4 parecerá privilegiar pruebas que exigen una larga “zancada”. Los altos valores de las varianzas especificas como el lanzamiento de la jabalina, y el salto con garrocha, y aun las vallas es posible que requieran de ciertas habilidades especiales “mayor atención y concentración, etc.”. Al encontrar las ~~ matrices residuales R − LL ′ − Ψ en ambos casos, aunque el M.V.E. muestra menos explicación acumulada, sus matrices residuales son mucho menores y hace pensar que con el se reproduce mejor la R que con el A.D.F. con C.P.
209
6. Análisis de factores e inferencias para matrices
6.10 Pruebas para seleccionar el ...
6.10 Pruebas para seleccionar el número de factores Si se asumen distribuciones Ν p (normales p -variadas), se pueden intentar algunas inferencias para el número de factores por interpretar. plantearan las hipótesis
Para ello se
ˆ = LL ˆ ˆ′ + Ψ ˆ Η0 = Σ ˆ ˆ′ + Ψ ˆ Η a = otra matriz LL con m factores comunes. Cuando Σ no tiene formas especiales, se sabe que el máximo de la función de ˆ = n − 1 S = S , aparece un resultado digno de verosimilitud, usando Σ n n ˆ resulta proporcional a S − n 2 exp − np , que eliminando pasos lleva resaltar: Σ n 2 a que la razón estadística de verosimilitud para verificar Η 0 se puede dar por:
ˆ Σ −2 ln Sn
−n 2
{ (
)
ˆ −1Sn − p + n tr Σ
}
ecuación 6.48
{
}
1 (p − m )2 − p − m grados de libertad. Se podría 2 ˆ −1 S ˆ = LL ˆ ˆ′ + Ψ ˆ como estimador − p = 0 cuando Σ ver que la traza tr Σ n para una χ 2 con v − v 0 =
(
)
ˆ = LL ˆ ˆ′ + Ψ ˆ . Para ello Bartlet propone una corrección que máximo verosímil de Σ permite rechazar Η 0 a un nivel de significación si ˆ ˆ′ + Ψ ˆ LL
(n − 1 − (2 p + 4m + 5 6)) * ln
Sn
> χ 2
2
( p − m ) − p − m 2 (α )
ecuación 6.49
siempre y cuando n y n − p sean grandes. Además por los grados de libertad de 1 la χ 2 que deben ser positivos, ⇒ m < 2p + 1 − 8p + 1 . 2
(
210
)
6. Análisis de factores e inferencias para matrices
6.10 Pruebas para seleccionar el ...
Ejemplo 6.8 usando el A.D.F. con M.V. del ejemplo 5.8 sugirió que con m = 2 factores se tenia una solución adecuada. Se verificará la hipótesis H 0 : Σ = LL ′ + Ψ
con m = 2, α = 0.05
la prueba se basa en los determinantes comparados ˆ Σ Sn
ˆ 2L ˆ 2′ + Ψ ˆ2 L R
=
=
ˆL ˆ′ + Ψ ˆ L Sn
o también como:
0.99921 0.759 0.679678 0.535502 0.557508
ˆ Σ Sn
=
ˆ L ˆ ˆ L 2 ′2 + Ψ 2 R
⇒
0.759 1.000 0.668 0.334 0.362
1.000 0.7593 0.6314 0.5906 0.5332
0.679678 0.535502 0.557508 0.668 0.334 0.362 0.999988 0.565696 0.585316 0.565696 1.00006 0.681908 0.585316 0.681908 0.999544 = 0.7593 0.6314 0.5906 0.5332 1.000 0.6682 0.3345 0.3622 0.6682 1.000 0.5396 0.6327 0.3345 0.5396 1.000 0.6661 0.3622 0.6367 0.6661 1.000
ˆ 2L ˆ ′2 + Ψ ˆ 2 = 0.05502639 Det L = 1.0878862 Det R = 0.05058102 ˆ ˆ′ + Ψ ˆ LL 2 p + 4m + 5 usando la corrección de Bartlett n − 1 − * ln 6 Sn (2 * 5 + 4 * 2 + 5 ) = 24 − 1 − ln (1.0887 ) = 1.614 6
{
}
{
}
1 1 (p − m )2 − p − m = (5 − 2)2 − 5 − 2 = 1, el valor critico al nivel 2 2 α = 0.05 de la χ 2 = 3,84 , no es excedido por lo cual no se rechaza Η 0 . Se concluye que los datos no contradicen el modelo con 2 factores, en efecto el nivel
ya que
de significación observado P χ 2 > 1.11 = 0.2039 implica que Η 0 no debiera rechazarse a un nivel razonable.
211
6. Análisis de factores e inferencias para matrices
6.11
6.11 Rotaciones de los factores
Rotaciones de los factores
Por lo expresado en 6.2, todos los pesos de los factores obtenidos de unos pesos iniciales por una transformación ortogonal, tienen la misma habilidad de reproducir Σ o R . Además ello equivale a una rotación rígida de los ejes coordenados, como se vio con la matriz Α ortogonal. Por lo anterior una transformación ortogonal de los pesos de los factores y la trasformación implícita de ellos es llamada rotación de factores. Sea ˆ* = L ˆΤ con Τ ′Τ = Ι ⇒ L ˆL ˆ′ + Ψ ˆ = L ˆ* L ˆ*´ + Ψ ˆ L ecuación 6.50
Ello indica que las matrices residuales: ˆL ˆ′ + Ψ ˆ = S − L ˆ* L ˆ*´ + Ψ ˆ (o sea no cambian) Sn − L n ecuación 6.51
ˆ i y las comunalidades hˆi2 permanecen y que además las varianzas especificas ψ
inalteradas, por lo cual no importa si usamos L o L* . Como a veces los pesos originales pueden no ser interpretables realmente, se practica una serie de rotaciones hasta obtener ¨la estructura más simple posible¨. Idealmente sería buscar patrones de peso de tal forma que pesos altos en un factor los tuviera bajos y moderados en los demás. Esto no siempre se logra. Se intentará mostrar una rotación gráficamente y analíticamente para ver intuitivamente lo deseado. Cuando m = 2 , se consideran ambos factores al tiempo. Los factores comunes incorrelacionados se mirarán como vectores unitarios a lo largo de ejes perpendiculares. Una gráfica de las parejas ( i1, i2 ) produce p puntos, cada uno correspondiendo a una variable. Se produce un ángulo θ y los nuevos ejes rotados corresponden a los nuevos pesos de los factores rotados *ij determinados de las siguientes relaciones
ˆ* L p* 2 = L ′ Τ 2 * 2 p* 2
cosθ senθ Τ = − senθ cosθ en que cosθ − senθ Τ = senθ cosθ
(caso analizado ya).
ecuación 6.52
Cuando, m > 2 tales orientaciones no son apreciables fácilmente. Un ejemplo aclarará estos conceptos. Sea una matriz de correlación muestral de las calificaciones de 220 estudiantes en 6 áreas del conocimiento.
212
6. Análisis de factores e inferencias para matrices
Socio 1.000 0.439 0.410 R = 0.288 0.329 0.248
Antro 0.439 1.000 0.351 0.354 0.320 0.329
Histo 0.410 0.351 1.000 0.164 0.190 0.181
6.11 Rotaciones de los factores
Aritm 0.288 0.354 0.164 1.000 0.595 0.470
Algeb 0.329 0.320 0.190 0.595 1.000 0.464
Geom 0.248 0.329 0.181 0.470 0.464 1.000
La solución del A.D.F. con E.V. para una n = 2 dio Tabla 6.9 Solución del A.D.F con E.V. para una n = 2 Variable
F1
F2
1. Sociología 2. Antropología 3. Historia 4. Aritmética 5. Algebra 6. Geometría
0.553 0.568 0.392 0.740 0.724 0.595
0.429 0.288 0.450 -0.273 -0.211 -0.132
h i2 0.490 0.406 0.356 0.623 0.569 0.372
Todas las variables tienen pesos positivos en F1 . Este factor revela una “inteligencia general” es como una respuesta integral a todas las áreas del conocimiento. El segundo factor contrasta fuertemente las dos áreas (sociales y matemáticas), una con signo + y otras con signo menos (aunque esto es circunstancial), pero se puede ver que los alumnos con calificaciones con notas por encima del promedio en sociales tienen puntajes altos en este factor, alumnos con puntajes altos en las pruebas matemáticas, los tienen bajos en este factor. Podría ser un factor de “aptitud matemática”.
(
)
Los pesos de los factores ˆ i 1,ˆ i 2 se graficaron y se identificaron los puntos obtenidos con el Nº de la variable. Luego se sometió el sistema coordenado a un giro de 20º en sentido de las manecillas de reloj, rígido, de modo que los nuevos ejes pasarán por ˆ 41, ˆ 42 y así tener todos los puntos en el primer cuadrante rotado, los factores rotados muestran pesos positivos y se identifican 2 grupos de variable.
(
)
213
6. Análisis de factores e inferencias para matrices ...
6.12 A.D.F con factor rotado
F 2*
F2 0.5 3
1
20 °
2 F1
1.0
0.5 6 5 4 -0 .5
F 1*
Figura 6.1 Pesos de los factores y representación en un sistema de coordenadas rotado con un ángulo de 20º. Las pruebas de las variables matemáticas pesan fuertemente en F1* y quedan con despreciables valores en F2* . Esto hace que este factor pueda llamarse “habilidad matemática”. Similarmente las 3 variables sociales quedan con grandes pesos en F2* y de moderados a escasos pesos en F1* . Podría llamarse de “aptitud en sociales”. Al rotar se nota que el factor de antes de la rotación se llamo como “inteligencia general” quedo sumergido en F1* y F2* .
6.12
A.D.F con factor rotado
Usando el ángulo de 20º se obtuvo Tabla 6.10 Prueba de factor rotado empleando un ángulo de 20º. Variable Comunalidad F1* F2* 2 h i* = h i2 1. Sociología 0.369 0.594 0.490 2. Antropología 0.433 0.476 0.406 3. Historia 0.211 0.558 0.356 4. Aritmética 0.789 0.001 0.623 5. Algebra 0.752 0.054 0.569 6. Geometría 0.604 0.083 0.372 Los pesos de las variables de las pruebas matemáticas tienen altos pesos en F1* y despreciables en F2* . F1* podría ser un factor de “habilidad matemática”. Por el contrario las sociales tienen altos pesos en F2* y moderados a bajos en F1* . 214
6. Análisis de factores e inferencias para matrices
6.13 Criterio de transformación de ...
F2* podría ser un factor de “habilidad sociológica o humanística”. La tabla refleja lo observado en el gráfico. Las comunalidades permanecen inalteradas a pesar de la rotación. Existen también transformaciones oblicuas, por ejemplo unos ejes que pasarán por los grupos formados por (1, 2 , 3 ) y (4, 5 , 6 ) , no rígidas o de ejes no perpendiculares entre sí.
6.13 Criterio de transformación de KaiserMétodo Varimax Kaiser sugirió una medida analítica de estructura simple conocida como criterio Varimax (o varimax normal), al definir ~* ij
= ˆ*ij hˆi
ecuación 6.53
como los coeficientes rotados finales escalados por la raíz cuadrada de las comunalidades. El proceso varimax normal selecciona la transformación ortogonal Τ que hace
1 m p V = ∑ ∑ p j =1 i =1
*4 ij
p − ∑ i =1
*2 ij
2
p más grande posible.
ecuación 6.54
Escalar los coeficientes rotados
~* ij
tiene el efecto de producir variables con
pequeñas comunalidades, relativamente más ponderadas en la determinación de estructuras simples. Luego que la transformación Τ es determinada, los pesos ~* ˆ ij se multiplican por h i para preservar las comunalidades originales. A pesar de que la fórmula anterior parece inquietante, tiene una interpretación sencilla: V ∝
m
∑ (Varianzas de los pesos cuadrados escalados para el j - factor ) j =1
ecuación 6.55
o sea, maximizar V equivale a extender los cuadrados de los pesos en cada factor tanto como sea posible, por ello esperamos encontrar grupos de grandes y de ˆ* . despreciables coeficientes en algunas columnas de la matriz de pesos rotados L Es necesario acudir a programas que tengan esta posibilidad. Es de notar que en general el cambio de patrón de solución (A.C.P., M.V.E., etc.) no hace coincidentes las soluciones, y si existe un único factor dominante, ser
215
6. Análisis de factores e inferencias para matrices
6.13 Criterio de transformación de ...
generalmente oscurecido por una rotación ortogonal, por lo cual si se descubre, se pudiera mantener fijo y rotar los otros factores. Ejemplo 6.9 Del ejemplo 6.9 para ver el efecto de las rotaciones se muestran otras opciones de cálculo como la clásica para el problema 6.3 y las de correlación canónica y E.M.V. para el 6.4. A.D.F para el ejemplo 6.3: clásico Variables: País, costier, calisue, ubicac, prod Tabla 6.11 Resultados para los 2 factores extraídos del ejemplo 6.3. Factor Número Eigenvalor Varianza Porcentaje acumulado 1 2.63251 57.381 57.381 2 1.77357 38.658 96.039 3 0.18173 3.961 100.000 4 0.00000 0.000 100.000 5 0.00000 0.000 100.000
Tabla 6.12 Comunalidades para los factores elegidos en el ejemplo 6.3. Variable Comunalidad País Costier 0.732917 Calisue Ubicac prod 0.570995 Para este método las comunalidades estimadas se reconstruyen por el cuadrado de las correlaciones múltiples de cada variable con todas las demás Tabla 6.13 A.D.F. después de la rotación varimax. F1 F2 País 0.066152 0.998375 Costier 0.879226 -0.006048 Calisue 0.080982 0.979773 Ubicac 0.930944 0.278164 Prod 0.849298 0.004895
216
Comunalidad estimada 1.00113 0.773075 0.966514 0.944031 0.721331
6. Análisis de factores e inferencias para matrices
1.1
6.13 Criterio de transformación de ...
país
0.9 0.7 0.5
0.3
ubica c
0.1 prod
costier
-0.1 0.0
0.2
0.4
0.6
0.8
1.0
Fa ctor 1
Figura 6.2 Gráfica de los factores rotados método varimax. También se presenta el método rotado de Correlación Canónica y el E.M.V. para el ejemplo 6.4 Tabla 6.14 Comunalidades finales estimadas por C.C. 1 2 3 4 0.719 1.000 0.656 0.671
5 0.694
Tabla 6.15 Resultados para los 2 factores por el método rotado de Correlación canónica. PP2 PP1 CIP BNSC ROB
F1
F2
0.988 0.691 0.598 0.241 0.214
0.155 0.490 0.556 0.797 0.791
Varianza explicada por los factores F1 = 38.093% , F2 = 36.702% . Porcentaje de varianza común explicada: F1 = 50.929% , F1 = 49.071% . Chi
cuadrada
para
probar
que χ = 1.7185, p = 0.1912, gl = 1.00 .
el
número
de
factores
era
2:
2
Ya se había intentado la explicación sin factor rotado. Acá los pesos muestran mayor potencia para los bosques de coníferas por encima de los bosques naturales y además diferencian al bosque de menor edad, para el factor 2 se
217
6. Análisis de factores e inferencias para matrices
6.14 Calificaciones de los factores
deben discriminar otras condiciones silviculturales pero no se esta en capacidad de decir cuales. La variables 2, 4 y 5 definen por sus altos pesos el factor F1* y tienen bajos pesos o medianos pesos en F2* . Las variables 1 y 3 definen el factor F2* con pesos despreciables en F1* . El factor F1* podría denominarse “Factor General Silvicultural” y el F2* , “Factor de Tipo de Bosques”. Las rotaciones de los factores son especialmente recomendables para pesos obtenidos con A.D.F. E.M.V., ya que los valores iniciales están obligados a ˆ ′Ψ ˆ −1 L como satisfacer la condición de singularidad, especialidad o unidad de L matriz diagonal. Aunque ello facilita los cálculos computacionales no necesariamente hace más fáciles las interpretaciones.
6.14
Calificaciones de los factores
Una vez obtenidos los parámetros factorales, puede resultar de mucho interés el valor estimado para los factores comunes, lo que se conoce como calificaciones o puntajes de los factores, que permiten algunos elementos para análisis diagnostico, como también para entradas a otros tipos de procesos estadísticos. Ya los puntajes, en sentido estricto no son los estimadores de los parámetros desconocidos, a pesar de ser estimados de las variables inobservables F j ; j = 1, 2 , … . Esto es: fˆj = Estimado del valor , f j , conseguido por F j ecuación 6.56
La estimación tiene sus complicaciones ya que las cantidades inobservables f j y
εj
superan a las observadas Χ j .
Para esta situación se han hecho algunas
propuestas muy imaginativas como las de mínimos cuadrados y la de análisis de regresión, las cuales asumen que 1.) los pesos estimados ij y las varianzas especificas ψ i se comportan como si fueran valores verdaderos observados; 2.) Se obtienen mejores resultados al involucrar los datos centrados o estandarizados y que deben provenir de los factores rotados, a pesar de lo cual el investigador decidirá si lo hace así o prefiere los datos crudos.
218
6. Análisis de factores e inferencias para matrices
6.15
6.15 Método mínimo cuadrático ...
Método mínimo cuadrático ponderado
Supóngase que µ , L y Ψ son conocidos en el modelo ortogonal. Se pueden
ε
mirar entonces los
i
como si fueran errores.
Dado que
ε1, ε 2 ,…, ε p
no
necesariamente tienen su varianza constante, ya que Var (ε i ) = ψ i , i = 1… p . Bartlett sugiere el método propuesto, para estimar los valores de los factores comunes, en el cual la suma de los errores al cuadrado sea ponderado por los recíprocos de sus varianzas ⇒ p
ε
2 i
∑ψ i =1
i
= ε ′Ψ −1ε = ( Χ − µ − Lf
′
)
Ψ − 1 ( Χ − µ − Lf )
ecuación 6.57
con lo cual se escogen los estimados fˆ que minimicen esta expresión. Ello se obtiene entonces con −1 fˆ = (L ′Ψ −1L ) L ′Ψ −1 ( Χ − µ )
ecuación 6.58
ˆ, Ψ ˆ y µ ˆ = Χ como si fueran los De acuerdo con ello, se toman los estimados L valores verdaderos y se obtienen los puntajes para el caso del factor jésimo como
(
ˆ ′Ψ ˆ −1L ˆ fˆj = L
)
−1
ˆ ′Ψ ˆ −1 ( Χ j − Χ ) L
ecuación 6.59
ˆ y Ψ ˆ son determinados por métodos de E.M.V., pueden satisfacer la Cuando L ˆ ′Ψ ˆ −1L ˆ = ∆ ˆ , una matriz diagonal. condición de que L
6.16
Mínimos cuadrados sin ponderar
Si los pesos factorales se estiman por el método de C.P, se pueden generar los puntajes con el uso de mínimos cuadrados ordinarios, al asumir que los ψ i son aproximadamente iguales. De acuerdo con ello
( ) Lˆ ′(Χ
ˆ ′L ˆ fˆj = L
−1
j
(
ˆ′ L ˆ − Χ ); o fˆj = L Ζ Ζ
)
−1
ˆ′ Ζ L Ζ j
ecuación 6.60
219
6. Análisis de factores e inferencias para matrices
ˆ ˆ Puesto que L = λ e 1 1
1
ˆ fj =
ˆ ˆ λ … 2 e2
(
)
(
)
(
)
6.17 Método de Regresión
ˆ ˆ λ m em ⇒
ˆ e ′1 Χ j − Χ 1 n ˆ f j = 0 (Media muestral ) λ1 n j =1 1 ˆ e ′2 Χ j − Χ con λ2 n 1 fˆj fˆj′ = Ι (Covarianzas muestrales) … 1 n − 1 j = 1 ˆ ′ Χj − Χ em λm
∑
∑
ecuación 6.61
6.17
Método de Regresión
( Χ − µ ) = LF + ε tiene L y Ψ como conocidos, lo que implica que la combinación lineal ( ( Χ − µ ) = LF + ε tiene una Ν p (0, LL ′ + Ψ ) ),
Nuevamente asume que
que presenta algunas complejidades de cálculo, que pueden reducirse usando S ˆ = L ˆL ˆ ′ + Ψ , de acuerdo con lo cual: en lugar de Σ
ˆ ′S −1 ( Χ j − Χ ) ; fˆ j = L
j = 1,2,…,n o,
ecuación 6.62
ˆ L ˆ fˆj = Lˆ ′Ζ R −1Ζ j en que Ζ j = D − 1 2 (Χ j − Χ ) y ρ = L Ζ ′Ζ + Ψ Ζ ecuación 6.63
ˆΤ en lugar de los pesos originales ⇒ Además se usarán factores rotados L* = L
fˆj* = Τ ′fˆj ;
j = 1, 2,… , n
ecuación 6.64
Cualquiera de estos métodos puede usarse sin ser superior a los demás. Para estudiar los ejemplos presentados es necesario acudir a programas especializados que faciliten los cálculos. A manera de ejemplo por lo menos numérico con base en E.M.V. y una matriz R suponga los siguientes resultados.
220
6. Análisis de factores e inferencias para matrices
L*
0.50 0.311 0.00 0.164 0.335 ; Ψ = 0.00 0.00 0.507 0.00 0.208 0.883
0.601 0.850 = 0.643 0.365
6.17 Método de Regresión
0.00 0.00 0.25 0.00 0.00 0.47 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00 0.61 0.00 1.00 0.18
El vector de observaciones estandarizadas Ζ ′ = 0.50 − 1.40 − 2.0 − 0.70 1.40 produce los siguientes puntajes para los factores 1 y 2
(
ˆ ˆ ′*′ Ψ ˆ −1L ˆ* f = L Ζ Ζ
)
−1
ˆ − 1 Ζ = − 1.8 por M.C. ponderados y L ′Ζ*′ Ψ 2.0
0.50 − 1.40 0.187 0.657 0.222 0.050 − 2.10 − 1.2 *′ −1 ˆ ˆ − 0.20 = f = LΖ R Ζ = 1.4 0.037 − 0.185 0.013 0.107 0.864 − 0.70 1.40 que se grafican para todos los datos y permiten interpretaciones acerca de las ubicaciones para ver grupos, etc. Tabla 6.16 Comunalidades y Eigenvalores para los datos Variable Comunalidad Factor Eigenvalor 100m 0.60963 1 3.78661 Sala 0.53046 2 1.51730 Laba 0.63180 3 1.11441 Saal 0.39194 4 0.91337 400m 0.60427 5 0.72011 100v 0.36977 6 0.59498 Ladi 0.54499 7 0.52672 Saga 0.23922 8 0.38370 Laja 0.22643 9 0.23531 1500 0.37036 10 0.20749 Tabla 6.17 A.D.F. con A.C.P. Matriz de factores Variable 1 2 /Factor 100m 0.69051 -0.21701 Sala 0.78854 -0.18361 Laba 0.70188 0.53461 Saal 0.67366 -0.13401 400m 0.61965 -0.55111 100v 0.68689 -0.04205
del ejemplo 6.7. % var % Acum 37.9 37.9 15.2 53.0 11.1 64.2 9.1 73.3 7.2 80.5 5.9 86.5 5.3 91.7 3.8 95.6 2.4 97.9 2.1 100.0
Comunalidad estimada 3
4
-0.52025 -0.19260 0.04699 0.13875 -0.08376 0.16103
0.20603 -0.09248 0.17534 -0.39590 0.41873 -0.34462
0.83701 0.70115 0.81139 0.64777 0.87005 0.61828 221
6. Análisis de factores e inferencias para matrices
6.17 Método de Regresión
Tabla 6.17 (continuación) A.D.F. con A.C.P. Matriz de factores Ladi 0.62121 0.52112 0.10947 Saga 0.53849 -0.08698 0.41091 Laja 0.43406 0.43903 0.37190 1500 0.14661 -0.59611 0.65812
Comunalidad estimada 0.72439 0.65959 0.57446 0.88761
0.23437 -0.43956 0.23451 0.27866
Tabla 6.18 Matriz de transición para 4 factores. (1, 1) 0.605885 (1, 2) 0.526179 (1, 3) -0.591201 (2, 1) -0.403590 (2, 2) 0.700998 (2, 3) 0.132025 (3, 1) -0.585035 (3, 2) 0.294154 (3, 3) -0.239870 (4, 1) 0.357425 (4, 2) 0.381066 (4, 3) 0.758626
(1, (2, (3, (4,
4) 4) 4) 4)
-0.080751 0.572963 -0.716708 -0.389260
Aparte de los pesos estimados la rotación solo afecta la proporción de la varianza explicada por cada factor. La proporción de la varianza total muestral acumulativa explicada por todos los factores no se altera. Tabla 6.19 Matriz de factores rotados por el método varimax. Var/fac MV MV MV CP1 CP2 CP3 100m Sala Laba Saal 400m 100v Ladi Saga Laja 1500
0.88396 0.63149 0.24467 0.23957 0.79653 0.40419 0.18579 -0.03614 -0.04795 0.04399
0.167 0.240 0.966 0.242 0.055 0.205 0.697 0.137 0.416 -0.055
0.13669 0.19431 0.82471 0.15047 0.07464 0.15326 0.81369 0.17574 0.73491 -0.04095
0.857 0.477 0.158 0.173 0.709 0.261 0.133 0.078 0.019 0.056
0.15579 0.51438 0.22262 0.74959 0.10135 0.63445 0.14692 0.76186 0.10995 0.11184
0.246 0.58 0.20 0.632 0.216 0.589 0.180 0.513 0.175 0.113
CP4
MV
-0.11256 -0.00516 -0.14771 0.07652 0.46877 -0.17000 -0.07874 0.21672 0.14133 0.93353
-0.138 0.011 0.058 0.113 0.330 -0.071 -0.009 0.116 0.002 0.990
Los elementos rotados apuntan a los mismos atributos que subyacen en las variables, aunque los factores 1 y 2 no queden en su mismo orden al comparar un ACP y un MV. Por ejemplo en este último se ve que lanzamiento de bala, disco y jabalina pesan duramente en el primer factor, que podría llamarse “potencia explosiva del brazo”. Similarmente, pueden verse las interpretaciones para los otros factores. Se presenta además en la pagina siguiente la gráfica de los pesos de los 2 primeros factores y se observan elementos que intuitivamente conducen a agrupar variables. Esto mismo se logra con los puntajes que dan algunos programas.
222
6. Análisis de factores e inferencias para matrices
6.17 Método de Regresión
la ba B razo la di
0.6 la ja
F actor 2
0.4 0.2
P iern as S alto
0 10 0 v sag a saa l sala 10 0 m
-0 .2 -0 .4 15 00
-0 .6
0
0.2
40 0 m R e siste ncia 0.4
0.6
0.8
F acto r 1 Figura 6.3 Gráfico de los pesos de los dos primeros factores.
223
Capítulo 7 Análisis de Cluster A.D.C. Surge como una propuesta para encontrar discontinuidades ante la idea de suponer que los objetos pueden ocupar diversas categorías, aun para los que opuestos a ello predican la existencia del continuo en muchos de los eventos de la naturaleza, en cuyo caso se habla de tipiología o sistema de tipos, en los cuales se identifican algunos objetos que ayudan a describir estas estructuras. En general se trata de una estrategia multivariada para lograr particiones de una colección de objetos, o division de un conjunto en subconjuntos de tal forma que un objeto se pueda declarar perteneciente a uno y solo uno de tales subconjunto. Se exceptúan algunas técnicas que a la manera de los ecotonos, proponen agrupamientos difusos, como los propuestos por Bezdek en 1987. Los agrupamientos formados por cualquiera de los metodos conocidos son pura heurística, sin más deseo que agrupar sin indagar lo que sucede dentro de los grupos, excepto el manejo de postulados y conceptos matemáticos que logren su propósito. En conclusión surgen como una propuesta, cuando un cierto número de elementos no clasificados se desea agruparlos en clases homogéneas, racimos o clusters. Para verlo sean dos variables, área de hojas y longitud de pecíolo de 2 géneros diferentes (ge1; ge 2 ) . Tabla 7.1 Área de hojas y longitud de pecíolo en dos géneros diferentes. 1 2 3 4 5 Area de hojas 7.0 6.4 6.9 6.3 5.8 Longitud pecíolo 3.2 3.2 3.1 3.3 2.7
6 7.1 3.0
Una pequeña submuestra, la cual se intenta dividirla en grupos. Este tipo de investigaciones es relativamente nuevo, ya que se busca no solo establecer la identidad sino la afinidad de espécimenes y objetos. Se trata entonces de un proceso más o menos rudimentario para intentar comprender desde otros ángulos la complejidad de algunas relaciones multivariadas evaluar dimensionalidades, identificar observaciones remotas y aun postular hipótesis sobre tales relaciones.
7.1 Problema de muestras individuales Sean X 1, X 2 ,… Xn las medidas de p variables en cada uno de n objetos que se creen heterogéneos. El objetivo del A.D.C. es agrupar estos objetos en g clases
Análisis de Cluster A.D.C.
7.1 Problema de muestras individuales
homogéneas, en que g es desconocido, aunque se asume que sea < n . Es de notar que se denominará: ➢ GRUPO HOMOGÉNEO: si sus miembros son muy cercanos entre sí, pero los
miembros de cada grupo difieren considerablemente con los de otros grupos. Ello entonces conduce a la idea de actualizar una “métrica” entre los puntos que permita cuantificar la cercanía. ➢ LOS CLUSTERS son diferentes a los métodos de clasificación y discriminación,
en los cuales se asigna un elemento a un número conocido de grupos, es más primitivo como análisis, no asume nada con respecto al mundo de grupos o de sus estructuras, todo se hace con base en distancias o similaridades (o disimilaridades).
Las técnicas de agrupación se aplican básicamente en dos situaciones: 1) Propósitos puramente descriptivos, sin asunciones acerca de la forma de la población subyacente, como una simple condensación de los datos. 2) Búsqueda de algún modelo o patrón en que cada observación de la muestra puede surgir de cualquiera de un pequeño número de distribuciones diferentes. El termino “clustering” o arracimado se puede tomar como un sinónimo de taxonomía numérica. Para ver la complejidad de agrupar o de definir naturalmente un grupo hasta ver lo que sucede con un mazo de poker, en que se pueden formar grupos por cada una de las pintas, grupos de ases, grupos de pinta y color. Matemáticamente se puede ver que el número de formas de agrupar n objetos dentro de k grupos no vacíos es el número de Stirling de 2º grado dado por
Ν=
1 k k − j k (−1) j n ∑ k! j = 0 j ecuación 7.1
Adicionando estos números para k = 1, 2 , … , n grupos se obtiene el número total de formas posibles para ordenar n objetos en grupos. Ejemplo 7.1 Hay una forma de agrupar particularmente las 16 figuras del poker, 32767 de partir las figuras en dos grupos de diferentes tamaños, 7´141.686 de hacerlo en 3 grupos de diferentes tamaños, etc. Es obvia la restricción temporal para determinar el mejor agrupamiento de una lista de objetos similares en todas sus posibles estructuras, entonces se procuran algunas soluciones para describir
225
7. Análisis de Cluster A.D.C.
7.2 Caso multimuestral
agrupamientos similares o naturales, de items, o variables, aun de muestras múltiples.
7.2 Caso multimuestral Es otro contexto interesante al problema de agrupar cuando se tiene una colección de muestras y se busca agruparlas en clases homogéneas, por ejemplo grupos de aves de localidades cercanas, flora, etc. El problema se puede asumir así: sean x ij ; j = 1, … , n las observaciones en la j -ésima muestra aleatroria; j = 1,… , m . El interés del A.C. es agrupar las n muestras dentro de g clases homogéneas, cuando g es desconocido y g < m .
7.3 Formulación probabilística de una muestra 7.3.1 Caso general Sean Χ 1, Χ 2 ,…, Χn , elementos independientes, cada uno pudiendo surgir de uno de g posibles subpoblaciones con una función de distribución de probabilidades
f ( Χ, θ ) ; k = 1,…, g , cada Χ i .
g
conocido.
Se deseraría saber de donde proviene
Sea γ = (γ 1, γ 2 ,…, γ n )′ un conjunto de etiquetas de tal forma que
γ i = k implica que Χ j proviene de la k -ésima subpoblación, i = 1,… , n . Supóngase además que C k es el conjunto de Χ i asignadas al k -ésimo grupo por medio de la etiqueta γ , con k = 1,… , g . La función de verosimilitud será entonces:
L (γ ; θ1 ,θ2 ,…,θg ) = Π f ( Χ,θ1 ) ,… Π f ( Χ,θ g ) x ∈c1
x ∈c g
ecuación 7.2
Los métodos MV poseen una importante propiedad de distribución que se puede
expresar así: sea γˆ; θˆ1,…,θˆg , los estimadores M.V. de γ y de los respectivos θ . Sea Cˆ1, Cˆ2 , … Cˆk una partición del grupo bajo la etiqueta γˆ . El mover un punto muestral de Cˆk a Cˆ reduce la verosimilitud ⇒
(
) (
L rˆi ;θˆ1 ,…θˆg f Χ; θˆl
) f (Χ; θˆ ) ≤ L (rˆ; θˆ ,…,θˆ )
ecuación 7.3
226
k
1
g
7. Análisis de Cluster A.D.C.
7.3 Formulación probabilística
en consecuencia
(
f Χ; θˆ
) ≤ f (Χ; θˆ ) para Χ ∈ Cˆ , k
k
≠ k,
= 1,…, g
ecuación 7.4
7.3.2 El caso normal Si se asume que f ( Χ; θk ) denota una función de distribución de probabilidades
Ν ( µk ; Σk ) k = 1, 2 , … g ⇒ la función logarítmica de verosimilitud es: 1
g
(γ ;θ ) = cons tan te − ∑ ∑ ( Χi 2 k =1 x i ∈Ck
1 g − µk )′ Σk−1 ( Χ i − µk ) − ∑ nk log Σk 2 k =1
ecuación 7.5
cuando hay nk observaciones en C k . Entonces para un γ , la verosimilitud es maximizada por la estimación máximo verosímil de µ y Σ que son:
ˆ k (γ ) = Sk µˆk (γ ) = Χk ; Σ ecuación 7.6
En que Χk es la media y Sk es la matriz de covarianzas de las nk observaciones en Ck . Sustituyendo la ecuación 7.6 en la ecuación 7.5 se llega a:
(γ ;θˆ (γ )) = cons tan te − 12 Σn
k
log Sk
ecuación 7.7
en la cual la estimación máximo verosímil es el agrupamiento que minimiza: g
Π Sk
nk
k =1
ecuación 7.8
Para evitar el caso degenerado de una verosimilitud infinita se deben asumir por lo menos p + 1 observaciones asignadas a cada grupo de modo que n k ≥ p + 1 y n ≥ g (p + 1) .
227
7. Análisis de Cluster A.D.C.
7.3 Formulación probabilística
Si, no obstante lo anterior se asumieran grupos con idénticas matrices de covarianza, Σ1 , Σ 2 ,… , Σ g desconocida), entonces con el mismo método anterior se llega al agrupamiento que minimiza W en que
W=
g
∑∑ ( Χ
i
k =1 Ck
′ − X k ) ( X i − Χk )
ecuación 7.9
que no es más que la suma de cuadrados mezclada dentro de los grupos (y de productos corregidos) (S.S.P.), en que el segundo sumando se toma sobre Χ i ∈ Ck . Ejemplo 7.2 Suponga que los datos de la tabla 7.1 provienen de una gran muestra de 2 especies de un mismo género que llamariamos ge1 los 3 primeros datos y ge 2 los 3 últimos, en las variables descritas. Para satisfacer que n ≥ 3g , tomamos g = 2 con tres observaciones en cada grupo. Para todas las posibles particiones, la Tabla 7.2 muestra los valores de los determinantes de S 1, S 2 y W = S 1 + S 2 . Tabla 7.2 Valores de los determinantes de S y W para el ejemplo 6.2. Grupo 1 Grupo 2 S1 S2 S1 + S2 10 3 S 1 S 2 123 124 125 126 134 135 * 136 145 146 156
456 256 346 345 256 246 245 236 235 234
0.001200 0.001200 0.030000 0.004800 0.002133 0.001633 0.000300 0.073633 0.005633 0.028033
0.132300 0.073633 0.000133 0.070533 0.073633 0.008330 0.004033 0.000300 0.032033 0.000533
0.1588 0.0884 0.0040 0.3386 0.1571 0.0014 0.0012 0.0022 0.1805 0.0150
0.180 0.127 0.198 0.167 0.151 0.188 0.017 0.181 0.170 0.114
Por métodos M.V. se ve que los clusters (1 3 6 ) y (2 4 5 ) presentan el menor valor 10 3 S 1 S 2 , mientras que para (1 2 3 )
(4
5 6 ) por ejemplo los valores de
S 1 = 0.0012 y S 2 = 0.1323 se dispara 10 S 1 S 2 . Esto se puede apreciar en un diagrama de dispersión *, para mirar el comportamiento M.V de los datos de la Tabla 7.1. 3
228
7. Análisis de Cluster A.D.C.
7.3 Formulación probabilística
A rea de h ojas 5.8 6.0 6.2 6.4 6.6 6.8 7.0 7.2 4
Lo ngitud del pecíolo
3.3
2
3.2
1
3.1
3
3.0
6
2.9 2.8 2.7
5
Figura 7.1. Diagrama de dispersión para los datos de longitud de pecíolo y área foliar de la Tabla 7.1. Existen pruebas para verificar la formación de grupos, pero la mayoría tiene ciertas deficiencias conceptuales aun. Por ejemplo antes de agrupar se podría mirar si realmente no hay estructura, o sea que existe solo un grupo. hipótesis podría ser:
Una
Η 0 = γ 1, γ 2 , … γ n
Η a = No todas las γ son iguales Si se asume normalidad con iguales matrices de covarianza, se puede intentar una prueba M.V. en efecto
max −2 log λ = n log γ
Τ W
ecuación 7.10
En que Τ =
n
∑ (Χ i =1
i
′ − Χ )( Χ i − Χ ) da las sumas de cuadrados y productos
cruzados. Entonces si g (Nº de grupos) es desconocido basta minimizar W sobre todas las posibles particiones de γ (para las cuales g ≤ n − p de modo que el rango de W = p . Desafortunadamente para valores de n grandes no se conocen distribuciones de la ecuación 7.10.
229
7. Análisis de Cluster A.D.C.
7.4 Medidas de similitud
7.4 Medidas de similitud La mayoría de esfuerzos para producir una estructura simple de unos datos complejos, por lo menos a primera vista, requiere de las mencionadas medidas de “cercanía” o “similitud” , a veces con una gran carga de subjetividad al tomarlas, además de las consideraciones en que se incluye la naturaleza de las variables (discretas, continuas, binarias), la escala de medición (normal, ordinal, intervalica, razón...), además del conocimiento o la percepción intuitiva y subjetiva del grupo o tema de agrupación.
7.5 Distancias y coeficientes de similaridad para parejas de elementos 7.5.1 Distancia Ya se conocen algunas definiciones e interpretaciones, siendo Ρ y Q dos puntos que pueden representar medidas en Χ y Y en dos objetos, una función del valor real llamada d (P ,Q ) , será una distancia si tiene las siguientes propiedades: 1) Simetria, o sea d (Q, P ) = d (P ,Q ) . 2) No negatividad, es decir d (Q , P ) ≥ 0 . 3) Identificación puntual d (Q ,Q ) = 0 . Para muchas funciones de distancia se adicionan las siguientes: 4) Exactitud o precision, d (Q, P ) = 0 si y solo si P = Q . 5) Desigualdad triangular, d (Q, P ) ≤ d (Q, R ) + d (R, P ) ,
estudiada
en
el
capítulo 1. Cuando se mantienen en conjunto las propiedades 1-5 se habla de una métrica (distancias métricas). Para algunos propósitos es suficiente satisfacer de la 1 a la 3. Por ejemplo la 1 que parece obvia identidad no siempre se cumple, cuando al medir una opinión en una encuesta de un sujeto P sobre otro Q , difiere de la de Q con respecto a P . La propiedad 5 no es satisfecha por algunas distancias.
230
7. Análisis de Cluster A.D.C.
7.5 Distancias y coeficientes de similaridad...
En general se esperaría que d (P ,Q ) se incrementara a medida que lo hace la disimilaridad o divergencia entre P y Q , por ello d (P ,Q ) es descrito como un coeficiente de disimilaridad aunque a veces no satisfaga las propiedades métricas 4) y 5). La noción estudiada entonces − y 1 )2 + (x 2 − y 2 )2 + … + (x p − y p )2
d (Χ, Y ) =
(x 1
d (Χ, Y ) =
(Χ − Y )′ (Χ − Y ) para la distancia euclidiana, como ya se vió.
se
escribe
como
Esta función satisface las propiedades 1)-5), o sea es métrica y además satisface otras propiedades. Sea Χ n * p con filas Χ ′1, Χ ′2 , … , Χ n′ , la distancia entre dos puntos Χ i y Χ j es la dij tal que
dij2 =
p
∑ (x
− x jk ) = Χ i − Χ j 2
ik
k =1
2
ecuación 7.11
1) Tiene la propiedad de ser semidefinida positiva. Entonces ΗΑΗ es semidefinida positiva, si Η = Ι − centrado lo cual ya se probó.
Sea
1 2 Α = − d ij . 2
1 11′ es una matriz de n
2) dij es invariante bajo transformaciones ortogonales de las Χ . 3) Sigue la ley del coseno: d ij2 = b ii + b jj − 2b ij , en que:
(
b ij = Χ i − Χ
)′ (Χ
J
)
− Χ ,
ecuación 7.12
es el producto interior centrado entre Χ i y Χ j . Para propósitos de cálculo una propiedad interesante se da por n
n
n
∑∑ dij2 = 2n ∑ bii i =1 j =1
i =1
ecuación 7.13
231
7. Análisis de Cluster A.D.C.
7.6 Distancia de Pearson
7.6 Distancia de Pearson Cuando las variables no son conmesurables, se acude a la estandarización, por lo cual
dij2 =
p
∑
k =1
(x
ik
− x jk )
es conocida como la distancia de Pearson = R 2
2 k
s
ecuación 7.14
Algunos autores sostienen que la R 2 es invariante bajo cambio de escala. Se conocen muchas otras propuestas de distancias que se adecúan a ciertas necesidades. Por ejemplo en la de Pearson se puede cambiar s k por el rango
Rk = max i, j
x ik − x jk
ecuación 7.15
También es muy popular la conocida DISTANCIA DE MAHALANOBIS D ij2 = (x i − x j )′ Σ − 1 (x i − x j ) ecuación 7.16
La
distancia
d (Χ, Y ) =
estadística
obviamente igual a S
−1
(Χ − Y )′ Α (Χ − Y )
en
que
Α
es
etc.
Pero sin un conocimiento previo de los grupos, estas distancias no pueden ser calculadas, razón por la cual para agrupamientos se prefiere la distancia euclidiana o la distancia métrica de Minkowsky definida como p d (Χ, Y ) = x i − yi i = 1
∑
m
1m
ecuación 7.17
La cual cuando n = 1 se conoce como distancia “City-Block” entre dos puntos en p dimensiones. Para n = 2 es una euclidiana. Siempre que sea posible se deberían usar distancias “verdaderas” o métricas, aunque ello en ecología resulta a veces imposible. Las técnicas de agrupamientos van desde formas muy simples (como el sombreado o coloreado de datos de acuerdo con algún concepto, partición en Nº
232
7. Análisis de Cluster A.D.C.
7.6 Distancia de Pearson
de clases (marcas de clase, rangos, etc.) hasta los algoritmos más complicados. Incluso cuando los elementos no pueden representarse por medidas significativas p -dimensionales, los pares de items se comparan a menudo con base en la presencia o ausencia de ciertas características, lo que es matemáticamente posible acudiendo al uso de variables binarias, con lo cual los items (comunes) similares, tienen unas características en común que los diferencie. Ejemplo 7.3 Para p = 5 variables binarias, las calificaciones para 2 items i, k podrán presentar el siguiente arreglo. Tabla 7.3 Arreglo para la representación de las calificaciones para 5 variables binarias. Variables Item 1 2 3 4 5 1 0 0 1 1 i 1 1 0 1 0 k En este caso hay dos parejas de 1,1, una de 0,0 y 2 disparejas.
Sea x ij un
puntaje (1,ó,0) uno de los valores o 1, ó 0, de la j -ésima variable en el item iésimo, x kj el puntaje (1, ó 0) de la j -ésima variable en el item k; j = 1, 2 … p ⇒
(x
ij
0 si x ij = x kj = 1, ó, x ij = x kj = 0 2 − x kj ) = si x ij ≠ x kj 1 ecuación 7.18 p
La distancia euclidiana al cuadrado
∑ (x j =1
ij
− x kj
)
2
propicia una cuenta del
número de dispares, de tal modo que una distancia grande corresponde a muchos dispares o “items disimiles”. Para el ejemplo: 5
∑ (x j =1
ij
− x kj
)
2
= (1 − 1)2 + (0 − 1)2 + (0 − 0 )2 + (1 − 1)2 + (1 − 0 )2 = 2
Bajo el concepto de la ecuación 7.18 podría considerarse una medida de similaridad. En algunos casos una pareja (1, 1) podría ser una indicación de mayor similaridad que una (0, 0) por ejemplo, o viceversa. Ejemplo, las personas que actualmente leen y escriben en latín, son más similares que parejas en ausencia de este conocimiento, por lo cual (1, 1) saber latín implica que prodrían descartarse las parejas (0, 0) o aun omitirlas del todo.
233
7. Análisis de Cluster A.D.C.
7.6 Distancia de Pearson
Para llegar a tratamientos diferenciales de las parejas (1, 1) y (0, 0) se han sugerido múltiples esquemas para definir coeficientes de similaridad. Por ejemplo arreglando tablas de contingencia con los items i y k . Tabla 7.4 Definición de coeficientes de similaridad arreglando la tabla de contingencia con los items i y k . Item k Totales (i ) Item i
1 0 Totales
1 a
0 b
c
d
a +c
b +d
a + b c + d Ρ = a +b +c +d
Donde: a = frecuencia de parejas (1, 1); b = frecuencia de parejas (1, 0); etc. Dados los 5 pares de sucesos anteriores entonces a = 2, b = c = d = 1 . La Tabla 7.5 muestra una lista de coeficientes de similaridad comunes definidos en términos de las frecuencias de la Tabla 7.5 con un pequeño comentario para cada definición: Tabla 7.5 Ccoeficientes de similaridad para agrupaciones con variables binarias. Coeficiente Comentario a + d Pondera igualmente a las parejas 1–1 y 1) 0–0. p 2) 3)
2 (a + d )
Dobla el peso para las parejas 1–1 y 0– 0.
a + d a + d + 2 (b + c )
Dobla el peso para los pares disparejos.
a p
Elimina las parejas 0–0 del numerador
2 (a + d ) + b + c
4) 5)
a a + b + c
6)
2a 2a + b + c
7)
a a + 2 (b + c ) 8)
234
a b + c
Elimina las parejas 0–0 en el numerador y denominador – las parejas 0–0 son tratadas como irrelevantes. Elimina las parejas 0–0 en el numerador y denominador – asigna doble peso a las parejas 1–1. Elimina las parejas 0–0 en el numerador y denominador – asigna doble peso a las parejas disparejas. Relaciona parejas y disparejas con exclusión de las parejas 0–0.
7. Análisis de Cluster A.D.C.
7.6 Distancia de Pearson
Los coeficientes 1, 2 y 3 producen relaciones monotónicas. Por ejemplo si se calcula el coeficiente 1, para dos tablas de contingencia ( I y II ), entonces si
aI + d I (a II + d II ) , ≥ p p también se tendría que
2 (a I + d I )
2 (a I + d I ) + bI + c I
≥
2 (a II + d II )
y también el
2 (a II + bII ) + bII + c II coeficiente 3) sería el menos tan grande para la tabla I como para la II . Los
coeficientes 5) 6) y 7) también retienen sus ordenes relativos. La condición monotónica es importante porque algunos procesos de agrupación no se afectan si se les cambia su definición de similaridad sin que se afecten los ordenes relativos de similaridad, como sucede en los procesos de encadenamiento simples y encadenamiento jerárquicos completos en que cualquiera de los coeficientes 1, 2, ó 3 produce el mismo agrupamiento y similarmente para 5) 6) y 7) Ejemplo 7.4 5 árboles tomados al azar en un bosque tropical presentaron las siguientes características Tabla 7.6 Características de árboles tomados al azar en un bosque Árbol Altura Nº hojas/rama Color flor Color Ramificación Nº med. apar 1 17.5 70 Roja Clara Helicoidal 2 18.7 93 Amarilla Oscura Helicoidal 3 17.2 83 Morada Clara Helicoidal 4 16.4 60 Amarilla Oscura Helicoidal 5 19.5 105 Amarilla Oscura No helicoidal
tropical. Posicion hoja Simples Compuestas Compuestas Simples Compuestas
defínanse 6 variables binarias Χ 1, Χ 2 , … , Χ 6 así:
1 altura ≥ 18.5 Χ1 = 0 altura < 18.5 1 Nº hoj./ra. ≥ 75.0 Χ2 = 0 Nº hoj./ra. < 75.0
1 Flor amarilla 1 Ram. helicoidal Χ3 = Χ5 = 0 Flor otro color 0 Ram. no helicoidal 1 Apar. clara Χ4 = 0 Apar. oscura
1 Hoj. simples Χ6 = 0 Hoj. compuestas
los puntajes para los árboles 1 y 2 en las 6 variables binarias fueron Tabla 7.7 Puntajes en 6 variables binarias para los árboles 1 y 2 del ejemplo 7.3. 0 0 0 1 1 1 Árbol 1 1 1 1 0 1 0 Árbol 2 Χ1 Χ2 Χ3 Χ4 Χ5 Χ6 Variable binaria
235
7. Análisis de Cluster A.D.C.
7.7 Similaridades a partir de distancias
y el número de parejas y disparejas se muestran en un arreglo de 2 vías Tabla 7.8 Arreglo de dos vías para el número de parejas y disparejas de los árboles 1 y 2. Árbol 1 Χ1 1 0 Total 1 1 2 3 Árbol 2 0 3 0 3 Total 4 2 6 empleando 1 que da iguales pesos a las parejas se tiene: a + d 1 + 0 1 = = p 6 6 similar a este proceso se tendrían los números de similaridad de acuerdo con la siguiente tabla.
Árbol
Tabla 7.9 Números de similaridad para los árboles 1 y 2 del bosque tropical tomados al azar. Árbol 1 2 3 4 5 6 1 1 2 1/6 1 3 4/6 3/6 1 4 4/6 3/6 2/6 1 5 0 5/6 2/6 2/6 1 Basados en ese coeficiente y de acuerdo con el criterio usado 1, se concluye que los árboles 2 y 5 son los más similares y 1 y 5 los menos. Las otras parejas se encontrarían entre estos extremos. Si se quisiera dividir este conjunto en 2 grupos relativamente homogéneos, con este criterio de los números de similaridad se tendrían los subconjuntos (1 3 4 ) ; (2 5 ) . Se puede notar, que Χ 3 = 0 es una ausencia de flores amarillas, de tal manera que árboles con flores rojas y otro con moradas formarían parejas 0, 0, por lo cual los coeficientes 1), 2), 3) serían suficientes al dar pesos iguales a parejas 0–0 y 1–1.
7.7 Similaridades a partir de distancias Se han descrito las nociones de distancias y similaridades. Pero también es posible construir la similaridad usando las distancias. Por ejemplo
236
7. Análisis de Cluster A.D.C.
7.8 Otras nociones de distancia
s~ik =
1 1 + d ik
ecuación 7.19
Puede ser una medición entre los items i , y k . Sea 0 ≤ s~ik ≤ 1 . Lo contrario no siempre es posible, a veces es difícil construir las distancias a partir de las similaridades. (solo parece posible esto cuando la matriz de similaridades es definida no negativa. Con esta condición y con la máxima similaridad escalada para que sea = 1, o sea s~ii = 1 , es posible tener un número d ik = 2(1 − s~ik ) que llegue a cumplir las propiedades asignadas a una distancia.
7.8 Otras nociones de distancia A parte de las ya mencionadas y estudiadas ecuaciones 7.19 y 7.17, existen los criterios de ellas para distancias en grupos, cuando en lugar de un único criterio de clasificación hay varios, para lo cual se suman las distancias, usando D2 =
t
∑D
2 f ,k
; con t en el número de clasificaciones, en que D 2f ,k , f = 1, 2 es la
k =1
distancia de Mahalanobis o la de Bhattacharyya entre dos poblaciones en la k ésima clasificación. La distancia de Bhattacharyya se define como p 12 12 dB = x i − yi i =1
∑(
)
12
2
ecuación 7.20
El proceso de sumar distancias es una forma más atractiva de encontrar agrupaciones en varios tipos de clasificación sobre todo cuando estos son independientes.
7.9 Poblaciones multinormales – datos cualitativos Considérese una clasificación de individuos en
(
p categorías.
Para cada
)
γ = 1, … g , sea x γ 1 , x γ 2 ,…, x γ p = X γ′ para denotar las proporciones observadas en una población de tamaño n , cayendo en cada una de las categorías. Por ejemplo, Χ r podría denotar las proporciones de personas con tipos de sangre A1, A 2, B y O en cada uno de g países, desde luego que
237
7. Análisis de Cluster A.D.C.
7.10 Distancia euclidiana
p
∑x
γi
= 1;
γ = 1, 2 … g
i =1
ecuación 7.21
Es posible considerar varias propuestas de distancias entre estas poblaciones.
7.10
Distancia euclidiana
Los puntos Χ se sitúan en un hiperplano X1 + X 2 + … X p = 1 , en un octante positivo de R p . La medida de distancia para estos puntos se da por la distancia euclidiana p
d γ2s =
∑ (x i =1
γi
− x si )2
ecuación 7.22
Esta distancia funciona bien con proporciones de cantidades medidas para las cuales no se ha considerado ningún modelo estocástico de variación.
7.11
Distancia tipo Mahalanobis
Cuando las proporciones de la anterior son asumidas como vectores aleatorios, una distancia similar a la de Mahalanobis sería más adecuada. Supóngase que para cada γ = 1, … g , Χ represente las proporciones basadas en muestras de
(
tamaño n γ de una distribución multinominal con parámetros a = a1, a2 ,…, a p
′
)
(el mismo parámetro para cada γ ). Entonces Χ tiene media a y matriz de 1 Σ en que Σ = σ ij estará dada por varianzas covarianzas Σ γ = nγ
( )
a i (1 − a i ) σ ij = − aia j
para i = para i ≠ j
j
ecuación 7.23
Esto es Σ = diag (a ) − aa ′ . Como Χ γ , cae en un hiperplano Σ es una matriz singular, a pesar de lo cual aparece un concepto que se llamará la g -inversa de Σ dada por
Σ −1 = diag (a1−1,…, a p−1 ) ecuación 7.24
238
7. Análisis de Cluster A.D.C.
7.12 Distancia de Bhattacharyya
que conduce a definir una distancia (generalizada) de Mahalanobis entre Χ γ y
Χ s como nγ ns p
∑
(n
+ n s ) veces
γ
(x
− x si )
2
γi
ai
i =1
ecuación 7.25
que desafortunadamente tiene problemas. El primero es que usualmente se comparan poblaciones multinomiales con parámetros diferentes (y desde luego matrices de covarianzas diferentes) por lo cual la distancia anterior es aproximada y a se convierte en un parámetro promedio para las poblaciones. (para reducir el efecto entre las poblaciones, o sus diferencias en tamaño muestral, se eliminara el factor n γ n s n γ + n s * . un segundo problema es el
(
)
estimado del promedio del parámetro a . Un procedimiento común es estimar a par a par como
aˆi (γ , s ) =
1 (x γ i + x si ) 2
ecuación 7.26
De modo que aˆ (γ , s ) dependa de γ y s , de acuerdo con ello entonces la
ecuación 7.25 se vuelve la distancia de Mahalanobis
(x ri ∑ l = 1 (x ri p
D l2;rs = 2
− x si )2 − x si )
ecuación 7.27
Otra forma de estimar a incluye un promedio global de todas las proporciones
aˆi = g −1 (x1i + x 2i + … + x gi ) y ponderando cada proporción x γ i por su tamaño
muestral.
7.12
Distancia de Bhattacharyya
(
′
)
Sea Vr = x 1γ 12 ,… x 1γ p2 , γ = 1,2,…,g .
Vγ , son puntos en una esfera unitaria en
R p centrada en el origen. El coseno del ángulo entre un Vγ y un Vs sería:
239
7. Análisis de Cluster A.D.C.
7.12 Distancia de Bhattacharyya
cos Βrs =
p
∑v l =1
γ iv si =
p
∑ (x l =1
x si )
12
γi
ecuación 7.28
De forma que el ángulo Βrs es la gran distancia circular entre Vγ y Vs .
La
distancia euclidiana de la cuerda entre Vγ y Vs estaría dada por Vr
D22; γ =
p
∑ (x =1
12 γi
− x 1si 2 )
2 D rs
ecuación 7.29
B rs
Vs
Figura 7.2. Representación para la distancia de Bhattacharyya. llamada distancia de Bhattacharyya. Esta distancia también es igual a
D22; γ = 4 sen 2
Βγ s 2
ecuación 7.30
Esta distancia, se puede considerar como una distancia de Mahalanobis asimptótica. Además, no existen, para muchos efectos prácticos, diferencias entre D1; γs y D 2; γs . Ejemplo 7.5 En un estudio de tipos sanguíneos para los tipos de sangre A1, A 2 , B y O en las poblaciones 1) esquimales, 2) Bantues, 3) Ingleses, 4) Coreana Tabla 7.10. Se intento evaluar afinidades entre ellas. Se uso la distancia de Bhattacharyya y se encontró la matriz de distancias (ver Tabla 7.11). Tabla 7.10 Matriz de distancia para un estudio de tipos de sangre. Esquimal Bantu Inglesa Esquimal 0.00 23.26 16.34 Bantu 0.00 9.85 Inglesa 0.00 Coreana
Coreana 16.87 20.43 19.60 0.00
Usando un método de agrupamiento con encadenamiento completo que se verá luego se sugieren 2 grupos (Bantu, Ingleses), (Esquimal, Coreana). Otros
240
7. Análisis de Cluster A.D.C.
7.13 Resumen de distancias (p-nominales)
métodos de agrupación muestran otras posibilidades. Lo anterior se encontró con base en las frecuencias relativas de los tipos de sangre. Tabla 7.11 Frecuencias relativas usando un método Población Tipo de sangre Esquimal Bantu A1 0.2914 0.1034 A2 0.0000 0.0866 0.0316 0.1200 B O 0.6770 0.6900
7.13
de encadenamiento simple. Inglesa 0.2090 0.0696 0.0612 0.6602
Coreana 0.2208 0.0000 0.2069 0.5723
Resumen de distancias (p-nominales) 12
2 p 1) Distancia euclidiana = ∑ wk ( x γ k − x sk ) . Si w k = 1 no estandarizada, k =1
si w k =
1 skk
, distancias de Karl Pearson. Si w k =
1 estandarizadas por R k2
rango. 12
′ 2) Distancia Mahalanobis = ( Χ γ − Χ s ) Σ −1 ( Χ γ − Χ s ) , Σ cualquier transformación matricial definida positiva.
p
∑w
3) Distancia City Block métrica - Distancia Manhatan métrica =
k
k =1
xγ k − x sk .
Diferencia promedio de características wk = 1 p . 1λ
λ p 4) Distancia métrica de Minkowski = ∑ wk x γ k − x sk k =1
5) Distancia métrica de Canberra =
p
x γ k − x sk
∑ (x
k =1
de los rangos totales de las variables.
γk
− x sk )
; λ ≥ 1.
el escalamiento no depende
p 6) Distancia de proporciones de Bhattacharyya = x i1 2 − y i1 2 i =1
∑(
)
2
12
.
241
7. Análisis de Cluster A.D.C.
7.14 Coeficientes de similaridad
DISTANCIA ENTRE GRUPOS. 12
1 p (xγ k − xsk ) 1) Distancia de Karl Pearson (coef. de disimilaridad) = ∑ 2 2 p k =1 (skγ nγ ) + (ssk ns )
Con n i = tamaño de la j -ésima muestra, j = γ , s; x ik , sik2 = media y varianza de la k -ésima variable para la j -ésima muestra. 2) Distancia de Mahalanobis =
7.14
{(Χ
γ
}
s ˆ −1 ( Χ γ − Χ s ) − Χs ) Σ
12
.
Coeficientes de similaridad
Existen situaciones de taxonomía numérica en que es preciso usar medidas de similaridad entre puntos A y B . Se denominará S ( A B ) a una medida de similaridad cuando cumpla las siguientes propiedades 1) S ( A B ) = S (B A ) . 2) S ( A B ) > 0 . 3) S ( A B ) se incrementa si se incrementa la similaridad entre A y B . Las medidas de asociación no son sólo entre elementos, en algunas oportunidades resulta más importante que las agrupadas sean las variables.
7.15 Medidas de asociación y similaridad para pares de variables Toman las formas de coeficientes de correlación muestral, incluso reemplazando a veces los valores negativos por sus valores absolutos. Cuando las variables sean binarias, se acude de nuevo a tablas de contingencia, pero esta vez son las variables las que definen las categorías. Para cada par de variables hay n items categorizados en la tabla, llegando con los códigos usuales de 0 y: 1 a una como la siguiente
Variable i Totales
242
1 0
1 a c a + c
Variable K
0 b d b + d
Totales
a +b c +d
n = a + b + c + d
7. Análisis de Cluster A.D.C.
7.15 Medidas de asociación y similaridad ...
Ejemplo 7.6 Por ejemplo la variable i = 1 y la variable k = 0 en b de los n items. fórmula usual en estos casos es la correlación producto-momento:
γ =
La
ad − bc 12
(a + b ) (c + a ) (a + c ) (b + d ) ecuación 7.31
que puede tomarse como una medida de similaridad entre variables, y puede relacionarse con el estadístico χ 2 así: γ 2 =
χ2 para verificar la independencia de n
las dos variables. Para un n dado o fijado, una gran correlación o similaridad es consistente con una falta de independencia. CONCLUSIÓN. Existen muchas formas de medir la similaridad entre pares de objetos, pareciendo ser lo más práctico el uso de distancias y coeficientes de similaridad para objetos y correlaciones para las variables. Pero, también puede acudirse a las frecuencias para criterios de agrupación. Ejemplo 7.7 El significado de las palabras evoluciona con el paso del tiempo, dejando como una rara excepción el significado de los números. De acuerdo con ello un lingüista podría pensar que una comparación de lenguajes podría basarse en ellos sólamente, para intentar establecer agrupaciones. La Tabla 7.12 presenta los números del 1 al 10 en ingles, polaco, húngaro y 8 idiomas modernos europeos escritos en el alfabeto romano sin usar tildes, cedillas, etc. Tabla 7.12 Números del 1-10 en lenguas diferentes. Ingl one two three four five six seven eight nine ten
Noru Dane en en to to tre tre fire fire fem fem seks seks sju syv atte otte ni ni ti ti
Aust een twee drie vier vijf zes zeven acht negen tien
Alem ein zwei drei Vier funf sechs sieben acht neun zehn
Fran un deux trois quatre cinq six sept huit neuf dix
Espa uno dos tres cuatro cinco seis siete ocho nueve diez
Ital Pola uno jeden due dwa tre trzy quattro cztery cinque piec sei szese sette siedem otto osiem nove dziewiec dieci dziesiec
Hung egy ketto harom negy ot hat het nyole kilene tiz
Finl yksi kaksi kolme neua viisi kuusi seitseman kahdeksan yhdeksan kymmenen
Un primer vistazo permite apreciar que los 5 primeros se parecen mucho al deletrearlos, francés, español e italiano se acercan mucho, el húngaro y finlandés parecen ser grupos cada uno, en tanto que el polaco presenta semejanzas con alguno de los grandes grupos.
243
7. Análisis de Cluster A.D.C.
7.16 Métodos jerárquicos
Las palabras para el Nº 1, empiezan por u en francés, español e italiano. Se usaran las primeras letras de cada número y llamaremos concordantes a los que concuerdan en dos lenguajes diferentes y discordantes a las que no!. Con base en lo anterior se creo la siguiente tabla de concordancias (frecuencias de apareamiento de las primeras letras iniciales): Tabla 7.13 tabla de concordancias para diferentes. Ingl Noru Dane Aust Alem Ingl 10 Noru 8 10 Dane 8 9 10 Aust 3 5 4 10 Alem 4 6 5 5 10 Fran 4 4 4 1 3 Espa 4 4 5 1 3 Ital 4 4 5 1 3 Pola 3 3 4 0 2 Hung 1 2 2 2 1 Finl 1 1 1 1 1
los números del 1 - 10 en lenguas Fran
Espa
10 8 9 5 0 1
10 9 7 0 1
Ital
10 6 0 1
Pola
10 0 1
Hung
10 2
Finl
10
Ingles y Noruego tienen 8 números empezando por la misma letra, etc. Se conforma en parte la apreciación inicial (IN NO DA AU AL ) forman un grupo,
(FR
ES IT PO ) podrían ser otro y los otros 2 forman grupos individuales. Este
es un criterio subjetivo y visual para ver similitudes. Entonces se ha mirado una gama de posibilidades y aunque no es posible presentarlas todas se verán los criterios que parecen más razonables.
7.16
Métodos jerárquicos
Proceden bien por mezclas o asunciones sucesivas, bien por divisiones sucesivas y tienen como producto terminal un dendrograma.
7.16.1 Métodos jerárquicos aglomerativos Se inician con los objetos individuales. Al inicio hay tantos grupos como objetos. Los objetos más parecidos son agrupados primero y estos grupos se van mezclando de acuerdo con sus similaridades, hasta llegar eventualmente a un grupo único.
244
7. Análisis de Cluster A.D.C.
7.16 Métodos jerárquicos
7.16.2 Métodos jerárquicos divisivos Se comportan a la inversa de los anteriores, un grupo único de objetos es subdividido en dos subgrupos tales que los objetos de uno se encuentren lo suficientemente lejos de los objetos de otro. Estos son divididos de nuevo en grupos disimiles hasta llegar a tantos grupos como objetos, cada uno formando un grupo. Los resultados de 7.16.1 y 7.16.2 se presentan en forma de un diagrama bidimensional conocido como dendrograma que va ilustrando las divisiones o mezclas hechas a niveles sucesivos. Existen muchos procesos, pero en particular es interesante iniciar con el método de encadenamiento (linkage) que resulta adecuado tanto para elementos como para variables, lo que no es posible con todos los procesos jerárquicos. Entre los métodos de encadenamiento están: “encadenamiento simple” (de distancia mínima o vecino más cercano); “encadenamiento completo” (máxima distancia o vecino más lejano) y el ¨encadenamiento promedio (distancia promedia), lo cual es ilustrable así:
1 3
2
Encadenamiento simple (fusiones de acuerdo con los items más cercanos)
Distancia del grupo d 24
4
3
1
2
1 2
4
5
4
3 5
Encadenamiento completo (se fusionan de acuerdo con los items más lejanos).
d 15
Encadenamiento d13 +d14 +d15 +d23 +d24 +d25 promedio (se fusionan de 6 acuerdo con las distancias promedio entre ecuación 7.32 pares de miembros en los conjuntos).
Figura 7.3 Representación de los métodos jerárquicos divisivos. Los pasos para aglomeraciones jerárquicas de Ν objetos (o variables) serían:
245
7. Análisis de Cluster A.D.C.
7.17 Encadenamiento simple (Single Linkage)
1) Inicie con Ν grupos o clusters, cada uno con una identidad singular o única
{ }
(simple) y una matriz de distancias simétrica Ν * Ν , DΝ * Ν = dij , o de
{ }
similaridades = sij . 2) Busque la distancia en la matriz para los clusters más cercanos. Por ejemplo sean los pares de clusters más “similares” U y V con distancia dvv . 3) Mezcle los clusters U y V y etiquete el nuevo cluster (U V ) y actualice las entradas en la matriz de distancias: 4) Borre las filas y columnas correspondientes a U y V 5) Adicione una fila y columna con las distancias entre cluster (U V ) y el resto de clusters. 6) Se repiten los pasos 2 y 3 un total de Ν − 1 veces (con lo cual todos los elementos quedaran en un solo cluster al terminar el algoritmo). Se deben registrar las identificaciones de los cluster que se van fusionando y los niveles (distancias o similaridades) a las cuales la fusión tiene lugar. Para visualizarlo se presentaran los 3 métodos de encadenamiento, dando el algoritmo y un ejemplo que permita visualizar los pasos enunciados.
7.17
Encadenamiento simple (Single Linkage)
Sus entradas pueden ser distancias o similaridades entre pares de objetos. Los grupos se van formando a partir de los elementos simples o entidades individuales mezclando y fusionando los vecinos más cercanos, en que esto connota con “la menor distancia” o la “máxima similitud”. Inicialmente busca la
{ } y se fusionan los objetos correspondientes, dígase
menor distancia en D = dij U y V en un cluster
(U
V ).
Por el paso 3, las distancias entre
(U
V) y
cualquier otro cluster, dígase W se calculan como: d (UV )W = min {dUW , dVW } ecuación 7.33
En que dUW y dVW son las distancias entre los racimos más próximos o cercanos de los cluster U y W y los clusters V y W , respectivamente. Los resultados del agrupamiento por encadenamiento simple se pueden representar por un diagrama de árbol o “Dendrograma”, cuyas ramas representan
246
7. Análisis de Cluster A.D.C.
7.17 Encadenamiento simple (Single Linkage)
los clusters. Las ramas confluyen a unos puntos (fusión) “Nodos” con ejes posicionales a través de un eje de distancias (o similaridades), indican el mismo nivel al cual ocurre la fusión. Ejemplo 7.8 Sea una matriz de distancias D entre los pares de 5 objetos:
D 5 * 5 = {d ik }
1 2 = 3 4
0 9
0
3 7 0 ⇒ 6 5 9 0 5 11 10 2 8 0
Al tratar cada elemento como si fuera un cluster, el agrupamiento comienza por fusionar los 2 items más cercanos. Puesto que min {dik } = d53 = 2 .
Los elementos 5 y 3 se fusionan en el cluster (3 5 ) . Para implementar el próximo nivel de agrupamiento se calculan las distancias entre el cluster
(3 5 )
y los
objetos restantes 1, 2 y 4. Las distancias al vecino más cercano serán: d (35 )1 = min {d 31, d 51 } = Min {3, 11} = 3
d (35 )2 = min {d 32 , d 52 } = Min {7, 10} = 7 d (35 )2 = min {d 34 , d 54 } = Min {9, 8} = 8
Borrando las filas y columnas de D correspondientes a los objetos 3 y 5 y adicionando una fila y columna para el cluster (3 5 ) se obtiene una nueva matriz de distancia D : La distancia más pequeña ahora es d (3, 5 ) 1 = 3 . Se fusiona el elemento
(3 5 ) 0 D=
1 2 4
1 (o cluster 1) y el
3 0 ⇒ 7 9 0 8 6 5 0
cluster
(1 3 5 ) .
(3 5 ) .
Y aparece el
Se calculan entonces
las nuevas distancias:
{ = min {d (
} } = Min {8,6} = 6
d(135) 2 = min d (3,5) 2 , d12 = Min {7,9} = 7 d(13,)
4
3,5 ) 4
,d14
La matriz de distancias para el nuevo nivel de agrupamiento es
247
7. Análisis de Cluster A.D.C.
7.17 Encadenamiento simple (Single Linkage)
La menor distancia entre los vecinos más próximos será ahora 5 = d 42 , fusionamos los clusters 4 y 2 y formamos el cluster (1 3 5 ) y (2 4 ) .
(1 3 5 5 ) 0 D=
2
7 0
4
6 5 0
⇒
(2 4 ) . = min {d (135) 2 , d (135) 4 } = Min {7,6} = 6 .
En este punto tenemos dos clusters próximo es d (135)(24) distancia será
D
(3 5 ) 0 = (2 4 ) 6
(1 3 5 )
y
Se mezclan
0
⇒
Su distancia vecino La matriz final de
(1 3 5 )
y
formar un único cluster
(2 4 ) para (1 2 3 4 5 )
en que la distancia vecino alcanza un valor igual a 6.
Se concluye el proceso con un gráfico que pinta los agrupamientos jerárquicos y las distancias a las cuales se producen estos, que constituye el DENDROGRAMA.
6
D IS T A N C IA S
5 4 3 2 1 0
1
3
5
2
4
Figura 7.4 Representación de los agrupamientos jerárquicos y las distancias entre grupos por un dendrograma. En las aplicaciones ordinarias de agrupamientos jerárquicos, los resultados intermedios con los elementos ordenados en un número moderado de clusters, es una gran ayuda interpretativa. Los encadenamientos horizontales en un dendrograma se conocen como NODOS y las lineas verticales como INTERNODOS. La altura de cada nodo sobre la base es igual a la distancia entre los clusters cuya fusión representa el nodo. Por ejemplo (3 5 ) tiene altura 2, que se representa en la escala vertical.
248
Podría notarse que el ordenamiento de los
7. Análisis de Cluster A.D.C.
7.19 Encadenamiento completo ...
puntos en la base es de alguna manera opcional o sea, si se intercambiaran 3 y 5 ó 2 y 4 no se tienen implicaciones en el dendrograma Ejemplo 7.9 Sean las cantidades de 2 especies encontradas en un muestreo exploratorio de 10 parcelas equiespaciadas: Tabla 7.14 Cantidades de 2 especies en un muestreo en parcelas equiespaciadas. Parcela 1 2 3 4 5 6 7 8 9 10 Especie 1 12 20 28 11 22 8 13 20 39 16 Especie 2 30 18 26 5 15 34 24 14 34 11 Con un proceso de encadenamiento simple so observan paso a paso los clusters así: Tabla 7.15 Clusters formados por medio de encadenamiento simple. Paso Fusiones Puntos más cercanos Distancia entre clusters 1 58 5.8 2.2 2 (5 8) 2 2.5 3.6 3 (5 8 2) 10 8.1 5.0 4 16 1.6 5.7 5 (1 6) 7 1.7 6.1 6 (5 8 2 10), 4 4.1 7.8 7 (5 8 2 10 4) (1 6 7) 2.7 9.2 8 (5 8 2 10 4 1 6 7) 3 2.3 11.3 9 (5 8 2 10 4 1 6 7 3) 9 3.9 13.6 10 Todos La gráfica cartesiana de las especies con respecto a sus frecuencias es:
40
nod o 9
6 35
1 LH D IS T A N C IA S
7 25 2
20
5
8
8 6 4
15
2
10
10
internod o
10
3
30 E S P E C IE 2
12
4 0
5
9
3
7
1
6
4
10
2
5
0 10
20
30
40
E S P E C IE 1
Figura 7.5 Gráfica cartesiana de las especies con respecto a sus frecuencias resultado de los agrupamientos jerárquicos.
249
7. Análisis de Cluster A.D.C.
7.18 Distinción de clusters
Habrán varias formas de agrupar las parcelas en clases, incluso algunas de ellas arbitrariamente. La arbitrariedad surge porque los puntos no exhiben agrupamientos naturales (uno escoge además como medir dik ). Los contornos de la gráfico no representan discontinuidades abruptas. Se parecen a las curvas de nivel de un mapa. Sin embargo a veces se propician clasificaciones no naturales (llamadas a veces disecciones) de acuerdo con algún criterio practico o algún fin definido. Los métodos propician varias formas de lograrlo.
7.18
Distinción de clusters
Dado un dendrograma existen muchas posibilidades de decisión. El número de clusters se decide de antemano. Ej. 4 clases, etc. Los miembros de esas clase se obtienen por medio de una linea horizontal que atraviesa el dendrograma LH a un nivel que corte 4 internodos en el ejemplo se ven los grupos (7 1 6 ) y
(4 1 0 2 5 8 ) .
El investigador escoge una distancia mínima para separar los clusters, también de antemano. Ejemplo 10 unidades, aparecen las 3 clases (9 ), (3 ) y
(7 1 6 4 1 0 2 5 8 ) .
Cuando los internodos en un dendrograma son visiblemente diferentes en longitud, unos cortos cercanos a la base y unos largos en la cima, los puntos parecen agruparse naturalmente en clusters sin arbitrariedades. Ejemplo 7.10 Al considerar los arreglos de las concordancias lingüísticas que buscaban proximidades entre lenguas a través de los números del 1-10, se desarrolló la matriz de distancias Tabla 7.16 que se entrega a continuación, para lo cual se resto cada concordancia de la concordancia perfecta = 10, de cada lenguaje consigo mismo, así: Tabla 7.16 Matriz de distancias para las concordancias lingüísticas. IN NO DA AU AL FR ES IT PO HU IN 0 NO 2 0 DA 2 1 0 AU 7 5 6 0 AL 6 4 5 5 0 FR 6 6 6 9 7 0 ES 6 6 5 9 7 2 0 IT 6 6 5 9 7 1 1 0 PO 7 7 6 10 8 4 3 4 0 HU 9 8 8 8 9 10 10 10 10 0 FI 9 9 9 9 9 9 9 9 9 8
250
FI
0
7. Análisis de Cluster A.D.C.
7.18 Distinción de clusters
En la primera búsqueda la mínima distancia es 1 entre danes y noruego, italiano y francés, italiano y español de acuerdo con ello d 32 = 1 , d 86 = 1 , d 87 = 1 . Con esas distancias se inició el proceso que condujo al dendrograma mostrado en la Figura 7.6. Se puede ver que noruego y danes así como francés e italiano se agrupan a la distancia mínima (o sea que alcanzan la máxima similaridad). Al incrementar la distancia el ingles se agrega al grupo (NO DE ) . Similar ocurre con (FR IT ) al
cual se le adiciona ES conformando (FR IT ES ) .
10 8 6 4 2 0
IN
NO
DA
FR
IT
ES
PO
AU
AL
HU
FI
Figura 7.6 Dendrograma para las concordancias lingüísticas por medio de métodos de encadenamiento simple. Se nota también la semejanza entre húngaro y francés, aunque a grandes distancias los clusters de lenguaje se mezclan en un solo (d = 9 ± ) . Las técnicas de encadenamiento simple no alcanzan a discriminar clusters pobremente separados. Por otra parte es uno de los pocos métodos que puede delinear clusters no elipsoidales. La tendencia del encadenamiento simple es escoger o seleccionar clusters fuertemente ensartados, por ello se le conoce con los nombres de encadenamientos, que pueden fallar si los items de los extremos opuestos de la cadena son en efecto bastante disimiles. Los clusters formados por el método de encadenamiento simple serán inmutables si se usan asignaciones de distancias o similaridades que propicien el mismo orden relativo de las distancias iniciales. Ello conduce entonces a que cualquiera de los coeficientes monotónicos producirían los mismos agrupamientos.
251
7. Análisis de Cluster A.D.C.
7.19 Encadenamiento completo (Complete ...
VA R2
VA R2
P uede n resultar bastante diferentes Configuraciones elípticas
VA R1
VA R1 (b.)
(a.)
Figura7.7 Clusters formados por el método de encadenamiento simple: (a.) Se pueden dar confusiones por traslapes cercanos; (b.) Efectos de encadenamiento.
7.19 Encadenamiento completo (Complete linkage) Se procede en casi todo en forma similar al encadenamientos simple, excepto el trabajar la mayor distancia entre clusters en cada etapa. Con ello se busca que todos los elementos de un grupo estén dentro de la máxima distancia, o de la máxima similaridad con elementos de otros grupos. Inicia buscando de nuevo la mínima {d ik } de D , mezcla los correspondientes items o clusters U y V en el
(U
V ) , pero de ahí en adelante busca que las distancias entre (U V ) y otro
cluster W se encuentren como
d(U ,V ) W = max {dUW , dVW } ecuación 7.34
con dUW y dVW siendo las distancias entre los miembros más distantes de los clusters U y W . Ejemplo 7.11 Se retorna al ejemplo 7.8. En la primera etapa se fusionan 3 y 5 para obtener (3, 5 ) . En la segunda etapa se calculan
252
7. Análisis de Cluster A.D.C.
7.19 Encadenamiento completo (Complete ...
d (35 ) 1 = max {d31 , d51 } = 11 d(35 ) 2 = max {d32 , d52 } = 10 d (35 ) 4 = max {d34 ,d54 } = 9 La matriz modificada de distancias queda entonces
(3 5 ) 1 2 4
La próxima fusión es de 4 con 2, los grupos más similares. En la tercera etapa se tiene:
0 111 0 10 9 0 9 6 5 0
{
}
d(24 )(35 ) = max d2 (35 ) , d4 (35) = max {10, 9} = 10 d(24 )1 = max {d21, d 41 } = max {9, 9} = 9
La matriz modificada será La próxima fusión es de (2 4 ) con 1, dando
(3 5 ) 0 (2 4 ) 10 1
el cluster
(1 4 2 ) .
(1 2 4 )
y
(3 5 )
se
fusionan en el estado final al nivel de
0
{
11 9 0
}
d (124)(35) = max d1(35) , d (24)(35 ) = {11, 10} = 11
El dendrograma final será
12
D IS T A N C IA S
10 8
Al comparar este dendrograma con el de la página 248 se diferencian en la posición del elemento 1.
6 4 2 0
1
2
3
4
5
Figura 7.8 Dendrograma por encadenamiento completo para el ejemplo 7.8.
253
7. Análisis de Cluster A.D.C.
7.20 Encadenamiento promedio
Con respecto al ejemplo 7.14 se tiene Tabla 7.17 Formación de clusters por medio de encadenamiento completo. Paso Fusiones Puntos más alejados Distancia entre clusters 1 58 5.8 2.2 2 (5 8), 2 2.8 4.0 3 16 1.6 5.7 4 4 10 4.1 7.8 5 (1 6) 7 6.7 11.2 6 39 3.9 13.6 7 (5 8 2) (4 10) 2.4 15.8 8 (1 6 7) (5 8 2 4 10) 4.6 29.2 9 (1 6 7 5 8 2 4 10) (3 9) 4.9 40.3 10 Todos los puntos Las gráficas son: 40 9
6 35
40
1 3
30
30
25 2
20
D IS T A N CIA S
E S P E C IE 2
7
5
8
20
15 10
10
10
4
5
0
7
1
6
2
5
8
4
10
3
0 10
20
30
40
E S P E C IE 1
Figura 7.9 Resultados del agrupamiento por encadenamiento completo para el ejemplo 7.8. El mérito de este método es la tendencia a producir clusters cercanamente iguales en tamaño. Cuando existen agrupaciones verdaderas, los resultados de este método y el anterior son usualmente muy similares.
7.20
Encadenamiento promedio
Trata la distancia entre dos clusters como la promedia entre todos los pares de items en que un miembro de cada par pertenece a cada cluster. De nuevo las
254
7. Análisis de Cluster A.D.C.
7.21 Observaciones respecto a los métodos ..
entradas al algoritmo pueden ser distancias o similaridades, y usable con elementos o variables. Se procede de forma semejante a lo visto. Se empieza por buscar la mínima distancia o máxima similaridad, ejemplo U y V . Estos se fusionan y se forma (U V ) . Las d (U V ) y otro cualquier W se dan por:
d (U V ) W =
∑∑ d i
ik
k
Ν (U , V ) Ν (W )
ecuación 7.35
en que dik es la distancia entre el objeto i del cluster (U V ) y el objeto k del
cluster W . Ν (U V ) y Ν (W ) son respectivamente los números de items en los
clusters
(U
V) y W .
en estos procesos promedios, aunque los cambios de
coeficientes de similaridad y de distancia preservan el orden relativo de las agrupaciones, se afecta la configuración final de los clusters.
7.21 Observaciones respecto a los métodos jerárquicos Existen muchos procesos de agrupamientos cercanos a los métodos aglomerativos jerárquicos parecidos al encadenamiento simple, completo y promedio, que siguen el mismo algoritmo descrito, y solo cambian la concepción de distancia. En cualquiera de ellos, no existe una consideración formal de posible fuentes de error y variación, a pesar de lo cual es posible observar una alta sensibilidad a las observaciones remotas o puntos ruidosos. No hay previsión para posibles reconfiguraciones de objetos que pudieran haberse agrupado mal, por lo cual solo quedan pruebas de análisis y errores. La mejor fórmula es usar varios método, y entre ellos incluso usar varios conceptos de distancia, asumiendo que resultados consistentes sin indicadores de una cierta tendencia a agrupamiento natural. También se puede revisar la estabilidad de las soluciones jerárquicas aplicando pequeñas perturbaciones (errores ex profeso) antes de correr el método y mirar la continuidad o no de la consistencia en las soluciones.
7.22
Métodos no jerárquicos
Diseñados para agrupar elementos (no variables) en colecciones de k clusters, en cuyo caso k puede definirse de antemano o su búsqueda hace parte del proceso. En ellos no se tiene que determinar una matriz de distancias o similaridades, tampoco requieren tener almacenado el conjunto de datos en las corridas del computador, lo que permite trabajar con más datos que con los métodos
255
7. Análisis de Cluster A.D.C.
7.23 Método de las k medias
jerárquicos. Generalmente se inician con 1 de los dos procesos siguientes: 1) Una partición inicial de los items en grupos; o 2) Un conjunto inicial de puntos semilla que constituirán los núcleos de asociación. Se deben evitar sesgos manifiestos en el arranque, por ejemplo seleccionando aleatoriamente los puntos semillas dentro de los items, o escogiendo la partición inicial en una forma aleatoria.
7.23
Método de las k medias
Es uno de los más conocidos y populares. Mc. Queen sugiere este nombre para describir el algoritmo de base que asegura cada elemento al cluster que tenga el centroide más cercano, como en un intento por establecerse en un punto intermedio entre el racimo próximo y el lejano anteriormente vistos, los cuales tienen el problema de estar influenciados a cada paso por las ubicaciones aleatorias en esa estructura p -dimensional de únicamente dos puntos que gobiernan las decisiones. Una versión simplificada del proceso comprende tres etapas:
7.24
Partición de los elementos en k clusters
Un recorrido a través de la lista de elementos, asegurándolos al cluster cuyo centroide (media) este más cercano, prefiriendo usualmente la distancia euclidiana, de los datos crudos o estandarizados. Se recalcula el centroide para los clusters que reciben como para los que donan el elemento. Se repite el paso 2 hasta que concluyan las reasignaciones. Una forma alternativa de arrancar una partición en el paso 1, es especificar k centroides iniciales conocidos como puntos semilla en vez del número de clusters y proceder con el paso 2. En ambas versiones se depende mucho de la partición inicial (bien sea clusters número o semillas) para la asignación final. La experiencia sugiere que las mayores posibilidades de asignación ocurren en la primera recolocación de los elementos. Ejemplo 7.12 Se miden 2 variables Χ 1 , Χ 2 para cada uno de cuatro elementos A, B, C, D de acuerdo con la siguiente tabla Tabla 7.18 Medición de 2 variables para cada uno de cuatro elementos. C A B D Χ1 5 -1 1 -3 Χ2 3 1 -2 -2
256
7. Análisis de Cluster A.D.C.
7.24 Partición de los elementos en k clusters
Se intentara dividirlos en k = 2 clusters de manera que los elementos de uno de ellos estén más cerca entre g ′ que los elementos del otro. Para iniciar se parten arbitrariamente los elementos en dos clusters
(C
(A B )
y
D ) y se les calculan las coordenadas (x 1, x 2 ) del centroide de cada cluster.
Entonces en el paso 1 se tiene Tabla 7.19 Cálculo de las coordenadas del centroide de cada cluster para la partición de elementos. Cluster Coordenadas del centroide 3 + 1 5 + (− 1) (A B ) = 2 = 2 2 2 1 + (− 3 ) − 2 + (− 2) (C D ) = −1 = −2 2 2 En el paso 2 se calcula la distancia euclidiana de cada elemento del grupo a los centroides y se reasigna cada uno al grupo más próximo. Si alguno de los elementos es desplazado de la configuración inicial, el centroide del cluster (las medias) deben ser actualizadas antes de proceder. Las distancias cuadradas se obtienen como:
d Α2
( AB )
= (5 − 2 ) + (3 − 2 ) = 10
d Α2
(CD )
= (5 + 1) + (3 + 2 ) = 61
2
2
2
2
Puesto que A esta más cercano a (AB ) que a (CD ) no es movido. Se continua entonces el cálculo de las distancias
dB2
( AB )
= ( −1 − 2 ) + (1 − 2 ) = 10
dB2
(CD )
= ( −1 + 1) + (1 + 2 ) = 9
2
2
2
2
B esta más cercano a (C D ) que a ( A B ) , por lo cual se reasigna y aparece el
cluster (B C D ) y las siguientes coordenadas actualizadas para los centroides: Tabla 7.20 Coordenadas actualizadas para los centroides en la partición de elementos en clusters. Cluster
x1
x2
(A)
5
3
(B C D)
-1
+1
257
7. Análisis de Cluster A.D.C.
7.24 Partición de los elementos en k clusters
Se analiza de nuevo cada ítem para su reasignación, y se recaculan las distancias cuadradas. d A2,A = 0 d A2,(BCD ) = (5 + 1)2 + (3 + 1)2 = 52 2 = (5 + 1)2 + (3 − 1)2 = 40 d AB 2 = (5 − 1)2 + (3 + 1)2 = 41 d AC
Tabla 7.21 Distancias cuadradas a los centroides para los cluster configurados en la partición de elementos. Distancias cuadradas a los centroides C Cluster D A B 0 40 41 89 Α 52 4 5 5 (B C D ) Cada ítem se asigna entonces al cluster con el centroide más cercano y el proceso concluye. Los grupos finales serán A y (B C D ) . Para verificar la partición se corre de nuevo el algoritmo con otra partición inicial. Una vez se llega a la determinación, las intuiciones respecto a la interpretación de resultados puede ayudarse rearreglando la lista de elementos de tal forma que las del primer cluster aparezcan de primeros, en seguida los del 2º, etc. una tabla de los centroides con sus respectivas varianzas interiores ayudan en la interpretación. También es posible generar algunas pruebas estadísticas simples como razones de F entre los cuadrados medios contra la variabilidad entre ellos. Ejemplo: F =
Cuadrados medios entre clusters Cuadrados medios dentro de los clusters ecuación 7.36
en que un valor alto parece confirmar una buena selección. De todos modos no sobran las precauciones en análisis de clusters. RESUMEN. Las notaciones más clásicas de la literatura de clusters presentan: 1) Ν = número de observaciones . 2) V = número de variables para datos coordenados . 3) G = número de grupos o clusters para algun nivel de la jerarquía . 4) x j o X j = iésima observacion (vector fila si son datos coordenados) .
258
7. Análisis de Cluster A.D.C.
7.25 Método de la varianza mínima - ...
5) C k = késimo cluster, subconjunto de (1, 2,...,n) . 6) Ν k = número de observaciones en Ck . 7) Χ = vector muestral de medias . 8) X k = vector medio para el cluster Ck . 9)
Χ
10) Τ =
= longitud euclidiana de Χ = Χ ′Χ . n
∑ Χ i =1
11) Wk =
i
− Χ .
∑ Χ
i ∈Ck
12) Ρ g =
i
− Χk .
∑W sumatoria sobre los g clusters al
g - ésimo nivel de jerarquía
j
13) Βkl = WM − WR − WL si C M = C k ∪ C L . 14) d ( x, y ) = cualquier distancia o disimilaridad entre observaciones o vectores Χ y Y 15) DKL = cualquier distancia o medida de disimilaridad entre los clusters C K y C L . Como norma es asumido que C k y C L fusionados dan un C M .
7.25 Ward
Método de la varianza mínima – Método de
Es el la distancia entre dos clusters se define como:
D KL = ΒKL = Χ K − Χ L
2
(1 Ν K
+ 1 ΝL )
ecuación 7.37
Si d ( Χ,Y ) = [Χ − Y ] D JM =
((Ν J
2
2 , entonces la fórmula combinatoria es: + Ν K )D KL + (Ν J + Ν L )D JL − Ν J D KL ) (Ν J + Ν m ) ecuación 7.38
259
7. Análisis de Cluster A.D.C.
7.25 Método de la varianza mínima - ...
En este método la distancia entre 2 clusters es la suma de cuadrados del análisis de varianza entre los 2 clusters adicionados con respecto a todas las variables. A cada generación las suma de cuadrados (interna) dentro de los clusters es minimizada sobre todas las posibles particiones obtenibles al mezclar dos clusters de la generación previa. Las sumas de cuadrados son más fáciles de interpretar cuando se dividen por la suma total de cuadrados para obtener proporciones de varianza. El método de Ward junta los clusters para maximizar la verosimilitud a cada nivel de jerarquía bajo las asunciones de: mezcla normal multivariada, matrices de covarianza esféricas iguales y probabilidades de muestreo iguales. Este método tiende a fusionar clusters con pequeño número de observaciones, pero es fuertemente sesgado a producir clusters con números parecidos de observaciones y muy sensible a las observaciones remotas. FÓRMULAS. La raíz cuadrada media de la desviación estándar del cluster C K es:
RMSSTD =
WK ( V (Ν K − 1))
ecuación 7.39
El coeficiente de determinación para un nivel dado de jerarquía es
R2 = 1 −
Ρa Τ
ecuación 7.40
La correlación cuadrada semiparcial para fusionar los clusters C K y c L se da como 2 = B KL Τ R SP
ecuación 7.41
Se da también un estadístico similar a una F conocido como pseudoestadístico de F o
(Τ − PG ) (G − 1) Fs = [PG n − G ] ecuación 7.42
Así como un pseudo t 2 para fusiones de C K y C L
260
7. Análisis de Cluster A.D.C.
t S2 =
7.26 Matrices y similitudes cofenéticas y ...
[(W K
Β KL + W L ) (Ν K + Ν L − 2)] ecuación 7.43
Estos valores de FS y tS2 pueden resultar indicadores útiles del número de clusters, pero no siguen una distribución de F y t de las variables aleatorias. Solo cuando los datos se hubieran muestreado independientemente de una N p con una Σ escalar y las observaciones de los clusters asignadas aleatoriamente (que no lo hace ningún proceso), se podra asumir F para compararla con F con V (G − 1) y V (n − G ) grados de libertad. Bajo consideraciones similares se
comportara t 2 , que se distribuirá como una F , con V y V (Ν K + Ν L − 2) grados de libertad. Se les presenta esta opción ya que se da en los paquetes computacionales más sólidos estadísticamente conocidos.
7.26 Matrices y similitudes cofenéticas y propiedad ultramétrica Son las que posibilitan que cualquier clasificación o partición sea completamente descrita y permita las comparaciones para diferentes agrupaciones de los mismos individuos. Una distancia o similaridad cofenética para dos elementos X1 y X 2 se define como el nivel a cual ambos objetos llegan a ser miembros de un mismo grupo durante el proceso de agrupamiento. Por ella se garantiza que cualquier dendrograma sea representado por una de tales matrices en las cuales las similaridades entre dos objetos sean sus distancias cofenéticas. Por ejemplo sean las parcelas de un proceso ubicadas de acuerdo con las siguientes similitudes y su respectivo dendrograma
261
7. Análisis de Cluster A.D.C.
7.26 Matrices y similitudes cofenéticas y ...
0.3
0.25
0.15 0.107 0.1
56
56
57
0.3
166
166
57 166
165
165
165
67
67
0.25
0.15 0.107 0.1
56 57 166 165 67
Figura 7.10 Ubicación de parcelas según sus similitudes y dendrogama respectivo. Leidas directamente de la figura anterior se llega a las siguientes matrices de similaridad (S ) y/o distancia (D ) .
S 56 57 67 165 166
56
57
67
165
−
0.30
0.107 0.107
0.107
−
0.107 0.107
0.107 0.107
−
0.15
0.107 0.107
0.15
−
0.107 0.107
0.15
0.25
166 D
0.107 0.107 0.15 0.25 −
56
57
67
− 0.893 56 57 0.70 − 0.893 − 67 0.893 0.893 165 0.893 0.893 0.85 166 0.893 0.893 0.85
165
166
0.893 0.893
0.893 0.893 0.85 − 0.75
0.85
0.75 −
En que el orden de los objetos es irrelevante, cualquiera que se siga conduce a la misma representación, igual cosa sucede a los dendrogramas, en los cuales el orden de los objetos podra cambiarse a posterioridad sin cambiar las lecturas que se hagan de ellos . incluso en agrupamientos cuyo fin no sea llegar al dendrograma como algunos de los métodos no jerárquicos vistos, podría llegarse
262
7. Análisis de Cluster A.D.C.
7.26 Matrices y similitudes cofenéticas y ...
a tales matrices. Por ejemplo si se usara el nodo en 0.175, considérese los grupos (56 57 ) , (67 165 166 ) la posible estructura de ambos clusters sería
S 56 57 67 165 166 D 56 57 67 165 166 − 0 1 1 1 − 1 0 0 0 56 56 57 1 − 0 − 0 1 1 1 0 0 57 − 1 1 0 0 1 1 67 67 0 0 − 165 0 0 1 − 1 0 0 − 1 165 1 − 0 0 − 166 1 1 1 166 0 0 1 Si no hay inversiones en el proceso de los agrupamientos, una clasificación tiene la siguiente propiedad ultramétrica, nombre que recibe la matriz cofenética correspondiente:
D ( X1, X 2 ) ≤ max D ( X1, X 3 ) , D ( X 2 , X 3 ) , para cada tripla de objetos ( X1, X 2 , X 3 ) . estas distancias poseen además las propiedades métricas vistas al final del capítulo 1. similaridades así:
En igual forma podría expresarse esta propiedad a
S ( X 1, X 2 ) ≥ min S ( X 1, X 3 ) , S ( X 2 , X 3 ) Con las anteriores propiedades se entiende mejor el comportamiento de los dendrogramas.
263
Capítulo 8 Análisis de Correspondencia A.D.C. Los datos multivariados generalmente presentan estructuras que resultan inadecuadamente analizadas en otros procesos estadísticos que ignoren las interrelaciones entre las variables, ya que es mejor intentar develar patrones de comportamiento en grupo. Por ejemplo a un conjunto de árboles podría medirseles sus volumenes, estimar sus edades, situaciones ecológicas, usos, e indagar por los atributos que les asignen los usuarios de madera. Estos datos podrían analizarse marginalmente, separadamente ver el comportamiento de sus alturas o volumenes en un área determinada y las frecuencias de sus edades, etc. sin que estos resúmenes permitan descubrir los interesantes patrones que pueden subyacer al analizar el grupo de variables. Por ejemplo, podría existir en el grupo un número escaso de árboles de gran volumen que tuvieran connotaciones de uso importante. Acá habría que cruzar las informaciones de uso con volumen en tablas de frecuencia de doble vía. Ni que decir cuando el número de variables aumenta exageradamente, ni como se afecta un análisis cuando se suponen patrones apriorísticos de comportamiento. Para apreciarlo considerese el comportamiento de inscripciones estudiantiles en 21 carreras de una universidad entre el año 1992 y 1996, de acuerdo con los siguientes datos hipotéticos, considerando segundas y más opciones, Tabla 8.1 Inscripción de estudiantes en 21 carreras universitarias. Carrera 1992 1993 1994 1995 1996 22 17 19 15 16 A1
A2 Α3 Α4 Α5 Β1 Β2 Β3 Β4 Β5 Β6 C1 C2 C3 C4
Totales 89
130
109
148
110
100
597
79
68
70
61
57
335
123
122
149
122
112
89628
46
40
38
38
33
195
133
115
116
107
89
560
29
21
25
20
20
115
36
25
34
31
27
153
12
10
9
12
9
52
18
18
23
20
17
96
64
58
67
9
60
308
34
28
30
26
29
147
178
143
180
150
148
799
8
8
5
6
6
33
101
113
143
112
107
576
8. Análisis de Correspondencia A.D.C.
Tabla 8.1 (continuación). Datos hipotéticos para la inscripción de estudiantes en 21 carreras universitarias. 66 56 60 58 53 293 C5
C6 C7 D1 D2 D3
87
69
79
68
69
372
23
19
17
19
17
95
34
24
29
26
23
136
70
56
60
55
50
291
29
20
25
19
18
111
Totales
1322
1139
1326
1134
1060
5981
En muestras de 1000 estudiantes las columnas suman más de 1000 por las opciones. Los directivos podrán estar interesados en los totales de filas y columnas de esta matriz, por ejemplo la C 2 tiene la mayor demanda en estos 5 años y además la mayor demanda fue en 1994, etc. Pero esto así mirado no permite describir los comportamientos a través del tiempo. Para mejorar tal situación, se mostraran algunos de los patrones en la gráfica siguiente como tablas de frecuencia por carrera (fila), con alturas (frecuencias relativas) de sus porcentajes respecto del total. (la altura del primer bloque Α 1 será del 24.7 % equivalente a 22 estudiantes de 89. Cada uno de estos conjuntos de frecuencias relativas se denominará un perfil Perfiles de 4 carreras Α1, Β 4 ,C 4 y D 3 en un período de 5 años 1992-1996. La representación podría hacerse con todos los perfiles de las 21 carreras. El objetivo es mirar en primera instancia que los perfiles de las 4 carreras escogidas, son bastante diferentes: mientras C 4 tiene su
Frecuen cia R elativa A1
B4
C4
D3 96 19 5 9 19 94 19 93 19 2 9 19
Figura 8.1 Perfiles de 4 carreras en un período de 5 años.
máximo en 1994, Β 4 tiene su mínimo en este mismo año. La carrera D3 decae desde 1992 a la fecha y las más cercanamente parecidas son Α1 y D3 .
265
8. Análisis de Correspondencia A.D.C.
A pesar de ser una simple transcripción de datos numéricos, atractivamente presentados permiten una fácil interpretación a causa del impacto. Si se representaran así las 21 carreras, aparecería una gran confusión, ya no sería fácil evaluar similitudes y diferencia, sería mejor si las perfiles iguales pudieran agruparse. Para evitar confusiones se presenta el análisis de correspondencia de las 21 carreras, como luego podrá intentarse al manejar mejor los conceptos.
C3
λ2 =0 .000 94 (18.3% ) B4
Escala
C7 A5 C4
1995 B5
1996 A4
1993 C5
0.05 B1 A3
C1
λ1 =0 .003 3
D2
(63.2% )
A1 1994
C6
1992
D1 B2
B3
D3
Obsérvese que existen 2 conjuntos de puntos unos • representan a las carreras (filas) y ∆ representan los años (columnas). Cada punto que representa una carrera puede ser considerado como la representación completa de su perfil. La distancia entre las carreras puede interpretarse como una medida de similaridad entre perfiles.
Figura 8.2 Perfiles de 4 carreras agrupados por análisis de correspondencia. El análisis de correspondencia ha evaluado previamente un patrón de 5 componentes que ha condensado en un punto por ejemplo las carreras Β 4 , C 4 y
D3 están bastante distantes una de otras, lo que significa que sus perfiles son diferentes, mientras que Α1, D1 y Β2 están en la vecindad de D3 a causa de la similaridad de sus perfiles. Todos los puntos (carreras) en esta representación reflejan las posiciones relativas de sus perfiles, de la manera ´más correcta´ posible, a pesar de las restricciones que tenga el gráfico. Los puntos ∆ que representan los años se interpretan en casi todo como lo hecho con las carreras ya que su análisis de correspondencia trata de igual manera a las filas y columnas. Entonces cada punto anual representa el perfil de ese año a través del conjunto de as carreras, o sea las frecuencias de las columnas relativas al total de columnas, más o menos algo así, hipotético, en las cuales debido al número alto de carreras hubiera dificultado mucho su análisis y comparación. El análisis de correspondencia parece mostrar cambios drásticos relativos en el comportamiento de las inscripciones desde el 92 al 94 y que de pronto se dio cierta estabilidad en 1995 y 1996, por su cercanía al centro coordenado.
266
8. Análisis de Correspondencia A.D.C.
Fre cu encia relativa
C3 C7
D3
19
92
19
96
Figura 8.3 Frecuencias relativas resultantes por análisis de correspondencia. Las posiciones relativas de ambos tipos de puntos de cada uno respecto al otro tienen interpretaciones muy especiales en un análisis de correspondencia, lo que se vera posteriormente. Muy toscamente hablando, cada punto-carrera caerá más o menos ¨en la dirección del año en el cual el perfil de la carrera es prominente. Por ejemplo D3 se sitúa en las vecindades de 1992, a causa de que ese año tuvo su mayor número de inscritos, mientras que C 4 por ejemplo cae al otro lado del gráfico ya que sus inscripciones fueron relativamente altas en el 94 y bajas en el 92. En este caso se dio un cierto acuerdo en las posiciones de los puntos fila y columna en términos de su asociación en la matriz de datos. No es posible además pasar toda la información entre perfiles en un gráfico simple bidimensional y plano como estos. Una medida de la calidad obtenida con este resumen de información (que tan completa puede resultar) se da sumando los porcentajes explicados por cada eje rectangular (63.2 + 18.3 )% = 81.5% . Si se adicionaran más ejes se ganaría en información, pero a costa de dificultades e interpretación o de la visualización de los puntos. Se acude entonces al principio general que manejamos en la mayoría de los procesos multivariados vistos, que sacrifican un poco de información pero ganan interpretabilidad. La mayoría de esfuerzos del análisis de correspondencia se concentrará en buscar los mejores criterios para que tal principio resulte ventajosamente aplicado. El análisis de correspondencia es una técnica interpretativa relativamente simple, más geométrica que estadística, por lo cual en el como en ninguno de los anteriores son vitales los conceptos desarrollados en el capitulo de la geometría vectorial, los cuales serán complementados con otros conceptos.
′
Ya usted conoce el concepto de vector y vector fila x1 x 2 … x p = {x i } j = 1,…, p . En este caso p (o j ) será llamado el orden del vector, y se refiere a el como un j – vector. (en este caso un p –vector). Ejemplo al medir: diámetro
267
8. Análisis de Correspondencia A.D.C.
8.1 Dimensiones coordenadas y bases
(cm), área basal g en cm2, altura total (m) y biomasa (ton) a un árbol. medidas se colectarán en un vector de orden 4; por ejemplo:
Estas
22 ⇒ diámetro en cm. 380.13 ⇒ área basal g. en cm. 18 ⇒ altura en metros. 375 ⇒ biomasa en toneladas.
8.1 Dimensiones coordenadas y bases Supóngase nuestro interés en las alturas en cm y pesos en kilogramos de 3
′
′
personas que llamaremos Χ Α = [150 75] ; Χ Β = [120 60] y ΧC = [100 50] . Estos 3 vectores pueden graficarse convencionalmente como muestra la siguiente gráfica con los puntos representando a los vectores. Y A
75 B C
Estos puntos se ubican en el espacio 2–dimensional siendo las componentes de los vectores, las coordenadas de los puntos, con respecto a las dimensiones altura y peso. En este caso dimensiones y ejes son sinónimos.
X
Peso (kgm )
e2 X
e1 Altura (cm )
150
Figura 8.4 Vectores representados como puntos en un espacio bidimensional. Considerando el vector como movimiento ya visto en el álgebra de matrices, Α tiene coordenada 150 en la dimensión alturas y 75 en la dimensión peso, que es
′
un movimiento de 150 en Χ y 75 en Y , desde el origen [0 0] , en vectores
unitarios e1 = [1 0], e2 = [0 1] (vectores base),
268
8. Análisis de Correspondencia A.D.C.
8.2 Puntos en subespacios
150 1 0 ΧΑ = = 150 + 75 75 0 1 Cualquier otro vector en este espacio se obtiene por movimientos en la dirección de los vectores base. Por ello
Χ=
1 3
(ΧΑ
+ Χ Β + ΧC ) = [123.3 61.7]
8.2 Puntos en subespacios Es visible que los tres puntos de la figura anterior caen en una recta, que pasa por el origen, lo que significa que ellos pueden ser expresados como múltiplos de
′
un único vector, por ejemplo b = [10 5] , entonces
150 10 Χ A = 15 b Χb = 12 b ΧC = 10 b . Ejemplo: Χ Α = = 15 75 5 Estos 3 vectores caen entonces en otro espacio 1–dimensional (subespacio definido por el vector base b , quedando con coordenadas con respecto a b de 15, 12 y 10 respectivamente, de acuerdo con la siguiente figura
b= 10e 1 +5e 2
5
C
B
A
10
12
15
Figura 8.5 Representación de puntos como múltiplos de un único vector. Esta única dimensión que es una combinación de las variables originales: altura y peso, puede ser interpretada como una dimensión de ¨tamaño¨ por lo cual en la Figura 8.5 se observa como se disponen las tres personas en ella; así: Α > Β > C . Existen, de acuerdo con lo anterior, muchas formas de escoger un vector base para la dimensión ¨tamaño¨, por lo cual (el vector base) no está identificado. Por
′
ejemplo otro vector base podría ser C = [5 25] , con lo cual las coordenadas de los 3 puntos con respecto a él serían 30, 24 y 20. Similarmente las bases en dos dimensiones son muchas, por lo cual habrá que expresar criterios para la elección de alguna de ellas.
269
8. Análisis de Correspondencia A.D.C.
8.3 Centroide (Centro de gravedad)
8.3 Centroide (Centro de gravedad) 2400 2600 1900 Sean los vectores a1 = a2 = a3 = representando las 2400 1400 1000 exportaciones e importaciones de un producto durante 3 años consecutivos graficados de acuerdo con la Figura 8.6. Es evidente que caen en una linea recta, pero que evidentemente no pasa por el origen. Ya los vectores no pueden expresarse simplemente como múltiplos de un único vector base. En lugar de ello cada vector será igual a la suma de un vector fijo (desde el origen a un punto sobre la línea C ) más un múltiplo de otro vector a través de la línea. C es convencionalmente escogido como el centro de gravedad, vector medio o ′
centroide. C = a (2300 1600 ) . Im po rtacio nes 300 0 a1
190 0,24 00 4b
200 0
b 230 0,16 00 (C E N TR O ID E )
a-
4b
C
a 2 240 0,14 00
3b
a 100 0
a
+3b
260 0,10 00 a3
E xporta ciones 100 0
200 0
300 0
Figura 8.6 Definición para el vector medio o centroide en un caso de exportaciones e importaciones. El vector a través de la linea puede ser alguno como b = [100 −200]′ de manera que
2300 100 1900 a1 = a − 4b = − 4 = 1600 −200 2400
270
8. Análisis de Correspondencia A.D.C.
8.4 Desviaciones con respecto al centroide
a2 = a + b;
a3 = a + 3b
Existen algunas ventajas de escoger a , ya que define los movimientos desde el origen dentro de la linea, aunque existen muchas otras opciones para definir un vector diferente a él.
8.4 Desviaciones con respecto al centroide Como una alternativa es posible expresar los vectores como desviaciones con respecto al centroide así
z 1 = a1 - a;
z 2 = a2 - a;
z 3 = a3 - a
ecuación 8.1
Im p ortacio nes 300 0 a1
200 0
a
1
-a
a2
a 100 0 a 1 -a
a3
z1
E xportaciones O a 2 -a z 2 a 3 -a
100 0
b
200 0
300 0
z3
Figura 8.7 Vectores como desviacion con respecto al centroide. Esta acción, de centrar los vectores, propicia el traslado del centroide al origen de coordenadas. En este punto los vectores centrados z 1, z 2 , z 3 son múltiplos de un único vector b , como se muestra en la Figura 8.8.
271
8. Análisis de Correspondencia A.D.C.
8.5 Espacios multidimensionales
a1
a2
-4
1 1 unid ad
a3 3 D irecció n d el crecimiento positivo del caso e studiado
Figura 8.8 Vectores centrados representados como un unico vector b. Las coordenadas de los puntos centrados son –4, 1, 3, o sea que pueden interpretarse como un crecimiento de las exportaciones con respecto a las importaciones, con crecimiento a derecha, asumiendo que el consumo local se mantuviera constante. En la ultima gráfica la información mostrada es de naturaleza relativa, primero con respecto al centroide a de los datos y segundo relativa con respecto al vector base b el cual ha sido etiquetado como una unidad de crecimiento positiva. Muy a menudo se está interesado sólo en este gráfico como se vio en la mayoría de procesos estandarizados. En el puede verse que el crecimiento del año (a1 ) al (a 2 ) ha sido mucho más rápido que del (a 2 ) al
(a 3 ) .
Sin embargo eta interpretación en términos absolutos depende del
′
conocimiento de a y de b . Entonces a = [2300 1600] nos dice alrededor de que punto promedio de exportaciones importaciones están centrados los datos y
′ b = [100 −200] nos da una interpretación de una unidad de crecimiento
nominalmente, un incremento en las exportaciones de 100 está acoplada con un decrecimiento en las importaciones de 200, representado fuera de lugar en el círculo de la Figura 8.7. Se necesitaría mayor información para hacer una interpretación más real de la situación, por ejemplo como es el consumo local del producto año a año, ya que al menor decrecimiento en las importaciones, podría deberse a un más bajo consumo. Analizarlo entonces, incrementa la dimensionalidad del problema, debiendo pasar de una fácil y clara interpretación en dos dimensiones a espacios multidimensionales conceptualmente más complejos y difíciles de visualizar.
8.5 Espacios multidimensionales Si se introduce una tercera variable, el consumo local, sería posible una representación de 3 dimensiones, aun manejable cerebralmente y gráficamente. Por ejemplo sea el mismo problema anterior: Tabla 8.2 Datos para el consumo local de un producto. Año 1 Año 2 Exportaciones 1900 2400 Importaciones 2400 1400 Consumo local 2900 3100
272
Año 3 2600 1000 3600
8. Análisis de Correspondencia A.D.C.
8.5 Espacios multidimensionales
Consum o
P ared 2
4000
A
3000 a3
Pa
Ex
po r
re d
i ta c
1
D
a2 a1 O
Im p
s o ne
Piso
o r ta
c io n
es C
Figura 8.9 Espacio tridimensional para las variables que afectan un producto. Estos puntos en perspectiva como lo muestra la Figura 8.9, permiten ver lo siguiente, con el origen situado en la primera esquina 0. Se puede observar que los puntos sobre el piso ocupan una linea recta (y con respecto a las 3 dimensiones caen en el plano ΑΒCD (proyección de los puntos sobre el piso), o sea con respecto al espacio bidimensional exportaciones-importaciones), ya manejado anteriormente. Las proyecciones en ambas paredes ya no caen en lineas rectas. Sin embargo, puesto que caen en linea recta sobre el piso, por ello están exactamente contenidas en el plano ΑΒCD , que está situado perpendicularmente al piso. Si parados delante del plano viniendo desde la esquina acostaramos el plano veríamos el año 1 a nuestra izquierda.
′
El centroide en tal caso sería a = [2300 1600 3200] y los ejes quedarían definidos entonces por el eje de consumos original y por b . Para movernos desde el origen original , al punto a1 , tendríamos que ir primero al centroide a que sería el origen de la nueva gráfica; luego –4 unidades a través del eje b y luego – 300 en el eje del consumo. Para saber que es así se resuelve para el año 1 por ejemplo
0 1900 2300 1 2400 = 1600 − 400 0 + 800 1 + 2900 3200 0 0
c1 c ⇒ c = −300 ⇒ a = a − 4 b − 300e 3 3 1 2 c 3
273
8. Análisis de Correspondencia A.D.C.
8.5 Espacios multidimensionales
C onsum o c a3
23 00 a = 1600 3200 a1
b a2 -300
Figura 8.10 Configuración de un vector para la dispersión de tres puntos. En la Figura 8.10 los 3 puntos caen en una linea recta aproximadamente, en la linea definida por el vector C , que sigue la dirección de dispersión de los 3 puntos. Si quisiéramos ignorar los residuales de a1, a2 y a3 con respecto a esta linea, de nuevo reduciríamos el problema a una dimensión, a lo largo del vector C , ya que esta es una combinación del eje del consumo y del eje definido por b , o sea una combinación de las 3 dimensiones originales. Ello en la Figura 8.9 tridimensional es un vector a través del espacio que pasa lo más cercanamente posible de los 3 puntos. El análisis de correspondencia se aplica a encontrar uno de tales vectores, de definir conceptos de cercanía o distancia pequeña entre puntos, rectas y puntos, etc. El ejemplo anterior es un ejemplo ultra simplificado de reducción de dimensionalidad de un conjunto o nube de puntos, similar a los ya estudiados como el A.C.P. La cuestión también por responder será la misma: como encontrar un espacio de menor dimensionalidad que llegue a situarse lo más cercanamente posible a la nube de puntos?. Para tomar otro ejemplo diferente suponga que se toman una serie de mediciones a frutos de cacao en árboles adultos, dígase 20, si un vector a contiene estas mediciones, podría pensarse como un punto en un espacio 20-dimensional, de posibles vectores que describen frutos de cacao. Suponga que el vector de descripción de otra variedad de cacao es otro punto en este espacio que difiere ampliamente por una cantidad escalar c = ka , o también, que c podría ser obtenido combinando las características de diferentes tipos de frutos con escalas apropiadas, por ejemplo c = k1a1 + k 2 a2 . Si obtuviéramos un gran número de frutos cuyas medidas pudieran ser obtenidas por combinaciones de 2 tipos básicos de frutos, con variación únicamente en los coeficientes k1 y k2 , veríamos que los fruto-vectores caen en un subespacio bidimensional de un espacio 20-dimensional. Lo anterior implica algunas perdidas de información y de exactitud.
274
8. Análisis de Correspondencia A.D.C.
8.6 Baricentro
Repasando algunos conceptos se tiene: supóngase una nube de I puntos en un espacio J -dimensional (o I puntos vectores), asumimos que los vectores base estándar e1, e2 ,…, e j definen los J ejes o dimensiones de este espacio. Sea un
′
vector, o punto vector típico definido como Χ ≡ x1 x 2 … x j . Los puntos x1, x 2 ,…, x j son las coordenadas de Χ con respecto a e1, e2 ,…, e j , ya que
Χ = x1e1 + x 2 e2 + … + x j e j ecuación 8.2
o sea que Χ es una combinación lineal de los vectores base e1, e2 ,…, e j con coeficientes x1, x 2 ,…, x j . Geométricamente X es un punto (o movimiento del origen al punto) obtenido por moverse x1 unidades en la dirección e1 , X 2 unidades en la dirección e2 , etc. Los vectores x1e1, x 2e2 ,…, x j e j son entonces las componentes de X , o de otra forma Χ es la suma de sus componentes.
8.6 Baricentro El centroide de un conjunto de puntos V1, V2 ,…,VΙ es una combinación lineal particular α1V1 + α2V2 + … + α ΙVΙ en que los coeficientes suman 1, o sea Ι
∑α
i
=1
i =1
ecuación 8.3
Esta combinación se conoce como baricentro. Previamente se usó el término centroide para denominar el vector promedio en que todos los coeficientes igual a 1 Ι . Otros autores piensan también el centroide como un vector promedio ponderado en que los coeficientes α1 , α2 ,…, α Ι son proporcionales a los pesos (o masas) asignados a los respectivos vectores en la combinación lineal. Pero el vector medio ordinario es el centroide cuando se le asignan pesos iguales a todos los vectores. A pesar de que las bases estándar son conjuntos de vectores que definen la estructura original de referencia, se acostumbra a veces redefinir los vectores de interés como combinaciones lineales de otras bases, o en otras palabras con respecto a otros ejes.
275
8. Análisis de Correspondencia A.D.C.
8.7 Propiedades de las bases
8.7 Propiedades de las bases ➢ Una propiedad importante es que toda base consiste de un conjunto de
vectores linealmente independientes. ➢ Ninguna base o vector base es combinación lineal de otros vectores base ➢ Geométricamente cada vector base define una nueva dimensión en el espacio
ya que su movimiento no puede ser obtenido por combinación de movimientos de otros vectores base. En la figura Figura 8.9 los 3 vectores a1 − a, a2 − a y
a3 − a desde el centroide a a los 3 puntos respectivos a1, a2 , a3 pueden ser definidos en el espacio 3–dimensional, aunque también se vió que pueden expresarse como combinación lineal de 2 vectores bases o sea que caen subespacios de dimensionalidad 2. Alternativamente puede decirse que ninguno de los 3 vectores tiene componentes a lo largo de 1-dimensión que es linealmente independiente del subespacios anteriores
8.8 Dimensionalidad y dimensión Es importante distinguir ambos términos. Dimensionalidad de un conjunto (o espacio) de puntos-vectores es un valor entero fijo, mientras que las dimensiones son vectores así mismo, (o llamados también ejes) en el espacio de los vectores. Se ha usado el término subespacio con un sentido más amplio que la definición matemática usual. Se llamara: espacio k dimensional (o mejor subespacio k -dimensional) de un espacio j -dimensional, al conjunto de vectores
µ + α1 V1 + α2 V2 + … + αk Vk ecuación 8.4
En que µ es algún J -vector fijo, V1, V2 ,…, Vk son J -vectores linealmente independientes y α1 , α2 ,…, αk son números reales. En esta definición se incluye el vector fijo µ , el cual puede concebirse de dos maneras: a) como el primer paso de transferencia de los vectores hasta hasta el origen en el subespacio; o b) como una redefinición del origen del espacio al punto µ .
276
8. Análisis de Correspondencia A.D.C.
8.9 Distancias, ángulos y productos ...
8.9 Distancias, ángulos y productos escalares Nuevamente serán los ingredientes esenciales de un A. de C. la pregunta importante no es si un conjunto de datos o puntos en un espacio multidimensional cae exactamente en un subespacio de más baja dimensionalidad, sino, sí los puntos caen aproximadamente en tal subespacio. Eso obliga al uso de una distancia o métrica entre puntos del espacio multidimensional. El concepto de ángulo es una idea más abstracta que la idea física usualmente manejada por nosotros. Es de notar que distancias y ángulos son medidas escalares (números reales) definidos en términos de 2 puntos: la distancia, que cuantifica la cercanía de un punto a a un punto b y ángulo un valor que cuantifica que tan rapídamente 2 vectores van divergiendo de un origen común, en elementos que ya fueron definidos y que se recuerdan brevemente. eje 2 a a2
a d( a-b
,b
)
a 2 -b 2 b2
b β2
θ β1
a 1 -b 1
O
a1
b1
eje 1
Figura 8.11 Elementos para la representación de un ángulo entre dos vectores. Para dos puntos a y b es intuitivo que si conocemos las distancias de a y b al origen (o sea sus distancias La y L Β o longitudes) tanto como el ángulo θ entre ellos (que tan rápidamente se separan), es posible reelaborar conceptos de distancia. Ya se sabe que ambos conceptos se pueden incorporar en un concepto de espacios multidimensionales como es el producto escalar (o producto interno). El espacio tradicional en que nos movemos la mayoría de las veces – o euclidiano ya es conocido, por ser los más tradicionalmente usados; origina las rectas, o los planos o juntado con otra dimensión, muestra perspectiva tridimensional, de la cual ya se conoce la mayoría de sus propiedades, ej. Las longitudes que también se representan por Vector así:
277
8. Análisis de Correspondencia A.D.C.
8.9 Distancias, ángulos y productos ...
a = (a12 + a22 ) ; b = b = (b12 + b22 ) 12
12
ecuación 8.5
también conocida como la norma de un vector
d (a, b ) =
(a1 − b1 )
2
+ (a 2 − b2 )
2
ecuación 8.6
Notese que el vector
(a − b )
cuyas coordenadas son a1 − b1 y a 2 − b2 tiene la
misma longitud y dirección que el vector desde el punto b al punto a . La distancia entre a y b es entonces la misma que las longitudes de los vectores a − b o b − a. El coseno del ángulo θ entre a y b es
cos θ =
(a
a1b1 + a 2b2
2 1
+a
2 2
)(b
2 1
2 2
+b
)
=
a1b1 + a 2b2 La Lb
ecuación 8.7
situación ya conocida en términos de producto escalar, que algunos autores convencionalmente expresan como a, b ≡ a1b1 + a 2b2 que coincide con nuestra
a′b , por ello se recuerda
a =
a, a = a, a
= (a′a )
12
12
ecuación 8.8
d (a, b ) = a − b, a − b
12
12
′ = (a − b ) (a − b )
ecuación 8.9
cosθ =
a, b
=
a, a b, b
a′b
(a′ab′b )
12
ecuación 8.10
′ d 2 (a, b ) = (a − b ) (a − b ) = a
2
+ b
ecuación 8.11
278
2
− 2 a * b * cosθ
8. Análisis de Correspondencia A.D.C.
8.9 Distancias, ángulos y productos ...
conocida ley del coseno. Además de lo anterior el ángulo coseno entre b y el eje 1 es fácilmente deducido, recordando que el eje 1 esta definido por el vector
e1 ≡ [1 0]′ cuya longitud es igual a 1 → e1 = 1 y el producto escalar de b y e1 es b′e1 = b1 , o sea la coordenada de b con respecto a e1 , por ello
cos β1 =
b1 b ya que b12 + b22 = b
cos β 2 =
2
⇒ cos 2 β1 + cos2 β 2 = 1
b2 b ecuación 8.12
Es de notar como ya se había visto que todo lo anterior depende de la perpendicularidad entre los ejes, por lo cual e1 y e2 se dicen ortogonales. Dos vectores son ortogonales si su producto escalar es cero, lo que significa que
′
ninguno tenga componentes en la dirección del otro. Claramente e1 e2 = 0 y además tienen longitudes unitarias, o están normalizados o simplemente se dice que son ortonormales. Ellos son entonces una “BASE ORTONORMAL” para un espacio euclidiano bidimensional (2–dimensional), y así fue fácil extender los conceptos a espacios multidimensionales. Es necesario rescatar que mientras el producto escalar de 2 vectores depende del origen del espacio, la distancia entre 2 puntos es por contraste independiente de él. Además de lo anterior, ya se ha visto que para la mayoría de nuestros propósitos es fundamental el concepto de ponderación, cuando no es deseable que la distancia dependa de las unidades de medición, apareciendo los espacios euclidianos ponderados. Ejemplo: si las desviaciones estándar de altura y peso en una muestra de personas fueran 40 cm y 10 kgs entonces las alturas divididas por 40 y los pesos por 10 pueden graficarse con un 2–espacio euclidiano. Se estandarizan los vectores Χ = [x1 x 2 ] , Y = [y1 y2 ] , como
′ x2 x ΧS = 1 ; 40 10 cuyo producto escalar
ΧS , YS =
x1y1
y2 y YS = 1 40 10 +
′
x 2y 2
o sea con ponderaciones a las 40 102 medidas originales. Se retienen los vectores originales pues la definición de producto escalar aparece con un ponderador en cada término ⇒
Χ, Y ≡
2
x1y1 40
2
+
x 2y 2 10
2
= Χ ′DS-12 Y
279
8. Análisis de Correspondencia A.D.C.
8.10 Espacio euclidiano ponderado ...
P eso −1 S2
En que D
es la matriz diagonal del inverso de las varianzas, y se llega a las conocidas representaciones en que la elipse define un conjunto de puntos equidistantes de un punto g; o sea en un espacio euclidiano ponderado.
g
a
b
1 402 0 = 1 102 0
c
A ltura
Figura 8.12 Representación de una elipse en un espacio euclidiano ponderado. De nuevo se encontraría ventajoso el trabajo con bases ortonormales, una sería 40 e1 , y 10 e2 ya que
′
(40e1 ) DS−1 (40e1 ) = 1 2
′
(10e2 ) DS-1 (10e2 ) = 1 Las coordenadas de
Χ
2
con respecto a estas bases serían
respectivamente:
x1 40
y
x2 10
x x Χ = 1 40e1 + 2 10e2 40 10 en otras palabras las coordenadas de X con respecto a las bases ortonormales en el espacio euclidiano ponderado son exactamente las coordenadas de los vectores estandarizados ΧS en el espacio euclidiano ordinario (no ponderado)
8.10 Espacio euclidiano ponderado multidimensional Queda definido, en general, por el producto escalar:
280
8. Análisis de Correspondencia A.D.C.
8.10 Espacio euclidiano ponderado ...
Χ ′Dq Y =
∑q x y j
j
j
j
ecuación 8.13
en que q1 , q 2 ,…, q j … son números reales positivos que definen los pesos relativos que se les asignaran a las j respectivas dimensiones. Las distancias cuadradas entre 2 puntos Χ y Y en este espacio son entonces las sumas ponderadas de las diferencias al cuadrado de las coordenadas:
′ d 2 ( Χ, Y ) ≡ ( Χ − Y ) Dq ( Χ − Y ) =
∑ q (x j
− yj )
2
j
j
ecuación 8.14
Tipo de distancia ya conocida, a menudo invocada como una “métrica diagonal”. Para nuestro ejemplo bidimensional, parece que en la medida que se mantenga el concepto de ortonormalidad, no importa como se defina el producto escalar, ya que la definición usual (no ponderada) y también (distancia, longitud y dirección), pueden aplicarse a las coordenadas de los vectores con respecto a las bases y además evaluar las cantidades respectivas en el espacio ponderado. Este resultado ya fue probado y acudiendo al uso de matrices definidas positivas Q como ponderadores, o sea cuando el producto escalar entre los vectores Χ y Y en un espacio j –dimensional está definido como:
∑∑ q
Χ ′QY =
j
j′
jj ′
X jY j ′
ecuación 8.15
que permite expresar Χ y Y relativos a cualquier base b1, b2 ,…, b j como:
Χ=
∑u b ; j
j
j
Y=
∑v j
j′
bj′
ecuación 8.16
cuyo producto escalar será:
′ Χ ′QY = ∑ u j b j Q ∑ v j ′b j ′ = j j′
∑∑ u v j
j′
j
j′
b′j Qb j ′ ,
ecuación 8.17
gracias a la naturaleza distributiva de la multiplicación matricial. bases son ortonormales por definición
Pero si las
281
8. Análisis de Correspondencia A.D.C.
′ b j Qb j ′ = 0
8.11 Distancias entre vectores de frecuencias
si j ≠ j ′ ; y b j ′Qb j = 1 ; j = 1,…, j . ecuación 8.18
lo que en notación matricial escribiriamos como B′QB = Ι en que Β es la matriz de vectores columna b1, b2 ,…, b j .
Acá entonces se dice que la base Β es
ortonormal en la métrica Q . Consecuencia de ello será entonces que:
Χ ′QY =
∑u v j
j
j
ecuación 8.19
Lo que quiere decir que el producto escalar euclidiano ponderado, es simplemente el producto escalar de las coordenadas con respecto a otras bases ortonormales (ortonormales en el mismo espacio ponderado).
8.11
Distancias entre vectores de frecuencias
Uno de los ejemplos más comunes de una distancia euclidiana ponderada es el estadístico de χ 2 para verificar si una densidad de probabilidades corresponde a una densidad esperada. Por ejemplo supóngase que a lo ancho de una nación los resultados de una elección general, dio a 5 partidos las siguientes votaciones en miles [1548 2693 621 950 283] . Expresadas como porcentajes con respecto
[0.254
al
total
de
votantes
[6095]
0.442 0.102 0.156 0.046] respectivamente.
miles
serían
Asumiendo que los
votantes representan lo que sucederá en la nación, en iguales proporciones a menos que otros patrones de votación se hicieran presentes, supóngase igualmente que en cierta área rural los votos de 5000 ciudadanos para los cinco
′
partidos hubieran sido: [1195 2290 545 771 199] o sea las proporciones
[0.239
0.458 0.109 0.154 0.040] respectivamente. Si los votos hubieran
tenido lugar en forma exactamente igual en toda la nación, el número esperado (o frecuencia) de los votos para cada partido hubiera sido [1270 2210 510 780 230] (ejemplo 1270 = 5000 * 0.254 ) o sea 75 votos menos que la frecuencia esperada para el partido 1, 80 más para el 2, 35 más el 3, 9 menos para el 4 y 31 menos para el 5. Para verificar si estas desviaciones representan desviaciones estadísticamente significativas de las frecuencias esperadas se calcula el siguiente estadístico: 2
χ =
∑
( frecuencia observada -
frecuencia esperada )
frecuencia esperada ecuación 8.20
282
2
8. Análisis de Correspondencia A.D.C.
8.11 Distancias entre vectores de frecuencias
o sea:
752 1270
+
802 2210
+
352 510
+
92 780
+
312 230
= 4.43 + 2.90 + 2.40 + 0.10 + 4.18 = 14.01
Para hacer la prueba, este resultado se compara con un χ 2 tabulada con 4 grados de libertad (esto con
( p = 0.005 )
χ 2 (4 ) = 13.28 con 0.01 gl. y con 14.86
dándose, entonces que el conjunto de frecuencias observadas es
diferente significativamente al conjunto de frecuencias esperadas a un nivel de probabilidades p 0 queda subtendida por un ángulo agudo entre fi y g j , mientras que una
aij < 0 lo queda por un ángulo obtuso.
8.19 S.V.D. en las métricas Ω y Φ . Aproximación matricial Para la máxima generalización se asume que Ω ≡ Dw , las masas de los puntos y
Φ = Dq los pesos de las dimensiones. Entonces la aproximación matricial Α k* = Ν k* Dµ * Μ′k* = ( ) (k ) ( )
k*
∑u
k
nk mk′
k
ecuación 8.54
minimiza 2
Α − Χ Dq Dw ≡
∑∑ w q (a i
i
j
j
− x ij ) = 2
ij
∑ w (a i
i
i
′ − x i ) Dq (ai − x i ) .
ecuación 8.55
entre todas las matrices Χ de rango a lo sumo K * , en que ai′ y x i′ son las filas de Α y Χ respectivamente. Comparando esto con la ecuación 8.38, podemos ver que lo anterior propicia la solución requerida cuando Α es definida como una matriz de filas centradas de Y , o sea
Y − 1Y ′ ecuación 8.56
De todas las formas de las óptimas, Α k* , los vectores m1, m2 ,…, mk* de la
matriz Μ k*
( ) definen una base ortonormal para el subespacio óptimo, y las
coordenadas de los vectores y 1 − y con respecto a estas bases están en las filas de F k* ≡ Ν k* D µ
( )
296
( )
(k* )
.
8.19 S.V.D. en las métricas Ω y Φ - ...
8. Análisis de Correspondencia A.D.C.
La S.V.D. generalizada propicia entonces la solución requerida para una prescrita dimensionalidad K * . Para K * = 1 el primer par de vectores singulares y sus asociados valores singulares (el mayor) proveen la solución óptima. Para K * = 2 , el primer y segundo par de vectores singulares y sus valores singulares propician la solución óptima, y así el resto. Esta ¨aditividad¨ de dimensiones conduce a que los vectores base m1, m2 ,…, mk , en este caso sean llamados ejes principales de las filas de Y . Los valores singulares cuadrados dan una idea de lo bien que la matriz es representada a lo largo de los ejes principales. La variación total de una matriz Α es cuantificada por su norma cuadrada, por ejemplo par el caso que nos ocupa, la ecuación 8.55
Α
2
D q Dw =
∑ wi ai′ Dq ai = i
k
∑µ
2 k
→ Variación total
k =1
ecuación 8.57
similarmente, la variación de la aproximación Α k* será:
k*
2
Α k*
∑µ
Dq , Dw =
2 k
→ Variación explicada
k =1
ecuación 8.58
y la “variación no explicada” será: 2
Α − Α k*
k
Dq Dw =
∑ *
µk2
k = k +1
ecuación 8.59
la cual es minimizada. La variación “explicada” expresada como un porcentaje Ψk * de la “variación total”, es a menudo utilizada informalmente para cuantificar la calidad de la aproximación K * –dimensional (de la aproximación matricial). Cuando ai = Yi − Y , la variación total (ecuación 8.58) es la suma ponderada de distancias cuadradas de los vectores Yi a su centroide Y , un tipo de varianza generalizada que se podría llamar la inercia del conjunto de vectores), o inercia total. Ya que la inercia total es la suma de los cuadrados de los valores singulares de Α y que las sumas de cuadrados pueden dividirse en su variación inexplicada y explicada, es claro que el k -ésimo eje principal cuenta o aporta una
297
8. Análisis de Correspondencia A.D.C.
8.20 Cálculo de la S.V.D. generalizada
cantidad µk2 a la inercia total. Se dirá entonces que la inercia total es descompuesta a través de sus ejes principales.
8.20
Cálculo de la S.V.D. generalizada
Usualmente se acude a la S.V.D. ordinaria ya vista y calculada simplemente en 5.9. Por ejemplo para ejecutar la descomposición Α = ΝDµ Μ′ , en la cual
Ν′Dw Ν = Ι = Μ3 Dq Μ se procede así: 12 ΑD1q 2 Sea Β = Dw
Encuéntrese la S.V.D. ordinaria de Β : Β = UDα V ′ . 12 U; M = Dq-1 2 V; Dµ = Dα Sea Ν = Dw
Con ello Α = ΝDµ Μ′ , S.V.D. generalizada Ejemplo 8.1 Considerese la siguiente matriz de porcentajes:
Y5 * 4
36.4 22.2 = 49.0 20.5 40.0
18.2 16.7 19.6 27.3
27.3 18.2 38.9 22.2 23.5 7.8 37.5 14.8
24.0 28.0
8.0
en que cada fila de Y suma 100 % (con posibles errores de redondeo). Las filas de Y definen 5 puntos en un 4–espacio euclidiano ponderado, en que los pesos se definen por la siguiente matriz diagonal:
17.3 0.0 0.0 0.0 0.0 23.5 0.0 0.0 Dq ≡ 0.0 0.0 17.0 0.0 0.0 0.0 0.0 42.2 y además, se hará que los puntos tengan masas asociadas proporcionales a 5.7, 9.3, 26.4, 45.6, 13.0 respectivamente, que también suman 100. Calcular los dos primeros ejes principales de estos 5 puntos sobre un plano principal y el porcentaje de inercia de estos puntos representado por este plano.
298
8. Análisis de Correspondencia A.D.C.
8.20 Cálculo de la S.V.D. generalizada
SOLUCIÓN. Sean las filas de Y : y 1′ , y ′2 ,…, y ′5 en que cada y i es un 4–vector.
Entonces
′
hágase W ≡ [5.7 9.3 26.4 45.6 13.0] el vector de masas de los puntos y
Dw ≡ diag
( W ) , la matriz diagonal de estas masas. 1′ W =
∑w
El centroide de los 5 puntos será Y =
i
Puesto que
= 100
∑w y i
i
′ 100 = 31.6 23.3 32.2 13.0 .
i
La matriz de desviaciones con respecto al centroide es:
4.8 −5.1 −4.9 −5.2 −9.4 −6.6 6.7 9.2 Y ≡ Y − 1Y ′ = 17.4 −3.7 −8.7 −5.2 −11.1 4.0 5.3 1.8 0.7 −4.2 −5.0 8.4 Los resultados buscados pueden lograrse de la S.V.D. generalizada de Y en las métricas Dw y Dq respectivamente. Esto nos conduce a considerar la S.V.D. ordinaria de la matriz S = D1w2 YD1q 2
47.7 −119.2 S = 371.9 −311.8 126.0 Ej: s12 = y12 (w1q 2 )
12
−59.0 −48.2 80.7 −97.6 −84.2 182.3 −92.2 −184.3 −173.6 130.9 147.6 79.0 −62.4 −117.1 12.2
= −5.1 (5.7 * 23.5 )
12
= 59…etc . .
La aproximación de rango 2 de S puede obtenerse como:
0.058 −0.288 S(2) = U(2)Dµ (2) V′ = 0.718 −0.572 0.267
0.462 0.737
639.4 0 0.807 −0.177 −0.407 −0.389 0.048 0 233.3 0.171 −0.683 −0.042 0.709 −0.398 −0.288
299
8. Análisis de Correspondencia A.D.C.
8.20 Cálculo de la S.V.D. generalizada
ya sabido que Ν(2)Dµ (3)Μ′(2) en la aproximación generalizada de rango 2 de Y , con
Ν(2) = Dw-1 2 U (2) y Μ(2) = D1q 2 V(2) y que los 2 ejes principales son definidos por las bases ortonormales (vectores) en las columnas de Μ2 ⇒
Μ(2) = D1q 2 V(2)
0.194 0.041 −0.037 −0.141 = −0.099 −0.010 −0.060 0.109
Las proyecciones de los puntos sobre el subespacio definido por estos 2 ejes son las filas de la matriz F(2) ≡ Ν(2)Dµ (2) (estamos trabajando con la matriz Y ):
F(2) ≡ Ν(2)Dk (2) = D1µ 2 U (2)Dµ (2)
15.5 45.1 −60.4 56.4 = 89.4 2.2 −54.2 −13.8 47.3 −18.6
Puesto que estas coordenadas son con respecto a una base ortogonal (ortonormal) se pueden graficar en un sistema de coordenadas regulares. Figura 8.15.
λ2 = 54.43 (11.7% ) E sca la 20
F2 F1
λ1 = 408.83 (87.8% ) F4
F3
Figura 8.15 Gráfica óptima 2-dimensional de las filas de la matriz Y .
300
8. Análisis de Correspondencia A.D.C.
8.21 Ejemplos de A. de C.
Para los cálculos de la inercia es costumbre usar los valores relativos de las masas (como en los cálculos del centroide), lo cual no afecta la determinación de ese valor en el plano relativo a la inercia total de los 5 puntos. Esta es la suma ponderada de distancias al cuadrado de los puntos al centroide:
∑ w (y i
i
i
′ − y ) Dq ( y i − y ) =
∑ w y′D i
i
q
yi
i
ecuación 8.60
mientras que la inercia en el plano es la suma ponderada de distancias proyectadas:
∑w f ′ f i i
i
ecuación 8.61
Que no se evalúan, si no que se lo hace a través de los valores singulares al cuadrado de S que dan los momentos de inercia de los puntos con respecto a los ejes principales. El tercero y cuarto valores singulares de S son : 47.8 y 1.8 respectivamente, lo que da una inercia total de (639.) + (233.3 ) + (47.8 ) + (1.8 ) = 465.549,33 2
2
2
2
cuando la inercia en el plano es de (639.4 )2 + (233.3 )2 = 463.261,35 = 99.51% de la total. Entonces prácticamente toda la variación de los puntos esta contenida en el subespacio de los 2 ejes principales, como se muestra en la Figura 8.15. Las inercias µk2 a través de los ejes son usualmente denotadas por λk (k = 1,…, k ) .
8.21
Ejemplos de A. de C.
Se asumirá pues que el A. de C. es una técnica que permite mostrar gráficamente las filas y columnas de una matriz de datos, como puntos en espacios vectoriales duales de baja dimensionalidad, o toscamente como si fuera una tabla de contingencia de 2 vías. Se mostrara en forma detallada a través de un ejemplo el uso del A. de C., con los datos obtenidos en un estudio de adicción a la bebida en una gran compañía, ficticia, de acuerdo con los datos tomados de acuerdo con el rango ocupado y el número de copas tomadas. Ejemplo 8.2 Los miembros analizados se dividieron en ejecutivos maduros y ejecutivos jóvenes, empleados maduros y recién empleados y secretarias, y se calificó su
301
8. Análisis de Correspondencia A.D.C.
8.21 Ejemplos de A. de C.
hábito así: a) abstemios b) bebedor social, c) bebedor d) alcohólico. Para a) 0 copas b) 1–5 copas/fiesta c) 5–10 copas d) más de 10 copas. Se hizo una muestra aleatoria al 10 % de cada categoría, correspondiente a 193 trabajadores, de acuerdo con la Tabla 8.3 Tabla 8.3 Matriz de datos de hábitos de bebida. Cargo dentro de 1.) 2.) Bebedores 3.)Borracho 4.)Alcohólico la compañía Abstemios sociales s 1.) Ejecutivos 4 2 3 2 maduros 2.) Ejecutivos 44 3 7 4 jóvenes 3.) Empleados 25 10 12 4 maduros 4.) Empleados 18 24 33 13 jóvenes 5.) Secretarios 10 6 7 2 (as) Totales columna 61 45 62 25
Total fila 11 18 51 88 25 193
Con esta tabla se logran los perfiles dentro de cada categoría, así: Tabla 8.4 Tabla de frecuencias relativas. 1.) Asb 2.) Br soc 3.)BBD
4.) Alcoho Histograma
Masas
E.M.
0.3636
0.1818
0.2727
0.1818
0.057
E.J
0.2222
0.1616
0.3889
0.222
0.093
EM.M
0.4901
0.1960
0.2353
0.0784
0.264
EM.J
0.2045
0.2727
0.375
0.1417
0.456
SEC
0.400
0.2400
0.280
0.080
0.13
Muestra total
0.3160
0.2331
0.3212
0.1295
Asumiendo los perfiles en un espacio 4-dimensional, se buscan las ponderaciones a los 5 puntos de acuerdo con la representatividad dentro de la muestra así 1) 11 193 = 0.05699 ≈ 0.057, etc . . Es fácil ver que el centroide de los perfiles fila, con estas ponderaciones es el perfil de la muestra total.
302
8. Análisis de Correspondencia A.D.C.
8.21 Ejemplos de A. de C.
Si ahora mira la primera matriz Y5 * 4 del ejemplo 8.1 encontrará que aparte del redondeo de datos, tiene los mismos elementos de la tabla anterior pero dados como porcentajes (ej., y11 = 36.4 % y 12 = 18.2% sin el símbolo claro esta, o sea que aquellos datos representan 100 veces las anteriores mostradas, o sea con cambios de escala. Así mismo, las masas de fin de la página 298 son 100 veces las masas de nuestros datos actuales. Respetando esos cambios de escala, la solución presentada antes debe satisfacer la inquietud actual, además que es posible ver luego, que los pesos de las dimensiones resultan acá inversamente proporcionales a las coordenadas del centroide. De acuerdo con lo anterior se tiene por la S.V.D. antes mostrada, que la gráfica que mejor ajusta los datos coincide con el plano mostrado. λ2 = 0.0100 (11.7% ) E sca la 0.1 E m p leado s jóven es S ecreta rias
λ1 = 0.0748 (87.8% ) E m p leado s m aduros
E jecutivos jóvenes
E jecutivos m adu ros
Figura 8.16 Gráfico de los perfiles fila de la tabla y representación del plano que mejor ajusta los datos. Las inercias λ1 y λ 2 y sus respectivos porcentajes se colocan en los ejes respectivos. LA SOLUCIÓN. Se denota la matriz con los datos de perfiles fila como R , la matriz diagonal de masas como D f y el centroide (elementos) como Dc , tal que el centroide
c = Dc 1 , la métrica en el espacio de los perfiles quedara definida como Dc-1 . Las coordenadas de los perfiles en el espacio óptimo bidimensional, se darán por las filas de la F(2) 5 *2 siguiente
303
8. Análisis de Correspondencia A.D.C.
8.21 Ejemplos de A. de C.
F(2) = Ν(2)Dµ (2) ver numeral 8.20 ecuación 8.62
en que Ν(2) y Dµ (2) son las submatrices apropiadas de la S.V.D. generalizada de
R − 1c′ = ΝDµ Μ′ en que Ν′D f Ν = Μ′Dc-1Μ = Ι Los valores singulares generalizados de R − 1c ′ son: 0.2734, 0.1001, 0.0203. La matriz de coordenadas (ecuación 8.63) será:
F(2)
0.066 0.194 −0.259 −0.243 = 0.381 −0.011 −0.233 0.058 0.201 0.078
que difiere de la encontrada en la página 300 sólo en una constante ≈ 234 (ej., F11 = 15.5 0.066 = 234.8; 45.1 0.194 = 232.5 , etc.), y cambios de signo en
F22 y F12 comparados a los anteriores página 300. Μ(2) se obtiene como
Μ (2 )
0.455 −0.096 −0.85 0.329 = −0.231 0.024 −0.139 −0.256
en que nuevamente se diferencian sólo de escala, con una constante de escala cercana a 0.42. con estas se graficaron los datos (Figura 8.16) en el sistema rectangular, conservándose las posiciones relativas a los de la Figura 8.16, pero a cambio de los signos que hacen de una figura como el espejo de la otra. La Figura 8.16 puede ser llamada el “análisis de correspondencia de los perfiles fila” de la matriz de datos originales. Es de notar la relatividad que impregna todo el análisis. Los perfiles son vectores de frecuencias relativas (relativas a sus correspondientes totales), las masas asignadas a los perfiles son relativas, relativas a la masa total, de hecho el conjunto de masas mismo define un perfil, como se verá con posterioridad. Los pesos de las dimensiones son los inversos de los elementos del centroide, pero este a su vez es también un perfil, el perfil promedio. Cada uno de estos vectores perfil comprende un conjunto de valores que suman 1 y con ello, cualquier cambio den una de estas tripletas en escala se transmite a todo el conjunto, o sea cualquier cantidad se liga con el total de los datos en toda la matriz.
304
8. Análisis de Correspondencia A.D.C.
8.22 Problema dual
La calidad total de la representación de los puntos calculada en términos de los valores relativos de las sumas de cuadrados de los valores singulares es también igual a la que se daría en el ejemplo 8.1, normalmente un 99.5%. La inercia total es igual a la suma de cuadrados de los valores singulares (0.2734)2 + (0.1001)2 + (0.0203)2 = 0.08518 . Convencionalmente se escriben los porcentajes de inercia en los ejes, por ejemplo: 2 0.2734 = 0.07414 0.08518 = 87.75% , etc. Este ejemplo es sólo didáctico, más que seriamente elaborado, para tratar de aprender a interpretar con alguna claridad. Notese que los empleados maduros y secretarios (as) son relativamente similares en sus hábitos de beber, cuando los empleados jóvenes y los ejecutivos jóvenes se localizan bastante lejos de estos grupos, mientras que los ejecutivos maduros están en un punto intermedio entre los ejecutivos jóvenes y los empleados maduros.
8.22
Problema dual
En una forma similar a lo presentado se podrá analizar lo sucedido con los perfiles columna, que se relaciona directamente con la geometría de los perfiles fila en múltiples formas, y es realmente de acá de donde surge el nombre de “análisis de correspondencia”. Considérese entonces la matriz de datos como un conjunto de columnas más que filas; o sea como se comportan las diferentes actividades en cada uno de los hábitos de adición al alcohol. Para ello simplemente se aplica todo el análisis anterior a la traspuesta de la matriz de la Tabla 8.4. Si dividimos cada fila de la transpuesta por su total, se obtiene una matriz C j * Ι de perfiles columna, que luego del análisis mostrará lo siguiente, Figura 8.17.
305
8. Análisis de Correspondencia A.D.C.
8.22 Problema dual
λ2 = 0.0100 (11.7% )
B ebedo res sociales
B ebedo res
λ1 = 0.0748 (87.8% )
A lcohólicos
A bste m ios E sca la 0.1
Figura 8.17 Análisis gráfico de los perfiles columnas de la tabla y representación del plano que mejor ajusta los datos. Tabla 8.5 Análisis de los perfiles columna con respecto al plano que mejor los ajusta. Cargos/com Abstemios Bebedores BBD Alcohólico Muestra pañia sociales (promedio) Ejecutivos 0.066 0.0444 0.048 0.080 0.057 maduros Ejecutivos 0.066 0.067 0.113 0.160 0.093 jóvenes Empleados 0.410 0.222 0.194 0.160 0.264 maduros Empleados 0.295 0.533 0.532 0.520 0.456 jóvenes Secretarios 0.164 0.133 0.113 0.080 0.130 (as) Histograma Masas
0.3160
0.2331
0.3212
0.1295
Las 4 categorías de bebedores definen puntos en un espacio 5–dimensional. Si estos puntos son ponderados por masas proporcionales a los totales de las columnas entonces el centroide deja de ser el perfil fila f de los totales de filas. Las masas en efecto igualan a los elementos de c , el centroide de los perfiles fila, y el centroide f de los perfiles columna es simétricamente el vector de masas de
306
8. Análisis de Correspondencia A.D.C.
8.22 Problema dual
los perfiles fila. En el espacio de los perfiles columna la métrica se define en forma similar a D −f1 de forma que cada dimensión es de nuevo ponderada inversamente por los elementos del promedio o perfil esperado. La tripleta que define el problema dual es entonces C , c y D-1f . Las coordenadas de los perfiles columna con respecto a su subespacio 2-dimensional óptimo se dan en las filas de la matriz G (2) 4 * 2
G ( 2 ) = Μ (2 ) D µ (2 ) ecuación 8.63
ˆ en que Μ (2 ) y D µ (2 ) son las métricas apropiadas de la S.V.D. generalizada de
C − 1f ′ = Μµ Dµ N′ con Μ′Dc Μ = Ν′D-1f Ν = Ι ecuación 8.64
Al computar G (2) de coordenadas y la matriz Ν(2) que define los 2 ejes principales en el espacio 5–dimensional se tiene:
G (2)
0.393 −0.031 −0.100 0.141 ; = −0.196 0.007 −0.294 −0.198
Ν( 2 )
0.014 −0.110 −0.088 −0.226 0.2734 = 0.368 −0.028 valores singulares 0.1001 −0.388 0.263 0.0203 0.095 0.102
Los valores singulares coinciden con los de los perfiles fila, por lo cual se usa la misma notación en ambos casos, se nota también que los 4 puntos ocupan un espacio 3–dimensional. Es posible notar que G y Ν se relacionan en una forma simple a las matrices Μ y F respectivamente de la página 304. Por ejemplo el elemento m 31 de Μ es – 0.231, y debido a que:
G = Dc-1ΜD µ
o;
Μ = Dc GD-1 µ
ecuación 8.65
Ν = DF FD-1 µ
o;
F = Df-1ΝD µ
ecuación 8.66
elemento de será G m 31 µ1 c 3 = ( −0.231)(0.273 ) 0.321 = −0.196 . Se notará también que los signos
entonces
el
correspondiente
307
8. Análisis de Correspondencia A.D.C.
8.22 Problema dual
de las columnas de G y Μ tanto como aquellos de F y Ν deben corresponderse. Si se hicieran las soluciones de ambos problemas separadamente, podría ocurrir que los signos de las columnas mencionadas difieran, pero en vista de las relaciones mencionadas, los problemas no vale la pena separarlos. Resolver un problema permite entonces la solución del otro, con lo cual la concordancia de los signos será implícita. El gráfico 2–dimensional entonces es el correspondiente a la Figura 8.17. La ecuación 8.65 y la ecuación 8.66 nos muestran que las coordenadas de los puntos perfil con respecto a sus ejes principales en uno de los problemas están relacionadas por simples pre y pos multiplicaciones de matrices diagonales a los ejes principales actuales de los puntos perfil en el otro problema y viceversa. Esta simetría de los 2 problemas, unida a los valores singulares y sus cuadrados: las inercias principales, iguales en ambos problemas constituyen el meollo de la dualidad. En la practica no existe un interés particular en las matrices Μ y Ν , si no más bien en las “posiciones relativas de los puntos”, ya que su colocación en los ejes resulta secundaria, y explicada por la ecuación 8.65, ya que cualesquier cambio en unas matrices repercute en las otras. Por ello el problema dual, y el servicio que se presta a los 2 propósitos y que conduce a la correspondencia. Otra forma de escribir las matrices ecuación 8.65 y ecuación 8.66 en términos de las matrices de coordenadas F y G únicamente sería así:
G = CFD-1 µ ecuación 8.67
F = RGD-1 µ ecuación 8.68
Fórmulas conocidas como de transición porque permiten pasar a las otras coordenadas de los problemas duales. Por ejemplo la primera fila de R , la matriz de perfiles fila, o sea las frecuencia en % de los ejecutivos maduros, Tabla 8.4 es: Fi′ = [0.364 0.182 0.273 0.182] , a través de los diversos hábitos de tomar. En términos de las fórmulas de transición, las coordenadas de este perfil fila con respecto a los dos primeros ejes principales de los perfiles fila esta dada por la primera fila de F(2)
f1′ = γ 1′G (2)Dµ−1(2) = (0.364g 1′ + 0.182g ′2 + 0.273g ′3 + 0.182g ′4 ) D µ−1(2) En que g i′ son las filas de G (2) . La ultima expresión es un baricentro de los puntos perfil (columnas) ya que la suma de los elementos del vector γ 1 es 1. La postmultiplicación por Dµ−1(2) significa que las coordenadas de tal baricentro están
308
8. Análisis de Correspondencia A.D.C.
8.22 Problema dual
divididas por los valores singulares µ1 y µ2 respectivamente, con lo cual las coordenadas del primer perfil fila serán:
(0.364 * 0.393) + (0.182* −0.100) + (0.273* −0.196) + (0.182* −0.294) f11 = = 0.065 0.2734 (0.364 * −0.031) + (0.182 * 0.141) + (0.273 * 0.007) + (0.182 * −0.198) f11 = = 0.197 0.1001 Geométricamente significa que un perfil particular tiende a tomar una posición en su espacio con sus correspondientes categorías de beber que sean relevantes en tal perfil fila. Por ejemplo: los abstemios, definidos por el primer perfil columna, caen en el lado positivo (0.393) del primer eje principal y cualquier otro perfil que sea relativamente alto en no beber caerá en el lado positivo del eje primero. La expansión de las coordenadas al dividir por sus respectivos valores singulares tiende a equiparar los baricentros. A causa de la correspondencia geométrica de ambas nubes de puntos, pueden juntarse en una sola gráfica así; Figura 8.18: λ2 = 0.0100 (11.7% )
B ebedo res sociales
E sca la 0.1
E m pleado s jóve nes B ebedo res
S ecreta rias E m pleado s m aduros
λ1 = 0.0748 (87.8% )
A bste m ios
A lcohólicos E jecutivos jóvenes
E jecutivos m ad uros
Figura 8.18 Representación de perfiles columna en un espacio con sus correspondientes categorías. Un gráfico de estos tiene la ventaja de ser simple, muchos datos comprimidos en él, otra es la naturaleza de las similaridades y la dispersión dentro de la nube, mientras que conjuntamente muestra las correspondencias.
309
8. Análisis de Correspondencia A.D.C.
8.23 Principio de la equivalencia distributiva
Se debe evitar la tentación de interpretar distancias entre puntos de diferentes nubes ya que ellas no quedan explícitamente definidas, ya que solamente se definieron las distancias χ 2 entre puntos de una misma nube, mientras que las relaciones entre ellas quedan gobernadas por baricentros de distinta naturaleza, aunque modificados al efecto por las fórmulas de transición.
8.23
Principio de la equivalencia distributiva
Establece que si 2 perfiles fila pueden ser idénticos (distribucionalmente equivalentes), entonces estos dos perfiles de la tabla original de contingencia pueden ser adicionados conjuntamente en un perfil único sin afectar la geometría de los perfiles columna. Similarmente para el caso de perfiles columna idénticos. Geométricamente esto significa que podemos mezclar dos puntos que caen en posiciones idénticas dentro de la nube en un nuevo punto que tiene la masa de ambos puntos sin afectar la geometría de los puntos en la nube.
8.24
Descomposición de la inercia
En el ejemplo mostrado se da casi una exacta representación de los punto, y casi en 3 dimensiones ya que apenas un 0.5% de la inercia total de los puntos no esta representada en este espacio bidimensional. No obstante, con más datos se pueden tener buenas representaciones también en 2 dimensiones. Si un alto porcentaje de la inercia total cae en otros ejes principales, ello significa que algunos puntos no quedan bien representados con respecto a los 2 primeros ejes, por lo cual el gráfico bidimensional muestra las proyecciones verdaderas sobre un plano, pero queda faltando información con respecto a los ejes, por lo cual se necesita información adicional para una mejor interpretación de resultados, ver si el proceso es ajustado o no.
8.25
Contribuciones a la inercia
Supóngase que se escoge un A. de C. 1–dimensional para los datos de la tabla analizada, pues nos satisface un 87.8% de la explicación dada.
310
8. Análisis de Correspondencia A.D.C.
8.25 Contribuciones a la inercia
E jecutivos jóvenes B ebedo res
A bste m ios E jecutivos m ad uros
λ1 = 0.0748 (8 7.8 % ) E m pleado s jóven es A lcohólicos
S ecreta rias
E m pleado s m aduros
B ebedo res sociales
Figura 8.19 Gráfico unidimensional para un A. de C. en el ejemplo grupos sociales y el hábito a la bebida. Se puede interpretar informalmente esta dimensión al separar los bebedores a lado izquierdo y los no bebedores a la derecha. Ya más formalmente es posible cuantificar el papel desempeñado por cada punto en esta dimensión. La inercia a través de este eje es 0.07475 = (0.2734)2 , igual a la suma ponderada de las distancias al cuadrado al origen de los perfiles fila graficados o equivalentemente la correspondiente suma ponderada de los perfiles columna, los pesos son las masas de los puntos respectivamente. Cada término en estas sumas puede entonces ser expresado como un porcentaje de esta primera inercia principal, y podríamos llamarla “las contribuciones por los puntos a la inercia principal o a los ejes principales ”, de acuerdo con la siguiente tabla; que muestra las inercias de los puntos con respecto al primer eje principal y contribuciones asociadas. Tabla 8.6 Inercia de los puntos con respecto al primer eje principal y contribuciones asociadas. Contrib. Contrib. Inercia del Angulo θ punto perfil del punto Relativa del entre el primer eje a la en el punto al plano inercia primer eje vector y el principal principal primer eje cos2 θ principal Filas 1) Ejecutivos 0.00025 0.3 0.092 72º maduros 2) Ejecutivos 0.00624 8.3 0.526 44º jóvenes 3) Empleados 0.03832 51.2 0.999 2º maduros 4) Empleados 0.02476 33.1 0.942 14º jóvenes 5) Secretarios (as) 0.00525 7.0 0.865 22º Columnas 1) Abstemios 0.04881 65.3 0.994 4º 2) Bebedores 0.00233 3.1 0.327 55º sociales 3) Bebedores 0.01237 16.5 0.9787 8º 4) Alcohólico 0.01124 15.0 0.6840 34º
311
8. Análisis de Correspondencia A.D.C.
8.26 Ángulos entre perfiles punto vectores ...
Por ejemplo el punto bebedor tiene una masa de 0.321 (Tabla 8.5) y una distancia desde el centroide (origen de la Figura 8.19) = - 0.196, G (2) página 307. Su contribución absoluta a la primera inercia principal es 2 0.321 * (− 0.196) = 0.0123315 , la cual es el 16.497 = 16.45% de 0.07475. En este caso se ve que los puntos que representan a los empleados maduros y jóvenes contribuyen con más del 84% de su inercia principal en los perfiles fila, mientras que en los perfiles columna el punto de abstemios contribuye con ≈ 65.3% por si sólo. Si se movieran los puntos en sus posiciones fijas en los 2 espacios correspondientes como ejerciendo fuerzas de atracción sobre los ejes principales en virtud de sus posiciones y de sus masas, estos puntos con altas contribuciones hubieran jugado un papel importante en la orientación final de esos ejes principales, los cuales seguramente tienden a moverse hacia los puntos que exhiban mayores masas. En otras aplicaciones además, se tendrán en cuenta los puntos que a pesar de exhibir masas bajas, muestren altas contribuciones a la inercia a causa de su gran distancia al centroide. Basados en las posiciones de los puntos en los ejes principales, Figura 8.19 y en el aporte de ellos a los ejes, es posible asignar algún nombre descriptor a esos ejes para una mejor interpretación de los resultados. En este caso es claro que se alinean en los grupos con relación a su condición de adicción, acá más en el sentido de abstemios por su gran contribución, que los otros casos (bebedores, bebedores sociales y alcohólicos) no juegan un gran papel, en esa distinción a causa de su agrupamiento, y pequeñas distancias. Habiendo interpretado esta dimensión, sería importante conocer que tan cerca caen en realidad los puntos a este espacio unidimensional.
8.26 Ángulos entre perfiles punto vectores y ejes principales Permiten encontrar las cercanías verdaderas entre un verdadero perfil punto vector y el késimo eje principal. Para ello se examinan el ángulo θ a través del cos2 de este ángulo, ya que para cada punto los cos 2 de sus ángulos con el conjunto de ejes ortogonales principales suman 1.
312
8. Análisis de Correspondencia A.D.C.
8.26 Ángulos entre perfiles punto vectores ...
i-ésim o perfil fila con m asa m i di θ C C entroid e
f
k-ésim o eje principal
ik
Figura 8.20 Ángulo formado entre la posición del i-ésimo perfil con respecto al k-ésimo eje principal. La coordenada f ik del i-ésimo perfil con respecto al k -ésimo eje principal y el ángulo muestra que si el punto perfil fila esta a una distancia di del centroide c , entonces
cos θ = f ik di .
cos 2 θ
Las cantidades
son llamadas también
CONTRIBUCIONES RELATIVAS DEL EJE k -ÉSIMO PUNTO. Otra forma de describir lo anterior es a través de la descomposición de la inercia m i di2 del punto, perfil vector (o sea el iésimo perfil fila con masa m i y distancia
di desde el centroide) a través del eje principal. La parte de esta inercia a través del primer eje principal, es m i f 2i1 en que f i1 es la coordenada del punto en este eje. Expresada como una proporción de la inercia total de los puntos entonces
mi f i12 mi di2 = ( f i1 di ) = cos2 θ 2
ecuación 8.69
Por ello el nombre del cos 2θ como la contribución del eje al punto (o mejor a la inercia del punto). Si el cos 2θ es alto, entonces el eje explica la inercia del punto muy bien. Si por el contrario θ es bajo, entonces se dice que el perfil vector cae en la dirección del eje, o que correlaciona con el eje y pierde poder explicatorio. Los valores cos 2θ , o “contribuciones relativas” son independientes de las masas del punto, se entregan en la mayoría de análisis y paquetes del A. de C. por ejemplo, la inercia total del punto “bebedores” en su verdadera posición (tri)–3– dimensional, es su masa por la distancia cuadrada al centroide, o sea 0.321 * 0.0392 = 0.0126 .
El 0.0392 = (0.048-0.057) 0.057 + (0.113 − 0.093) 0.093 + (0.194 − 0.264) 0.264 + 2
(0.532
2
2
− 0.456)2 0.456 + (0.113 − 0.13 )2 0.13 = 0.039172 Tabla 8.5 BBD .
313
8. Análisis de Correspondencia A.D.C.
8.27 Perfiles suplementarios
La parte de la inercia asumida por el primer eje es 0.012332, con lo cual el cos 2 θ es 0.012332 0.0126 = 0.9787 ≈ 0.98 . Este alto valor indica que el punto vector bebedores queda prácticamente en el primer eje principal. Las demás contribuciones relativas indican la calidad (quality) de la representación de cada punto individual. ¡Generalmente una alta contribución del punto a la inercia de los ejes implica también una relativa alta contribución de los ejes a la inercia del punto, pero no viceversa !. Los secretarios(as) en el primer eje están muy bien representadas, pero su contribución al eje es mínima. El punto ¨ejecutivos maduros¨ de otra parte está pobremente representado y su posición es casi ortogonal al primer eje. Existen muchas otras posibilidades de descomposición inercial que se pueden manejar como con el espíritu de los análisis de varianzas que han permitido a muchos autores concluir pruebas estadísticas más o menos sólidas para mirar el tipo de contribuciones.
8.27
Perfiles suplementarios
Se puede acudir a otras informaciones para completar los análisis. Por ejemplo supóngase que un muestreo en toda una región de abstemios, bebedores sociales, bebedores y alcohólicos fuera del 42%, 29%, 20% y 9% respectivamente, lo que define un punto en el espacio de los perfiles fila que es posible representar en el gráfico existente por proyección de puntos perpendiculares al plano. Para evaluar sus coordenadas se usan las fórmulas tradicionales de la página 300.
′ f S′ = (0.428gi + 0.29g 2 + 0.20g 3 + 0.09g 4 ) D-1 = [0.258 0.118] µ (2 ) ecuación 8.70
Que se muestran en la gráfica la Figura 8.21.
314
8. Análisis de Correspondencia A.D.C.
8.27 Perfiles suplementarios
λ2 = 11.7% A bste m ios B ebed ores sociales E m pleado s jó ve nes B ebed ores
λ1 = 87.8%
P rom edio regio nal S ecreta rias
A bste m ios
B ebed ores
E m pleado s m aduros A lcohólicos E jecutivos jóvenes
E jecutivos m ad uros E sca la 0.1
Figura 8.21 Gráfica de un perfil suplementario con datos regulares de adición y los perfiles columna suplementarios (de bebedores y abstemios). El punto suplementario se ve que está lejos de nuestro centroide, aproximadamente entre los bebedores sociales y los abstemios. Ello prueba que la muestra analizada consiste de una alta proporción de bebedores comparada con el análisis regional, ello entonces permite otros análisis por la simple inspección de los puntos, lo cual permite además identificar patrones en los perfiles. En una forma similar podrían, desplegarse perfiles columna suplementarios usando las fórmulas de transición mencionadas, si se tuviera una clasificación adicional del consumo de licor, por ejemplo como la Tabla 8.7. Tabla 8.7 Datos suplementarios regionales. Estamento laboral Adición al alcohol dentro del empresas Abstemios Sociales Bebedores Alcohólico Ejecutivos maduros 4 2 3 2 Ejecutivos jóvenes 4 3 7 4 Empleados 25 10 12 4 maduros Empleados jóvenes 18 24 33 13 Secretarios (as) 10 6 7 2 Promedios 42% 29% 20% 9% regionales
1 0 1 5
11 17 46
10 7 –
78 18 –
315
8. Análisis de Correspondencia A.D.C.
8.28 Contribuciones relativas de los ...
Cada columna define un perfil columna en la misma forma que se hizo por filas, en el mismo espacio de perfiles de adicción dentro de las plantas laborales, que pueden ser proyectadas perpendicularmente sobre el plano de los 2 primeros ejes principales, como también se muestra en la Figura 8.21. Acá el eje que configuran bebedores y abstemios, se acerca más al 2º eje que al primero, con lo cual se puede ver que la muestra original analizada no presenta una fuerte asociación entre bebedores y no bebedores. Sin embargo si se sugiere una posible asociación entre el habito de beber y el nivel de bebedores, con un relativo mayor número de bebedores en el grupo de los bebedores y alcohólicos, todo ello sin acudir a pruebas estadísticas, a menudo muy complejas, o sea que lo que se analiza son unas tendencias.
8.28 Contribuciones relativas de los perfiles suplementarios Es posible computar las contribuciones relativas
(cos θ ) 2
de cada uno de los
puntos suplementarios para calificar o mejor cuantificar que tan bien son representados. Los puntos regionales tienen una alta relativa contribución de 0.631 y 0.131 respectivamente para los ejes 1 y 2, o sea un 0.762 como la contribución relativa del plano al punto, lo cual se puede denominar la calidad (cuality) de la representación (planar) de los puntos, en otras palabras el cos2 θ del ángulo de los puntos subtendidos con ese plano como puede verse; Figura 8.22 E je 3 P unto p erfil
θ3
θ2
θ
θ1 E je 1
E je 2
Figura 8.22 Posición tridimensional de un punto-perfil que subtiende ángulos θ1,θ 2 y θ 3 con 3 ejes ortogonales.
316
8. Análisis de Correspondencia A.D.C.
8.28 Contribuciones relativas de los ...
Por Pitágoras cos 2 θ1 + cos 2 θ 2 + cos 2 θ 3 = 1 . 2
2
θ ángulo entre el perfil y el plano
2
de los 2 primeros ejes cos θ = cos θ1 + cos θ 2 . Los dos puntos que representan categorías de bebedores, subtienden los mismos ángulos con los ejes y el plano, por lo cual están unidos a través de una línea a través del origen. Sus contribuciones relativas son 0.040 y 0.398 respectivamente, o sea una calidad de representación de 0.438, o un ángulo con el plano de 49º. Entonces la linea que conecta estos dos puntos cae más significativamente fuera del plano que dentro de él y se asocia más con el segundo eje que con el primero. Como estos suplementos no entran en la distancia χ 2 , no juegan un papel definitivo al definir esta función, por lo cual resulta conveniente ligarlos a puntos con masas cero, por ello no tienen inercia y no ejercen atracción sobre los ejes. Ejemplo 8.3 Se presenta la solución en SAS del ejemplo 8.2. El siguiente es el programa, una de las formas de escribirlo, así como los resultados obtenidos con el SAS. Es necesario consultar las guías pertinentes para una mejor comprensión de su operación. Como ya fue analizado se entrega la solución en la Tabla 8.15 de la página 323 y siguientes. data lema; input cargo $ abst soci toma balc; cards; madeje 4 2 3 2 joveje 4 3 7 4 viemp 25 10 12 4 remp 18 24 33 13 secret 10 6 7 2 ; proc corresp data=lema out=results all; var abst soci toma balc; id cargo; run; data results; set results; /* create cargo plot */ if _type _ = ´VAR´ then cargo = substr (cargo,1,1)
317
8. Análisis de Correspondencia A.D.C.
8.29 Análisis de correspondencia múltiple
run; proc plot data= results; plot dim1 * dim2 = cargo / box vspace=1 hspace=12 haxis = -.25 to .25 by .1 vaxis = -.4 to .25 by .05; run;
8.29
Análisis de correspondencia múltiple
En el SAS existe la opción M.C.A. para análisis múltiples. La opción requiere una tabla de Burt, que es una matriz simétrica particionada que contiene todas las parejas de tabulaciones cruzadas entre todo el conjunto de variables categóricas. Cada partición diagonal es una matriz diagonal que contiene frecuencias marginales (tabulación cruzada de cada variable consigo misma). Todos los elementos por fuera de la partición diagonal conforman una tabla de contingencia ordinaria y cada tabla, por encima de la diagonal principal tiene una contraparte que es la transpuesta por debajo de ella. Una tabla de Bart es también conformada por los productos interiores de una matriz diseñada particionada, en que existe una partición por cada variable categórica, en que cada una de ellas es una matriz designada binaria. Cada matriz creada tiene una columna por categoría y exactamente una en cada fila. Estas matrices particionadas tienen exactamente tantos 1 como variables categóricas, designados como m . (o sea m 1s). se presenta como ejemplo la matriz de la Tabla 8.10. Tanto las filas como las columnas tienen las 11 categorías de las V.C, bueno, malo,…, frío . La tabla anterior se compone de 16 tablas individuales, o sea el número de variables usadas para crearlas (calidad de la educación, transporte, vivienda y clima). Una tabla o partición es creada para cada par de variables categóricas. La tabla de Burt está compuesta de todos los pares de tabulaciones cruzadas entre las variables mencionadas. Por fuera de la partición diagonal están las tabulaciones cruzadas de cada variable con los demás. Por encima de la diagonal principal en este ejemplo se encuentran: (transporte * cale ) ,
(vivienda * transporte ) , (clima * cale ) , (clima * transporte ) , (clima * vivienda ) . Cada elemento por debajo es la contraparte transpuesta.
Los elementos entre cuadros corresponden a la partición diagonal, o sea los cruces de cada variable consigo misma (cale * cale ) , (transporte * transporte ) ,
(vivienda * vivienda ) , (clima * clima ) .
Los elementos de las diagonales de las
particiones diagonales contienen las frecuencias marginales de las particiones por fuera de ellas. Por ejemplo en la tabla (cale * transporte ) , se tienen 3 valores en
318
8. Análisis de Correspondencia A.D.C.
8.29 Análisis de correspondencia múltiple
la fila para cale y 3 valores para transporte en las columnas, los elementos de esta tabla sumados a través de las filas suman los elementos de la diagonal en (cale * transporte )(transporte * transporte ) . La Tabla 8.8 resuelve el problema propuesto de estudiar los centros regionales bajo los aspectos de clima, tipos de vivienda, transporte y educación. PROGRAMA SAS data pueblo; input muni $ 1–10 clim 4 12–18 vivi 4 19-25 trans $ 26–30 cale $ 32–37; cards; Tabla 8.8 Matriz de datos para estudiar los centros regionales bajo diversos aspectos en el programa SAS. Amalfi Frío ladr terr mala Andes Cálido ladr teae Buen Santa Rosa Frío ladr terr Buen Antioquia Cálido lama terr buen Caucasia Cálido lama teae regu Frontino Cálido lade terr mala Puerto Berrío Cálido made teaer regu Rionegro Frío ladr terr buen San Carlos Cálido lama terr buen Sonsón Frío ladr terr buen Yarumal Frío ladr terr buen Apartado Cálido made aere mala Támesis Cálido ladr terr buen ; Proc corresp data = pueblo observed short mca; tables cale trans vivi clim; run; cuyos resultados fueron Tabla 8.9 Inercia y descomposición Chi cuadrada. Valores Inercias Chi Porcentajes singulares principales cuadrada 0.81499 0.66421 62.2874 37.95 % 0.70436 0.49612 46.5247 28.35 % 0.50706 0.25711 24.1114 14.69 % 0.37057 0.13732 12.8777 7.85 % 0.32675 0.10677 10.0122 6.10 % 0.26590 0.07070 6.6303 4.04 % 0.13328 0.17760 1.6659 1.02 % ––––– ––––– 1.75000 164.11 grados de libertad = 100
*********************** ****************** ********* ***** **** *** *
319
8. Análisis de Correspondencia A.D.C.
8.29 Análisis de correspondencia múltiple
Tabla 8.10 Columna de coordenadas. buen mala regu aere teae terr ladr lama made cálido frío
Dim1
Dim 2
- 0.58234 0.50562 1.57092 1.46884 1.09450 - 0.52804 - 0.75878 0.46549 1.30500 0.62301 - 0.99682
- 0.26318 1.51508 - 1.21991 2.39655 - 1.05173 0.08429 0.02056 -1.01753 0.96956 - 0.12527 0.20043
Tabla 8.11 Resumen estadístico para los puntos columna. Quality Masa buen 0.653405 0.153846 mala 0.765334 0.576920 regu 0.719268 0.038462 aere 0.658414 0.019231 teae 0.691221 0.057692 terr 0.643344 0.173077 ladr 0.672195 0.134615 lama 0.375613 0.057692 made 0.792919 0.057692 cálido 0.646137 0.153846 frío 0.646137 0.096154
Inercia 0.054945 0.109890 0.120879 0.131868 0.109890 0.043956 0.065934 0.109890 0.109890 0.054945 0.087912
Tabla 8.12 Cosenos cuadrados para los puntos columna. buen mala regu aere teae terr ladr lama made cálido frío
320
Dim1
Dim 2
0.542586 0.076695 0.448689 0.179791 0.359382 0.627357 0.671702 0.065003 0.510905 0.621029 0.621029
0.110819 0.688639 0.270579 0.478623 0.331839 0.059870 0.000493 0.310610 0.282015 0.025109 0.025109
8. Análisis de Correspondencia A.D.C.
8.30 Estadísticas para la interpretación
Tabla 8.13 Contribuciones parciales de la inercia a los puntos columna. buen mala regu aere teae terr ladr lama made cálido frío
7 3 5 4 1 6 2
Dim1
Dim 2
0.078547 0.022205 0.142899 0.062466 0.104051 0.072655 0.116686 0.018820 0.147922 0.089903 0.143845 ∑ = 1.000
0.021478 0.266932 0.115371 0.222630 0.128628 0.002479 0.000115 0.120399 0.109315 0.004866 0.007786 1.000000
Tabla 8.14 índices de las coordenadas que más contribuyen a la inercia para los puntos columna. buen mala regu aere teae terr ladr lama made cálido frío
8.30
Dim1
Dim 2
BEST
1 0 1 0 2 0 1 0 1 1 1
0 2 1 2 2 0 0 2 0 0 0
1 2 1 2 2 1 1 2 1 1 1
Estadísticas para la interpretación
Para un M.C.A. se acude a las mismas estadísticas ya explicadas en el A. de C. ordinario. La calidad de la representación en el gráfico n -dimensional (con dimensiones = n ) de un punto es la suma de sus cos 2 θ sobre las n dimensiones. Cuando se den perfiles suplementarios, la inercia y la masa no se define para ellos. Este análisis también se complementa con una tabla que resume las contribuciones parciales a la inercia total. Los puntos que mejor explican la inercia de cada dimensión y la dimensión a la cual cada punto contribuye con BEST n mayor inercia, a través de una variable denominada
321
8. Análisis de Correspondencia A.D.C.
(BEST
1,… , BEST n ) .
8.30 Estadísticas para la interpretación
las columnas BEST contienen el número de la
dimensión de mayor contribución a la inercia para cada punto. Para cada fila, los BEST 1,… , BEST n (columnas) contienen cualquiera de los dos valores correspondientes de BEST , si el punto es uno de los mayores contribuyentes la dimensión de la inercia, o 0 (cero) sin no lo es. Específicamente BEST 1 contiene el valor de BEST para el punto con la mayor contribución a la inercia de la dimensión 1. (Por ejemplo: bueno, regular ,…, frío ) tienen 1 en BEST y así mismo 1 en Dim1 . (cuyas contribuciones parciales suman 1).
8.30.1 Inercia mínima El SAS propicia el establecimiento de un límite mínimo (0 ≤ n ≤ 1) que sea usado para crear los índices que indiquen los puntos que mejor explican la inercia de cada dimensión, por defecto MININERTIA = MIN = n se tiene como = 0.8. EL investigador puede desear o asumir mayor o menor valor que este de acuerdo con la naturaleza del problema.
8.30.2 Contribuciones parciales En la Tabla 8.13 se aprecia por ejemplo que para “buen”, Dim1 contribuye con 0.078547 y Dim 2 2 con 0.021478. ello explica que BEST = 1 . Pero en “mala” Dim 2 contribuye más que Dim1 por ello BEST = 2 , por lo cual Dim1 podría tener un valor 0, ó, 2, (efectivamente tiene 0 en la Tabla 8.14). Una suma acumulativa de las proporciones es visualizada para los puntos con mayor contribución a la inercia de dimensión 1. Si esta suma es menor que MININERTIA , entonces BEST 1 se eleva con el valor (o valores de BEST ) con los puntos seguido de mayor contribución, de otra forma BEST 1 = 0 . Por ejemplo Dim1 tiene “made”= 1 y su cont = 0.147922, la segunda mayor contribución es frío, la tercera “regu”,..., etc. se observa que “teae” tiene la 5ª mayor contribución (pero también su mayor aporte es a la Dim 2 por ello esta etiquetada con 2. Una vez se alcanzan un MIN > 0.8 , acá los 7 valores suman 0.8238, los otros valores quedan con cero. Las demás explicaciones son similares para lo explicado en el ejemplo base.
322
8. Análisis de Correspondencia A.D.C.
8.30 Estadísticas para la interpretación
Tabla 8.15 Procedimiento de análisis de correspondencia. Tabla de contingencia Abst Soci Toma Balc Suma madeje 4 2 3 2 11 joveje 4 3 7 4 18 viemp 25 10 12 4 51 remp 18 24 33 13 88 secret 10 6 7 2 25 sum 61 45 62 25 193 Tabla 8.16 Estadístico chi cuadrado para valores esperados. Abst Soci Toma Madeje 3.4767 2.5648 3.5337 Joveje 5.6891 4.1969 5.7824 Viemp 16.1192 11.8912 16.3834 Remp 27.8135 20.5181 28.2694 Secret 7.9016 5.8290 8.0311
Balc 1.4249 2.3316 6.6062 11.3990 3.2383
Tabla 8.17 Valores esperados menos valores observados. Abst Soci Toma Madeje 0.52332 - 0.56477 - 0.53368 Joveje - 1.68912 - 1.19689 1.21762 Viemp 8.88083 - 1.89119 - 4.38342 Remp - 9.81347 3.48187 4.73057 Secret 2.09845 0.17098 - 1.03109
Balc 0.57513 1.66839 - 2.60622 1.60104 - 1.23834
Tabla 8.18 Contribuciones al total del estadístico Chi cuadrado. Abst Soci Toma Balc madeje 0.078 0.1244 0.0806 0.2321 joveje 0.5015 0.3413 0.2564 1.1938 viemp 4.8929 0.3008 1.1728 1.0282 remp 3.4625 0.5909 0.7916 0.2249 secret 0.5573 0.0050 0.1324 0.4735 sum 9.4929 1.3624 2.4338 3.1526 Tabla 8.19 Archivos fila. Abst Madeje 0.363636 Joveje 0.222222 Viemp 0.490196 Remp 0.204545 Secret 0.400000
Soci 0.181818 0.166667 0.196078 0.272727 0.240000
Toma 0.272727 0.388889 0.235294 0.375000 0.280000
Suma 0.5159 2.2931 7.3946 5.0698 1.1682 16.4416
Balc 0.181818 0.222222 0.078431 1.477270 0.080000
323
8. Análisis de Correspondencia A.D.C.
Tabla 8.20 Archivos columna. Abst Madeje 0.065574 Joveje 0.065574 Viemp 0.409836 Remp 0.295082 Secret 0.163934
8.30 Estadísticas para la interpretación
Soci 0.044444 0.066667 0.222222 0.533333 0.133333
Toma 0.048387 0.112903 0.193548 0.532258 0.112903
Balc 0.080000 0.160000 0.160000 0.520000 0.080000
Tabla 8.21 Análisis de correspondencia. Inercia y descomposición chi cuadrada. Porcentajes Valores Inercias χ2 principales principales 0.27342 0.07476 14.4285 87.76 % *********************** * 0.10009 0.01002 1.9333 11.76 % *** 0.02034 0.00041 0.0798 0.49 % ********* ––––– ––––– 0.08519 16.4416 grados de libertad = 12 Tabla 8.22 Coordenadas fila. madeje joveje wiemp remp Secret
Dim1
Dim 2
- 0.065768 0.258958 - 0.380595 0.232952 - 0.201089
0.193737 0.243305 0.010660 - 0.057744 - 0.078911
Tabla 8.23 Resumen estadístico para los puntos fila. Quality Masa madeje 0.892568 0.056995 joveje 0.991082 0.093264 wiemp 0.999817 0.264249 remp 0.999810 0.455959 secret 0.998603 0.129534
Inercia 0.031376 0.139467 0.449750 0.308354 0.071053
Tabla 8.24 Contribuciones parciales a la inercia de los puntos fila.. madeje joveje wiemp remp secret
324
Dim1
Dim 2
0.003298 0.083659 0.512006 0.330974 0.070064
0.213558 0.551151 0.002998 0.151772 0.080522
8. Análisis de Correspondencia A.D.C.
8.30 Estadísticas para la interpretación
Tabla 8.25 Índices de las coordenadas que más contribuyen a la inercia de los puntos fila. madeje joveje wiemp remp secret
Dim1
Dim 2
BEST
0 0 1 1 0
2 2 0 1 0
2 2 1 1 2
Tabla 8.26 Cosenos cuadrados para los puntos filas. madeje joveje wiemp remp secret
Dim1
Dim 2
0.092232 0.526400 0.999033 0.941934 0.865346
0.800336 0.464682 0.000784 0.057876 0.133257
Tabla 8.27 Columna de coordenadas. Abst Soci Toma Balc
Dim1
Dim1
- 0.393308 0.099456 0.196321 0.293776
0.030492 - 0.141064 - 0.007359 0.197766
Tabla 8.28 Resumen estadístisco para los puntos de columnas. Quality Masa Abst 0.999995 0.316062 Soci 0.984016 0.233161 Toma 0.983228 0.321244 Balc 0.994552 0.129534
Inercia 0.577372 0.082860 0.148025 0.191743
Tabla 8.29 Contribuciones a la inercia para los puntos de las columnas. Abst Soci Toma Balc
Dim1
Dim 2
0.653996 0.030850 0.165617 0.149538
0.029336 0.463174 0.001737 0.505754
325
8. Análisis de Correspondencia A.D.C.
8.30 Estadísticas para la interpretación
Tabla 8.30 Índices de las coordenadas que más contribuyen a la inercia de la columna de puntos. Abst Soci Toma Balc
Dim1
Dim 2
BEST
1 0 1 0
0 2 0 2
1 2 1 2
Tabla 8.31 Cosenos cuadrados de la columna de puntos. Abst Soci Toma Balc
Dim1
Dim 2
0.994020 0.326726 0.981848 0.684398
0.005979 0.657290 0.001380 0.310154
Tabla 8.32 Gráfico de Dim1 * Dim 2 . El símbolo es el valor de CARGO.
Dim1 0.25 + 0.2 + 0.15 + 0.1 + 0.05 + - 6.93889 E –17 - 0.05 + - 0.1 - 0.15 - 0.2 + - 0.25 + - 0.3 + - 0.35 + - 0.4 - 0.25
r T
S
M s
- 0.15
v 0.05
- 0.05
A 0.15
+ + + + + + + + + + + + + + 0.25
Dim 2 NOTA. El procesador detectó una observación con un valor ausente y dos observaciones fueron excluidas del rango. NOTA FINAL. Es necesaria la consulta de los manuales de SAS, para apreciar las múltiples opciones que presenta el programa.
326
8. Análisis de Correspondencia A.D.C.
8.31
8.31 Lectura complementaria
Lectura complementaria
8.31.1 Análisis de correspondencias o de los promedios reciprocos como acercamiento al análisis de correspondencia Es un método diseñado para el análisis de una matriz con tablas de doble entrada (tablas de contingencia) cuando se asigna la misma importancia a las variables aleatorias que constituyen las entradas, que busca extraer los ejes de mayor variación de la matriz, en que la dispersión sea máxima a lo largo de dichos ejes, lo que equivale a establecer una correlación alta entre ambos grupos de variables. Por ejemplo una matriz de parcelas-especies, en que se asume que cada planta pertenece simultáneamente a la parcela y a una especie, como si fueran dos elementos de clasificación. Sea X p* n una matriz de p especies en n parcelas:
X p* n
x11 x 21 = x i1 x p1 x •1
en que x i • =
n
∑ x ij ; j =1
x• j =
p
∑ x ij ; i =1
x12 x 22
… x1 j … x2 j
x p 2 … x pj
… x1n x1• … x 2n x 2 • … x in x i • … x pn x p •
xi2
…
x• j
… x ••
x ij
… x •n
x •• =
p
n
∑∑ x
íj
.
i =1 j =1
El análisis consiste en suponer como hipótesis nula que no hay ninguna estructura en dicha matriz, o que las filas y las columnas son independientes entre sí. Lo anterior se puede probar como lo hace la estadística univariada a través de una distancia χ 2 entre esta matriz y una esperada por cualquier procedimiento que se calcule. Además se buscaría ordenar parcelas y especies si la estructura existe, lo cual se puede lograr a traves del A.C.P. conocido o por medio iterativo como la propuesta de Hill de 1973.
327
8. Análisis de Correspondencia A.D.C.
8.31 Lectura complementaria
Por el A.C.P. a partir de la matriz X se obtiene una nueva matriz A de término general aij =
x i •x • j k••
general µij = aij =
a partir de la cual se llega a otra matriz U de término
x ij x i •x • j
− a ij =
x ij x i •x • j
−
xi •x • j x ••
que equivale simplemente a
restar de la matriz observada la esperada, lo cual se comporta como una χ 2 . Por
′ o U ′U pp dependiendo multiplicacion es posible lograr de U , dos matrices, UUnn de la menor de las dos dimensiones, lo cual equivale a lograr una matriz S de varianzas-covarianzas, que se calcula algunas veces como de parcelas y en otras como de especies, a partir de las cuales es posible calcular las coordenadas de parcelas y de especies, con base en sus valores propios > 0 y sus respectivos vectores propios. No olvidemos que λk = Rk2 equivale a un coeficiente de correlacion canónica entre filas y columnas de la matriz. Por la forma como se transforman los datos la matriz S presenta tantos valores porpios como la dimension menor menos uno. El nombre de promedios recíprocos surge al iterar los valores recíprocamente ponderados entre filas y columnas cuyo algoritmo iterativo constituye el otro método de cálculo que consiste en: 1) Asignar unas coordenadas arbitrarias y diferentes a las parcelas, para lo cual hay diversas propuestas, por ejemplo las sumas de las importancias de las especies. 2) Calculadas como promedios ponderados de las coordenadas de las parcelas, se obtienen unas coordenadas para las especies. 3) Se calculan unas nuevas coordnadas para las parcela, como promedios ponderados de las coordenadas de las especies. 4) Se estandarizan las coordenadas de las parcelas. 5) Se procede a comparar las coordenadas de 4) con las precedentes, si son iguales, se obtuvieron las coordenadas definitivas en el primer eje, si son diferentes es necesario regresar a 2). 6) Para obtener las coordenadas de los ejes subsiguientes, se comienza de nuevo en 2) y terminando en 3), se elimina la correlación de las coordenadas con las anteriores, se siue al paso 4) y se continúa hasta lograr la estabilidad de ellas. Lo anterior es quizás la mejor manera de acercarse al análisis de correspondencia. Pero se da esta otra opción en la cual, los ejes de ordenación se determinan por separado de acuerdo con su importancia del mayor al menor.
328
8. Análisis de Correspondencia A.D.C.
8.31 Lectura complementaria
Las coordenadas de las parcelas a lo largo de la primera dimensión, o eje se puede definir por la función: p
b j = ρ 1 ∑ ai i =1
x ij
µj
ecuación 8.71
Figura 8.23 Diagrama de flujo para la el análisis de correspondencia. en que µ j =
p
∑x i =1
ij
= x • j totales por parcela; ρ 1 un parametro de escala, ai
coordenada de la variable i para esta primera dimension o eje. Las coordenadas de las parcelas se obtienen entonces como la suma de las contribuciones relativas de las variables ponderadas por las coordenadas de ellas.
329
8. Análisis de Correspondencia A.D.C.
8.31 Lectura complementaria
El ACOR implica una estandarización por los totales de las parcelas, de forma que aquellas en las cuales la proporción de las variables sean similares, reciban el mismo coeficiente, a pesar de sus valores absolutos. Para las coordenadas de las variables se obtiene una situación similar n
x ij
j =1
ti
ai = ρ 1 ∑ b j
ecuación 8.72
en que ti =
n
∑x j =1
ij
= x i • totales por parcela, o sea que la posición de una variable
es la suma de las contribuciones relativas de las parcelas a ella, ponderadas por sus posiciones en los ejes. La relación reciproca entre las ecuaciones 8.71 y 8.72 les hace conocer como fórmulas de transición, al poder expresar una en términos de la otra. Tienen la propiedad de poderse solucionar por métodos iterativos como se expresó antes, cuyos valores de partida se escogen arbitrariamente para las parcelas, ejemplo valores entre 0 y 100, con los cuales se encuentran las coordenadas de las parcelas, por medio de la ecuación 8.72. Con estas se recalculan las coordenadas de las parcelas por medio de la ecuación 8.71, reescalándolas de nuevo de 0 a 100, y asi se continuará hasta lograr una configuración estable. Una vez determinado el primer eje, las coordenadas del segundo se calculan removiendo el efecto de la primera dimensión, luego la tercera, removiendo las dos anteriores y así hasta terminar. Lo anterior sería un trabajo exhaustivo, que afortunadamente puede hacerse como ya se dijo por descomposición espectral, escribiendo las fórmulas de transicion muy facilmente por medio del álgebra matricial asi:
B = U -1X ′AR -1 ecuación 8.73
A = T -1XBR -1 ecuación 8.74
en que U -1; X ′ y R -1 y son matrices diagonales con elementos 1 µ j , 1 ti , 1 ρ . Al sustituir la ecuación 8.74 4 en la ecuación 8.73 se tiene
B = U -1X ′T -1XBR -2 ecuación 8.75
330
8. Análisis de Correspondencia A.D.C.
y como se sabe que U = U
−
1 2
U
−
1 2
8.31 Lectura complementaria
1
-
y T -1 = T 2 T -
1
-
1
1
-
-
-
1 2
, se puede llegar a
1
B = U 2 U 2 X ′T 2 T 2 XBR -2 , ecuación 8.76
que tiene la siguiente forma luego de las pre y postmultiplicaciones adecuadas 1 1 1 1 - - - 21 2 2 2 2 R U B = T XU T XU U B −2
1 2
ecuación 8.77
en que U
-
1 2
1 = µ j
1 1 1 2 2 , T = , U = diag ti diag
-
µ j diag . Haciendo
1
Z = T 2 XU
-
1 2
ecuación 8.78 1
V = U2B ecuación 8.79
Λ = R2 ecuación 8.80
se llega a la ecuación característica de valores y vectores propios:
ZZ − λIv = 0 ecuación 8.81
en que los λS de Λ y los elementos de v son valores y vectores propios de Z ′Z 1
con lo cual de v = U 2 b será posible obtener las coordenadas de los objetos: -
1 2
B=U V ecuación 8.82
y luego con las fórmulas de transición A las coordenadas de las variables. Se debe anotar además que
331
8. Análisis de Correspondencia A.D.C.
Ejercicios de repaso
1) la raiz cuadrada de los λ constituyen los valores Ri , que se constituyen en indicadores de confianza mutua de las coordenadas de las parcelas y las variables, como criterio de ordenación a traves de las dimensiones i . Este se conoce como COEFICIENTE DE CORRELACIÓN CANÓNICA ya que se da entre grupos de elementos, y a mayor valor de él, mayor la correspondencia entre las ordenaciones de ambos grupos y mayor la capacidad predictiva de una ordenación con respecto a la otra. 2) El ACOR maneja como corresponde a una tabla de contingencia, distancias
χ 2 de la siguiente estructura χ 2jk =
x ij
•j
− x jk x •k xi•
cuando previamente las
distancias euclidianas se hubieran obtenido de datos estandarizados por totales de columnas y filas. Similar se haría para las variables. 3) Una χ 2 = 0 se obtiene cuando dos parcelas tienen la misma proporción de variables. 4) Es posible obtener un gráfico dual semejante al visto para A.C.P, pero con diferente interpretación, en que las variables no se entregan como vectores sino como puntos ya que la cercanía de los puntos es lo importante en el análisis. Lo demás no difiere de la presentación amplia presentada en el cuerpo de este capítulo. Ejercicios de repaso 1) Resuelva y muestre que la matriz
1.00 0.63 0.45 ρ = 0.63 1.00 0.35 0.45 0.35 1.00 Para las 3 variables aleatorias estandarizadas: Z1 , Z 2 y Z 3 puede ser bien generada por el modelo del factor con m = 1 :
Ζ = 0.90F1 + E1 Z 2 = 0.10F1 + E 2 Z 3 = 0.50F1 + E 3
332
8. Análisis de Correspondencia A.D.C.
Cuando Var
(F1 ) = 1,
Cov
(E1, F1 ) = 0
Ejercicios de repaso
y
0.19 0.00 0.00 Ψ = 0.00 0.51 0.00 0.00 0.00 0.75
o sea con ρ = LL ′ + Ψ 2) Para i = (1, 2, 3 ) a. Encuentre las comunalidades h12 e interpretelas. b. calcule Cov
(Z i , F1 ) (i = 1,
2, 3 ) . Que variable podría llevar el mejor peso
en la interpretación y denominación del factor común y diga porque. c. Calcule los eigenvalues y eigenvectores de ρ . d. Asumiendo un m = 1 para el modelo del factor, calcule la matriz de pesos o factores de carga L y la matriz de varianzas especificas Ψ por medio del método de solución por componentes principales. Compare los resultados con los mostrados en 1) y diga que proporción de la variación total poblacional es explicada por el primer factor. 3) Usando las variables del ejercicio de bosques, genere la matriz muestral de varianzas y covarianzas y a. Obtenga solución por C.P del factor para m = 1 y m = 2 . b. Ejecute lo mismo con una rotación VARIMAX para m = 2 e interprete los resultados. c. Haga lo mismo anterior partiendo de la matriz ρ . 4) Calcule o use la matriz de correlaciones redondeadas a dos cifras decimales para el problema de los bosques del ejemplo 5.8 ya trabajados. Si trata estas correlaciones muestrales como medidas de similaridad, agrupelas utilizando el encadenamiento simple y dibuje el dendrograma resultante. Interprete sus resultados. 5) Al medir dos variables X1 y X 2 para cuatro items A, B, C, D se obtuvieron los siguientes resultados:
333
8. Análisis de Correspondencia A.D.C.
Ejercicios de repaso
Tabla 8.33 Valores de las variables X1 y X2 para cuatro items. Observación Item X1 A B C D
5 1 -1 3
X2 4 -2 1 1
a. Use la técnica de las k-medias de agrupamiento para lograr 2 clusters iniciando con los grupos ( AB ) y (CD ) . b. Hágalo también con computador por el método que quiera y compare los resultados). 6) Haga un análisis completo de los datos que se entregan a continuación, que son los números de árboles de 5 especies rastreados durante 5 años de 1990 a 1995, en una zona boscosa de Antioquia, con el fin de saber sus posibilidades de conservación. Especie
1990
1991
1992
1993
1994
Suma
Aptandra tubicina
48
40
40
30
21
179
Gustavia speciosa
41
38
37
35
32
183
Nectandra sp.
33
32
30
31
31
157
Pleurothyrium sp.
33
31
25
20
9
118
Tapirira guianensis
12
11
11
10
9
53
167
152
143
126
102
690
Suma
334
8. Análisis de Correspondencia A.D.C.
Bibliografía
Bibliografía Greenacre, M. J. 1984. Theory and Applications of Correspondence Analysis. Academic Press. Londres 364 p. Johnson, R y Wichern D. 1988. Prentice Hall Inc. N. Jersey. 606 p.
Applied Multivariate Statistical Analysis.
Lebart, L, Morineau, A, Warwick, K. 1984. Multivariate Descriptive Statistical Analysis. (Correspondence Analysis and Related Techniques for Large Matrices) . John Wiley & Sons. N. Y. 231 p. Mardia, K. V, Kent, J y Bibby, J. M. 1979. Multivariate Analysis. Academic Press, London. Pielou, E. C. 1984. The interpretation of Ecological Data. John Wiley & Sons Inc. N.Y. 263 p. Pla, Laura, 1986. Análisis Multivariado: Método de Componentes Principales. OEA. Washington. 102 p. Seber, G. A. F. 1984. Multivariate Observations. John Wiley & Sons Inc. NY. 686 p.
335
Índice de términos A Análisis de componentes principales A.C.P....................................... 77, 79, 98, 140, 141, 142, 144, 149, 150, 158, 163, 164, 166, 172, 176, 181, 184, 187 Análisis de correspondencia múltiple.318 Análisis de correspondencia......264, 266, 267, 274, 283, 304, 305, 318, 323, 324, 327, 328, 329 Análisis de factores A.D.F...........187, 188, 192, 193, 194, 196, 201, 205, 206, 209, 214 Análisis de varianza multivariado MANOVA .......................................131 Ángulo entre dos vectores .............37, 38 Aproximación generalizada mínimo cuadrática .....................................294 Aproximación matricial de rango mínimo..........................................169 Aproximación mínimo cuadrática..... 169, 170, 292 Asignación de masas.........................284
B Baricentro ................ 275, 308, 309, 310 Base ortonormal ...............................166 Biplot o gráfico dual..................161, 162, 164, 165, 177, 178, 183
C Cambios de escala .................... 173, 186 Centrado ......................................27, 28 Centro de gravedad (Centroide)....84, 270 Centroide.................. 256, 257, 258, 270 Charles Sperman ..............................187 Clusters.....224, 225, 228, 246, 247, 248, 249, 250, 251, 252, 254, 255, 256, 257, 258, 259, 260, 261, 263 Coeficientes de similaridad.........230, 234, 242, 243, 255 Combinación lineal..........74, 75, 78, 100, 106, l39, 144, 145, 166, 167, 220 Componentes principales de variables estandarizadas ..............................151
Comunalidad....190, 191, 192, 193, 196, 199, 201, 202, 206, 207, 212, 214, 215, 216, 217, 221, 222 Contribuciones a la inercia...10, 312, 325 Contribuciones parciales....321, 322, 324 Contribuciones relativas.....313, 314, 316, 317, 329, 330 Covarianza...........4, 5, 15, 65, 66, 67, 69, 70, 72, 73, 74, 76, 80, 89, 93, 106, 108,121 122, 123, 145, 187, 188, 190, 191, 228 Criterio de transformación de Kaiser Método VARIMAX........................... 215
D Degeneración matricial extrema .......... 99 Dendrograma.....244, 245, 246, 248, 249, 250, 251, 253, 261, 262, 263, Descomposición espectral..57, 60, 62, 63, 70, 81, 194 Descomposición generalizada S.V.D...294 Descomposición matricial en valores singulares S.V.D............................ 165 Desviación estándar........71, 89, 97, 114, 157, 158, 260, Desviación típica generalizada .. 108, 109 Desviaciones con respecto al centroide ......................... ......271, 299 Determinante........45, 46, 48, 50, 59, 80, 84, 94, 115, 116, 228 Diagramas marginales ................ 7, 8, 81 Dimensionalidad y dimensión ........... 276 Dimensionalidad........143, 144, 272, 274, 276, 277, 287, 288, 293, 295, 297, 301 Dimensiones coordenadas y bases .... 268 Distancia cuadrada.....16, 17, 19, 22, 60, 61, 97, 114 Distancia de Bhattacharyya.......237, 239, 240 Distancia de Mahalanobis.........109, 110, 232, 237, 239, 240 Distancia de Pearson ........................ 232 Distancia entre dos puntos ... 14, 16, 239 Distancia entre grupos ..................... 242 Distancia estadística......15, 92, 109, 232
Distancia euclidiana....12, 13, 14, 20, 22, 92, 110, 231, 232, 233, 238, 240, 256, 257 Distancia...12, 13, 14, 15, 16, 17, 20, 21, 24, 35, 59, 60, 61, 62, 83, 92, 97, 109, 110, 111, 114, 115, 117, 121, 123, 127, 182, 230, 232, 237, 238, 239, 240, 241, 245, 249, 254, 256, 257 Distancias entre vectores de frecuencias .....................................................282 Distinción de clusters........................250 Distribución de Wishart ....................122 Distribución multinormal.......... 114, 116 Distribución normal multivariada......120
Forma completa de la S.V.D.............. 169 Formas cuadráticas ................ 20, 56, 92 Formulación probabilística ............... 226 Fórmulas de transición......308, 310, 315, 331 Frecuencias esperadas.............. 282, 283 Frecuencias marginales .................... 318 Frecuencias relativas esperadas.283, 284 Frecuencias........................ 25, 157, 162 Función de densidad de probabilidades.................. 114, 115, 118 Función de densidad conjunta...114, 135, 136 Función de verosimilitud....134, 203, 205, 210, 226
E
G
Eigenvalor (es)........50, 62, 120, 143, 144, 147, 158, 160, 164, 167, 176, 177, 181, 198, 199, 216, 221 Eigenvectores.........47, 50, 57, 58, 62, 63, 120, 143, 146, 147, 163, 167, 172, 176, 185, 200 Ejes principales ........................ 119, 154 Encadenamiento completo (complete linkage) ..........240, 245, 252, 253, 254 Encadenamiento promedio ........ 245, 254 Encadenamiento simple.....235, 241, 245, 246, 249, 251, 252 Escala..........5, 23, 26, 28, 102, 136, 140, 153, 160, 164, 173, 184, 186, 230, 232, 248 Espacio euclidiano ponderado multidimensional...........................280 Espacio euclidiano..............21, 279, 280, 284, 289, 298 Espacios multidimensionales....272, 277, 279 Estandarización por longitudes unitarias .................................................... ..30 Estandarización por máximos ............ 29 Estandarización por rango ................. 28 Estandarización por totales ................ 29 Estandarizaciones........27, 153, 154, 173, 232 Estimaciones máximo verosímiles .....205 Estructuras especiales ......................153
Gráficas Q-Q .................................... 124
F Factores rotados.......193, 212, 213, 217, 218, 220, 222
338
H Hallazgo de la S.V.D. ........................ 167 Hipótesis..2, 14, 125, 127, 128, 129, 224, 210, 211, 229
I Identificación de subespacios óptimos ................................................. ....287 Inercia del conjunto de vectores ........ 297 Inercia.............................................. 187 Inercia.......287, 297, 298, 301, 303, 305, 308, 310, 311, 312, 313, 314, 317, 319, 320, 321, 322, 324, 325, 326 Inferencias para grandes muestras ... 178
K Karl Pearson............................. 187, 241
M Masa total ........................................ 304 Masa .........275, 284, 285, 287, 289, 290, 293, 295, 296, 298, 299, 301, 301, 302, 303, 304, 306, 310, 311, 312, 313, 317, 320, 321, 324, 325 Matrices y similitudes cofenéticas ..... 261 Matriz de coordenadas...................... 304 Matriz de desviación estándar ............. 71 Matriz de desviaciones .98, 104, 105, 112 Matriz de medias .............................. 103 Matriz de similitud ........................... 237
Matriz de sumas de cuadrados ..104, 143 Matriz de varianzas covarianzas....67, 69, 70, 76, 145, 163, 227 Matriz diagonal..44, 45, 63, 64, 110, 115, 142, 147, 151, 166, 194, 206, 218, 219 Matriz dirección coseno...................... 52 Matriz identidad.....................43, 50, 121 Matriz inversa...............................43, 44 Media muestral...20, 86, 87, 90,106, 112, 155, 157 Media....20, 23, 27, 75, 81, 86, 87, 90,92, 103, 106, 108, 109, 112, 113, 155, 157, 158, 164, 171, 188, 195, 218, 227, 238, 242, 254, 260 Medidas de asociación ................70, 242 Medidas de similitud................. 230, 242 Método de varianza mínima - Método de Ward .............................................259 Métodos de estimación ......................194 Métodos jerárquicos aglomerativos ....244 Métodos jerárquicos divisivos ............245 Métodos jerárquicos .................. 244, 255 Métodos no jerárquicos ............. 255, 262 Métrica diagonal ....................... 281, 295 Mínimos cuadrados sin ponderar ......219 Momento de inercia...........................287 Muestras aleatorias............................ 90 N Nodos ....................................... 247, 248
P Particiones diagonales.......................318 Perfil promedio.................. 286, 287, 304 Perfil único .......................................310 Perfiles columna........305, 306, 307, 309, 310, 311, 312, 315 Perfiles fila.........302, 303, 304, 305, 306, 307, 308, 310, 311, 312, 314 Perfiles punto vectores ......................312 Perfiles suplementarios ..... 314, 316, 321 Perfiles.......265, 266, 267, 283, 284, 286, 287, 302-312, 314, 315, 316, 321 Poblaciones multinormales................237 Predicciones ........................................ 1 Problema dual .................. 305, 307, 308 Promedios recíprocos ........................328 Propiedades de las bases...................276 Proporción de la varianza total ..........199 Punto vector ......275, 287, 311, 312, 314 Punto perfil............................... 311, 313
Puntos en subespacios ..................... 269
R Rotaciones de los factores ......... 212, 218
S S.V.D. generalizada....297, 298, 299, 304, 304, 307 Similaridades a partir de distancias .. 236 Subespacio óptimo ................... 291, 296 Submatrices ............................. 293, 304 Suma de vectores ......................... 34, 35 Sumas de cuadrados ........ 143, 229, 260
T Tabla de Burt ................................... 318 Tabla de Filliben ....................... 125, 126 Tamaño muestral ............... 99, 126, 239 Ter Braak ................................. 158, 175 Tipos de representación ...................... 10 Transformación potencial ................... 31 Transformación usando la función de Clymo ............................................. 32 Transformaciones...23, 26, 27, 30,31, 32, 164, 170, 231 Traza de una matriz.................... 55, 147
V Valores muestrales ................... 106, 138 Valores principales ................... 172, 324 Valores singulares cuadrados ........... 297 Valores singulares cuadrados....165, 166, 167, 167, 169 Valores singulares generalizados.......293, 304 Variables binarias.... 26, 27, 23, 234, 235 Variables escalares ........................... 291 Variables estandarizadas...100, 101, 117, 151 Variación de la aproximación ............ 297 Variación explicada .......................... 297 Variación no explicada...................... 297 Varianza generalizada.......94, 95, 96, 97, 98, 100, 101, 108, 110, 112, 113, Varianza muestral generalizada....94, 96, 100, 112, 113 Varianza muestral.........3, 4, 94, 96, 100, 103, 106, 108, 112, 113, 122, 197, 199 Vector medio .................... 70, 74, 76, 92 Vector sombra .............................. 39, 86
339
Vectores base del subespacio ............291 Vectores linealmente dependientes ..... 39 Vectores propios........130, 150, 151, 154, 158, 167, 178, 197, 202 Vectores singulares generalizados .....293 Vectores singulares...........166, 167, 168, 169, 293, 297 Vectores........6, 11, 30, 33, 34, 37, 38, 39, 40 47, 48, 58, 59, 64, 65, 76, 78, 79, 80, 85, 86, 87, 89, 91, 95, 96, 97, 99, 100, 101, 103, 112, 120, 122, 130, 131, 132, 133, 145, 146, 148, 150, 151, 154, 158, 163, 166, 167, 168, 172, 178, 183, 185, 186, 188, 189, 202, 203, 212, 238, 268, 269, 270, 271, 272, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 291, 292, 293, 295, 296, 297, 300, 304, 312
340