Análisis de Correspondencia

September 16, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Análisis de Correspondencia...

Description

 

TEMA 2: ANÁLISIS DE CORRESPONDENCIA ÍNDICE 1- Dependencia 2- ¿Cómo se obtiene la INERCIA? Inercia Total 3- ¿De dónde salen los grados de libertad? 4- Obtención de la MASA (Perfiles fila y columna) 5- Inercia Explicada por cada Fila 6- Análisis de Correspondencia Simple 7- Centroides: perfiles filas 8- Distancia Chi-Cuadrado o Distancia de Benzecri (Filas y Columnas) 9- Matriz (puntos filas) Sobre la que se Calcularán las Componentes

Características    Además de analizar analizar la relación relación existente entre entre las variables, variables, permite examinar examinar como está estructurada esta asociación. asociación.



  Se trabaja con frecuencias en lugar de con datos, por lo tanto, se utilizan las TABLAS DE CONTINGENCIA.



  Se ha revelado eficaz para el análisis de cualquier matriz de números no negativos.



  Considera como variables las diversas categorías de las variables originales



que intervienen en el estudio.   Sus resultados pueden ser representados representados gráficamente en un espacio dimensionall de escasas variables sintéticas o factores dimensiona f actores que pueden ser interpretados o nombrados y que además deben condensar el máximo posible de información.



   Admite la posibilidad posibilidad de la inclusión a posteriori de una una nueva categoría categoría de alguna de las variables (categoría suplementaria) para su comparación con las que han participado en el cálculo.



 



El Análisis de Correspondencias es un Análisis de Componentes Principales aplicados a variables cualitativas que se basan en la distancia no euclídea de X^2 

 

Existen 2 tipos de análisis de correspondencia: correspondencia:

1. Análisis de Correspondenc Correspondencia ia Simple La masa es lo que pesa cada nivel, ¿cuál es el que más pesa? Lo vemos en la tabla de porcentajes totales (frecuencias marginales). marginales). .Table  nij (frecuencias absolutas), a partir de estas podemos obtener las 

frecuencias relativas  fij = nij / n. (Frecuencias observadas nij) Para obtener la frecuenta marginal por filas  ni. Y para obtener la frecuencia marginal por columnas  n.j La total es n

fi. = ni. / n Si fueran independientes fij sería igual a fi.*f.j (Ecuación fij = fi. * f.j, frecuencia relativa de la fila “i” por la frecuencia relativa de la columna “j”). Eij frecuencia esperada.

 j i

nij

ni.

n

n.j

La inercia vale cero cuando son independientes: X^2 / n = inercia La gráfica tiene que representar: -

Filas que:   Se parezcan a la frecuencia.   No se parezcan a la frecuencia. Filas y columnas Asociar los niveles de dependencias 



-

Dividir cada columna por su marginal:  Distancia

Chi-cuadrado. 

Para calcular los perfiles dividimos cada nº de una fila entre el total de esa fila. Para obtener autovalores autovalores y autovectores: fij / ffi. i. * sqrt (f.j) X^t (matriz) X

 se

obtienen autovelores y autovectores

 Aquí las cargas factoriales son las las filas y columnas. columnas.

Consecuencias

 X(número)

 

  Las filas y columnas juegan un papel simétrico.



  Criterio de normalización canónica, la inercia total de la tabla puede ser explicada sólo con las filas o sólo con las columnas, o sea, la distribución de las categorías de una variable a lo largo de la otra basta para explicar la varianza total.





 

Como la suma de los perfiles originales suman 1, el primer valor propio calculado es siempre igual a 1, por lo que no representa a ningún factor, es irrelevante y se desecha del análisis.   Al no ser la matriz de perfiles perfiles cuadrada, cuadrada, únicamente únicamente se podrán podrán extraer extraer tantos factores como la menor dimensión de la tabla menos uno, al ser el primero trivial.



  Los factores extraídos explicarán la inercia total de la tabla.



  Se obtienen dos matrices de coeficientes:”pesos” de cada variable en cada factor, de “cargas” de cada factor en cada variable, por duplicado. 



  Se obtienen los cuadros de las contribuciones contribuci ones absolutas por filas y las



contribuciones absolutas por columnas, en los que, frente a cada categoría, se contribuciones muestran sus porcentajes de inercia en cada uno de los factores retenidos. Estos valores son precisamente los cuadrados de los pesos.   Recíprocamente, Recíprocamente, se obtienen dos cuadros, cuadros, por por filas y por columnas, que se denominan contribuciones contribuciones relativas por filas f ilas y contribuciones relativas por columnas, que indicarán la proporción de la inercia de la categoría explicada por el factor. Estos valores son los cuadrados de las cargas.



  En el caso de dos factores factore s retenidos, se obtienen dos gráficos independientes, uno para las filas y otro para las columnas.  



Problemas (SE ENCUENTRA EN EL ANÁLISIS DE CORRESPONDENCIA CAMPUS) Diferencias relativa de personas de cabello rubio entre los ojos azules y claros: frecuencia relativa de ojos azules – azules  – frecuencia  frecuencia relativa de ojos claros.

El data frame farms de MASS contiene datos de 20 granjas de la isla holandesa de Tercherllin con 4 factores sobre niveles de humedad (mois), tipo de gestión de pastizales (manag), uso de pastizales (use) y uso de abonos orgánicos (manure), a) ¿hay relación de dependencia significativa entre el iso de pastizales (use) y el uso de abonos orgánicos (manure)?

R --- C arg amo moss F arms

 

En la tabla de doble entrada nos muestra las frecuencias.

E s tadís tadís ticos --- Tab Tabla la de conting enci encia a ----- Tabl Tabla ad dee dob doble le eentrada ntrada Podemos coger Manure y Use (lo miro por arriba) o Use y Manure (lo miro por abajo). El chi cuadrado puede ser una medida de disimilaridad o si realizo un contraste de hipótesis la medida de discrepancia. Si hay poca diferencia el chi cuadrado es pequeño, si chi cuadrado es cero las variables son independientes y el p-valor sería 1 (p-valor máximo). La frecuencia que debe aparecer en la tabla de contingencia para obtener un Xsquared = 0 es 2 (independientes). La frecuencia para que sean dependientes es  H0: independientes H1: dependientes Son independientes, no obstante nuestro objetivo es establecer las relaciones

entre los distintos niveles. Para ello los niveles deben ser dependientes.

Trabajando con Ingresos de Hoteles

Cargam Ca rgamos os eell PAQUETE CA (A NÁLISIS DE C ORR E SP ONDENCIA) .rda (extensión)

 archivo

de datos de R

Para estudiar la dependencia/independencia realizaremos una tabla de contingencia En la diagonal están los valores más grandes, la estructura de las frecuencias nos da una idea de la dependencia. Por otro lado, nos sale un p-valor muy pequeño, por lo que se rechaza la hipótesis nula, son dependientes. También podemos observar el chi-cuadrado.

Str(.Test)  Sacamos la estructura (info) Podemos observar las observadas (nij), las esperadas, los residuos (diferencia entre la observada y esperadas si fueran f ueran independientes) independientes)

Info de las esperadas  .Test$esperadas: se observa una gran diferencia entre lo observado y lo esperado

Info de los residuos

round(.test$residuals^2,2) (Son las componentes del chi-

cuadrado)

Inercia Total .Test$statistic/n ¿Cómo se obtiene la INERCIA? X2   n

 = 2337.6 / 3892 

 

La inercia es la cantidad de info que tiene la tabla de contingencia.

¿De dónde salen los grados de libertad? l ibertad? (Fila - 1)*(Columa - 1) 

Obtención de la MASA M ASA Perfiles fila

rowPercent(.Table) nt(.Table)  ni.  rowPerce

(marginales (marginales por filas o por columas)

Perfiles columna  colPercents(.Table)

Inercia Explicada por cada Fila (2 primeras filas) f1
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF