Análisis Multivariante en la Investigación Comercial

Share Embed Donate


Short Description

Download Análisis Multivariante en la Investigación Comercial...

Description

Análisis Multivariante en la Investigación Comercial Asignatura: Investigación de Mercados II Centro: Universidad Autónoma de Madrid

...............................................................................................1 TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL...............................................................................4 Introducción..............................................................................................4 Definición del AM......................................................................................4 Diseños y conceptos básicos del AM........................................................5 Tratamientos previos de los datos. ..........................................................9 Supuestos del AM...................................................................................11 Clasificación de los métodos del AM.......................................................13 Programas Informáticos..........................................................................14 Ejercicio 1...............................................................................................14 TEMA 2: EL ANALISIS FACTORIAL..............................................16 Definición y objetivo del AF. ..................................................................16 Conceptos básicos..................................................................................17 Distinción entre AF y ACP.......................................................................18 Supuestos del ACP. (Son específicos del ACP)........................................19 Diseño del ACP. (Procedimientos)...........................................................20 Caso practico..........................................................................................25 Tratamiento de los datos con DYANE y SPSS.........................................38 Ejercicio 2...............................................................................................45 TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS ........50 Introducción............................................................................................50 Definición y objetivo del AFC. ................................................................51 Conceptos básicos del AFC.....................................................................52 Supuestos del AFC. ................................................................................53 Diseño del AFC........................................................................................53 Casos prácticos con DYANE....................................................................54 Ejercicio 3...............................................................................................65 TEMA 4: EL ANALISIS CLUSTER.................................................69 Introducción............................................................................................69 Definición y objetivo del AC....................................................................70 Conceptos básicos del AC.......................................................................70 Supuestos del AC. ..................................................................................70 Diseños del AC........................................................................................72 Casos prácticos con DYANE....................................................................76 Ejercicio 4...............................................................................................77 TEMA 5: LA REGRESIÓN MULTIPLE............................................82 Introducción............................................................................................82 Definición y objetivo de la RM................................................................84 Términos y conceptos básicos de la RM.................................................85 Supuestos de la RM. ..............................................................................88 Tamaño muestral....................................................................................89 Diseño de la RM......................................................................................89

Casos prácticos con DYANE y SPSS........................................................90 Análisis de Supuestos de la RM............................................................104 Ejercicio 5.............................................................................................116 TEMA 6: EL ANÁLSIS DISCRIMINANTE......................................119 Introducción..........................................................................................119 Definición y objetivo.............................................................................120 Conceptos y términos básicos del AD...................................................120 Supuestos del AD..................................................................................123 Diseño del AD.......................................................................................123 Casos prácticos.....................................................................................124 Ejercicio 6.............................................................................................155 TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA)....160 Introducción..........................................................................................160 Definición y objetivo.............................................................................162 Términos y conceptos básicos del MANOVA.........................................164 Supuestos básicos del MANOVA. .........................................................169 Diseño del estudio con el MANOVA......................................................170 Casos prácticos con SPSS.....................................................................171 Ejercicio 7.............................................................................................182 TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT)................187 Introducción..........................................................................................187 Objetivo de la RL..................................................................................187 Modelo de la RL....................................................................................187 Diseño del estudio con la RL. ...............................................................188 Medición de la variable dependiente....................................................188 Estimación del modelo.........................................................................188 Supuestos básicos de la RL. ................................................................188 Bondad de ajuste..................................................................................189 Interpretación de los resultados...........................................................190 Comparación de los modelos: regresión, discriminante y logit............192 Casos prácticos con SPSS.....................................................................193 Ejercicio 9.............................................................................................199

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL

Estructura de la clase: 1. Introducción. 2. Definición del AM. 3. Diseños y conceptos básicos del AM. 4. Tratamientos previos de los datos. 5. Supuestos del AM. 6. Clasificación de los métodos del AM. 7. Programas informáticos. Introducción. En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM. Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante. Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar técnicas multivariantes. Definición del AM. El AM se puede definir como: Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado. Valor teórico: “Es el elemento esencial del AM”. Combinación de todas las variables. Debemos sintetizar todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de modo empírico).

Diseños y conceptos básicos del AM. (Diseño de una investigación de mercados---flujo del AM) Los pasos a seguir al realizar una investigación se pueden resumir como sigue: Definir el objetivo a través de un estudio previo. Establecer las hipótesis. Seleccionar variables y escalas. Establecer la metodología (instrumentos, muestreo, etc.) Seleccionar la técnica multivariante más apropiada. Determinar el nivel de significación (alpha). Coleccionar datos. Evaluar los supuestos básicos de la técnica multivariante. Estimación del modelo multivariante y valoración del ajuste del modelo.  Interpretar el valor teórico (rechazar o no las hipótesis).  Validación e interpretación de los resultados.         

1) Definir el objetivo a través de un estudio previo Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura existente para establecer el estado del arte. Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la pretensión del trabajo. “Hay dos cosas importantes Conocimiento y creatividad”. Hay que establecer un objetivo pero justificarlo a través de la revisión bibliográfica. 2) Establecer las hipótesis Establecemos las hipótesis que queremos validar o rechazar mediante el estudio. 3) Seleccionar variables y escalas Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra “variable” se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas. Escalas Nominal

Ordinal

Características  Identifica por categorías mutuamente excluyentes  Los números no tienen valor matemático  Ordenación de las categorías.  Los números no dan información de la distancia

entre categorías. Intervalo  Identifica una distancia constante entre categorías.  Tiene un origen arbitrario. Razón  Se puede realizar comparación proporcional entre categorías.  Tiene un origen absoluto. A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis discriminante, para el segundo trabajo. Para convertir valores no métricos en métricos:

Desacuerdo opiniones

1

2

3

4

Acuerdo

Ordenamos las

Escala de Likert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados. Completamente en desacuerdo -2 Más o menos en desacuerdo No sabe, no contesta Más o menos de acuerdo Completamente de acuerdo

-1 0 +1 +2

4) Establecer la metodología (instrumentos, muestreo, etc.) Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología. 5) Seleccionar la técnica multivariante más apropiada. Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel de significación.

6) Determinar el nivel de significación (alpha). El nivel de significación está fuertemente relacionado con el llamado “error de medida”. Debemos aumentar el nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significación mejor. El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes. Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo) •

La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc.



La validez se define como el grado en que la medida representa con precisión lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigación.

Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico

Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas. El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente. Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta). Realidad Decisión Rechazar H0 No rechazar H0 Aceptar H0

Cierta

Falsa

Error Tipo I α Potencia 1-β

Nivel de Confianza 1-α Error Tipo II β

Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa. Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor. Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo: a. Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa) b. Elegir la prueba estadística c. Fijar el nivel de significación (alfa) d. Calcular estadístico. e. Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho. 7) Recopilar datos 8) Evaluar los supuestos básicos de la técnica multivariante.

9) Estimación del modelo multivariante y valoración del ajuste del modelo. 10) Interpretar el valor teórico (rechazar o no las hipótesis). 11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real… ----lo valorará mucho en el trabajo)

Tratamientos previos de los datos. Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen análisis de los datos: - Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar más fácilmente las relaciones entre las variables. - Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretación de los datos. Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos:  Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre variables, y analizar las diferencias entre grupos.  Tratar datos ausentes mediante métodos de imputación  Detectar casos atípicos y eliminarlos si no son aleatorios. Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar: Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal. Es el primer método de examen gráfico. Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los puntos de datos basados en dos

variables. Se investiga si la relación entre las dos variables es aproximadamente lineal. Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos. Se transforma la distribución normal en cajas y bigotes. La línea de la caja representa el valor de la mediana La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos. Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos. Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones: -

-

Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no. A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de significación aceptable. No eliminar casos y sustituir datos ausentes. Tres métodos: a) Sustitución por la media: la media es el valor más representativo de una población, por ello sustituimos los datos por la media. b) Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta población, igual es necesario buscar estudio semejante. c) Imputación por regresión: para predecir el valor más representativo

Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear: -

Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos: media igual a cero, desviación estándar igual a 1

Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5 Si el tamaño n>80: > 4 -

Procedimientos bivariantes: diagramas cajas y bigotes.

-

Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada. Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras distancias si es o no atípico.

Supuestos del AM. Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos. Hay dos razones principales: 1. Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos serán más potentes, al igual que las distorsiones. 2. Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad. Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes. Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o supuestos: Normalidad: cumplirlo es importante porque muchas técnicas multivariantes tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es necesario que la distribución sea normal. 

Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersión desde el punto de vista de la variable independiente. Es importante para muchas técnicas multivariantes que utilizan las métricas de varianza ya que es necesario que existan iguales niveles de dispersión ( como ejemplo análisis discriminante ) 

Linealidad: Es importante porque muchas técnicas multivariantes tienen que utilizar el concepto de correlación. Es necesario que exista una relación lineal entre las dos variables. En las técnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad. 

Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de predicción es independiente del resto. Son errores que no están correlaciones, que son independientes. 

Clasificación de los métodos del AM. TÉCNICAS DE DEPENDENCIA

¿

V

A R

E

S

R

C

A

M

C

S

C

M

E

T

o

U

I A S D E P E l a c i ó n s i m

e

E

C

L

E

D

T

A

R

r r . c

A

R

E

I C

L

A

I N

I NC

OA

M

a n Mó

An

P

A

T

S n

p

e

I E l e

N

T

E

p

N

D

I E

A

V

SU

N

N

E

TE

T MR

iN c Oa

VR

EI C T A R

AE

G

A

T

R

R

I NC

l a

SC

A

I C

L

A

D

A

M

E

N

E

E

S

S

E P E N D ió n s i m

c

L

NI N T D E

OA

E CS

D

e

ES

E E P S E C N A D L IAE

E

A R I A B i e n t e s

d

R

M

D

A

e

D

E

N D

P

O

E

I E N p l e

OI O N N J U

EI C T A R

ND T I S O C

I L

T

E

N

T

I C

A

N

D

I E

M

E

T

R

I NC

R

T

E

E SE P S E C N A D L I A E

T MR

U

NI N T D E

OA

I ML

M

O.

E

G

ES

T

I Z

A

N

E

N

D

I C

A

E

S

P

R

?

I E

N

T

E

S

I T

TÉCNICAS DE INDEPENDENCIA

E

V

A

N

A

A

L

R

I S

I A

I S

B

L

E

S

F

A

C

S

T

R

U

C

C

T

O

R A I AN L A

T

A

L

U

S

I S

R

O

I S

A

D

E

R

E

L

A

S

C

O

C

L U

S ¿ T C E ó Rm

M

E

M

I O

B

o

T

R

D

S

N

E

J E

s e

T

m

I C NA O

A

S

O

S

i d

e n

M

E

T

l o s

R

I C

F C

Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas: ¿ podemos dividir las variables en dependientes o independientes? ¿ cuántas de estas variables son tratadas como dependientes? ¿ cómo son las variables medidas ( el tipo de escala ) ?

a t r i b

A

u t o

Programas Informáticos. Vamos a utilizar dos programas : SPSS y Dyane Ejercicio 1 1. Define el análisis multivariante con sus propias palabras. 2. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? 3. Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II. 4. ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? 5. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. 1. Define el análisis multivariante con sus propias palabras. Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultáneamente su efecto tiene interpretación. 2. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial conocer que escala para determinar que técnica multivariante es más apropiada en función de la escala.

3. Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II. Nivel de significación: me indica en que medida el valor observado es representativo de la muestra. Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor cuándo este es cierto. Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor cuándo este es falso.

4. ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? Existen tres métodos:  Primero hay que saber la forma de la distribución, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución normal.  El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la relación entre dos variables es lineal.  El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y nos sirve para detectar casos atípicos. 5. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir todos los supuestos:  el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t- Student y de la f- Snedecor.  Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar correlaciones.  Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la varianza en todas las variables independientes.  El último supuesto que debe cumplir es que cualquier error de predicción sea independiente del resto.

TEMA 2: EL ANALISIS FACTORIAL

Estructura de la clase: 1. Definición y objetivo del AF. 2. Conceptos básicos del AF. 3. Distinción entre el AFC y ACP. 4. Supuestos del ACP. 5. Diseño del ACP.  Estimación del número de factores a ser extraídos.  Métodos de rotación de los factores.  Criterios para determinar el nivel de significación de las cargas factoriales. 6. Caso práctico. 7. Tratamiento de los datos con DYANE y SPSS. Definición y objetivo del AF. El análisis factorial (AF) se puede definir como “la técnica estadística multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de los mismos”. El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente, y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser métricas. El AF tiene dos objetivos:  La reducción y sintetización de los datos para identificar sus estructuras básicas (de las grandes BBDD).  La creación de una nueva serie de variables (los llamados “factores”) que pueden ser utilizados posteriormente en otros análisis multivariantes (por ejemplo la regresión múltiple o el análisis cluster). El AF se utiliza principalmente para los siguientes tipos de investigación: Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro producto, estudio de aptitudes, etc Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones altas. Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con ellas.

Conceptos básicos. Conceptos Factor

Cargas

Comunalidad Autovalor (eigenvalue)

Definición Es el valor teórico que se extrae con el AF. Es una combinación lineal (Y=β1X1+ β2X2+...+ βnXn)de las variables originales. Los factores representan las dimensiones subyacentes (extracción del Factor1) que resumen la serie original de variables. El factor es una relación lineal. Calcularemos β1, β2, ..., βn para hallar el factor (Y=β1X1+ β2X2+...+ βnXn). Los factores no son directamente observables. Por ello usamos la técnica del AF. Es la correlación entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor específico. Las cargas de los factores al cuadrado indican qué porcentaje de la varianza en una variable original se atribuye a un determinado factor. Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor. Las (Cargas)2 es la proporción de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad Es una varianza compartida con otras variables. Es la proporción de varianza de la variable que contribuye a su vez con correlaciones con otras variables. Es una medida de la cantidad de varianza contenida en la matriz de correlación de tal forma que la suma de los autovalores debe ser igual al número de variables. Otra definición- Es la cantidad de información explicada por el modelo AF y su varianza asociada con cada factor.

Reglas de extracción

1.- Factores con cargas > 50% 2.- Factores tipo autovalor > 1

Distinción entre AF y ACP. En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que incluye la varianza común y la varianza específica y error).

Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en realidad al ACP.

AFC

Varianza común

ACP

Varianza específica y error Distorsionan los procesos de extracción Varianza total

La Varianza Total se divide en: 1.- Varianza Común: es aquella varianza donde una variable se comparte con todas las demás variables. 2.- Varianza Específica: es aquella varianza asociada únicamente con una variable específica. 3.- Varianza del Error: es aquella varianza debida al error de medición. En este curso, nos centramos sólo en el ACP. En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes: - Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP. - Es muy difícil estimar sólo la varianza común. Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será el que nosotros usemos.

Supuestos del ACP. (Son específicos del ACP)  Supuestos generales: Normalidad, Linealidad y Homocedasticidad.  Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación se puede examinar de tres maneras: → Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser > 0,30. → Contraste de esfericidad de Bartlett: Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de correlaciones significativas. El resultado a esta prueba sería “Significativo” o “No significativo”. La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de correlación. Esto se consigue con el tercer análisis: Índice KMO → Índice K-M-O (la adecuación muestral de Kaiser-MeyerOlkin): Es una prueba más completa aún que la anterior. Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son. Los índices obtenidos pueden ser:     

Si Si Si Si Si

KMO KMO KMO KMO KMO

es mayor que 0,80: Sobresaliente está entre 0,70 y 0,80: Regular está entre 0,60 y 0,70: Mediocre está entre 0,50 y 0,60: Despreciable, y es menor que 0,50: Inaceptable

Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.

Diseño del ACP. (Procedimientos)  Selección de variables Seleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no métricas a métricas.  Tamaño muestral El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100.  Examen de los supuestos generales (y específicos) Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE.  Matriz de correlaciones Como ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30.  Test de Bartlett Aplicamos el test de Bartlett y el índice KMO.  Estimación del número de factores a ser extraídos Ver página siguiente.  Rotación de factores Ver gráfico.  Interpretación de los factores Proceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón de cargas a cada factor.  Validación Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido.  Usos adicionales de los factores

Regresión múltiple o Cluster. 

Estimación del número de factores a ser extraídos

Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados. Criterio de raíz latente →DYANE AUTOVALOR Criterio a priori Criterio de porcentaje de la varianza

Criterio de contraste de caída

Sólo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debería explicar por lo menos una variable. Ya se sabe de antemano cuántos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre-Test. Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extraída (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor. Se identifica el número óptimo de factores que contienen una proporción de la varianza común sustancialmente alta.

CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS)

Gráfico de sedimentación 8

6

Curva con inclinación descendente. Indica que la varianza común domina la

4

Pto. de corte. La curva se convierte en una línea horizontal. Este sería el criterio de contraste de caída

Autovalor

2

0 1

3

5

7

9

11

Número de componente

13

15

17

19

21

Otra técnica sería utilizar el criterio de Raíz Latente o Autovalor y comprobar con valor 1 del Autovalor que punto corta del gráfico. Sería otra forma obtener factores. Con esta técnica se obtienen más factores que con la de

Si este fuera el pto. de corte elegido, tendríamos que seleccionar 6 factores

 Métodos de rotación de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más simple y más significativo.

 Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º (tipos) • QUARTIMAX • VARIMAX→DYANE (utilizada en el curso) • EQUIMAX

GRAFI CO DE ROTACI ON factor II (no rotado) factor II (rotado) V1 V2

factor I (no rotado)

Al rotar los ejes, podemos captar más variables que en un principio estaban alejadas de los ejes originales.

V3 V4

factor I (rotado)

 Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º

Criterios para determinar el nivel de significación de las cargas factoriales. (Interpretación de los factores) 

Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes. a) Asegurar la significación práctica. Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55

Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75

b) Valorar la significación estadística. Utilizar un nivel de significación de 0,5 y potencia de 0,8.

Caso practico. El caso “TeleSake” X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentación de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atención al cliente X7 : Calidad de la comida El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los criterios a utilizar y la interpretación y el análisis de los datos. Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC: (1) módulo de tablas de frecuencias, (2) módulo de tablas de medios, y (3) módulo de tablas específicas (DYANE, pp.318-337). Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo módulo (es decir, las variables filas son numéricas mientras que las variables columnas son categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos.

Haremos otra práctica con la BD de Telesake: 6.1

Con Dyane.

A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE

1 2 3 4 5 6 7

: : : : : : :

X1 X2 X3 X4 X5 X6 X7

-

X1 X2 X3 X4 X5 X6 X7

Matriz de coeficientes de correlación simple --------------------------------------------

X1 X2 X3 X4 X5 X6 X7

X1 -------1,0000 -0,3492 0,5093 0,0504 0,6119 0,0771 -0,4826

X2 --------0,3492 1,0000 -0,4872 0,2722 0,5130 0,1862 0,4697

X3 X4 X5 X6 -------- -------- -------- -------0,5093 0,0504 0,6119 0,0771 -0,4872 0,2722 0,5130 0,1862 1,0000 -0,1161 0,0666 -0,0343 -0,1161 1,0000 0,2987 0,7882 0,0666 0,2987 1,0000 0,2408 -0,0343 0,7882 0,2408 1,0000 -0,4481 0,2000 -0,0552 0,1773

X7 --------0,4826 0,4697 -0,4481 0,2000 -0,0552 0,1773 1,0000

Test de Bartlett ---------------Determinante de la matriz de correlación = 0,002679 Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)

Según el test de Bartlett me sale significativo

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 -------- -------- -------- -------- -------- -------- -------VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092 % DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13% % VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00% CARGAS DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7

-0,5280 0,7924 -0,6920 0,5640 0,1858 0,4921 0,7386

0,7515 0,0931 0,3745 0,6020 0,7789 0,6040 -0,2698

-0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054

-0,0312 -0,0055 -0,4761 0,1014 -0,0283 0,0248 -0,5494

-0,3340 0,3195 0,3512 0,0243 -0,0197 0,0238 -0,2820

-0,0047 -0,0255 0,0320 0,3225 -0,0075 -0,3135 0,0185

0,0541 0,0508 0,0010 0,0025 -0,0604 -0,0009 -0,0009

COMUNALIDAD ----------1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a1

COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7

-0,2090 0,3137 -0,2740 0,2233 0,0736 0,1948 0,2924

0,3544 0,0439 0,1766 0,2839 0,3673 0,2848 -0,1272

-0,1714 -0,4302 0,1462 0,3830 -0,5037 0,4587 0,0046

-0,0576 -0,0101 -0,8798 0,1873 -0,0522 0,0459 -1,0151

-0,7991 0,7643 0,8401 0,0582 -0,0470 0,0569 -0,6746

-0,0231 -0,1246 0,1566 1,5778 -0,0368 -1,5340 0,0905

5,9081 5,5418 0,1133 0,2730 -6,5904 -0,0946 -0,1034

Esta matriz, de momento, no tiene importancia

Cargas de los factores retenidos: ---------------------------------

X1 X2 X3 X4 X5 X6 X7

FACTOR 1 FACTOR 2 -------- --------0,5280 0,7515 0,7924 0,0931 -0,6920 0,3745 0,5640 0,6020 0,1858 0,7789 0,4921 0,6040 0,7386 -0,2698

VARIANZA: 2,5258 % DE VARIANZA: 36,08% % VAR.ACUMUL.: 36,08%

2,1204 30,29% 66,37%

FACTOR 3 --------0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054

COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183

1,1811 16,87% 83,25%

Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras. Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.

ROTACIÓN VARIMAX: ----------------Cargas de los factores retenidos (después de la rotación): ----------------------------------------------------------

X1 X2 X3 X4 X5 X6 X7

FACTOR 1 FACTOR 2 FACTOR 3 -------- -------- --------0,7524* 0,0711 0,5598 0,7539* 0,1081 0,5609 -0,8055* 0,0063 0,0095 0,1167 0,9210* 0,1525 -0,0620 0,1763 0,9799* 0,0341 0,9452* 0,0766 0,7596* 0,1930 -0,0644

VARIANZA: 2,3788 % DE VARIANZA: 33,98% % VAR.ACUMUL.: 33,98%

1,8269 26,10% 60,08%

COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183

1,6215 23,16% 83,25%

La interpretación es mucho más fácil y significativa. La varianza explicada no ha cambiado. Se mantiene.

COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7

-0,3037 0,3452 -0,3487 -0,0189 0,0073 -0,0604 0,3094

0,0039 -0,0997 0,0694 0,5227 -0,0665 0,5582 0,0657

0,3262 0,3953 -0,0349 -0,0598 0,6242 -0,1194 -0,0407

Ahora tendremos que interpretar los factores. Tendremos que “poner nombre o etiqueta” a cada factor. Esto dependerá. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas.

Al final tenemos la interpretación gráfica.

REPRESENTACIÓN GRÁFICA DE LOS FACTORES -------------------------------------VARIABLES: Código -----A B C D E F G

Significado ---------------X1 X2 X3 X4 X5 X6 X7

FACTORES 1 y 2: FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1,0 + + | | |F | 0,9 + + D | | | | 0,8 + + | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | | | 0,4 + + | | | | 0,3 + + | | | | 0,2 + E + G | | | | 0,1 + + B | | A | | 0,0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1 | | | -0,1 + + | | | | -0,2 + + | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

6.2

Con SPSS.

Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el SPSS. Seleccionamos el elemento datos/Análisis Factorial”

de

menú

“Analizar/Reducción

de

Y nos aparecerá una ventana como la siguiente:

Ahora pulsamos “Descriptivos”

Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significación de variables

Pulsamos ahora “Extracción”:

Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores que queremos extraer. Nosotros usaremos el primer criterio Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar.

Seleccionamos ahora Rotación:

Seleccionamos ahora Puntuaciones: Guardar las puntuaciones factoriales para análisis posteriores.

En botón opciones:

Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo. En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualización Suprimir valores absolutos menores que: Opción muy importante a seleccionar. Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados

6.2.1 Análisis de los datos con SPSS.

A. factorial Notas Resultados creados Comentarios Entrada

05-MAR-2004 17:48:02 Datos

Filtro



Peso



Segmentar archivo



Núm. de filas del archivo de trabajo Manipulación de los valores perdidos

C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSa ke.sav

100

Definición de los perdidos

MISSING=EXCLUDE: Los valores definidos como perdidos por el usuario son considerados como perdidos.

Casos utilizados.

MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos son sustituidos por la media de las variables.

Sintaxis FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION .

Recursos

Tiempo transcurrido Memoria máxima necesaria

0:00:00,16 7204 (7,035K) bytes

KMO y prueba de Bartlett Medida de adecuación muestral de Káiser-MeyerOlkin. Prueba de esfericidad de Bartlett

Chi-cuadrado aproximado

,446 567,541

gl

21

Sig.

,000

Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es inaceptable. Sin embargo la segunda prueba, Test de Bartlett, sale significativo. Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett.

Comunalidades Inicial 1,000 1,000

Extracción ,884 ,895

Presentación de la comida

1,000

,649

Imagen del logotipo

1,000

,885

Eficacia del servicio

1,000

,995

Atención al cliente

1,000

,901

Velocidad de entrega Nivel de precios

Calidad de la comida

1,000 ,618 Método de extracción: Análisis de Componentes principales.

Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles muy altos.

Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción

Autovalores iniciales

Suma de las saturacion la rotac

Total 2,526 2,120

% de la varianza 36,082 30,291

% acumulado 36,082 66,374

Total 2,526 2,120

% de la varianza 36,082 30,291

% acumulado 36,082 66,374

Total 2,379 1,827

% de la varianza 33,984 26,098

3

1,181

16,873

83,246

1,181

16,873

83,246

1,622

23,165

4

,541

7,731

90,977

5

,418

5,972

96,949

6

,204

2,920

99,869

7

,009

,131

100,000

Componente 1 2

Información de la varianza Información de antes de la rotación después de la ro Método de extracción: Análisis de Componentes principales.

La varianza total explicada, tenemos autovalores iniciales.

Gráfico de sedimentación 3,0

2,5

2,0

1,5

Autovalor

1,0

,5

0,0 1

2

3

4

5

6

7

Número de componente El gráfico de sedimentación. Para determinar factores, observamos la curva, y vemos el punto de corte donde cambia la inclinación. Más o menos a partir del punto 4 cambia la inclinación. Según este criterio podemos determinar 4 factores. Pero también hemos usado otro criterio para seleccionar factores.

Matriz de componentes(a) Componente 1 Nivel de precios Calidad de la comida

2

3

,792 ,739

Presentación de la comida

,508

-,692

Eficacia del servicio

,779

Velocidad de entrega

-,528

,595

,752

Atención al cliente

,604

Imagen del logotipo

,564

-,542

,602

Método de extracción: Análisis de componentes principales. a 3 componentes extraídos

Matriz de componentes rotados(a) Componente 1 Presentación de la comida

2

3

-,806

Calidad de la comida

,760

Nivel de precios

,754

Velocidad de entrega

,561

-,752

,560

Atención al cliente

,945

Imagen del logotipo

,921

Eficacia del servicio

,980

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. a La rotación ha convergido en 5 iteraciones.

Después de la rotación VARIMAX hemos obtenido 3 factores, y hemos seleccionado la opción que ordena de mayor a menor; de este modo es mas fácil identificar la importancia de las variables. Hemos suprimido las variables con menor importancia, así solo salen las variables importantes.

Matriz de transformación de las componentes Componente 1 2 3

1

2

3

,865 -,452

,477 ,602

,159 ,658

,218

-,641

,736

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

Tratamiento de los datos con DYANE y SPSS.

7.1 Tratamiento de los datos con DYANE.

Vamos a ir viendo seleccionaremos.

las

opciones

que

tiene

el

Dyane

y

cuáles

Medias y desviaciones estándar de las variables no nos interesan Test de Bartlett si que nos interesa, para ver si existe un nivel significativo de correlación de los factores. Valores propios mayores que 1 (también llamados autovalores).- Es el criterio para seleccionar las cargas. Representación Gráfica de los factores: representar 2 factores Rotación VARIMAX.- Girar los ejes de referencias para captar mas variables o hacer la Interpretación más fácil. Es el método mas frecuentemente utilizado. Ahora seleccionamos: Guardar los factores retenidos como variables.- Se guardarán para su uso posterior Y seleccionamos las variables a estudiar.

A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE 1 : EPU_OBEC - La empresa pública puede cumplir los objetivos económicos mejor que la privada. VARIABLE 2 : EPU_OBSO - La empresa pública puede cumplir los objetivos sociales mejor que la privada VARIABLE 3 : DIRE_SUF - La dirección de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. VARIABLE 4 : ECME_PLA - La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado. VARIABLE 5 : DESP_LIB - La posibilidad de despido libre, con indemnización, permitiría la creación de puestos de trabajo. VARIABLE 6 : LIBERAL - El liberalismo es la mejor doctrina económica. VARIABLE 7 : ECSOLMER - La economía social de mercado es la mejor doctrina económica. VARIABLE 8 : SOCIALIS - El socialismo es la mejor doctrina económica. VARIABLE 9 : COMUNISM - El comunismo es la mejor doctrina económica. VARIABLE 10: EMPR_CRE - El empresario debe ser admirado por la sociedad porque crea riqueza. VARIABLE 11: EMPR_EXP - El empresario sólo explota a los trabajadores. VARIABLE 12: BEN_OBJ1 - El beneficio deber ser el primer objetivo de la empresa VARIABLE 13: BENSOLAC - En la distribución de los beneficios deben participar sólo los accionistas. VARIABLE 14: BAL_SOCI - Todas las empresas deberían realizar el balance social. VARIABLE 15: MARK_NEC - El marketing es sólo un método para vender más, creando necesidades aparentes. Matriz de coeficientes de correlación simple -------------------------------------------EPU_OBEC EPU_OBSO BENSOLAC BAL_SOCI MARK_NEC -------- --------------- -------- -------EPU_OBEC 1,0000 0,3784 -0,1036 0,2605 0,1421 EPU_OBSO 0,3784 1,0000 0,0630 0,2315 0,1735 DIRE_SUF 0,1999 0,1924 -0,2475 0,0956 0,0868 ECME_PLA -0,2255 -0,1953 0,2121 -0,1738 -0,0510 DESP_LIB -0,0908 0,0014 0,2368 -0,1042 -0,0474 LIBERAL -0,1247 -0,1089 0,1302 -0,0298 -0,1059 ECSOLMER -0,0758 0,0015 0,0728 0,0730 -0,0039 SOCIALIS 0,2727 0,3173 -0,1582 0,2379 0,1737 COMUNISM 0,2396 0,1915 -0,0565 0,1844 0,0425 EMPR_CRE -0,1537 -0,0873 0,2381 0,0103 -0,2078 EMPR_EXP 0,1265 0,2423 -0,1190 0,0427 0,2745 BEN_OBJ1 -0,1001 0,0438 0,2255 -0,0848 0,0044 BENSOLAC -0,1036 0,0630 1,0000 -0,2184 0,1432 BAL_SOCI 0,2605 0,2315 -0,2184 1,0000 0,0568 MARK_NEC 0,1421 0,1735 0,1432 0,0568 1,0000

DIRE_SUF ECME_PLA DESP_LIB LIBERAL

ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1

-------- -------- -------- -------- -------- -------- -------- -------- -------- -------0,1999

-0,2255

-0,0908

-0,1247

-0,0758

0,2727

0,2396

-0,1537

0,1265

0,1924

-0,1953

0,0014

-0,1089

0,0015

0,3173

0,1915

-0,0873

0,2423

-0,1001 0,0438

1,0000

-0,1988

-0,2233

-0,1370

-0,2437

0,2056

0,2433

-0,3528

0,0969

-0,2935

-0,1988

1,0000

0,2622

0,3202

0,1476

-0,3499

-0,2504

0,3204

-0,2196

0,1111

-0,2233

0,2622

1,0000

0,1614

-0,0097

-0,0722

0,0048

0,2775

-0,1296

0,1412

-0,1370

0,3202

0,1614

1,0000

-0,0326

-0,2995

-0,0833

0,3533

-0,1459

0,1391

-0,2437

0,1476

-0,0097

-0,0326

1,0000

0,0671

-0,0438

0,0826

0,0802

0,1621

0,2056

-0,3499

-0,0722

-0,2995

0,0671

1,0000

0,3728

-0,1305

0,3378

0,0782

0,2433

-0,2504

0,0048

-0,0833

-0,0438

0,3728

1,0000

-0,1362

0,1437

-0,0371

-0,3528

0,3204

0,2775

0,3533

0,0826

-0,1305

-0,1362

1,0000

-0,2662

0,2522

0,0969

-0,2196

-0,1296

-0,1459

0,0802

0,3378

0,1437

-0,2662

1,0000

-0,0860

-0,2935

0,1111

0,1412

0,1391

0,1621

0,0782

-0,0371

0,2522

-0,0860

1,0000

-0,2475

0,2121

0,2368

0,1302

0,0728

-0,1582

-0,0565

0,2381

-0,1190

0,2255

0,0956

-0,1738

-0,1042

-0,0298

0,0730

0,2379

0,1844

0,0103

0,0427

-0,0848

0,0868

-0,0510

-0,0474

-0,1059

-0,0039

0,1737

0,0425

-0,2078

0,2745

0,0044

Test de Bartlett ---------------Determinante de la matriz de correlación = 0,083411 Ji cuadrado con 105 grados de libertad = 385,4297

(p = 0,0000)

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 FACTOR 8 FACTOR 9 FACTOR 10FACTOR 11FACTOR 12FACTOR 13FACTOR 14FACTOR 15 -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- --------------- -------- -------VALOR PROPIO: 3,2405 1,7250 1,3244 1,2098 1,0196 0,8867 0,8399 0,7805 0,7488 0,6977 0,6449 0,5856 0,4829 0,4305 0,3830 % DE VARIANZA: 21,60% 11,50% 8,83% 8,07% 6,80% 5,91% 5,60% 5,20% 4,99% 4,65% 4,30% 3,90% 3,22% 2,87% 2,55% % VAR.ACUMUL.: 21,60% 33,10% 41,93% 50,00% 56,80% 62,71% 68,31% 73,51% 78,50% 83,15% 87,45% 91,36% 94,58% 97,45% 100,00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------EPU_OBEC 0,5235 -0,2539 -0,3078 0,0583 -0,1261 -0,0672 1,0000 EPU_OBSO 0,4599 -0,5037 -0,1297 -0,0869 0,2857 0,0846 1,0000 DIRE_SUF 0,5558 0,3156 -0,2000 0,1921 -0,1694 -0,2282 1,0000 ECME_PLA -0,6326 -0,0655 -0,0066 -0,3768 -0,0358 0,1230 1,0000 DESP_LIB -0,3886 -0,3667 -0,1716 0,1676 -0,0666 -0,0680 1,0000 LIBERAL -0,4859 -0,0979 -0,3679 0,2381 -0,0248 0,1845 1,0000 ECSOLMER -0,1293 -0,3579 0,3078 0,2597 0,0423 -0,0689 1,0000

-0,1587

0,2203

0,3032

-0,1221

-0,0158

-0,1707

-0,0888

0,5343

-0,2161 -0,3165

-0,1992

0,1656

0,2151

-0,0248

-0,0679

-0,4190

0,0512

-0,2850

0,1913

0,0293

-0,1671

0,0560

0,3367

-0,1606

0,3340

-0,2229

-0,0357

-0,1343

0,3373

-0,2615

-0,1896

0,1941

-0,1253

0,3251

0,0878

-0,1849

-0,2977

-0,2463

-0,2601

-0,4710

-0,3336

0,0556

0,1731

0,0756

0,2433

-0,1718

0,3171

-0,3404

0,4629

0,0215

-0,0804

-0,1739

0,0935

0,1465

0,6023

0,2343

-0,1425

-0,2820

0,3566

-0,1785

-0,0531

0,0370

0,0767

SOCIALIS 0,6155 -0,4176 0,0023 0,1358 -0,1155 0,3621 1,0000 COMUNISM 0,4659 -0,2567 -0,3055 -0,2054 0,1879 -0,0644 1,0000 EMPR_CRE -0,5846 -0,3547 -0,3682 0,0744 0,1519 -0,2551 1,0000 EMPR_EXP 0,4822 -0,2042 0,4300 -0,1632 -0,1802 -0,1824 1,0000 BEN_OBJ1 -0,3065 -0,5474 0,1019 -0,1032 -0,0947 -0,1472 1,0000 BENSOLAC -0,3973 -0,4402 0,2320 -0,0095 -0,3004 0,0461 1,0000 BAL_SOCI 0,3693 -0,2191 -0,4648 -0,1529 -0,2128 -0,0306 1,0000 MARK_NEC 0,2894 -0,2858 0,4681 0,1179 0,2181 -0,0491 1,0000

0,1880

-0,2698

-0,1501

0,0423

-0,0571

0,0572

0,2131

-0,0855

-0,3036

-0,0738

-0,3725

-0,3833

-0,0276

0,3765

0,1497

-0,2632

0,1242

0,0362

0,1180

0,0106

0,0046

0,0817

-0,1426

0,0438

-0,0410

-0,2209

-0,4579

0,0150

0,1403

-0,4342

0,1567

-0,3592

-0,2127

-0,1938

-0,0337

-0,0508

0,1645

-0,2882

0,1820

0,4669

0,0961

-0,0266

0,3418

0,1750

0,1899

-0,4285

-0,0773

0,2299

-0,0797

0,2804

0,0452

-0,3367

-0,2389

-0,0467

0,3434

0,4072

0,0610

-0,0662

-0,0473

0,3952

0,0199

-0,1953

0,2028

-0,3941

0,3559

-0,0255

0,0850

0,0344

0,4789

0,1499

0,0801

-0,0472

Después de esta matriz, salen coeficientes de puntuación de los factores.

Se tienen que multiplicar cada coeficiente de correlación por las variables originales para comprobar los resultados de los factores COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: EPU_OBEC 0,1615 -0,1472 0,1207 -0,2928 -0,1755 EPU_OBSO 0,1419 -0,2920 -0,1800 0,6636 0,2208 DIRE_SUF 0,1715 0,1829 0,3979 -0,3934 -0,5957 ECME_PLA -0,1952 -0,0379 -0,7803 -0,0831 0,3212 DESP_LIB -0,1199 -0,2126 0,3470 -0,1546 -0,1774 LIBERAL -0,1499 -0,0568 0,4932 -0,0575 0,4817 ECSOLMER -0,0399 -0,2075 0,5378 0,0983 -0,1799 SOCIALIS 0,1899 -0,2421 0,2812 -0,2684 0,9453 COMUNISM 0,1438 -0,1488 -0,4253 0,4363 -0,1681 EMPR_CRE -0,1804 -0,2056 0,1541 0,3527 -0,6659 EMPR_EXP 0,1488 -0,1184 -0,3379 -0,4185 -0,4763 BEN_OBJ1 -0,0946 -0,3174 -0,2137 -0,2200 -0,3843 BENSOLAC -0,1226 -0,2552 -0,0196 -0,6978 0,1204 BAL_SOCI 0,1140 -0,1270 -0,3167 -0,4941 -0,0799 MARK_NEC 0,0893 -0,1657 0,2442 0,5066 -0,1283

-0,2324

-0,1312

0,2161

0,3419

-0,1454

-0,0202

-0,2280

-0,1273

0,8284

-0,0979

-0,1786

-0,1510

-0,2616

-0,0050 -0,1296

-0,3402

0,1624

0,2425

-0,0295

-0,0870

-0,5596

0,0733

-0,4420

0,3267

0,0287

-0,1884

0,0667

0,4314

-0,2144

0,4787

-0,3457

-0,0610

-0,1110

0,3308

-0,2949

-0,2258

0,2487

-0,1673

0,4659

0,1362

-0,3158

-0,2460

-0,2416

-0,2934

-0,5607

-0,4275

0,0743

0,2481

0,1172

0,4154

-0,2778

-0,1420

0,3110

-0,3839

0,5511

0,0276

-0,1074

-0,2492

0,1449

0,2502

0,2324

0,4978

0,2298

-0,1607

-0,3358

0,4569

-0,2383

-0,0760

0,0574

0,1310

0,0017

0,1554

-0,2646

-0,1693

0,0504

-0,0731

0,0764

0,3054

-0,1326

-0,5184

-0,2307

-0,0610

-0,3653

-0,4323

-0,0329

0,4824

0,2000

-0,3772

0,1926

0,0618

-0,2780

0,0975

0,0104

0,0052

0,0973

-0,1828

0,0585

-0,0588

-0,3426

-0,7819

0,3247

0,0124

0,1376

-0,4897

0,1865

-0,4602

-0,2840

-0,2777

-0,0522

-0,0868

0,0769

0,1359

-0,2827

0,2052

0,5558

0,1231

-0,0355

0,4899

0,2714

0,3242

0,1752

-0,3542

-0,0758

0,2593

-0,0949

0,3592

0,0604

-0,4825

-0,3705

-0,0798

-0,3509

0,2838

0,3994

0,0687

-0,0788

-0,0606

0,5278

0,0285

-0,3029

0,3463

0,3535

-0,3258

0,3490

-0,0288

0,1012

0,0441

0,6396

0,2149

0,1242

-0,0806

Cargas de los factores retenidos: ---------------------------------

Aquí han salido 5 factores sin rotación. Pero esta matriz es difícil de interpretar porque tiene las cargas muy altas para el factor 1 y para el factor 2. Aunque hemos extraído varios factores, como tienen elevados números en las cargas, no sabemos que factor es más importante que otro. ¿Qué variable es más importante que las otras?

FACTOR 1 -------0,5235 0,4599 0,5558 -0,6326 -0,3886 -0,4859 -0,1293 0,6155 0,4659 -0,5846 0,4822 -0,3065 -0,3973 0,3693 0,2894

FACTOR 2 --------0,2539 -0,5037 0,3156 -0,0655 -0,3667 -0,0979 -0,3579 -0,4176 -0,2567 -0,3547 -0,2042 -0,5474 -0,4402 -0,2191 -0,2858

FACTOR 3 --------0,3078 -0,1297 -0,2000 -0,0066 -0,1716 -0,3679 0,3078 0,0023 -0,3055 -0,3682 0,4300 0,1019 0,2320 -0,4648 0,4681

FACTOR 4 --------0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023 0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941

FACTOR 5 -------0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343 -0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559

VARIANZA: 3,2405 % DE VARIANZA: 21,60% % VAR.ACUMUL.: 21,60%

1,7250 11,50% 33,10%

1,3244 8,83% 41,93%

1,2098 8,07% 50,00%

1,0196 6,80% 56,80%

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666

Haremos la rotación VARIMAX para ver que factor es más importante. Vemos la carga de los factores retenidos después de la rotación ROTACIÓN VARIMAX: ----------------Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------FACTOR 1 -------0,6423* 0,6071* 0,2243 -0,1229 0,0016 0,1713 0,0430 0,3894 0,3778 0,1379 0,1228 -0,0410 -0,1448 0,7363* 0,1288

FACTOR 2 --------0,2070 -0,0684 -0,5989* 0,1505 -0,0427 -0,0204 0,7964* 0,1308 -0,2174 0,2998 0,1348 0,4525 0,0489 0,1809 -0,0408

FACTOR 3 -------0,1735 0,3417 0,1106 -0,0201 -0,1408 -0,2113 0,1099 0,1344 -0,1094 -0,4190 0,5702* -0,0771 0,2802 -0,1301 0,8009*

FACTOR 4 --------0,0520 0,1791 -0,3031 0,2360 0,6551* 0,2424 -0,0929 0,0421 0,1771 0,4494* -0,1584 0,5322* 0,6738* -0,3038 0,0731

FACTOR 5 -------0,1368 0,1845 0,1910 -0,6652* -0,1158 -0,6147* -0,0163 0,6876* 0,5359* -0,3617 0,3091 0,1362 -0,1977 -0,0112 -0,0396

VARIANZA: 1,7876 % DE VARIANZA: 11,92% % VAR.ACUMUL.: 11,92%

1,4793 9,86% 21,78%

1,5096 10,06% 31,84%

1,7740 11,83% 43,67%

1,9690 13,13% 56,80%

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666

Tres efectos de la rotación VARIMAX: La cantidad total de varianza es la misma. Con este modelo factorial hemos explicado un 56.80% de la varianza total. Ahora hemos mejorado la interpretación de los datos y podemos distinguir que variable tiene mas peso en cada factor.

Sin embargo, la varianza es de cada factor es menor. Hemos redistribuido la varianza, para que cada factor tenga niveles semejantes de varianza. Tercer efecto de la rotación es que hemos mejorado la interpretación de los datos, Ahora podemos ver que variable tiene mas peso para cada factor (las que tienen *).

COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

0,3741 0,3335 0,0843 0,0629 0,0263 0,2499 0,0500 0,1054 0,1320 0,1950 -0,0122 -0,0419 -0,0738 0,4980 0,0440

-0,1147 -0,0433 -0,3752 0,0363 -0,1343 -0,0804 0,5974 0,1396 -0,1461 0,1332 0,1491 0,2583 -0,0735 0,1964 -0,0282

0,0637 0,1866 0,0237 0,1126 -0,0756 -0,0564 0,0906 -0,0401 -0,1957 -0,2445 0,3597 -0,0649 0,2591 -0,1385 0,5907

REPRESENTACIÓN GRÁFICA DE LOS FACTORES -------------------------------------VARIABLES: Código -----A B C D E F G H I J K L M N O

Significado ---------------EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

0,0151 0,1552 -0,0790 0,0240 0,4103 0,0559 -0,1776 0,1183 0,2286 0,1822 -0,0655 0,3009 0,4030 -0,2336 0,0566

-0,0909 -0,0352 -0,0170 -0,3779 0,0492 -0,3802 -0,0119 0,3777 0,3223 -0,1141 0,0678 0,2253 -0,0409 -0,1791 -0,1829

FACTORES 1 y 2:

FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1,0 + + | | | | 0,9 + + | | | | 0,8 + + G | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | L | | 0,4 + + | | | | 0,3 + + J | | | | 0,2 + + N | | D | K H | 0,1 + + | | M | | 0,0 +----+---+---+---+---+---+---+---+---+---+---+--F+---+---+---+---+---+---+---+----|FACTOR 1 | E O B | -0,1 + + | | | | -0,2 + + I A | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + C | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

Tenemos una representación gráfica para los factores 1 y 2 después de la rotación VARIMAX.

Ejercicio 2 1. Define y relaciona los siguientes términos: factor, cargas, y comunalidad. 2. ¿Cuáles son los criterios que podemos emplear para determinar el número de factores a extraer? 3. ¿Para qué usaríamos una rotación ortogonal en el ACP? 4. Construye un diseño adecuado para el siguiente estudio con el ACP: “La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra...” 5. Tras realizar una investigación sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticación 0.6605* -0.2364 0.5963 Tecnología -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.:

1.6780 27.97% 27.97%

1.5875 26.46% 54.43%

1. Define y relaciona los siguientes términos: factor, cargas, y comunalidad.

2. ¿Cuáles son los criterios que podemos determinar el número de factores a extraer?

emplear

para

Para el último criterio es posible que se quiera explicar gráficamente con el grafico de sedimentación. Tendríamos que explicar como determinar el punto de corte.

3. ¿Para qué usaríamos una rotación ortogonal en el ACP? La rotación es una manipulación matemática del ACP que facilita la interpretación de factores. Se utiliza para lograr un patrón de factores más simple y teóricamente más significativo. Técnicamente, la rotación consiste en girar los ejes de referencia de los factores hasta alcanzar una determinada posición para redistribuir la varianza de los mismos. Si se mantiene un ángulo de 90 grados, se llama rotación ortogonal, y sino se denomina rotación oblicua. En el ACP, normalmente se usa la rotación ortogonal. En el libro de AM, vienen explicados todos estos sistemas de rotación 4. Construye un diseño adecuado para el siguiente estudio con el ACP: “La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra...” En el apartado de objetivo del estudio se puede escribir algo como lo de arriba. En la introducción habría que intentar convencer de porque el profesor tiene que leer ese trabajo. Normalmente la introducción es para resumir las partes más importantes y convencer de porque leer el trabajo. Primeramente, investigaremos la literatura existente para establecer el estado del arte. A continuación, establecemos las hipótesis que queremos validar o rechazar mediante el estudio.

¿Por qué queremos efectuar este estudio? Es una de las preguntas a responder. Diferentes a objetivos. Ahora estableceremos y concretaremos las partes técnicas: variables y escalas. En el ACP se pueden utilizar solo variables métricas. Si tenemos variables categóricas, las tenemos que convertir en variables métricas. Este tipo de variables se llaman variables ficticias. Dependiendo de la técnica multivariante, podemos utilizar estas variables ficticias para el análisis. Ahora determinamos el tamaño muestral. Como regla general, el tamaño de la muestra debe ser por lo menos 50, y preferiblemente superior a 100 observaciones. Ventaja de realizar revisión bibliográfica: saber como se diseñan los estudios, saber que variables, que escalas, que técnicas multivariantes se han realizado. Así tendremos mejor información para saber tipo de variables y tipo de escalas. Después de determinar el tamaño muestral, hay que concretar los métodos de la investigación, instrumentos, colección de datos, muestreo, etc. Ahora examinamos los supuestos. Ahora ya tenemos datos, y tenemos que examinar los supuestos. Hay dos tipos de supuestos a examinar: Aparte de los supuestos principales como la normalidad, la linealidad y la homocedasticidad, hay que examinar el supuesto específico: ver si existe un alto nivel de correlación entre las variables. Para examinarlo:  Examen visual de la matriz de correlaciones,  Test de Bartlett,  Indice KMO Después determinamos el número de factores a ser extraídos. Ver el criterio:    

Criterio Criterio Criterio Criterio

de raíz latente a priori de porcentaje de la varianza de contraste de caída

Si seleccionamos varios criterios (como hoy), una regla general, empírica; cuando seleccionamos Criterio de contraste de caída, normalmente salen uno o dos factores más que cuando se selecciona el Criterio de Valores Propios mayores que uno. Es lógico, ya que el Criterio de Contraste de Caída es un simple examen visual, y el otro es mucho más empírico y objetivo.

Haré una revisión bibliográfica, y si salen los factores que espero después de mi revisión bibliográfica, me puedo quedar con ese criterio También se realiza normalmente la rotación ortogonal de los factores para su mejor interpretación. Después de esto, tenemos que atribuir significado a cada factor asignándole una etiqueta adecuada. Finalmente, realizaremos una interpretación y validación de los factores

5. Tras realizar una investigación sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticación 0.6605* -0.2364 0.5963 Tecnología -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.:

1.6780 27.97% 27.97%

1.5875 26.46% 54.43%

Dos puntos a tener en cuenta: 1. No se deben repetir, sino interpretar los datos Cuando ya se tienen los datos, no importan las respuestas que repiten datos: ¡ya se pueden ver en la tabla! 2. Realizar recomendaciones: a) para la empresa, y b) para los investigadores Entonces: Diremos que variable tiene mayor importancia en cada factor. Pe Luego diremos como interpretar estos datos. En el cuadro no dice nada sobre la interpretación. Entonces, para FACTOR 1 y FACTOR 2 tendremos que interpretar.

Para poner una etiqueta al FACTOR 1, pensaremos en alguna palabra que tenga que ver con sofisticación, prestigio, estatus social y calidad. “Los elementos determinantes de la imagen implican una relación coherente entre todos los factores extraídos. El primer factor se puede etiquetar como “Estatus”, e indica la imagen de prestigio que da la marca BMW. La Sofisticación ha sido percibida como la imagen principal de dicha marca. Esta imagen parece ser una percepción general de BMW. El segundo factor es más difícil interpretar, ya que existen dos elementos contradictorios, es decir, Tecnología y Extravagancia. Probablemente, la marca BMW ha sido evaluada de tal manera debido al elevado nivel de precio que no necesariamente compensa el nivel de tecnología percibida.”.Shintaro. Uno de los peligros del ACP es la subjetividad a la hora de interpretar los factores. Con esta técnica no se puede evitar la interpretación subjetiva. Otro de los peligros es la interpretación de las etiquetas. Deberíamos explicar que significa cada etiqueta. “Desde el punto de vista empresarial, nuestra recomendación seria realizar acciones filantrópicas con el fin de aumentar su imagen social, tales como patrocinar partidos deportivos, llevar a cabo actividades culturales, etc. También habría que hacer una publicidad comparativa entre la marca BMW y otras marcas competidoras para convencer a los consumidores de que la relación entre precio y calidad es equilibrada o incluso superior a la de otras marcas. Metodológicamente, hay dos advertencias que merecen nuestra atención. Primero, el hecho de que el estudio ha extraído solo dos factores implica que el número de ítems incluidos en el cuestionario probablemente no era suficiente. Segundo, como los factores explican solo la mitad (un 54%) de la varianza total, existirían otras dimensiones o construcciones que explican la otra mitad de la varianza. En un futuro estudio, se deben considerar e incorporar estas dos limitaciones para aumentar la significación tanto práctica como estadística.”. Shintaro.

TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS

Estructura de la clase: 1. Introducción. 2. Definición y objetivo del AFC. 3. Conceptos básicos del AFC. 4. Supuestos del AFC. 5. Diseño del AFC. 6. Casos prácticos con DYANE.

Introducción. En el pasado, las técnicas de descomposición del análisis multidimensional (AM) han sido frecuentemente utilizadas. El AM es un conjunto de procedimientos para desplegar las relaciones (de similitud o preferencia) mediante un mapa perceptual. Sin embargo, en las últimas épocas, se han combinado aspectos del análisis factorial o del análisis discriminante y del análisis multidimensional para configurar una nueva técnica llamada “análisis factorial de correspondencias”. El AM es una técnica de descomposición de datos y éstos se representan mediante un mapa perceptual, donde  Es una técnica para analizar tablas de contingencia.  Requiere de una matriz de datos con entradas NO negativas.  Se utilizan variables categóricas nominales, de ahí que no puedan haber datos negativos.  Se tienen que identificar correctamente los objetos y los atributos. Ejemplo: Analizamos las cervezas más representativas del mercado español. Queremos saber el posicionamiento de las marcas existentes en la actualidad para introducir una nueva marca de cerveza extranjera:  SanMiguel   A − Amstel   OBJETOS (marcas representativas) CruzCampo  Heineken    Mahou

Sabor   Pr ecio  ATRIBUTOS Envase  

Otro ejemplo: Imaginemos que tenemos una serie de marcas de bebidas alcohólicas (A, B, C y D) y queremos saber la existencia de similitud entre marcas. Existen varios métodos para medir la similitud entre marcas. Podríamos por ejemplo, comparar por parejas, es decir A con B, luego A con C, etc.

Para poder realizar este estudio, creamos una tabla de doble entrada y determinamos un orden de similitudes, por ejemplo: Marca A Marca Marca Marca Marca

Marca B 1

A B C D

Marca C 3 4

Marca D 5 6 2

Una vez asignadas las similitudes, comprobamos que esta ordenación es difícil de apreciar una vez dispuesta esta información en forma de tabla. Podríamos utilizar un índice estadístico para ordenar los datos, colocando el orden de similitud entre las marcas, midiendo éstas de una forma más objetiva mediante las distancias entre marcas: D -2

C

A

-1

0

1

B 2

En el gráfico anterior, si se puede apreciar mejor las distancias existentes entre similitud de marcas. Por ejemplo, la B y la D son las marcas mas distanciadas tal y como se puede comprobar en la tabla de doble entrada anterior, ya que tienen un valor igual a 6. En el gráfico anterior, estaríamos observando una única dimensión al estar las marcas dispuestas horizontalmente. Si quisiéramos utilizar dos dimensiones, podríamos incluso mejorar el nivel de percepción: Dimensión 2 A B Dimensión 1 C D Resumiendo: Determinació n de Atributos y Objetos

Encuesta con escala nominal (dicotómicas), es decir, mutuamente excluyentes Definición y objetivo del AFC.

Mapa de posicionamiento. Colocar atributos gráficamente.

El análisis factorial de correspondencias (AFC) es una técnica de interdependencia descriptiva que representa gráficamente mediante filas

y columnas una tabla de contingencia, basándose en la descomposición de la Chi-cuadrado. Otra definición: Es una representación gráfica y podemos ver esa representación gráfica entre objetos y atributos de una forma muy sencilla. La Chi-cuadrado (X2) es una medida estandarizada de las frecuencias observadas de cada celda con las frecuencias esperadas de celdas. Los valores de la X2 pueden convertirse en medidas de similitud. El objetivo principal del AFC es identificar afinidades entre categorías de filas y columnas presentadas en forma de tabla, tanto de frecuencias como de valores medios. Las ventajas principales del AFC son: 1. su capacidad para representar relaciones entre categorías de datos nominales con filas y columnas en un mismo espacio. 2. El AFC difiere de otras técnicas de interdependencia en su capacidad para utilizar tanto datos no métricos como relaciones no lineales. Conceptos básicos del AFC. A partir de la tabla de contingencia, se calcula una matriz de covarianzas de las variables columna, que luego se factoriza aplicando el Análisis de Componentes Principales. Las raíces y los vectores característicos que se obtienen permiten calcular las coordenadas de las variables filas y columnas. La correlación de cada variable con cada uno de los ejes factoriales obtenidos depende del valor de la coordenada respecto del eje considerado y las restantes coordenadas con los demás ejes. La medida de la asociación entre variables filas y columnas viene dada por la inercia (concepto del DYANE)(variación explicada del modelo) total. La inercia es el resultado de dividir el valor de la X2 de la tabla por la suma total de frecuencias. Cada factor obtenido contribuye a la inercia en forma decreciente, de modo que el primer factor es el que mayor inercia explica, luego el segundo, y así sucesivamente. Dentro de cada eje o factor, la contribución a la inercia de cada variable está en función de los valores de su coordenada y de la frecuencia total de la variable columna o fila correspondiente. Si dos filas (columnas) tienen perfiles próximos, es decir, los porcentajes de las filas (columnas) de ambas son parecidos, aparecerán próximos sobre el grafico. Si aparecen alejados tienen perfiles diferentes.

Supuestos del AFC. El uso del AFC tiene una relativa libertad respecto a sus supuestos básicos. Se pueden utilizar tanto datos no métricos como relaciones no lineales. Los supuestos del AFC se centran principalmente en la comparabilidad y representatividad de los objetos que están siendo evaluados y de los encuestados. El proceso de muestreo es clave (a la hora de seleccionar los objetos más representativos) cuando se aplica en el mundo real. En el ejemplo de las marcas, tenemos siempre que seleccionar las más representativas.

Diseño del AFC.  Determinación del objetivo del estudio.  Comprobación de los supuestos del AFC.  Creación de una tabulación cruzada de entradas no negativas.  Cálculo de la X2  Identificación del número apropiado de dimensiones. El número máximo de dimensiones es igual al número más pequeño de filas o columnas menos uno. Por ejemplo, si una variable dispone de cinco categorías y la otra de cuatro, el número máximo de dimensiones es tres.  

Creación del mapa perceptual. (Con dos ejes para realizar el posicionamiento) Interpretación y validación.

Método de validación: Los investigadores deben evaluar la sensibilidad de los resultados. ¿Como? Con la adición o sustracción por ejemplo de un objeto, podemos saber si el análisis es dependiente de ese objeto en concreto y no de la relación de este con los demás. Si los datos cambian drásticamente, quiere decir que evidentemente que no hemos elegido los objetos correctamente.

Casos prácticos con DYANE. ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC1

Para este ejercicio, se ha utilizado el fichero COMPORT.DYT, fichero de ejemplo del DYANE v2.0. Una vez abierto este fichero en DYANE, obtenemos el análisis factorial por correspondencias (AFC)

Elegimos la opción TABLA DE FRECUENCIAS:

Después seleccionamos las variables fila y columna. Las variables fila tienen que seguir una ESCALA NOMINAL. En este caso las variables son DICOTÓNMICAS (SI o NO). Las variables columna, han de seguir una ESCALA CATEGÓRICA. El número de EJES (DIMENSIONES) difiere de la definición dada por el profesor. Esto es debido a que DYANE tiene en cuenta otros factores para calcular dichos EJES. Por lo tanto, lo calculado en DYANE también es válido.

En este caso, elegimos como variables fila TARJETA, AUTOMOV y VIVIENDA. Como variables columna, elegimos CLASSOC.

TABLA DE FRECUENCIAS:

1 2 3 4 5 6

TARJETA -Sí TARJETA -No AUTOMOV -Sí AUTOMOV -No VIVIENDA-Sí VIVIENDA-No

INERCIA TOTAL:

CLASSOC ----------------------------------Alta/me Med Me dia alta ia media dia baja Baja -------- -------- -------- -------87 110 54 2 74 198 384 91 94 135 135 17 67 173 303 76 112 183 219 31 49 125 219 62

0.083073

JI-CUADRADO:

249.2178

Valores de la

Inercia y la Chi-Cuadrado EJE 1

EJE 2

Dimensiones o ejes

EJE 3

obtenidos -------- -------- -------0.0818 0.0012 0.0000

VALORES PROPIOS: CONTRIBUCION A LA INERCIA:

98.5171

1.4241

0.0588

AUTOVALORES

Los ejes 1 y 2 son los

más representativos. El eje 3 es ignorable. VECTORES PROPIOS:

1.6915 0.5720 -0.6902 -1.5723

-0.1901 -0.3584 0.8711 -2.5867

-1.5211 1.3383 -0.2189 -0.7678

AUTOVECTORES

Resumiendo: Los ejes 1 y 2 representan el 99,5% de la información. En este caso, se puede despreciar la información proporcionada por el eje 3, siempre que no se necesite verdaderamente esta información para el estudio que queramos elaborar. ESTUDIO DE LAS COLUMNAS -----------------------

(% de inercia explicada para cada eje) E J E

3

1

----------------------

----------------------

E J E

2

----------------------

E J E

COOR-

CORRE-

% INER.

COOR-

CORRE-

% INER.

COOR-

CORRE-

DENADA

LACION

EXPLIC.

DENADA

LACION

EXPLIC.

DENADA

LACION

------

------

------

------

------

------

------

------

0.484

0.999

46.07

-0.007

0.000

0.58

-0.011

0.000

0.164

0.991

10.08

-0.012

0.006

3.96

0.009

0.003

-0.197

0.977

20.86

0.030

0.023

33.24

-0.002

0.000

-0.450

0.962

22.99

-0.089

0.038

62.23

-0.005

0.000

% INER. EXPLIC. -----1. Alta/media alta 37.25 2. Media media 55.17 3. Media baja 2.10 4. Baja 5.48 ESTUDIO DE LAS FILAS --------------------

E J E

3

EXPLIC. -----1. TARJETA -Sí 6.23 2. TARJETA -No 2.11 3. AUTOMOV -Sí 43.40 4. AUTOMOV -No 26.71 5. VIVIENDA-Sí 9.80 6. VIVIENDA-No 11.74

E J E

----------------------

---------------------% INER.

1

2

E J E

----------------------

COOR-

CORRE-

% INER.

COOR-

CORRE-

% INER.

COOR-

CORRE-

DENADA

LACION

EXPLIC.

DENADA

LACION

EXPLIC.

DENADA

LACION

------

------

------

------

------

------

------

------

0.671

0.993

46.35

-0.056

0.007

22.11

0.006

0.000

-0.227

0.993

15.70

0.019

0.007

7.49

-0.002

0.000

0.305

0.994

14.47

0.019

0.004

4.03

-0.013

0.002

-0.188

0.994

8.90

-0.012

0.004

2.48

0.008

0.002

0.173

0.940

6.64

0.044

0.059

29.07

0.005

0.001

-0.207

0.940

7.95

-0.052

0.059

34.82

-0.006

0.001

(Codificación o etiquetación de las variables para su representación grafica) REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado ------ ---------------A Alta/media alta B Media media C Media baja D Baja

VARIABLES FILA: Código Significado ------ ---------------1 TARJETA -Sí 2 TARJETA -No 3 AUTOMOV -Sí 4 AUTOMOV -No 5 VIVIENDA-Sí 6 VIVIENDA-No

EJES 1 y 2: Únicamente se miran los resultados de éstos 2 ejes ya que la información proporcionada por el eje 3 es ignorable. En este gráfico, medimos la similutud que puedan tener las variables aplicando un criterio

subjetivo, dado que somos nosotros los que tenemos elegir dicha simulitud, observando las variables directamente del gráfico. No tenemos que olvidar que la técnica del AFC mide el posicionamiento de las variables. EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 5 | | 2 C | 3 | --------------------------------------4------------+-----------B---------------------A---------EJE 1 | | | | 6 | 1 | | D | | | La var. D está relacionada con la 6 | | | | | | | | | | | | | | | | | | | | | | | | | | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————•

ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC2

Este ejercicio se ha realizado utilizando el fichero ACTI_TEMP.DYT del DYANE v2.0. Escogemos la opción de Tabla de Valores Medios del Análisis Factorial por correspondencias en DYANE:

Escogemos 10 variables fila y 1 variable columna. Las variables fila siguen una escala de Likert. El número de ejes o dimensiones es 3.

TABLA DE VALORES MEDIOS: PROMOC_A ----------------------------------Tercera Cuarta Quinta Sexta (81/82) (82/83) (83/84) (84/85) -------- -------- -------- --------

1 2 3 4 5 6 7 8 9 10

LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

INERCIA TOTAL:

2.38 3.62 2.66 1.45 2.21 2.10 2.90 2.14 4.31 2.76

2.77 3.40 2.67 1.53 3.27 1.83 2.57 2.00 4.47 2.23

2.78 3.39 2.68 1.56 2.76 1.73 3.37 2.27 4.20 2.07

0.007384

3.18 3.34 2.37 1.68 3.19 1.76 2.63 2.05 4.21 2.02

JI-CUADRADO:

0.7862

EJE 1 EJE 2 EJE 3 -------- -------- -------0.0052 0.0017 0.0004

VALORES PROPIOS: CONTRIBUCION A LA INERCIA:

70.4465

23.6515

5.9020

0.5292 0.9535 -1.6594 0.1877

0.4711 -1.3292 -0.4635 1.3423

Se puede despreciar la

información del tercer eje VECTORES PROPIOS:

1.5854 -0.5541 0.0608 -1.0923

ESTUDIO DE LAS COLUMNAS ----------------------3

E J E

1

E J E

----------------------

----------------------

2

E J E

----------------------

COOR-

CORRE-

% INER.

COOR-

CORRE-

% INER.

COOR-

CORRE-

DENADA

LACION

EXPLIC.

DENADA

LACION

EXPLIC.

DENADA

LACION

------

------

------

------

------

------

------

------

0.114

0.957

62.59

0.022

0.036

6.97

0.010

0.007

-0.040

0.404

7.71

0.040

0.402

22.83

-0.028

0.195

0.004

0.004

0.09

-0.069

0.977

69.32

-0.010

0.019

-0.079

0.880

29.60

0.008

0.009

0.87

0.028

0.111

% INER. EXPLIC. -----1. Tercera (81/82) 5.53 2. Cuarta (82/83) 44.36 3. Quinta (83/84) 5.41 4. Sexta (84/85) 44.71 ESTUDIO DE LAS FILAS --------------------

E J E

3

1

E J E

EXPLIC. -----1. LIBERAL 34.25 2. ECSOLMER 1.47 3. SOCIALIS 26.09 4. COMUNISM 10.30 5. EMPR_CRE 16.17 6. EMPR_EXP 3.61 7. BEN_OBJ1 1.14 8. BENSOLAC 0.57 9. BAL_SOCI 5.01

E J E

----------------------

----------------------

COOR-

CORRE-

% INER.

COOR-

CORRE-

% INER.

COOR-

CORRE-

DENADA

LACION

EXPLIC.

DENADA

LACION

EXPLIC.

DENADA

LACION

------

------

------

------

------

------

------

------

-0.096

0.855

18.35

-0.011

0.011

0.70

0.038

0.134

0.030

0.833

2.27

0.012

0.121

0.98

0.007

0.045

0.029

0.419

1.62

-0.006

0.016

0.18

-0.034

0.565

-0.047

0.726

2.46

-0.008

0.019

0.19

0.028

0.255

-0.143

0.936

42.09

0.027

0.033

4.48

-0.026

0.030

0.068

0.692

6.17

0.043

0.275

7.30

0.015

0.034

0.044

0.169

3.99

-0.097

0.827

58.03

-0.007

0.004

0.022

0.218

0.71

-0.040

0.768

7.41

0.006

0.015

0.001

0.001

0.00

0.021

0.772

4.25

-0.012

0.227

---------------------% INER.

2

10. MARK_NEC 1.39

0.117

0.798

22.34

REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado ------ ---------------A Tercera (81/82) B Cuarta (82/83) C Quinta (83/84) D Sexta (84/85)

VARIABLES FILA: Código Significado ------ ---------------1 LIBERAL 2 ECSOLMER 3 SOCIALIS 4 COMUNISM 5 EMPR_CRE 6 EMPR_EXP 7 BEN_OBJ1 8 BENSOLAC 9 BAL_SOCI 10 MARK_NEC

0.058

0.198

16.47

0.008

0.004

EJES 1 y 2: EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | | | | | | | | | | | | | | 10 | | | | | B | 6 | | | | | 5 9 A | | | | | D | 2 | --------------------------------------------------+--------------------------------------------EJE 1 | 1 4 | 3 | | | | | | | | | | | | 8 | | | | | | | | | | | |C | | | | | | | | | 7 | | | | | | | | | | | | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————•

ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC3

Utilizamos el fichero ACTI_EMP.DYT con el fichero AFC1.TBL, ambos vienen con DYANE v2. En este ejercicio, elegimos TABLA ESPECÍFICA (“AD HOC”).

En entrada de datos, elegimos la tabla AFC1.TBL, que está definida previamente.

TABLA:

1 2 3 4 5

Hidratan Natural Dermopro No deter Pielsuav

Ideal HPravia Sanex Tacto -------- -------- -------- -------9.00 3.00 4.00 6.00 9.00 3.00 4.00 5.00 9.00 2.00 6.00 5.00 9.00 5.00 5.00 5.00 9.00 5.00 5.00 6.00

6 7 8

Recambio Olor agr Económic

INERCIA TOTAL:

6.00 8.00 7.00

3.00 5.00 2.00

1.00 2.00 1.00

0.055297

2.00 5.00 1.00

JI-CUADRADO: EJE 1 EJE 2 -------- -------0.0351 0.0157

VALORES PROPIOS: CONTRIBUCION A LA INERCIA:

63.4315

28.4557

0.5563 1.2074 -1.6970 -0.6573

-0.9980 1.3685 -0.2915 1.0204

8.6817

Escogemos las dos

dimensiones VECTORES PROPIOS:

ESTUDIO DE LAS COLUMNAS -----------------------

1. 2. 3. 4.

Ideal HPravia Sanex Tacto

ESTUDIO DE LAS FILAS --------------------

1. 2. 3. 4. 5. 6. 7. 8.

Hidratan Natural Dermopro No deter Pielsuav Recambio Olor agr Económic

E J E 1 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ -----0.104 0.404 13.01 0.226 0.592 26.00 -0.318 0.921 51.36 -0.123 0.374 9.63

E J E 2 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ ------0.125 0.584 41.87 0.172 0.341 33.40 -0.037 0.012 1.52 0.128 0.404 23.21

E J E 1 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ ------0.096 0.427 3.65 -0.069 0.522 1.81 -0.275 0.811 30.18 -0.030 0.058 0.40 -0.055 0.201 1.39 0.329 0.996 23.59 0.190 0.537 13.16 0.359 0.557 25.81

E J E 2 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ -----0.004 0.001 0.01 -0.045 0.221 1.71 -0.131 0.185 15.39 0.063 0.247 3.82 0.101 0.669 10.32 -0.011 0.001 0.06 0.169 0.423 23.08 -0.320 0.441 45.60

REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado ------ ---------------A Ideal B HPravia C Sanex D Tacto VARIABLES FILA: Código Significado ------ ---------------1 Hidratan 2 Natural 3 Dermopro 4 No deter 5 Pielsuav 6 Recambio 7 Olor agr 8 Económic

EJES 1 y 2: EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | 7 B | | | | | | | | D | | | | | | 5 | | | | | | 4 | | | | | | | | | | | ---------------------------------------1----------+--------------------------------------------EJE 1 | | 6 | | C | | | 2 | | | | | | | | | | | | | | | 3 | A | | | | | | | | | | | | | | | | | | | | | | | | 8 | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————•

Ejercicio 3 1. Explica dos ventajes principales del uso del AFC. 2. Menciona una de las precauciones que hay que tener en el uso del AFC. 3. Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia. 4. ¿Cómo se puede determinar el número máximo de dimensiones en el AFC? 5. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito, automóvil, y vivienda. La clase social se clasificó en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesión de cada atributo (es decir, de tarjeta de crédito, automóvil o vivienda), se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica.

6. Interpreta lo que indica la siguiente Representación gráfica.

1. Explica dos ventajes principales del uso del AFC. 2. Menciona una de las precauciones que hay que tener en el uso del AFC. 3. Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia. 4. ¿Cómo se puede determinar el número máximo de dimensiones en el AFC? 5. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito, automóvil, y vivienda. La clase social se clasificó en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesión de cada atributo (es decir, de tarjeta de crédito, automóvil o vivienda), se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica.

El eje 1 explica el 98% de la inercia, casi su totalidad. Prescindimos del tercero porque aporta poco a la inercia. De las categorías, la clase media/alta explica mayor Representa de la inercia (46,07%).

6. Interpreta lo que indica la siguiente Representación gráfica.

A la hora de interpretar u n mapa de posicionamiento debemos tener en cuenta si los datos están en la parte positiva o negativa, no tiene importancia. En lo que hay que fijarse es en la distancia entre los datos y agrupar los objetos que estén más cerca. Los atributos explican las características de esas agrupaciones. -

Si están próximos los perfiles son similares. Si están alejados, los perfiles son distintos. Si su valor es la media, se proyectará sobre el eje de ordenadas Si está alejado el origen, su comportamiento será distinto del resto y su contribución a la inercia será mayor.

Hay que justificar las interpretaciones, ese es el peligro que tenemos al usar técnicas interdependientes. En el gráfico podemos ver 4 grupos. Se comprueba la asociación de los atributos observados a los encuestados con las diversas marcas de automóvil. 1. 2. 3. 4.

Polo  Asociación con los atributos más cercanos. Ibiza y Clío Punto, Saxo y Corsa. Fiesta y P106  no puedo captar suficientes atributos para describirlos.

En concreto, este mapa no es muy fiable, no nos podemos fiar de los resultados de este estudio ya que el atributo amplitud está muy cercano al corsa, punto y saxo, que son coches pequeños. Por lo que el cliente no estaría de acuerdo con los resultados.

TEMA 4: EL ANALISIS CLUSTER

Estructura de la clase: 1. Introducción. 2. Definición y objetivo del AC. 3. Conceptos básicos del AC. 4. Supuestos del AC. 5. Diseño del AC. 6. Casos prácticos con DYANE. Introducción. En estadística, la búsqueda de objetos relativamente homogéneos se denomina “análisis cluster” (Conglomerados o grupos. Tienen que ser homogéneos internamente y heterogéneos entre los grupos). Las aplicaciones del análisis cluster al marketing son múltiples. Por ejemplo, se utiliza mucho en el campo de la segmentación. El origen de esta técnica multivariante se encuentra en la biología y la botánica. Los investigadores de estas áreas de conocimiento tenían que agrupar las distintas especies de animales y vegetales en familias que fueran lo más homogéneas posibles. Por ello, a esta técnica también se la denomina construcción de tipología, taxonomía numérica o análisis de clasificación. Ejemplo ilustrativo: Imaginemos que hemos realizado una serie de encuestas para saber una/s característica/s de consumidores de grandes superficies más representativas en la CCAA de Madrid. Al representar gráficamente los datos obtenidos, lo haremos sobre dos ejes donde cada eje tenga sus medidas estandarizadas.

Básicamente consiste en agrupar, en este caso, los consumidores en grupos homogéneos entre sí y para formar los grupos o clústers , y para ello vamos encontrando las distancia mínima entre los puntos o consumidores.

Definición y objetivo del AC. El análisis cluster se puede definir como una serie de técnicas estadísticas (grupo de técnicas) que sirven para determinar grupos internamente homogéneos (heterogéneos), pero distintos entre sí. El objetivo principal del AC es la obtención de grupos internamente homogéneos y distintos entre sí basándose en su similitud para un conjunto de características especificadas. A cada uno de estos grupos se le denomina “conglomerado” o “cluster”. Con estos grupos homogéneos, podemos conseguir los siguientes objetivos específicos: (1) Simplificación de los datos e identificación de las relaciones entre los conglomerados o clusters. (2) Confirmación de una taxonomía o tipología propuesta. El AC funciona mejor cuando tenemos una teoría específica. Por ejemplo: consumidores divididos en cinco grupos. Y se hace así por estudios previos. Conceptos básicos del AC. El análisis cluster es la única técnica multivariante que no estima el valor teórico empíricamente sino que utiliza el valor teórico especificado por el investigador. MUY IMPORTANTE: Somos nosotros los que estimamos el valor teórico. Se debe incluir sólo aquellas variables que caracterizan los objetos que se están agrupando y que son coherentes con el objetivo del estudio. Dicha coherencia debe basarse en una teoría explícita, investigación previa o suposición propia. Para formar los conglomerados o clusters homogéneos hay que seguir tres pasos: (1)determinación del método de medición de la similitud entre los objetos. (Medir la distancia entre dos puntos) (2)determinación del método de conglomeración jerárquica o no jerárquica. (Conglomeración significa agrupación) (3)determinación del número de conglomerados o clusters en la solución final. Supuestos del AC. Las variables a utilizar en el AC son métricas. Los supuestos generales (linealidad, normalidad y homocedasticidad) tienen en general poco peso en el AC. No obstante, hay dos supuestos específicos que sí son importantes:

a) La representatividad de los datos: La bondad del AC depende mucho de la representatividad de la muestra, y es muy sensible a los casos atípicos. b) El nivel de multicolinealidad: La multicolinealidad es (una medida por la cual una variable puede ser explicada por otras variables. El nivel de multicolinealidad implica ver el nivel de independencia entre las variables. ). Cuanto mayor es la multicolinealidad del análisis, más difícil es interpretar los resultados del análisis, porque es más difícil saber cuál es el efecto de una variable aislada debido a las interrelaciones entre las variables. Hay dos métodos para evaluar el nivel de multicolinealidad: (1)VIF (factor de inflación de la varianza). (2)Tolerancia. Estos dos índices se verán mejor en el modelo de regresión lineal múltiple.

Diseños del AC. Para diseñar un AC hay que seguir los siguientes pasos:  Determinar objetivos del AC. (Revisión bibliográfica)  Seleccionar las variables y asegurar su representatividad.  Examinar los supuestos.  Detectar los atípicos.  Examinar el nivel de multicolinealidad.  Determinar el método de medición de distancia o similitud.  Determinar el procedimiento de obtención de conglomerados o clusters.  Determinar el número de conglomerados o clusters.  Interpretación y validación de los resultados.



Determinar objetivos del AC: Qué queremos averiguar de esta técnica.

 Selección de variables relevantes (representativas): Existen fundamentalmente tres métodos de selección de variables: inductivo, deductivo y cognitivo. En el método inductivo (intuitivo), ni las variables ni el número de grupos tienen un nexo con una teoría. Se utiliza más en estudios exploratorios. En el método deductivo, la selección de variables se apoya en la literatura teórica existente. La consistencia interna de los grupos resultantes es mayor ya que no se incluyen variables irrelevantes. En el método cognitivo se utilizan las predicciones de determinados expertos de la industria para definir las variables. Utilización de los factores. Se pueden utilizar los factores del ACP.

 Examinar los supuestos:  Detectar los atípicos  Nivel de multicolinealidad.  Determinar el método de medición de similitud:

El concepto fundamental del análisis cluster es “la similitud”. Los casos pueden ser agrupados conforme a la similitud o distancia entre objetos. Existen varias medidas de distancia. La más utilizada es la distancia Euclídea. La distancia Euclídea entre los puntos es la longitud de la hipotenusa de un triángulo, calculada por la fórmula:

Distancia

= ( x 2 −x1 ) 2 + ( y 2 −y1 ) 2

La distancia Euclídea al cuadrado tiene la ventaja de no tener que tomar la raíz cuadrada lo que acelera notablemente los cálculos, y es la medida de distancia recomendada para los métodos de análisis cluster del centroide y Ward. * Distancia de Mahalanobis

 Determinar el conglomerados:

procedimiento

de

obtención

de

Se trata de cómo elegir formas de combinar los objetos. Globalmente, hay dos procedimientos: 1) Procedimientos jerárquicos: Consisten en la construcción de una estructura en forma de árbol. 2) Procedimientos no jerárquicos (Análisis Cluster K-means): Asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado, basándose en la búsqueda de la mejor solución. 1º ver las distancias y después incluir los puntos de esa distancia. Es un procedimiento matemático. IMPORTANTE: En DYANE sólo está el (1). En SPSS están el (1) y el (2). Dentro del procedimiento jerárquico, existen varios agrupación:

métodos

de

1) Método aglomerativo o modelo ascendente (por ejemplo, Algoritmo de Johnson): Cada objeto empieza dentro de conglomerado. Los objetos más cercanos se combinan en conglomerados agregados reduciendo así el número de conglomerados. Está implementado así en DYANE.

2) Método divisivo o modelo descendente (por ejemplo, Algoritmo de Howard-Harris): Empezamos con un gran conglomerado que contiene todas las observaciones con los objetos. En pasos sucesivos, los objetos se van dividiendo donde después se constituyen conglomerados más pequeños hasta quedar los conglomerados básicos, diferenciados entre sí.

Dentro del método aglomerativo o modelo ascendente, hay varios métodos de encadenamiento. Los métodos más importantes son los tres primeros. 1) Encadenamiento simple: Se basa en la distancia mínima entre los dos casos. 2) Encadenamiento completo: Se basa en la distancia máxima entre los dos casos. Entre todas las distancias máximas existentes. 3) Encadenamiento promedio: Se basa en la distancia media de todos los casos.

4) Encadenamiento de Ward: Calcula la media de todas las variables de cada cluster, y luego calcula la distancia euclídea al cuadrado entre cada indiviuo y la media de su grupo, etc. 5) Encadenamiento del centroide: Distancia entre los centroides de los conglomerados.

 Determinar el número de conglomerados: El resultado de la agrupación se suele resumir en una matriz de distancias. En la matriz de distancias, podemos decidir cuantos clusters se necesitan comparando las distancias entre los casos. Otra forma de visualizar la representación de los pasos en un análisis jerárquico es el dendrograma. El dendrograma muestra el cluster que es combinado y los valores de los coeficientes en cada caso. El dendrograma se lee de izquierda a derecha. Existen tres criterios que pueden ayudar al investigador a tomar una decisión relativa al número óptimo de grupos a formar: (1) Dendograma.

(2) Matemáticamente determinar el número de conglomerados.

(3) Base teórica. Revisar estudios previos. Con esta base teórica (estadística de fuentes secundarias) podemos dividir las observaciones para obtener un determinado número de clusters.

 Interpretación y validación de los resultados: La validación del AC, de la misma manera que en el ACP, se puede realizar escindiendo la muestra en dos grupos. Cada conglomerado se analiza por separado y se comparan después los resultados. También, Hair et al. (1998) explica que "la aproximación más directa es realizar el AC para muestras distintas. Esta aproximación, sin embargo, a menudo no es práctica debido a las restricciones de tiempo o de costes o a la no disponibilidad de objetos..." (pp. 517).

Casos prácticos con DYANE.

Ejercicio 4 1. 2. 3. 4. 5.

Explica dos ventajas principales del uso del AC. ¿Cuáles son los pasos básicos en la obtención de clusters? Define y relaciona los siguientes términos: la similitud y la distancia Euclídea. Explica cómo elegir formas de combinar los objetos. Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro.

Matriz de distancias euclídeas A B A

0

B

1

0

20

14

12

11

7

18

C D E

C

D

E

0 5 25

0 23

0

1. Explica dos ventajas principales del uso del AC. 1) Simplificar los datos e identificar las relaciones entre los conglomerados o clusters 2) Confirmar una taxonomía o tipología propuesta El Análisis Cluster funciona mucho mejor cuando tenemos una base teórica. Tengo una taxonomía clasificable, como por ejemplo una taxonomía en la que se puedan dividir en grupos del tipo “Alumnos que no han entregado el trabajo de ITM”, “Alumnos que han entregado el trabajo la semana pasada”, “Alumnos que han entregado el trabajo la última semana”

2. ¿Cuáles son los pasos básicos en la obtención de clusters? Por definición el AC es un conjunto de técnicas de clasificación de objetos y no una sola. Por eso nos centramos en tres pasos. 1º.- Nos centramos en la determinación del método de medición de la similitud entre los objetos. Aquí nos hemos marcado la distancia euclídea como indicador 2º.- Determinación del método de Conglomeración Jerárquica o No Jerárquica (el No Jerárquico no lo estudiaremos este año). El procedimiento ideal del AC es utilizar el método Jerárquico y obtener los resultados, y luego validar estos resultados con el método No Jerárquico. 3º.- Determinar el nº de conglomerados o clusters en la solución final. ¿Cómo? Hay 3 métodos para determinar el nº de clusters: a) En los métodos Jerárquicos, el criterio más usado es la observación del dendograma. b) Podemos utilizar medidas matemáticas. Calcular matemáticamente el nº de conglomerados, pero esto no lo hemos visto. c) Recomendado: La existencia de una teoría previa. Podemos proponer un modelo mediante estudios previos o datos estadísticos de la industria o los artículos de expertos del área. Con esto proponemos la base teórica.

3. Define y relaciona los siguientes términos: la similitud y la distancia Euclídea.

Son conceptos principales del Análisis Cluster.

Distancia=Similitud

Para medirlo se utiliza la distancia euclídea: Distancia = Básicamente hablamos de objetos para clasifica y agrupar un conglomerado. Tenemos que medir la distancia, y esta distancia es sinónimo de similitud,. Para medir la distancia matemáticamente usamos el concepto de distancia euclídea. La similitud es un concepto fundamental del análisis cluster, en base a los cual pueden ser agrupados. Esencialmente, la similitud es sinónimo de distancia entre objetos. La más utilizada es la distancia Euclídea. La Distancia Euclídea entre dos puntos es la longitud de la hipotenusa de un triangulo, y se calcula así: Distancia =

( X 2 − X 1) 2 +(Y 2 −Y 1) 2

4. Explica cómo elegir formas de combinar los objetos. Globalmente, hay dos procedimientos del análisis cluster: Procedimientos jerárquicos y Procedimientos No jerárquicos: Dentro del jerárquico, existen varios métodos de agrupación: 1) Método aglomerativo o modelo ascendente (Algoritmo de Johnson en Dyane). En este método, cada objeto o observación empieza dentro de su propio conglomerado. En etapas ulteriores los dos conglomerados más cercanos se combinan en un nuevo conglomerado agregado, reduciendo así el número de conglomerados paso a paso 2) Método divisivo o modelo ascendente (Algoritmo de Howard-Harris en Dyane) Empezamos con un gran conglomerado que contiene todas las observaciones y en los pasos sucesivos las observaciones que son mas diferentes se dividen y se construyen conglomerados más pequeños. Etc. …. (Esto esta en el esquema del tema 4)

5. Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro. Matriz de distancias euclídeas

A 0 1 20 12 7

A B C D E

B

C

D

E

0 14 11 18

0 5 25

0 23

0

1) Primeramente hay que identificar entre que variables la distancia es mínima: En este ejemplo, la distancia mínima se da entre A y B. Por ello, se agruparían estos dos casos. 2) Después de agrupar los dos casos, hay que formar una nueva matriz de combinaciones como la siguiente:

AB C D E

AB 0 ? ? ?

C

D

E

0 5 25

0 23

0

3) Ahora hay que calcular las distancias mínimas con la nueva matriz de combinaciones mediante el encadenamiento completo: D(AB)C = Max (dA – C, dB-C) = Max (20, 14) = 20 D(AB)D = Max (dA – D, dB-D) = Max (12, 11) = 20 D(AB)E = Max (dA – E, dB-E) = Max (7, 18) = 18 4) La nueva matriz de distancias es AB C D E

AB 0 20 12 18

C

D

E

0 5 25

0 23

0

Ahora repetimos el proceso con esta nueva tabla. La distancia mínima se da ente C y D. Por ello, se agrupan estos dos casos. AB

CD

E

AB CD E

0 ? 18

0 ?

0

D(AB)(CD) = Max (dAB-C, dAB-D) = Max (20, 12) = 20 D(CD)E = Max (dC-E, dD-E) = Max (25, 23) = 25 (Siempre hay que calcular las distancias para agrupar los casos. Y esto siempre mirando la matriz anterior) 7) La nueva matriz de distancias es: AB CD E

AB 0 20 18

CD

E

0 25

0

La distancia mínima se da entre AB y E, que es 18. La matriz final es: ABE CD ABE 0 CD 25 0 Nota: El encadenamiento simple es igual pero con las distancias mínimas en lugar de las distancias máximos Gráfico Dendograma

18

20

5 1

TEMA 5: LA REGRESIÓN MULTIPLE

Estructura de la clase: 1. Introducción. 2. Definición y objetivo. 3. Términos y conceptos básicos de la RM. 4. Supuestos de la RM. 5. Tamaño muestral. 6. Diseño de la RM. 7. Casos prácticos con DYANE y SPSS. Introducción. 1.1 Introducción General Cuando queremos predecir una variable dependiente en función de unas variables independientes: Y = Variable dependiente

X1 + X2 +…+ Xn Variables independientes

1. Cuando tenemos variables dependientes METRICAS, y variables independientes METRICAS, tenemos que utilizar Regresión Múltiple. Tenemos solamente UNA variable dependiente métrica y varias independientes METRICAS. 2. Cuando tenemos una variable dependiente NO METRICA, y variables independientes METRICAS, usaremos el Análisis Discriminante. 3. Cuando tenemos VARIAS variables dependientes METRICAS, y tenemos una serie de variables independientes NO METRICAS, aquí usaremos MANOVA. Regresión Logística se usa cuando tenemos una variable dependiente nominal. Para Análisis Discriminante podemos utilizar una variable categórica, no tiene que ser dicotómica. En la regresión logística se usa cuando la variable categórica es nominal, es decir dicotómica, con dos valores, por ejemplo SI o NO.

1.2 Introducción Regresion Multiple

Es básicamente una técnica de predicción. 1. Hasta ahora hemos estudiado la predicción sin variables independientes, como son la utilización de la media y la técnica ANOVA para la comparación de medias. 2. También hemos hecho predicción con una única variable independiente. En este caso estamos utilizando la técnica de Regresión Simple, que tiene una variable independiente y una variable dependiente. Es una regresión lineal para predecir la tendencia de una población. Un concepto importante en la regresión simple es la distancia entre el valor y la predicción. A esto se le llama Error de Predicción. La Regresión Múltiple es la continuación de la Regresión Simple, por eso usaremos los mismos conceptos.

Error de Predicción

En la Regresión Múltiple, tenemos que minimizar los errores de predicción.

Definición y objetivo de la RM. ¿Qué es la Regresión Múltiple? Usar las variables independientes cuyos valores son conocidos para predecir la única variable criterio seleccionada por el investigador Y Variable Métrica Dependiente

= X1 + X2 +…+ Xn Variables Métricas Independientes

La RM es una técnica estadística que puede utilizarse para analizar la relación entre una única variable dependiente y varias variables independientes. Objetivos: (1) Maximizar la potencia conjunta de predicción de las variables independientes. (2) Explicar la relación entre las variables dependientes e independientes al formar el valor teórico.

Términos y conceptos básicos de la RM. Vamos a estudiar los términos y conceptos básicos de la RM con un ejemplo. Supongamos que queremos predecir el porcentaje de paro sobre la población (que es la variable dependiente Y), a partir del porcentaje de variación de la población en el período 1991-98, el nivel económico, y la cuota de mercado de la provincia (que son las variables independientes X1 X2 y X3 , respectivamente. Coeficiente de Regresión Beta β

Variable Dependiente Variable Independiente

Coeficiente de Correlación Múltiple R

Coeficiente de determinación: 0.4219 Coeficiente de correlación múltiple: 0.6495 Coeficiente de regresión alfa: 6.4077

VARIABLE

MEDIA

DESVIACIÓN ESTÁNDAR

COEFICIENTE REGRESIÓN

ERROR ESTÁNDAR

T DE STUDENT

COEFIC. CORREL. PARCIAL

SUMA DE CUADRADOS AÑADIDA

PROPORC. VARIANZA AÑADIDA

-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- -------% Paro (Y) 3.9000 1.1071 NivelEco (X1)

5.1800

CuotaMer ( X2) 1993.9200 %VarPobl ( X3)

1.8300

1.4098 2365.4349 4.2977

-0.5167 0.0001 -0.0200

0.0900

-5.7435

-0.6462

22.9909

0.3752

0.0001

p=0.0000 1.8958

0.2692

2.5026

0.0408

0.0294

p=0.0643 -0.6823

-0.1001

0.3585

0.0059

p=0.4985 -------------------- -------25.8521 0.4219 ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS ---------------------- --------------- --------------------- --------------------Debida a la regresión: 3 25.8521 Residuo: 46 35.4279 ------------------------Varianza total: 49 61.2800

MEDIA CUADRADOS 8.6174 0.7

F de Snedecor con 3 y 46 grados de libertad = 11.1889 (p= 0.0000)

El coeficiente de determinación y el coeficiente de correlación múltiple son coeficientes muy importantes para valorar el Análisis de Regresión Múltiple Mediante el valor de t de Student podemos rechazar o aceptar las variables independientes. Aceptar o rechazar las variables, dependerá del nivel de significación.

Los criterios para establecer el nivel de significación dependen de nuestra base teórica. En nuestro modelo, si queremos aceptar nuestro modelo para un nivel de significación de p = 0.10, tendremos que justificar porque usamos este nivel de significación. Sobre todo en estudios EXPLORATORIOS (No confirmatorios), este nivel de significación es aceptable. La tercera parte de esta tabla habla del Análisis de la varianza. La F de snedecor, trata la hipótesis de que el porcentaje de variación explicada por el modelo es mayor que la explicada por la media. Para realizar esta predicción suponemos que Y se puede expresar como una combinación lineal de las variables independientes X1 X2 y X3 de este tipo: Y = α +β1 X1 +β2 X2 + .... +βn Xn + e [Supongamos que queremos predecir el % de paro sobre la población (Y como variable dependiente). Usaremos variables independientes para predecir esta variable dependiente que hemos seleccionado. Para hacer regresión múltiple sobre el Dyane:

Y nos saldrán los valores de la tabla de arriba.]

 Coeficientes de regresión alpha (α): Es el valor constante que toma la variable dependiente Y si las variables independientes X1 X2 y X3 valiesen cero. Coeficiente de regresión beta (β1, β2,…, βn): Expresa el cambio estimado en la variable dependiente Y debido a un cambio unitario de la variable independiente.



 Error de predicción (Residuo, e): Es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y. 

Error estándar: Es la desviación típica de los errores de predicción.

Importante: El error estándar implica la precisión de la predicción. Un nivel de error estándar más pequeño implica una predicción más segura o correcta. Los dos siguientes índices son quizás los más importantes para la interpretación de los datos.  Coeficiente de correlación múltiple (R): Es el coeficiente de correlación de la regresión múltiple de las variables independientes y la variable dependiente. Varía entre 0 y 1. Se utiliza para la interpretación de los datos. Coeficiente de determinación (R2): Es el coeficiente de correlación múltiple al cuadrado.



Este índice expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión múltiple. Varía entre 0 y 1. Este coeficiente esta influenciado por el número de variables independientes relativas al tamaño muestral. Por ello se ajusta la infracción del coeficiente de determinación y se calcula el Coeficiente de Determinación Ajustado (R2 Ajustado).

 t de Student: El coeficiente de regresión dividido por su error estándar. El valor t mide la significación de la correlación parcial de la variable reflejada en el coeficiente de regresión. La t de Student se utilizó en el primer semestre para ver diferencias significativas entre poblaciones. La parte más importante de la t de Student es que tenemos que utilizar este índice para determinar si una variable independiente debería salir de la ecuación una vez que se ha añadido. Estableceremos un nivel de significación.

En la tabla de ejemplo tenemos el valor de la t de Student, aunque el valor realmente importante es el valor de la p (probabilidad, significación estadística). [Si fijamos un nivel de significación de p = 0.00001 sólo fijaremos una sola variable independiente, aunque nuestro planteamiento inicial es que el % de paro depende de las otras variables también. Así, podemos cambiar nuestro nivel de significación, , para fijar un alfa =0.01, 0.05, 0.1, y poder aceptar más variables independientes. Por eso, para saber que variables rechazar es muy importante mirar estudios anteriores. Por ejemplo nosotros creemos que son los tres factores muy influyentes en el nivel de paro, y nosotros queremos demostrar que las 3 influyen y las queremos incluir en nuestro modelo para hacer la previsión. A pesar de eso, podemos observar los siguientes valores: p = 0.0000  significativo p = 0.4985  no significativo]  F de Snedecor: Se utiliza el análisis de la varianza para contrastar la hipótesis de dependencia lineal entre la variable dependiente y las variables independientes. Es decir, el ratio F se utiliza para contrastar la hipótesis de que la cantidad de variación explicada por el modelo de regresión es más que la variación explicada por la media (Hair et al., pp. 174). Queremos saber si la variación explicada por el modelo es mayor que cero R2>0. Supuestos de la RM. Supuestos generales: Linealidad, Independencia de los residuos. 1. 2. 3. 4.

Normalidad,

Homocedasticidad,

Linealidad. Normalidad. Homocedasticidad: El test M de Box (Hair et al., 67). Independencia de los residuos.

Supuesto específico: Ausencia de la multicolinealidad. Pasos a seguir: 1) Primer paso: examinar la matriz de correlación de las variables independientes para identificar la presencia de una elevada correlación (generalmente de 0,90 o más). El observar la matriz de correlaciones es bastante subjetivo, por eso utilizamos índices objetivos. Para ello utilizaremos dos índices que

explicamos en el siguiente punto: El valor de tolerancia y El test del factor de inflación de la varianza (VIF). 2) Segundo paso: utilizar dos medidas estadísticas para evaluar la colinealidad de múltiples variables. Estas dos medidas son:  El valor de tolerancia: la cantidad de variabilidad de las variables independientes seleccionadas no explicadas por el resto de las variables independientes. Un valor de tolerancia reducido denota una elevada colinealidad.  El test del factor de inflación de la varianza (VIF): es el inverso del valor de tolerancia. Un valor del VIF elevado denota una elevada colinealidad. Nota: el valor de tolerancia por defecto en el SPSS para excluir una variable es 0,0001. Tamaño muestral. El tamaño de la muestra siempre es problemático. No siempre podremos obtener un tamaño muestral grande o deseado. Para la regresión múltiple hay una serie de reglas a seguir, que son las que se explican a continuación: 1) El ratio de observaciones sobre las variables independientes nunca debería caer por debajo de cinco. NumerodeOb servacione s Numerode var iablesdepe ndientes

>5

2) El nivel deseado está entre 15 y 20 observaciones para cada variable independiente. 3) Las muestras muy grandes, de 1.000 observaciones o más, hacen los test de significación estadística demasiado sensibles, indicando que casi cualquier relación es estadísticamente significativa. Diseño de la RM.  Objetivos. Lo primero es establecer el objetivo del estudio, y luego justificar este objetivo.  Tamaño muestral. Tendremos que justificar el tamaño de la muestra.

 Supuestos generales y específicos.  Estimación del modelo.  Interpretación. Podemos examinar los coeficientes Beta y averiguar su importancia relativa en el valor teórico de la regresión múltiple. Dependiendo del programa informático, podremos obtener el coeficiente R2 ajustado o corregido. Esto es porque R2 esta influenciado por tamaño muestral y por el número de variables y número de variables independientes. Entonces cuando comparamos el índice de determinación y el de determinación ajustado y ambos son muy parecidos, significa que estamos construyendo el modelo correcto, nuestro modelo predice los valores correctamente.  Validación. Tenemos dos posibilidades de validación: 1) Podremos obtener otra muestra de la población para evaluar la correspondencia de los resultados obtenidos de las dos muestras. 2) Podemos dividir la muestra en dos submuestras, realizar la regresión múltiple para cada submuestra y comparar los resultados.

Casos prácticos con DYANE y SPSS. DYANE: Especificación confirmatoria. 7.1. Caso práctico 1 con DYANE.

Con la siguiente base de datos de Dyane, hemos realizado el ejemplo que se muestra a continuación.

C:\Documents and Settings\e97554\Escritorio\Rafa\Est_Prov.dyt

Est_Prov.dyt

Desde el Dyane, hemos seleccionado el Análisis de Regresión Múltiple, donde nos saldrá una ventana como ésta.

Pulsaremos el botón “Calcular”, y nos saldrán los resultados como los que pasaremos a analizar

A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E =========================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: -

% Paro

- % Paro s/pob. de derecho

VARIABLES INDEPENDIENTES: 1. %VarPobl - Variación Población 91-98 (%) 2. NivelEco - Nivel Económico 3. CuotaMer - Cuota de Mercado Matriz de coeficientes de correlación simple: --------------------------------------------

% Paro %VarPobl NivelEco CuotaMer

% Paro -------1,0000 -0,0164 -0,6125 0,0797

%VarPobl --------0,0164 1,0000 -0,0369 0,1689

NivelEco CuotaMer -------- --------0,6125 0,0797 -0,0369 0,1689 1,0000 0,1936 0,1936 1,0000

Estos son los valores que más nos interesan de esta parte

Coeficiente de determinación: 0,4219. Coeficiente de correlación múltiple: 0,6495 Coeficiente de regresión alfa: 6,4077

Coeficiente de determinación nos interesa en gran medida, ya que es el porcentaje de la varianza explicada por este modelo. Otro aspecto importantísimo, a la hora de estudiar nuestro modelo, es saber si queremos incluir o no las variables independientes. COEFIC. PROPORC.

SUMA DE

DESVIACIÓN CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR AÑADIDA -------- -------------- --------------------------------- -------% Paro 3,9000 1,1071 %VarPobl 1,8300 4,2977 0,0164 0,0003

COEFICIENTE

ERROR

T DE

CORREL.

REGRESIÓN

ESTÁNDAR

STUDENT

PARCIAL

----------- ---------- -------- -------0,0200

0,0294

-0,6823 -0,1001

5,1800

1,4098

-0,5167

0,0900

p=0,4985 -5,7435 -0,6462

CuotaMer 1993,9200 2,7681 0,0452

2365,4349

0,0001

0,0001

p=0,0000 1,8958

NivelEco 23,0676 0,3764

0,2692

p=0,0643 --------------

------ -------5,8521

AÑADIDA

2

0,4219

ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN ---------------------Debida a la regresión: Residuo: Varianza total:

GRADOS LIBERTAD --------------3 46 ----49

SUMA CUADRADOS --------------------25,8521 35,4279 --------------------61,2800

F de Snedecor con 3 y 46 grados de libertad = 11,1889

MEDIA CUADRADOS --------------------8,6174 0,7702

(p= 0,0000)

El nivel de F de Snedecor no parece mostrar ningún problema (p=0.0000).

7.2. Caso práctico 2 con DYANE.

Cabe destacar la posibilidad de manejar variables categóricas en el análisis de regresión múltiple. Si tuviéramos variables categóricas, podríamos convertirlas en variables métricas y trabajar con estas nuevas variables en el análisis de regresión múltiple. Veamos con otra BD como hacer esto:

C:\Documents and Settings\e97554\Escritorio\Rafa\COMPORT.DYT

Comport.Dyt

En la siguiente BBDD las variables que adoptan valores 1 o 2 son variables categóricas, por ejemplo la variable 6, que toma los siguientes valores: 1.- Si 2.- No La variable 5 tiene varias categorías. Para convertir las variables categóricas en variables métricas, tendremos que crear variables ficticias (en el menú Datos del Dyane). Veámoslo gráficamente:

Ahora crearemos otra variable ficticia con la variable Clase Social, y hacemos el análisis con las variables ficticias creadas.

Con todo ello, las variables ficticias que nos ha creado son: A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E ===========================================================

IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: -

FICTI_01 - Usa tarjeta de crédito: Sí (1 = Sí; 0 = No)

VARIABLES INDEPENDIENTES: 1. FICTI_01 - Clase social: Alta/media alta (1 = Sí; 0 = No) 2. FICTI_02 - Clase social: Media media (1 = Sí; 0 = No) 3. FICTI_03 - Clase social: Media baja (1 = Sí; 0 = No)

Matriz de coeficientes de correlación simple: --------------------------------------------

FICTI_01 FICTI_01 FICTI_02 FICTI_03

FICTI_01 -------1,0000 0,2896 0,1598 -0,2634

FICTI_01 -------0,2896 1,0000 -0,2922 -0,3867

FICTI_02 -------0,1598 -0,2922 1,0000 -0,5890

Coeficiente de determinación:

FICTI_03 --------0,2634 -0,3867 -0,5890 1,0000 0,1534

Si observamos el Coeficiente de Correlación, notamos que el modelo sólo nos esta explicando un 15 %. Es un porcentaje muy bajo, por lo que llegaremos a la conclusión de que no podemos usar sólo esta variable, variable que hemos separado en varias ficticias para convertirla en una variable métrica.

Coeficiente de correlación múltiple: 0,3917 Coeficiente de regresión alfa: 0,0215 COEFIC. PROPORC.

DESVIACIÓN CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR AÑADIDA -------- -------------- --------------------------------- -------FICTI_01 0,2530 0,4347 FICTI_01 0,1610 0,3675 15,8473 0,0839

COEFICIENTE

ERROR

T DE

CORREL.

REGRESIÓN

ESTÁNDAR

STUDENT

PARCIAL

0,5189

0,0522

9,9394

0,3004

0,3080

0,4617

0,3356

0,0474

p=0,0000 7,0776

0,2188

FICTI_03 0,7947 0,0042

0,4380

0,4961

0,1018

0,0458

p=0,0000 2,2242

0,0703

p=0,0261

8,9897

AÑADIDA

----------- ---------- -------- -------

FICTI_02 12,3477 0,0653

------ --------

SUMA DE

-------------2

0,1534

Si establecemos un nivel de significación del 0.05, podemos aceptar todas las variables independientes, ya que la t de Student es menor para todas las variables.

ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN ---------------------Debida a la regresión: Residuo: Varianza total:

GRADOS LIBERTAD --------------3 996 ----999

SUMA CUADRADOS --------------------28,9897 160,0013 --------------------188,9910

F de Snedecor con 3 y 996 grados de libertad = 60,1531

MEDIA CUADRADOS --------------------9,6632 0,1606

(p= 0,0000)

La f de Snedecor es otro indicador que hay que mirar también. Es un indicador importante.

7.3. Exportar de Dyane a SPSS.

Ahora trataremos de pasar una BBDD de Dyane a SPSS, ya que el análisis de regresión múltiple del Dyane es bastante simple, siendo muchísimo más completo el análisis del SPSS. Para ello seleccionamos continuación:

el

elemento

de

menú

que

vemos

a

Pulsando Aceptar, nos saldrá otra ventana, donde guardamos como fichero de datos, es decir .dat:

Ahora ya podemos entrar en SPSS, y desde el podremos trabajar con esta base de datos

Menú Archivo/Datos,

SPSS: Abrir la BBDD de formato texto. Abrimos la base de datos que acabamos de crear para el SPSS.

Y pasamos por las siguientes ventanas:

¡Cuidado! Este parámetro hay que cambiarlo

Ahora quitaremos la opción Coma y la opción Espacio:

Una vez hemos hecho la transformación podemos dar nombre a las variables, tal y como queramos, seleccionando la pestaña “Vista de variables”:

Una vez hecho esto, hacemos el análisis de regresión. Para nuestro ejemplo queremos estimar la variable paro en función de otras tres, como son varipob, niveleco y cotamer:

El resultado se muestra a continuación.

Regresión b Variables introducidas/eliminadas

Modelo 1

Variables introducidas CUOTAMER, VARIPOB, a NIVELECO

Variables eliminadas

Método .

Introducir

a. Todas las variables solicitadas introducidas b. Variable dependiente: PARO

Resumen del modelo Modelo 1

R R cuadrado ,650 a ,422

R cuadrado corregida ,384

Error típ. de la estimación ,87759

a. Variables predictoras: (Constante), CUOTAMER, VARIPOB, NIVELECO

Aquí se explican los índices más importantes. R cuadrado es el coeficiente de determinación. Podemos ver que los resultados son los mismos que el Dyane. Observamos que nuestro modelo explica un 42% del total.

R cuadrado corregida, debería ser muy parecida a R cuadrado. En nuestro caso vemos que es una comparación muy subjetiva.

ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 25,852 35,428 61,280

gl 3 46 49

Media cuadrática 8,617 ,770

F 11,189

Sig. ,000 a

a. Variables predictoras: (Constante), CUOTAMER, VARIPOB, NIVELECO b. Variable dependiente: PARO

En el Análisis de Varianzas tenemos una F de Snedecor de 11.189. En el Dyane obtuvimos un valor muy parecido.

Coeficientesa

Modelo 1

(Constante) VARIPOB NIVELECO CUOTAMER

Coeficientes no estandarizados B Error típ. 6,408 ,478 -,020 ,029 -,517 ,090 ,000 ,000

Coeficientes estandarizad os Beta -,078 -,658 ,220

t 13,413 -,682 -5,744 1,896

Sig. ,000 ,499 ,000 ,064

a. Variable dependiente: PARO

Aquí metemos todas las variables independientes y vemos las consecuencias. Tenemos diferentes valores de t para cada variable, con distintas significaciones.

SPSS: Estimación por etapas. Ahora siguiente método seria la regresión lineal con el Método de Pasos Sucesivos. Este método es muy útil cuando el número de variables independientes es muy elevado. Hasta ahora, con el Dyane y con SPSS, hemos metido sólo 3 variables independientes. Normalmente, serán más. Si tenemos variables independientes elevado, es mejor usar esta segunda opción para saber si incluimos o eliminamos cada variable independiente:

El resultado se muestra a continuación.

Regresión a Variables introducidas/eliminadas

Modelo 1

Variables introducidas

Variables eliminadas

NIVELECO

.

Método Por pasos (criterio: Prob. de F para entrar = ,100).

a. Variable dependiente: PARO

Solo se ha seleccionado la variable nivel económico

Resumen del modelo Modelo 1

R R cuadrado ,613 a ,375

R cuadrado corregida ,362

Error típ. de la estimación ,89313

a. Variables predictoras: (Constante), NIVELECO

ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 22,991 38,289 61,280

gl 1 48 49

Media cuadrática 22,991 ,798

F 28,822

Sig. ,000 a

a. Variables predictoras: (Constante), NIVELECO b. Variable dependiente: PARO

Ahora el nivel de f de Snedecor es totalmente distinto, siendo significativo.

Coeficientesa

Modelo 1

(Constante) NIVELECO

Coeficientes no estandarizados B Error típ. 6,391 ,481 -,481 ,090

Coeficientes estandarizad os Beta

t 13,289 -5,369

-,613

Sig. ,000 ,000

a. Variable dependiente: PARO Variables excluidasb

Modelo 1

Beta dentro VARIPOB -,039 a CUOTAMER ,206 a

t -,338 1,813

Sig. ,737 ,076

Correlación parcial -,049 ,256

a. Variables predictoras en el modelo: (Constante), NIVELECO b. Variable dependiente: PARO

Estadísticos de colinealidad Tolerancia ,999 ,963

Análisis de Supuestos de la RM. Coeficiente estandarizado es importante para interpretar los datos. Cuando metemos las variables independientes en unidades distintas, el coeficiente de regresión beta, no son directamente comparables. Por eso, lo más útil es el coeficiente estandarizado. Lo veremos con el SPSS. Trabajo con SPSS

Si tenemos valores perdidos en SPSS podremos utilizar la función de SPSS de “Reemplazar valores perdidos”. Es importante reemplazar estos valores con la media o con el valor estimado de regresión. Para realizar la regresión múltiple tenemos que cumplir varios supuestos: Supuestos generales • Linealidad.- Para esto podríamos visualizar gráficamente gráficos de dispersión.. • Normalidad.- Aquí tenemos dos opciones. o Podemos examinar histograma. Mediante el SPSS podemos examinar el Histograma de residuos o Podemos examinar gráficos de dispersión. En este caso examinamos variables • •

Homocedasticidad.- Tendremos que aplicar el Análisis basado en t de Student. Usamos el valor t de Student para estandarizar los residuos (luego lo estudiamos) Ausencia de errores correlacionados.- Dos opciones: o Usar el Análisis anterior basado en t de Student o Usar el test de Durban-Watson

Examinar Normalidad

Para examinar la normalidad:

Estudiaremos las siguientes tres variables:

Ahora seleccionamos estadísticos, seleccionando solo descriptivos

También en la parte Gráficos, muy importante seleccionar “Gráficos con pruebas de Normalidad”

Nos salen una serie de datos, pero lo que realmente nos interesara en el gráfico Q-Q normal de varpobl:

Gráfico Q-Q normal de varpobl 3

2

1

Normal esperado

0

-1

-2

-3 -10

0

10

20

Valor observado

Se puede ver que la variable sigue una distribución normal

Gráfico Q-Q normal de nivel economico 2

1

Normal esperado

0

-1

-2 1

2

3

4

5

6

7

8

9

Valor observado

Se puede ver que la variable sigue una distribución normal

Gráfico Q-Q normal de cuotamer 3

2

1

Normal esperado

0

-1

-2 -3 -4000

0 -2000

4000 2000

8000 6000

12000 10000

14000

Valor observado

Se puede ver que la variable tiene una no tiene una distribución exactamente normal, pero las tres variables concurren en una distribución normal. Para ver la linealidad se puede comprobar mediante “Generar todos los gráficos parciales” en SPSS (“Regresión Lineal”  ”Gráficos”  Seleccionar esta opción)

Examinar Linealidad

Una vez analizado el supuesto de normalidad, nos lanzaremos a hacer la Regresión Lineal. Lo que queremos es predecir el paro en función de unas variables independientes (varpobl, nivel económico y cuota mercado). Para ello seleccionamos la variable paro como única variable dependiente, y varias variables independientes (varpobl, niveleco y cuotamer). Método = Introducir, que quiere decir que vamos a aplicar la Estimación Conjunta En el botón Estadísticos, seleccionaremos: • Diagnósticos de colinealidad.- Nos saldrá el índice VIF y el valor de la tolerancia. • Durbin-Watson.- En la parte de Residuos. Para ver Ya que nuestro interés es ver los supuestos generales y específicos En el botón “Gráficos”, Seleccionaremos para

podremos

ver

la

homocedasticidad.

ZRESID significa residuo tipificado ZPRED significa regresión valor tipificado pronosticado Seleccionamos Histograma para ver normalidad de los residuos, y generamos todos los gráficos parciales para ver linealidad

Regresión b Variables introducidas/eliminadas

Modelo 1

Variables introducidas cuotamer, varpobl, nivel a economico

Variables eliminadas

Método .

Introducir

a. Todas las variables solicitadas introducidas b. Variable dependiente: paro Resumen del modelob Modelo 1

R R cuadrado ,650 a ,422

R cuadrado corregida ,384

Error típ. de la estimación ,87759

Durbin-W atson 1,895

a. Variables predictoras: (Constante), cuotamer, varpobl, nivel economico b. Variable dependiente: paro

El Test Durbin-Watson no lo hemos tenido hasta ahora, para ver la ausencia de errores correlacionados. Como regla general, este índice tiene que ser alrededor de 2. Si obtenemos el número cerca de 2 podremos interpretar la variable independiente como que no tienen errores correlacionados. (Ver la parte de gráficos) ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 25,852 35,428 61,280

gl 3 46 49

Media cuadrática 8,617 ,770

F 11,189

Sig. ,000a

a. Variables predictoras: (Constante), cuotamer, varpobl, nivel economico b. Variable dependiente: paro Coeficientesa

Modelo 1

(Constante) varpobl nivel economico cuotamer

Coeficientes no estandarizados B Error típ. 6,408 ,478 -,020 ,029 -,517 ,090 ,000 ,000

Coeficientes estandarizad os Beta -,078 -,658 ,220

t 13,413 -,682 -5,744 1,896

Sig. ,000 ,499 ,000 ,064

Estadísticos de colinealidad Tolerancia FIV ,966 ,958 ,932

a. Variable dependiente: paro

Una regla general es que VIF tiene que ser menor que 2. El valor de tolerancia reducido denota elevada colinealidad. Cuando tenemos un valor de tolerancia 0.2 o 0.3 denota elevada colinealidad.

1,035 1,044 1,074

El valor del VIF es el inverso del valor de tolerancia. Si VIF es elevado, significa elevada colinealidad. Si ambos valores están cerca de 1, podemos decir que no existe la multicolinealidad. Si el valor de tolerancia es muy bajo y el del VIF es muy alto, lo que tenemos es problema de multicolinealidad. Existen correlaciones muy altas entre las variables independientes. Lo que podemos hacer es un Análisis de Componentes Principales y utilizar los factores que resulten como variables independientes para realizar el análisis de regresión. Coeficientes (de beta) no estandarizados y Coeficientes (de beta) estandarizados. Los coeficientes no estandarizados no son comparables directamente. Sin embargo, para comparar la importancia de las variables, tenemos el Coeficiente Estandarizado, para ver que variable es mas importante. a Diagnósticos de colinealidad

Modelo 1

Dimensión 1 2 3 4

Autovalor 2,765 ,763 ,437 ,034

Indice de condición 1,000 1,903 2,515 8,964

Proporciones de la varianza nivel (Constante) varpobl economico ,01 ,04 ,01 ,00 ,93 ,01 ,02 ,02 ,02 ,97 ,01 ,97

a. Variable dependiente: paro a Estadísticos sobre los residuos

Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip.

Mínimo 2,3130 -1,6133 -2,185 -1,838

a. Variable dependiente: paro

Gráficos

Máximo 5,5672 2,4318 2,295 2,771

Media 3,9000 ,0000 ,000 ,000

Desviación típ. ,72636 ,85031 1,000 ,969

N 50 50 50 50

cuotamer ,05 ,00 ,94 ,01

Histograma Variable dependiente: paro 10

8

6

Frecuencia

4

Desv. típ. = ,97

2

Media = 0,00 N = 50,00

0

75 2,50 2,25 2,00 2,75 1,50 1,25 1,00 1,5 ,70 ,55 ,200 0, 5 -,20 -,55 -,7,00 -1,25 -1,50 -1,75 -1

Regresión Residuo tipificado

Con este gráfico vemos la normalidad de los residuos. Aquí hay algunos valores fuera de la normalidad, pero supongamos que están dentro del límite y cumplen el supuesto de la normalidad, y aceptamos la normalidad. Gráfico de dispersión Variable dependiente: paro 3

Regresión Residuo tipificado

2

1

0

-1

-2 -3

-2

-1

0

1

2

3

Regresión Valor pronosticado tipificado

El gráfico de la dispersión es el resultado de los valores estandarizados y los valores basados en t de Student. Para cumplir el supuesto de homocedasticidad observaremos esta dispersión. Cuando observamos este gráfico tenemos que tener una dispersión uniforme y aleatoria (debe cumplir las dos condiciones). En nuestro gráfico vemos que es bastante uniforme (porque cuando están los puntos AGRUPADOS en los dos extremos del grafico tenemos heterocedasticidad)

Gráfico de regresión parcial Variable dependiente: paro 3

2

1

0

paro

-1

-2 -10

0

10

20

varpobl

Este vale para ver que tipo de relación existe entre dos variables, en el SPSS hacemos doble clic sobre este gráfico. Aquí podremos seleccionar:

Opciones del diseño de dispersión:

Y aceptamos Gráfico de regresión parcial Variable dependiente: paro 3

2

1

0

paro

-1

-2 -10

0

10

20

varpobl

La línea es linealidad Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1

paro

-2 -3 -4

-3

-2

nivel economico

-1

0

1

2

3

4

Aquí vemos que tienen una relación lineal Gráfico de regresión parcial Variable dependiente: paro 3

2

1

0

paro

-1 -2 -4000

0 -2000

4000 2000

8000 6000

12000 10000

cuotamer

Gráfico de regresión parcial Variable dependiente: paro 3

2

1

0

paro

-1 -2 -4000

0 -2000

4000 2000

8000 6000

12000 10000

cuotamer

Puede que aquí también exista una relación lineal. No es que sea muy claro, pero por eso hay que tener una buena base teórica, para poder justificar la inclusión de esta variable.

Ejercicio 5 1. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple? 2. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión? 3. Explique y relacione los siguientes términos: error de predicción y error estándar. 4. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5

Tolerancia 0,992 0,804 0,187 0,990 0,112

VIF 1,007 1,587 5,337 1,010 8,896

5. Explique la relación entre el coeficiente de determinación y el coeficiente de determinación ajustado.

1. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple? “Por una parte, con el test t de student mediamos la significación de la correlación parcial de las variables independientes. Y la expresaríamos mediante el valor del coeficiente del coeficiente t de student. Por otra parte, apoyándonos en una base teórica fijaríamos el nivel de significación exigida y con ello determinaríamos si una variable debe salir de la ecuación o mantenerse.” Shintaro. La palabra clave es Correlación Parcial. Hay que buscar la correlación parcial que tiene significación

2. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión?

La regresión Múltiple busca una combinación, mediante el coeficiente de correlación (que esta basado en una relación lineal; el concepto de correlación es el de la combinación entre dos variables). “Porque el concepto fundamental del análisis de regresión que es el coeficiente de correlación esta basado en una relación lineal”. Shintaro. 3. Explique y relacione los siguientes términos: Error de predicción y error estándar. En la regresión múltiple buscamos una combinación lineal. Por eso buscamos variables independientes que expliquen la variable independiente. Buscamos una línea recta. La diferencia entre el valor real y valor predicho es el error de predicción. Nuestra misión es minimizar todos los errores de predicción. “El error de predicción es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y, mientras que el error estándar es la desviación típica de los errores de predicción. Un error estándar mas pequeño implica una predicción mas segura.” Shintaro. 4. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5

Tolerancia 0,992 0,804 0,187 0,990 0,112

VIF 1,007 1,587 5,337 1,010 8,896

¿Cómo podemos interpretar el valor de la tolerancia y el valor del VIF?¿Qué indican los índices tolerancia y VIF? Ausencia de multicolinealidad. Podíamos observar la matriz de correlaciones, pero es bastante subjetivo. Por eso usamos estos dos índices. El VIF es la inversa de la tolerancia. “Los valores de tolerancia superan todos el valor 0.80 indicando niveles de colinealidad muy reducidos. De la misma manera, los valores del VIF de dichas variables están muy próximos a 1.0. Sin embargo, las dos variables restantes, es decir X3 y X5, dichos índices indican lo contrario: altos niveles de multicolinealidad. Si no eliminamos las observaciones altamente correlacionadas la interpretación de los coeficientes de correlación podrían verse afectados negativamente por la multicolinealidad.”Shintaro.

5. Explique la relación entre el coeficiente de determinación y el coeficiente de determinación ajustado. Para determinar el coeficiente de determinación tenemos que conseguir el coeficiente de correlación múltiple (R). Para saber el % de la varianza explicada por el modelo, hay que subir al cuadrado, y nos da el coeficiente de determinación. El coeficiente de determinación esta afectado por el numero de variables independientes relativas al tamaño muestral (relacionada con variables independientes y tamaño muestral). Por tanto tenemos que corregir esta infracción. El valor corregido es el Coeficiente de determinación ajustado. 2

“El coeficiente de determinación (R ) es el coeficiente de correlación múltiple al cuadrado. Como dicho coeficiente esta afectado por el número de variables independientes relativas al tamaño muestral, es necesario “corregir” la inflación de la R2. Dicha corrección da lugar al 2 coeficiente de determinación ajustado CDA. El CDA (R ajustado) se hace mas pequeño a medida que tenemos menos observaciones por variable independiente, y por ello es particularmente útil para comparar las diferentes ecuaciones de regresión estimadas con distintas variables independientes o diferentes tamaños muestrales.” Shintaro.

TEMA 6: EL ANÁLSIS DISCRIMINANTE

Estructura de la clase: 1. Introducción. 2. Definición y objetivo. 3. Términos y conceptos básicos del AD. 4. Supuestos del AD. 5. Diseño del AD. 6. Casos prácticos con DYANE. Introducción. El AD consiste en predecir a que grupo pertenece un determinado individuo. Por regla general, Y = X1 + X2 + X3 + ... + Xn donde Y es la variable dependiente y Xn son las variables independientes. En el AD, las variables dependientes independientes son métricas.

son

categóricas

y

las

Queremos encontrar la línea de corte que separe o diferencie los dos grupos. Cada dispersión está asociada a las variables X1 y X2. Podemos comprobar que ambas dispersiones no están separadas del todo ya que tienen un solapamiento, es decir, una zona en común. Para ello, en el AD tenemos que calcular un valor teórico D, que es una función combinación lineal de las dos variables X1 y X2, que separe o diferencie claramente cada grupo. En el eje D situamos las dos distribuciones y los puntos medios de cada distribución proyectados cortan las nubes de puntos en dirección a su eje y coinciden con los puntos medios de cada nube de puntos. Debido a esto último, es por lo que a estos puntos situados en D se les llama centroides.

Como se comprobará más adelante, para distinguir o discriminar dos grupos estadísticamente, tenemos que calcular sus respectivos valores teóricos (por ejemplo medias) y aplicar un test para saber si estos valores son significativamente diferentes. Evidentemente si lo son, podemos separar ambas distribuciones para poder así identificar a que grupo pertenece un individuo cualquiera. Definición y objetivo. El AD es una técnica multivariante de predicción que se emplea cuando la variable dependiente no es métrica y las variables independientes son métricas. El AD es el caso contrario al MANOVA donde Y 1 + Y2 + ... + Yn = X1 . Las variables Y tienen que ser métricas y la X categórica. Los objetivos de esta técnica son: a) determinar si existen diferencias estadísticamente significativas entre los perfiles de dos (o más) grupos. b) determinar cuál de las variables independientes cuantifica mejor dichas diferencias. c) establecer el número y la composición de las dimensiones de la discriminación entre los grupos.

Conceptos y términos básicos del AD. 1) Función discriminante: (FD) El AD clasifica dos (o más) grupos mediante una función discriminante, que es una combinación lineal de dos (o más) variables. Esta función es la que separa los grupos. La combinación lineal es de la siguiente forma Z = a + W1X1+ W2X2 + ..... + WnXn

a es cte.)

(

Cada punto del eje D, representa una puntuación Z Discriminante. Z: puntuación Z discriminante Son el conjunto de valores que nos van a servir para discriminar los grupos. De estas puntuaciones nos interesa saber el centroide o media de la distribución para luego comprobar si existen diferencias significativas entre ambas medias. 2) Análisis de correlaciones canónicas (DYANE): analiza la relación entre múltiple variables dependientes y múltiple variables independientes. En DYANE se utiliza este test estadístico para calcular la FD y analiza la correlación entre múltiples variables tanto dependientes como independientes.

MUY IMPORTANTE: Tanto DYANE como SPSS nos proporcionan el mismo número de grupos pero los resultados de los test son distintos. 3) Coeficientes estandarizados de las funciones discriminantes canónicas (SPSS): Cuando se ignora el signo, cada coeficiente representa la contribución relativa de su variable asociada a esa función. Son los pesos de la FD, es decir, son los W1, W2, ..., Wn Función 1

2

q1

.004

.183

q2

.436

-.588

q3

-.025

-.352

q6

.382

.104

q7

.665

.266

q15

.017

.497

q16

.570

-.179

q17

.121

-.234

q18

.278

.677

4) Cargas discriminantes (SPSS): Las cargas discriminantes (también denominadas correlaciones de estructura) miden la correlación lineal simple entre cada variable independiente y la función discriminante. Son análogas a las cargas del ACP. Con esta matriz obtenemos las variables asociadas a cada FD (están marcadas por *). Matriz de estructura Función 1

2

q2

.527(*)

-.450

q16

.462(*)

-.208

q3

.435(*)

-.409

q6

.426(*)

-.106

q1

.348(*)

-.223

q7

.347(*)

.264

q17

.202(*)

.107

q18

.334

.542(*)

q15

.335

.391(*)

5) Matriz de confusión (DYANE y SPSS): es una tabla de doble entrada en la que en las filas se indica la pertenencia real al grupo correspondiente, y en las columnas, la estimada por el AD. Grupo 1 Grupo Real 17 1 Grupo Real 1

Grupo 2 1

Grupo 3 1

Total 19

13

0

14

2 Grupo Real 0 3 Total 18

0

15

14

16

15

En DYANE obtenemos el porcentaje de asignaciones acertadas de la siguiente forma: (17 + 13+ 15) = 93,75% (19 + 14 + 15)

6) Representación gráfica mediante un mapa territorial (SPSS):

funciones discriminantes canónicas 4 3 2 3 1 0

country

2

1

Centroides de grupo

Función 2

-1

3 -2

2

-3

1 -4

Función 1

-2

0

2

4

Supuestos del AD. Supuestos generales: - Normalidad - Linealidad. Para comprobar la linealidad en SPSS, nos situamos es Gráficos -> Dispersión -> Dispersión simple definiendo en el eje Y (var. Dependiente) y en el eje X (var. Independiente). Supuestos específicos: - Igualdad de dispersión (M de Box). Para comprobar el supuesto de igualdad de las matrices de covarianzas con dispersión uniforme. Ha de ser > 0,05 (no significativo). Atención: es muy sensible respecto a otros factores como la normalidad de las variables y el tamaño muestral. (Debido a esto, hasta 0,03 es aceptable). - Ausencia de la multicolinealidad. En SPSS se utiliza el método de inclusión por etapas (o pasos). Con este método obtenemos una medida del VIF. Para ausencia de multicolinealidad el valor del VIF debe ser menor de 2. Diseño del AD.  Determinar objetivos. Hay que expresar los objetivos claramente. Es algo muy breve  Seleccionar variables dependientes e independientes. Tendremos que entender los tipo de variables y escalas usados en la encuesta  Determinar el tamaño muestral. Tendremos que tener al menos 20 observaciones por cada variable independiente.  Examinar los supuestos. Tanto generales como específicos  Estimar las funciones discriminantes. Utilizamos programas informáticos  Determinar la influencia global de las funciones discriminantes (Autovalores y Lambda de Wilks en SPSS). Usando una serie de índices obtenidos por programas informáticos, ver si tiene sentido usar esas funciones discriminantes.  Determinar el nivel de precisión predictiva de las funciones discriminantes (Matriz de confusión). Tenemos que preparar la matriz de confusión para saber si estamos clasificando los datos correctamente. Veremos como calcular porcentaje de clasificación.  Interpretar los resultados mediante una representación gráfica. Este mapa se llama Mapa territorial.  Validar los resultados. Un método de validación mas popular es dividir la muestra en dos grupos, igual que en los analizas de interdependencia.

Casos prácticos Casos Prácticos con DYANE

Muy importante saber que los datos del Dyane y SPSS es distinta. La salida del Dyane es muy limitada, y SPSS muestra demasiada información. Debemos seleccionar que tipo de datos incluiremos en el trabajo.

La investigación fue hecha por el creador del Dyane para ver actitudes hacia la empresa y los sistemas económicos de los estudiantes. Han estudiado 4 generaciones de estudiantes de empresariales. Queremos ver si existen diferencias significativas. Variable dependiente.- Tipo de Promoción independiente.- El resto de variables

Variable

Tenemos la salida del Dyane

A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E ============================================================= IDENTIFICACIÓN DE LAS VARIABLES ------------------------------GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1. EPU_OBEC. La empresa pública puede cumplir los objetivos económicos mejor que la privada. 2. EPU_OBSO. La empresa pública puede cumplir los objetivos sociales mejor que la privada 3. DIRE_SUF. La dirección de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. 4. ECME_PLA. La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado. 5. DESP_LIB. La posibilidad de despido libre, con indemnización, permitiría la creación de puestos de trabajo. 6. LIBERAL. El liberalismo es la mejor doctrina económica. 7. ECSOLMER. La economía social de mercado es la mejor doctrina económica. 8. SOCIALIS. El socialismo es la mejor doctrina económica. 9. COMUNISM. El comunismo es la mejor doctrina económica. 10. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. 11. EMPR_EXP. El empresario sólo explota a los trabajadores. 12. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa 13. BENSOLAC. En la distribución de los beneficios deben participar sólo los accionistas. 14. BAL_SOCI. Todas las empresas deberían realizar el balance social. 15. MARK_NEC. El marketing es sólo un método para vender más, creando necesidades aparentes.

Aquí tenemos la tabla de medias para cada variable independiente por cada grupo. -----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES ------------ ------------ ------------ ------------ ------------ -----------1.EPU_OBEC 2,2414 2,2333 2,2683 2,0323 2,1667 2.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 3.DIRE_SUF 1,9655 2,2000 2,1220 2,1613 2,1235 4.ECME_PLA 3,5862 3,6667 4,0000 4,0968 3,9012 5.DESP_LIB 2,6207 2,3333 2,9756 3,0484 2,8210 6.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 7.ECSOLMER 3,6207 3,4000 3,3902 3,3387 3,4136 8.SOCIALIS 2,6552 2,6667 2,6829 2,3710 2,5556 9.COMUNISM 1,4483 1,5333 1,5610 1,6774 1,5802 10.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198

11.EMPR_EXP 2,1034 1,8333 1,7317 1,7581 1,8272 12.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,8519 13.BENSOLAC 2,1379 2,0000 2,2683 2,0484 2,1111 14.BAL_SOCI 4,3103 4,4667 4,1951 4,2097 4,2716 15.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037 ------------------------------------------------------------------------------

Una de las características del Dyane es que utiliza el sistema de correlaciones canónicas, y aparece el análisis. Según Shintaro, una mayor limitación del Dyane, es que no indica que variable tiene significación estadística. Solo mirando la salida del Dyane no podemos decir que variable tiene significación estadística. Tenemos 3 funciones discriminantes, cada una corresponde a una columna. Estos coeficientes corresponden a W1 W2, etc. Son los coeficientes de una combinación lineal. Entonces si tiene mayor coeficiente variable significa que tiene mayor contribución a la capacidad discriminante. La variable canónica 1 explica casi el 56 % de la varianza total. La canónica 2 explica casi el 30% de la varianza. Pero el Dyane no ofrece mas datos, no dice que variable tiene significación estadística nos ofrece representación grafica. CORRELACIONES CANÓNICAS: -----------------------VARIABLE CANÓNICA 1 ---------Coeficiente de correlación: 0,2750 % varianza explicada: 56,9301%

VARIABLE CANÓNICA 2 ---------0,1430 29,6131%

VARIABLE CANÓNICA 3 ---------0,0650 13,4568%

Coeficientes variables: Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

0,0361 0,3761 -0,2486 -0,0531 -0,0109 -0,3083 0,0734 0,0316 -0,3083 -0,6468 -0,0843 0,3946 0,1213 0,0302 0,1782

0,1425 -0,0407 0,1594 0,4271 0,3986 0,1624 -0,1499 0,1389 0,1342 -0,4968 -0,0842 0,5146 0,1063 -0,1911 -0,4779

0,2216 0,1381 0,2168 0,0285 -0,4873 -0,1929 -0,1978 0,4193 -0,2710 0,4718 -0,2304 0,2939 0,2178 0,1261 -0,3701

Correlaciones variables es más difícil de interpretar.

Correlación variables: Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

0,8034 0,9575 -0,8489 -0,6202 -0,2953 -0,9281 0,8576 0,7767 -0,8850 -0,9484 0,6724 0,6536 0,6657 0,0707 0,7699

-0,0870 -0,0983 0,0663 0,7722 0,8618 0,3537 -0,4188 -0,1495 0,4206 -0,0486 -0,6062 0,6946 0,7224 -0,9038 -0,5617

0,5891 0,2712 0,5243 -0,1382 -0,4125 -0,1164 -0,2985 0,6119 -0,1995 0,3134 -0,4248 0,3006 0,1871 0,4221 -0,3029

Los centros de gravedad, expresan los centroides de cada grupo. Son centroides expresados en puntuaciones Z discriminante. Pero es muy difícil interpretar mirando simplemente estas cifras. Es muy difícil ver la relación entre los 4 centroides. Sin embargo SPSS ofrece representación gráfica, facilitando la interpretación. Centros de gravedad: Grupo Grupo Grupo Grupo

1 2 3 4

0,8475 -0,2146 0,3540 -0,5266

-0,3128 -0,5710 0,4933 0,0964

-0,2895 0,3563 0,2272 -0,1872

En la matriz de confusión tenemos la asignación según funciones discriminantes, es decir, clasificación predicha según el A D. A la izq. tenemos grupos reales. El grupo 1 esta con 17 miembros, el grupo 2 con 13 y grupo 3 con 15 y el 4 con 27. Sin embargo vemos que hay miembros mal clasificados: En grupo 1: 17 miembros bien clasificados En grupo 2 hay 3 mal clasificados, etc… Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos)

GRUPOS REALES ------------1 2 3 4 TOTAL

ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------17 3 7 2 29 7 13 3 7 30 8 6 20 7 41 5 15 15 27 62 ---------------------37 37 45 43 162

Por tanto nuestra conclusión final es el porcentaje de la calcificación correcta, que es 47.53%.

Un 47.53% de los encuestados están correctamente clasificados. ¿Cómo se calcula este número? Para ello, tenemos que sumar las cifras en diagonal (17 + 13 + 20 + 27) Después dividimos el número total de grupos reales: (17 + 13 + 20 + 27) ------------------------------ = 0.4753 (29 + 30 + 41 + 62) PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 47,53%

El autor del Dyane recomienda hacer un análisis de la varianza (ANOVA) para ver que variables son relevantes, ya que el Dyane no ofrece este análisis en el AD. Cuando queremos averiguar si existen diferencias significativas entre dos medias usamos el test t de Student. Entonces, el A de la varianza es para ver si existe diferencias significativas entre 3 o mas medias. En nuestro caso hablamos de 4 grupos. Cuando tenemos que comparar 4 medias y saber si son estadísticamente distintas, tendremos que utilizar el Análisis de la varianza o ANOVA

En el Dyane podemos usar este análisis fácilmente. Para ello:

Variable Dependiente.- EPU_OBEC Variable Tratamiento.- Tipo de grupos

ANÁLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos económicos mejor que la privada. (EPU_OBEC) VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A)

Número de casos -------162

Total Grupos variable tratamiento --------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85)

29 30 41 62

Media --------------2,1667

2,2414 2,2333 2,2683 2,0323

Desviación estándar --------------0,9112

1,0053 0,8825 0,9377 0,8418 Suma .....

FUENTE DE VARIACIÓN --------------------Entre los grupos: Dentro de los grupos: Total:

GRADOS LIBERTAD --------------3 158 ----161

SUMA CUADRADOS --------------1,8387 132,6613 -----------134,5000

Suma de cuadrados --------------134,5000

29,3103 23,3667 36,0488 43,9355 --------------132,6613 MEDIA CUADRADOS --------------0,6129 0,8396

Proporción de varianza explicada por los tratamientos R² = 0,0137 F de Snedecor con 3 y 158 grados de libertad = 0,7300

(p= 0,5356)

De aquí nos interesa esto. Sale que no existen diferencias significativas, por tanto las 4 medias son estadísticamente iguales Entonces ahora seleccionamos la 2ª variable y variable tratamiento la misma de antes:

ANÁLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos sociales mejor que la privada (EPU_OBSO) VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A)

Total Grupos variable tratamiento

Número de casos -------162

Media --------------3,8025

Desviación estándar --------------0,9548

Suma de cuadrados --------------147,6790

--------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85)

29 30 41 62

4,1034 3,8333 3,9756 3,5323

0,6615 1,1571 0,6044 1,0734 Suma .....

FUENTE DE VARIACIÓN --------------------Entre los grupos: Dentro de los grupos: Total:

GRADOS LIBERTAD --------------3 158 ----161

SUMA CUADRADOS --------------8,4116 139,2674 -----------147,6790

12,6897 40,1667 14,9756 71,4355 --------------139,2674 MEDIA CUADRADOS --------------2,8039 0,8814

Proporción de varianza explicada por los tratamientos R² = 0,0570 F de Snedecor con 3 y 158 grados de libertad = 3,1810

(p= 0,0256)

Ahora si son significativas para esta variable. El Autor recomienda que se haga este análisis de la varianza para cada variable independiente. La mejor recomendación es realizar MANOVA, que luego miraremos. Una vez que sepamos las variables independientes tienen diferencias significativas, las seleccionamos y realizamos el A D:

Las medias de las variables seleccionadas son estadísticamente distintas.

A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E ============================================================= IDENTIFICACIÓN DE LAS VARIABLES ------------------------------GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1. EPU_OBSO. La empresa pública puede cumplir los objetivos sociales mejor que la privada

2. 3. 4. 5.

LIBERAL. El liberalismo es la mejor doctrina económica. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa MARK_NEC. El marketing es sólo un método para vender más, creando necesidades aparentes.

La 1ª variable (EPU_OBSO) esta contestada con escala de likert. Tenemos 4 medias:  Grupo 1.- 4.1034  Grupo 2.- 3.833  Grupo 3.- 3.9756  Grupo 4.- 3.5323 …. ¿Como podemos saber que las 4 medias son distintas? Tendremos que realizar el Análisis de la varianza, para ver si existen diferencias significativas entre las 4 medias. Lo que nos interesara de ese análisis es el nivel de significación p. -----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES ------------ ------------ ------------ ------------ ------------ -----------1.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 2.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 3.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198 4.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,8519 5.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037 ------------------------------------------------------------------------------

Ahora la función discriminante 1 explica el 69% de la varianza. La variable canónica 2 explica el 23%. La función 1 explica la mayor parte de la varianza. Tiene más capacidad discriminatoria.

CORRELACIONES CANÓNICAS: -----------------------VARIABLE CANÓNICA 1 ---------Coeficiente de correlación: 0,2249 % varianza explicada: 69,1454%

VARIABLE CANÓNICA 2 ---------0,0750 23,0641%

VARIABLE CANÓNICA 3 ---------0,0253 7,7905%

Coeficientes variables: Var. Var. Var. Var. Var.

1 2 3 4 5

-

EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC

Correlación variables:

0,3326 -0,3377 -0,5870 0,5780 0,1747

0,0036 -0,3433 0,2923 -0,6770 0,6940

-0,4848 0,6341 -0,8015 -0,0718 0,2220

Var. Var. Var. Var. Var.

1 2 3 4 5

-

EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC

0,9464 -0,8898 -0,9445 0,7231 0,7064

0,1219 -0,4037 -0,1257 -0,6792 0,6932

-0,2992 0,2129 -0,3036 -0,1255 0,1431

0,7168 -0,2558 0,3853 -0,4663

0,3400 0,2914 -0,3868 -0,0442

0,1389 -0,2747 -0,0868 0,1253

Centros de gravedad: Grupo Grupo Grupo Grupo

1 2 3 4

Veamos la matriz de confusión. Con esta matriz podemos decir que 14 personas del grupo 1 están bien clasificadas 13 personas del grupo 2 están bien clasificadas … Calculamos el porcentaje de clasificación. Ahora hemos bajamos, lo cual es bastante ilógico, ya que deberíamos haber mejorado y no ha sido así. Hemos eliminado variables, pero La intención del autor es que en vez de meter todas las variables, hay que meter las variables que tienen medias distintas estadísticamente, para realizar un análisis estadístico más eficaz. Con el Dyane no se puede ofrecer más información.

Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos)

GRUPOS REALES ------------1 2 3 4 TOTAL

ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------14 3 6 6 29 4 13 6 7 30 6 8 22 5 41 8 14 16 24 62 ---------------------32 38 50 42 162

PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 45,06%

Casos prácticos con SPSS: Estimación Simultánea.

Realicemos el mismo Análisis con el SPSS, desde una perspectiva global. SPSS tiene 2 posibilidades: 1) Estimación Simultánea (Conjunta) 2) Estimación por Etapas.- El programa realiza los datos paso a paso para seleccionar las variables independientes que tienen significación estadística. Si seleccionamos esta opción, la salida solo incluiría las variables independientes que fueran estadísticamente significativas en las funciones discriminantes. Por eso sabríamos que variable independiente tendríamos que incluir. En la estimación simultanea no lo sabríamos (el Dyane lo hace con estimación simultanea y nos inventamos un método para verlo). En SPSS podemos realizar el A de la varianza para todas las variables independientes que seleccionemos. Usaremos las mismas variables que en el Dyane:

Tendremos que definir el rango, así definimos de 1 a 4

Ahora seleccionamos 15 variables independientes, por ejemplo las primeras 15:

Seleccionamos estadísticos, sin seleccionar demasiados para no liarnos:  ANOVA  M de Box.- Para ver la dispersión uniforme en la matriz de covarianzas

Ahora seleccionamos el tipo de clasificación

De momento no guardaremos nada

Discriminante

Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales

N 162

Porcentaje 100,0

0

,0

0

,0

0

,0

0 162

,0 100,0

Pruebas de igualdad de las medias de los grupos

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

Lambda de Wilks ,986 ,943 ,996 ,958 ,953 ,923 ,990 ,979 ,989 ,901 ,978 ,932 ,989 ,982 ,930

F ,730 3,181 ,234 2,328 2,595 4,371 ,534 1,156 ,560 5,771 1,203 3,857 ,562 ,991 3,934

gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158

Sig. ,536 ,026 ,873 ,077 ,054 ,005 ,660 ,329 ,642 ,001 ,311 ,011 ,641 ,399 ,010

El valor teórico F, puede usarse igual para el análisis de la varianza. Tenemos el nivel de significación, entonces podremos saber que variable tiene significación estadística, que variable debemos incluir. Para ello incluiremos aquellas que tengan un nivel de significación menor de 0.05. En nuestro caso serán: EPU_OBSO LIBERAL …Si nos fijamos, son las mismas que las que seleccionamos en Dyane. Así en lugar de realizar 15 análisis de la varianza como en el Dyane, podremos saber que variables tienen significación estadística.

Análisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada

Rango 15 15 15 15 15

Logaritmo del determinante -9,087 -5,003 -6,691 -3,544 -2,358

Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos. Resultados de la prueba M de Box F Aprox. gl1 gl2 Sig.

510,813 1,147 360 32104,883 ,029

Contrasta la hipótesis nula de que las matrices de covarianza poblacionales son iguales.

Nos fijaremos en el nivel de significación de test M de Box. Tenemos 0.029. Ha salido significativo, pero en clase se explico que el examen M de Box es muy sensible respecto a la normalidad de variables y al tamaño muestral. Entonces hasta 0.03 es aceptable. Por tanto, más o menos aceptamos este nivel de significación.

Resumen de las funciones canónicas discriminantes Esta es la información más importante. Aquí podemos saber que función discriminante tenemos que considerar. Tal y como hicimos en el análisis de componentes principales, aquí también se utiliza el concepto de autovalor (Recordatorio de Autovalor.- ). La función 1 tiene mayor nivel de autovalor. La función 2 y 3, es menor.  La función 1 explica un 61 %  La función 2 explica un 27 %  La función 3 explica un 11 % ¿Pero que funciona discriminante es estadísticamente significativo? Para saber esto tendremos que hacer un examen estadístico de Lambda de Wilks. Es el examen estadístico mas importante en el A D.

 Función 1 tiene un nivel de significación = 0.001  Función 2 tiene un nivel de significación = 0.216  Función 3 tiene un nivel de significación = 0.679 Solo la función discriminante 1 tiene nivel de significación estadística suficientemente alto. Por eso, sólo consideraremos la función discriminante 1 Autovalores Función 1 2 3

Autovalor % de varianza ,379a 61,6 ,167a 27,1 a ,070 11,3

% acumulado 61,6 88,7 100,0

Correlación canónica ,524 ,378 ,255

a. Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis. Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3

Lambda de Wilks ,581 ,801 ,935

Chi-cuadrado 82,276 33,564 10,181

gl 45 28 13

Sig. ,001 ,216 ,679

Es muy importante saber interpretar estas dos tablas. Podemos decir que la función 1 explica la mayor parte de la varianza, pero mirando los autovalores no sabemos que función discriminante tiene significación estadística, para eso tenemos que usar la lambda de Wilks. Esto se utiliza también para MANOVA. Tenemos 3 niveles de significación. La Fon discrimínate 1 tiene significación estadística suficientemente alta, por eso consideraremos solo la función discriminante 1.

Coeficientes estandarizados de las funciones discriminantes canónicas

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

1 -,042 -,429 ,291 ,061 ,012 ,348 -,086 -,037 ,360 ,721 ,098 -,447 -,142 -,035 -,202

Función 2 ,153 -,043 ,172 ,452 ,420 ,169 -,161 ,148 ,144 -,509 -,090 ,537 ,114 -,205 -,498

3 ,228 ,139 ,224 ,029 -,492 -,192 -,203 ,429 -,279 ,463 -,236 ,293 ,224 ,129 -,369

Son coeficientes estandarizados, por tanto son análogos a los coeficientes de regresión beta estandarizados. Por tanto el mayor valor indica el mayor peso. Sabemos que variables independiente tenemos que considerar para el análisis. Tenemos 5 con medias estadísticamente significativas. La 2ª información obtenida de la prueba de igualdad entre grupos es que tenemos que incluir en la función 1 como variable independiente la EPU_OBSO, luego LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC Para interpretar la función 1 tenemos que tener en cuenta el signo de coeficientes estandarizados.

Matriz de estructura

EMPR_CRE LIBERAL EPU_OBSO COMUNISM ECSOLMER DESP_LIB BEN_OBJ1 ECME_PLA MARK_NEC BAL_SOCI BENSOLAC SOCIALIS EPU_OBEC EMPR_EXP DIRE_SUF

1 ,510* ,434* -,382* ,148* -,140* ,106 -,287 ,212 -,342 -,016 -,112 -,187 -,154 -,165 ,092

Función 2 -,039 ,249 -,059 ,106 -,103 ,468* ,460* ,397* -,376* -,303* ,183* -,054 -,025 -,224 ,011

3 ,393 -,127 ,253 -,078 -,114 -,347 ,309 -,110 -,314 ,220 ,073 ,344* ,263* -,244* ,133*

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante.

También se puede ver lo anterior en la matriz de estructura. Tenemos la matriz de cargas, que son análogas a las cargas del Análisis de Componentes Principales, expresan pesos. Funciones en los centroides de los grupos

PROMOC_A 1 2 3 4

1 -,983 ,249 -,411 ,611

Función 2 -,334 -,609 ,526 ,103

3 -,296 ,364 ,232 -,191

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

Hemos obtenido datos parecidos con el Dyane. Pero podemos interpretar estos números observando el signo de cada número. Cada promoción tiene centroide distinto. Pero es más fácil verlo en la representación gráfica, como el Mapa territorial

Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos

162

Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados

0 0 162

Probabilidades previas para los grupos

PROMOC_A 1 2 3 4 Total

Previas ,250 ,250 ,250 ,250 1,000

Casos utilizados en el análisis No ponderados Ponderados 29 29,000 30 30,000 41 41,000 62 62,000 162 162,000

Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónica Función 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0   3,0  34   34   34   34   34   34  2,0     34    34  3 34  1333 34   11133 34   11333 34  1,0  11133   34     11333 34   11133 34   11333 * 34   11133 34   11333 34 *  ,0   11133 34     1133332444   * 1122 222444   12 222444   12 * 2224444   12 2222444  -1,0    12   222444   12 2224444   12 2222444   12 222444   12 2224  12 2 -2,0    12      12   12   12   12   12  -3,0  12    -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Función discriminante canónica 1

Símbolos usados en el mapa territorial Símbol -----1 2 3 4

*

Grupo -----

Etiqu --------------------

1 2 3 4

Indica un centroide de grupo

funciones discriminantes canónicas 3

2

3

1

1

0

4

PROMOC_A

2

Centroides de grupo

Función 2

-1

4: Sexto 3: Quinto

-2 2: Cuarto -3

1: Tercero -4

-3

-2

-1

0

1

2

3

4

Función 1

Estamos mirando centroides 1, 2, 3 y 4. Desde el punto de vista de la función discriminante 1, los grupos mas discriminados son los grupos 1 y 4. Ahora, depende de las preguntas, tenemos que interpretar la interrelación entre cada grupo a Resultados de la clasificación

Original

Recuento

%

PROMOC_A 1 2 3 4 1 2 3 4

Grupo de pertenencia pronosticado 1 2 3 4 17 3 7 2 8 12 3 7 8 5 21 7 5 13 16 28 58,6 10,3 24,1 6,9 26,7 40,0 10,0 23,3 19,5 12,2 51,2 17,1 8,1 21,0 25,8 45,2

a. Clasificados correctamente el 48,1% de los casos agrupados originales.

Total 29 30 41 62 100,0 100,0 100,0 100,0

Casos prácticos con SPSS: Estimación por Etapas.

Ahora veremos el método de inclusión por etapas

Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales

N 162

Porcentaje 100,0

0

,0

0

,0

0

,0

0 162

,0 100,0

Pruebas de igualdad de las medias de los grupos

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

Lambda de Wilks ,986 ,943 ,996 ,958 ,953 ,923 ,990 ,979 ,989 ,901 ,978 ,932 ,989 ,982 ,930

F ,730 3,181 ,234 2,328 2,595 4,371 ,534 1,156 ,560 5,771 1,203 3,857 ,562 ,991 3,934

gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158

Sig. ,536 ,026 ,873 ,077 ,054 ,005 ,660 ,329 ,642 ,001 ,311 ,011 ,641 ,399 ,010

Análisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza

Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada

Rango 2 2 2 2 2

Logaritmo del determinante ,118 ,790 ,568 ,467 ,568

Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos. Resultados de la prueba M de Box F Aprox. gl1 gl2 Sig.

12,297 1,332 9 115498,2 ,214

Contrasta la hipótesis nula de que las matrices de covarianza poblacionales son iguales.

Tiene nivel de significación distinto que antes. Según el método nos saldrá un resultado u otro. Aquí nos ha salido no significativo, por lo que no tenemos problema sobre la igualdad de las matrices de covarianzas.

Estadísticos por pasos a,b,c,d Variables introducidas/eliminadas

Lambda de Wilks Paso 1 2

Introducidas EMPR_CRE BEN_OBJ1

Estadístico ,901 ,802

gl1

gl2 1 2

3 3

gl3 158,000 158,000

Estadístico 5,771 6,109

F exacta gl1 gl2 3 158,000 6 314,000

En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El número máximo de pasos es 30. b. La F parcial mínima para entrar es 3.84. c. La F parcial máxima para eliminar es 2.71 d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

El concepto básico de la estimación por etapas es meter una variable independiente, si sale sign, metemos otra variable y así continuamente, metiendo y sacando variables, para quedarnos con aquellas que tienen significación estadística.

Sig

Variables en el análisis Paso 1 2

EMPR_CRE EMPR_CRE BEN_OBJ1

Tolerancia 1,000 ,894 ,894

F para eliminar 5,771 8,477 6,486

Lambda de Wilks ,932 ,901

Aparece el nivel de Tolerancia. Aquí no tiene ningún problema, ya que esta próximo a 1.

Variables no incluidas en el análisis Paso 0

1

2

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BENSOLAC BAL_SOCI MARK_NEC

Tolerancia 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,980 ,999 ,845 ,904 ,915 ,905 ,986 ,987 ,971 ,939 ,894 ,926 1,000 ,976 ,973 ,999 ,812 ,904 ,913 ,898 ,969 ,977 ,970 ,939 ,910 ,994 ,973

Tolerancia mín. 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,980 ,999 ,845 ,904 ,915 ,905 ,986 ,987 ,971 ,939 ,894 ,926 1,000 ,976 ,884 ,893 ,798 ,819 ,831 ,830 ,878 ,877 ,868 ,846 ,850 ,889 ,870

F para introducir ,730 3,181 ,234 2,328 2,595 4,371 ,534 1,156 ,560 5,771 1,203 3,857 ,562 ,991 3,934 ,518 2,782 2,135 1,901 3,055 2,485 ,899 ,913 1,120 ,620 6,486 1,576 ,981 2,801 ,675 2,519 1,410 1,839 2,809 2,741 ,704 ,736 1,155 ,596 ,799 ,864 2,765

Lambda de Wilks ,986 ,943 ,996 ,958 ,953 ,923 ,990 ,979 ,989 ,901 ,978 ,932 ,989 ,982 ,930 ,892 ,856 ,866 ,870 ,852 ,860 ,886 ,886 ,882 ,891 ,802 ,875 ,885 ,855 ,792 ,765 ,781 ,774 ,761 ,762 ,791 ,791 ,784 ,793 ,790 ,789 ,761

Lambda de Wilks

Paso 1 2

Número de variables 1 2

Lambda ,901 ,802

gl1

gl2 1 2

3 3

gl3 158 158

Estadístico 5,771 6,109

F exacta gl1 gl2 3 158,000 6 314,000

Resumen de las funciones canónicas discriminantes Autovalores Función 1 2

Autovalor % de varianza ,212a 87,9 a ,029 12,1

Correlación canónica ,418 ,168

% acumulado 87,9 100,0

a. Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis.

La información más importante del AD, aparece a partir de esta tabla. Aquí hemos detectado 2 funciones con nivel de significación estadística aceptable, pero la función 1 explica el 88 % de a varianza (casi toda). La función 2 explica solo el 12%. Par seleccionar las funciones discriminantes con nivel de significación estadística aceptable realizamos el examen de Lambda de Wilks. La función 1 es estadísticamente significativa, mientras que la 2 no lo es. Por tanto en el análisis posterior se considerara solo la función 1 (notar que hemos obtenido el mismo resultado que en el primer análisis, pero la diferencia aparece en las tablas posteriores) Lambda de Wilks Contraste de las funciones 1 a la 2 2

Lambda de Wilks ,802 ,972

Chi-cuadrado 34,888 4,534

gl 6 2

Sig. ,000 ,104

Coeficientes estandarizados de las funciones discriminantes canónicas Función EMPR_CRE BEN_OBJ1

1 ,921 -,791

2 ,520 ,702

Hemos incluido dos variables independientes, ya que estadísticamente hablando, en la estimación por etapas se usa un examen mas sofisticado. Se calcula el nivel de Lambda de Wilks para cada paso de la estimación y seleccionando únicamente las variables independientes que tienen significación aceptable para la Lambda de Wilks.

Sig. ,00 ,00

Ahora lo que haremos es, excepto esos resultados, interpretar 2 variables independientes en la función discriminatoria 1. Por eso, no hace falta interpretar la segunda parte, ya que la función 2 no es significativa La primera variable tiene signo +, y la segunda -. Los encuestados han mostrados percepciones opuestas.

Matriz de estructura

SOCIALISa MARK_NECa COMUNISMa BAL_SOCIa EPU_OBSOa BEN_OBJ1 EMPR_CRE DIRE_SUFa LIBERALa BENSOLACa DESP_LIBa ECME_PLAa EMPR_EXPa ECSOLMERa EPU_OBECa

Función 1 -,150* -,145* -,134* ,062* -,029* -,491 ,664 -,127 ,141 ,088 ,163 ,196 -,159 -,022 -,031

2 -,018 -,078 -,109 -,047 -,012 ,871* ,748* -,414* ,287* ,287* ,245* ,240* -,188* ,176* -,161*

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante. a. Esta variable no se emplea en el análisis.

En este caso no tiene mucho sentido porque ya hemos seleccionado las variables independientes. Pasaremos a la representación grafica Funciones en los centroides de los grupos

PROMOC_A 1 2 3 4

Función 1 -,586 ,460 -,469 ,362

2 -,288 -,015 ,231 -,011

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos

162

Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados

0 0 162

Probabilidades previas para los grupos

PROMOC_A 1 2 3 4 Total

_

Previas ,250 ,250 ,250 ,250 1,000

Casos utilizados en el análisis No ponderados Ponderados 29 29,000 30 30,000 41 41,000 62 62,000 162 162,000

Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónica Función 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0    3,0  32   32   32   32   32   32  2,0     32     32   342   342   3442   3442  1,0     34 42     34 42   34 42  333333 34 42  1111113333333 34 42   111111133333333 * 34 42  ,0   111111113333333 34 **     1111111334 42   * 114 42   14 42   14 42   14 42  -1,0    14 42     1442   1442   12   12   12  -2,0     12     12   12   12   12   12  -3,0  12    -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Función discriminante canónica 1 Símbolos usados en el mapa territorial Símbol Grupo Etiqueta ------ ----- -------------------1 2 3 4 *

1 2 3 4 Indica un centroide de grupo

funciones discriminantes canónicas 3

2

1

PROMOC_A

3 42

0

Centroides de grupo

1

Función 2

4 3

-1

2 -2

1 -3

-2

-1

0

1

2

3

Función 1

Con esta información usamos la función discriminante 1, no podemos usar la 2. Con la función discriminante 1:  Grupo 1 y grupo 4 se pueden discriminar, ya que están lejos horizontalmente.  Grupo 1 y grupo 2 se pueden discriminar, ya que están lejos horizontalmente.  Grupo 1 y grupo 3 es difícilmente clasificable, ya que están cerca horizontalmente.  Grupo 3 y grupo 4 se pueden discriminar, ya que están lejos horizontalmente.  Grupo 3 y grupo 2 se pueden discriminar, ya que están lejos horizontalmente. a Resultados de la clasificación

Original

Recuento

%

PROMOC_A 1 2 3 4 1 2 3 4

Grupo de pertenencia pronosticado 2 3 4 14 4 9 2 5 18 7 0 11 10 19 1 12 28 20 2 48,3 13,8 31,0 6,9 16,7 60,0 23,3 ,0 26,8 24,4 46,3 2,4 19,4 45,2 32,3 3,2

1

Total 29 30 41 62 100,0 100,0 100,0 100,0

a. Clasificados correctamente el 32,7% de los casos agrupados originales.

Una aplicación práctica del Análisis Discriminante es validar el Análisis Cluster. Guardando el resultado del análisis cluster en una variable, y realizando posteriormente el AD con la nueva variable creada.

Ejercicio 6 1. ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes? 2. ¿En qué se diferencian el análisis discriminante múltiple, el análisis de regresión, el análisis multivariante de la varianza (MANOVA), y la regresión logística? 3. Explique los siguientes términos: función discriminante, coeficientes estandarizados, y cargas discriminantes. 4. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá, en la que se midieron las actitudes hacia la empresa y los sistemas económicos. Interprete la siguiente salida de SPSS del análisis discriminante: 5. A continuación, se obtuvieron las siguientes tablas. Plantee una conclusión del análisis discriminante a partir de la siguiente información. 1. ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes? En el análisis discriminante (AD) existen dos métodos de estimación: la estimación conjunta o simultánea y la estimación por pasos o etapas. En el DYANE sólo está implementada la estimación conjunta mientras que en el SPSS están ambos métodos de estimación. La estimación por etapas produce resultados más conservadores y se eliminan las variables que no contribuyen a la capacidad discriminatoria. Es decir: es un método para seleccionar las variables que contribuyen y que tienen el nivel de significación más importante y son incluidas finalmente en la función discriminante. Cuando efectuamos un AD mediante SPSS, únicamente nos salen las variables son suficiente capacidad discriminatoria. Las cargas sólo salen para todas las variables independientes. La importancia o pesos de cada variable independiente son los coeficientes de correlación canónicas. Ventajas: la estimación conjunta es más sencilla. Si utilizamos DYANE, hay que realizar un ANOVA univariante (para medir si las medias son significativamente diferentes o distintas) para poder seleccionar las variables con más significación estadística y luego realizar el AD. Cuando tenemos solamente dos grupos, se emplea la t de Student. 2. ¿En qué se diferencian el análisis discriminante múltiple, el análisis de regresión, el análisis multivariante de la varianza (MANOVA), y la regresión logística? Regresión múltiple (RM) Análisis discriminante (AD)

Y = α + β1X1 + β2X2 + ... + βnXn Z= a + W1X1 + W2X2 + ... + WnXn

El MANOVA es la inversa del AD, donde la variable dependiente es la independiente. La Regresión Logística (RL) es un caso particular del AD,

donde la variable dependiente es nominal (dicotómica) y la independiente es métrica. 3. Explique los siguientes términos: función discriminante, coeficientes estandarizados, y cargas discriminantes. La Función Discriminante (FD) es una combinación lineal de dos o más variables que contienen una serie de puntuaciones Z. W1, W2, ... ,Wn son coeficientes discriminantes que son análogos a los coeficientes de la regresión múltiple. Estos coeficientes representan las contribuciones relativas de sus variables asociadas a las funciones discriminantes. ¿Por qué se estandarizan las variables? Se estandarizan por que nos son valores directamente comparables. Las cargas discriminantes son técnicamente semejantes a las obtenidas mediante el ACP. Miden la correlación lineal simple entre cada variable independiente y la FD. Reflejan también la varianza que existe entre las variables independientes y la FD obtenida. Esta última cuestión está muy relacionada con el concepto de Autovalor. 4. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá, en la que se midieron las actitudes hacia la empresa y los sistemas económicos. Interprete la siguiente salida de SPSS del análisis discriminante: El M de Box sirve para comprobar el supuesto de la igualdad de las matrices de covarianzas o de dispersión. Entre dos o más grupos de debe 0,03 es un nivel aceptable. ser significativo. En este caso tenemos 0,029, por lo que podemos Resultados de la prueba M de Box considerarlo válido. 510,813 F

Aprox.

1,147

gl1

360

gl2

32104,883

Sig.

,029

Autovalores Función 1 2

Autovalor ,379(a) ,167(a)

% de varianza 61,6 27,1

% acumulado 61,6 88,7

Correlación canónica ,524 ,378

3 ,070(a) 11,3 100,0 ,255 a Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.

Esta tabla no contiene información significativamente estadística. El autovalor significa la varianza representada por la FD. Las correlaciones canónicas al cuadrado proporcionan una estimación de la cantidad de varianza compartida entre las respectivas combinaciones lineales óptimamente estimadas entre las variables independientes y las dependientes. Junto con la información proporcionada por la 2ª y 3ª columna se puede decir que la FD 1 representa el 61,6% de la varianza y que la FD 2 y FD 3, explican sólo el 38,4%.

Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3

Lambda de Wilks ,581 ,801

Chi-cuadrado 82,276 33,564

,935

10,181

3

Gl 45 28

Sig. ,001 ,216

13

,679

El lambda de Wilks es un examen estadístico para ver si las FD tienen significación estadística. La única FD válida sería la primera por lo que solamente será utilizada para análisis posteriores.

5. A continuación, se obtuvieron las siguientes tablas. Plantee una conclusión del análisis discriminante a partir de la siguiente información. La tabla corresponde a una salida donde se ha efectuado un ANOVA univariante de forma conjunta para comprobar la significación estadística de las variables independientes y poderlas así incluirlas en la FD. Las variables a incluir son EPU_OBSO, LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC. Pruebas de igualdad de las medias de los grupos

EPU_OBEC EPU_OBSO

Lambda de Wilks ,986 ,943

F ,730 3,181

gl1 3 3

gl2 158 158

Sig. ,536 ,026

DIRE_SUF

,996

,234

3

158

,873

ECME_PLA

,958

2,328

3

158

,077

DESP_LIB

,953

2,595

3

158

,054

LIBERAL

,923

4,371

3

158

,005

ECSOLMER

,990

,534

3

158

,660

SOCIALIS

,979

1,156

3

158

,329

COMUNISM

,989

,560

3

158

,642

EMPR_CRE

,901

5,771

3

158

,001

EMPR_EXP

,978

1,203

3

158

,311

BEN_OBJ1

,932

3,857

3

158

,011

BENSOLAC

,989

,562

3

158

,641

BAL_SOCI

,982

,991

3

158

,399

MARK_NEC

,930

3,934

3

158

,010

Coeficientes estandarizados de las funciones discriminantes canónicas Función 1

2

3

EPU_OBEC EPU_OBSO

-,042 -,429

,153 -,043

,228 ,139

DIRE_SUF

,291

,172

,224

ECME_PLA

,061

,452

,029

DESP_LIB

,012

,420

-,492

LIBERAL

,348

,169

-,192

ECSOLMER

-,086

-,161

-,203

SOCIALIS

-,037

,148

,429

COMUNISM

,360

,144

-,279

EMPR_CRE

,721

-,509

,463

EMPR_EXP

,098

-,090

-,236

BEN_OBJ1

-,447

,537

,293

BENSOLAC

-,142

,114

,224

BAL_SOCI

-,035

-,205

,129

MARK_NEC

-,202

-,498

-,369

Para la FD, dos variables tienen signo positivo y tres negativos. A la hora de interpretar FD tenemos que tener en cuenta estos efectos.

funciones discriminantes canónicas 3

2

1

3 4

0

PROMOC_A

1 2

Centroides de grupo

Función 2

-1

4: Sexta (84/85) 3: Quinta (83/84)

-2 2: Cuarta (82/83) -3

1: Tercera (81/82) -4

-3

-2

-1

0

1

2

3

4

Función 1

Para este mapa territorial únicamente debemos considerar la FD 1, ya que es la única que ha salido estadísticamente significativa.

Resultados de la clasificación(a) PROMOC_A

Grupo de pertenencia pronosticado 1

Original

Recuento

1

2 17

3 3

Total 4

7

2

29

2

8

12

3

7

30

3

8

5

21

7

41

4

5

13

16

28

62

Tenemos que calcular los resultados obtenidos a partir de esta matriz de confusión: (17+12+21+28)/(29+30+41+62)=0,481, es decir que el 48,1% de las variables están correctamente clasificadas.

TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA)

Estructura de la clase: 1. Introducción. 2. Definición y objetivo. 3. Términos y conceptos básicos del MANOVA. 4. Supuestos básicos del MANOVA. 5. Diseño del estudio con el MANOVA. 6. Casos prácticos con SPSS. Introducción. - El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferencias entre las medias de varios grupos con múltiples variables. - El MANOVA y el AD son “imágenes de espejo”. Las variables DEPENDIENTES en el MANOVA (una serie de variables métricas) son las variables INDEPENDIENTES en el AD y una simple variable DEPENDIENTE (no métrica) del AD se convierte en la variable INDEPENDIENTE en el MANOVA. - Las diferencias entre el MANOVA y el AD, sin embargo, se centran alrededor de los objetivos de los análisis y el papel de las variables no métricas. El AD emplea una variable no métrica como variable dependiente. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. En el MANOVA por el contrario, la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente; en su lugar, el investigador utiliza una o más variables independientes (no métricas) para formar grupos (Hair et al., 1999, pp.351).

¿Por qué se usa el MANOVA? Para contrastar las medias de dos grupos se utiliza el test t de Student. Grupos Valor de t de p* Student A B Variable métrica Media A Media B xx xx Si p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B), y por ello, concluir que existe diferencia significativa entre las dos medias (Media A ≠ Media B).

Cuando queremos contrastar medias de tres o más grupos, podemos llevar a cabo múltiples tests t separados para contrastar la diferencia entre cada par de medias de una variable. Sin embargo, los tests t múltiples hinchan el porcentaje del error Tipo I. El ANOVA evita este aumento del error de Tipo I al comparar un conjunto de grupos. Por ello, para contrastar conjuntamente las medias de tres o más grupos de una variable se utiliza el ANOVA. Grupos Valor de F p* A B C Variable métrica Media A Media B Media C xx xx Si p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B = Media C), y por ello, concluir que existen diferencias significativas entre las tres medias (Media A ≠ Media B ≠ Media C).

Si queremos examinar las medias de tres o más grupos respecto a múltiples variables, podríamos aplicar el ANOVA varias veces a cada una de las variables por separado. Sin embargo, con la misma lógica aplicada con los tests t múltiples, la repetición del ANOVA aumenta el error de Tipo I. El MANOVA evita este problema, y es más adecuado para examinar las medias de múltiples grupos respecto a múltiples variables. Grupos p* Lambda de F Wilks* A B C Variable métrica 1 Media A1 Media B1 Media C1 xx xx Variable métrica 2 Media A2 Media B2 Media C2 xx xx Valor único Variable métrica 3 Media A3 Media B3 Media C3 xx xx Si p es menor que el nivel de significación previamente establecido, se puede decir que existen diferencias univariantes (Media A ≠ Media B ≠ Media C). Sin embargo, el poder del MANOVA es permitir detectar diferencias multivariantes examinando el “Lambda de Wilks”.

Sin embargo, los contrastes individuales ignoran las correlaciones entre las variables dependientes (métricas) y por ello no se emplea toda la información disponible para valorar diferencias globales en los grupos. Por ello, el MANOVA computa un valor único “Lambda de Wilks” para detectar diferencias multivariantes. Tanto el ANOVA como el MANOVA son particularmente útiles cuando se usan conjuntamente con diseños experimentales en los que el investigador controla o manipula directamente una o más variables independientes para determinar su efecto sobre una (ANOVA) o más (MANOVA) variables dependientes (Hair et al., 1999, pp.346).

Definición y objetivo. El MANOVA es una técnica de dependencia que mide las diferencias entre dos o más variables métricas dependientes basadas en un conjunto de variables categóricas independientes. El MANOVA nos permite: 5. detectar diferencias globales debido a la combinación de las variables dependientes (métricas) que no se encuentran con los contrastes univariantes (Caso 1). 6. realizar el examen de múltiples variables independientes (no métricas o categóricas) (Caso 2). 7. controlar el porcentaje global del error de Tipo I. Casos en los que es adecuado utilizar el MANOVA : a. Caso 1: Preguntas sobre múltiples variables dependientes (métricas) y una variable independiente (no métrica). En este caso el investigador pretende realizar preguntas sobre múltiples variables dependientes (por ejemplo, renta, consumo, etc.) que quiere analizar por separado, controlando el porcentaje de error de Tipo I. En esta situación, el MANOVA en primer lugar valora si se encuentra alguna diferencia global entre grupos. Variable independiente (no métrica)

Clase social

Lambda de Wilks* (valor único)

p

El análisis se continua llevando a cabo contrastes univariantes separados para dar respuestas individuales a cada variable dependiente (métrica). Variable independiente (no métrica) Clase social Alta Media Baja Variables Variable 1 dependientes Variable 2 (métricas) Variable 3

F

p

b. Caso 2: Preguntas sobre múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas). En este caso el investigador pretende realizar preguntas sobre dos o más variables independientes (por ejemplo, sexo, clase social, etc.) y examinar si existen unas determinadas relaciones entre ellas. El MANOVA proporciona un método estructurado para especificar las comparaciones de las diferencias de los grupos sobre un conjunto de medidas dependientes mientras se mantiene la eficiencia estadística.

Variable independiente (no métrica)

Clase social

Variable independiente (no métrica)

Sexo

Variables independientes (no métrica)

Clase Social X Sexo

Lambda de Wilks* (valor único)

p

Lambda de Wilks* (valor único)

p

Lambda de Wilks* (valor único)

p

Variables independientes (no métrica) Clase social Alta Media Baja Hombre Mujer Hombre Mujer Hombre Mujer Variables Variable 1 dependientes Variable 2 (métricas) Variable 3

F

p

Términos y conceptos básicos del MANOVA. Caso 1: múltiples variables dependientes (métricas) y una variable independiente (no métrica). Supongamos, por ejemplo, que identificamos una variable categórica (independiente), “clase social”, con tres categorías: alta, media y baja. Pretendemos estudiar si existen diferencias importantes entre estas tres clases sociales, teniendo en cuenta tres variables dependientes (métricas), que son: renta, consumo de refrescos mensual y gasto en agua mensual. Para ello, seleccionaríamos tres grupos de personas de clase alta, media y baja, y les pediríamos que valorasen en una escala métrica su renta, su consumo de refrescos y su gasto de agua. A continuación, calcularíamos las medias para cada grupo y para cada valor de la variable dependiente, que se indicarían en las celdas sombreadas de la tabla siguiente. Alta Variables dependientes (métricas)

Clase social Media

Baja

Renta Consumo de refrescos mensual Gasto en agua mensual

El MANOVA sigue los siguientes pasos: Paso 1: El MANOVA detecta diferencias combinadas que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio de Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. El contraste más comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. Este examen estadístico considera todas las raíces características, es decir, compara si los grupos son de algún modo diferentes sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes.

Aunque la computación del lambda de Wilks es compleja, se tienen buenas aproximaciones para contrastar la significación, transformándolo en un estadístico F.

Variable independiente (no métrica)

Clase social

Lambda de Wilks* (valor único)

F

p

Paso 2: A continuación, el MANOVA detecta las diferencias univariantes mediante el contraste F o el ANOVA univariante.

Variable independiente (no métrica) Clase social Alta Media Baja Variables Renta dependientes (métricas) Consumo de refrescos mensual Gasto en agua mensual

F

p

Caso 2: múltiples variables dependientes (métricas) múltiples variables independientes (no métricas).

y

Supongamos, por ejemplo, que identificamos dos variables independientes (categóricas), “línea de producto” y “tipo de cliente”. Cada una de ellas tiene dos categorías, producto 1 y producto 2 para la variable “línea de producto” y cliente anterior y cliente actual para “tipo de cliente”. Combinando estas dos variables independientes formamos los cuatro grupos siguientes (Tabla 1): Tabla 1 Variable “línea de producto” Variable “tipo de cliente”

Cliente anterior Cliente actual

Producto 1 Grupo 1 Grupo 2

Producto 2 Grupo 3 Grupo 4

Pretendemos estudiar cómo éstas variables categóricas causan diferencias en la manera en que la gente evalúa la publicidad de una determinada marca, concretamente en “recuerdo” y “compra” (variables dependientes). Para ello, preguntaríamos a individuos de cada uno de los grupos anteriores que valorasen en una escala métrica “recuerdo” y “compra”. A continuación calcularíamos las medias para cada grupo y para cada valor de la variable dependiente (métrica) que se indicarían en las celdas sombreadas de la tabla 2. Tabla 2 Variables independientes (no métrica) Línea de producto Producto 1 Producto 2 Cliente Cliente Cliente Cliente anterior actual anterior actual (grupo 1) (grupo 2) (grupo 3) (grupo 4) Variables Recuerdo dependientes Compra (métricas)

Podemos usar el MANOVA para combinar estas dos variables dependientes (recuerdo y compra) en un único valor teórico, de forma idéntica al AD.

Y MEDIA GRUPO 4

Medias

Producto 2 MEDIA GRUPO 2 +GRUOP 4 Medias

Producto 1 MEDIA GRUPO 2 MEDIA GRUPO 1 +GRUOP 2 Producto 2



d1

d2

MEDIA GRUPO 3

Producto 1 MEDIA GRUPO 3 +GRUOP 4

Cliente anterior MEDIA GRUPO 1 +GRUOP 3

Cliente actual

MEDIA GRUPO 1

Cliente anterior

Cliente actual

X

El gráfico de arriba representa en el eje X el tipo de cliente y en el eje Y la media, y en él se indica con el símbolo las cuatro medias de dicho valor teórico para cada uno de los grupos (estos símbolos representarían la media de cada columna de la Tabla 2). Las dos líneas continuas conectan los dos tipos de cliente (cliente anterior y cliente actual) para un mismo tipo de producto (producto 1 y producto 2). Las dos líneas discontinuas verticales conectan los dos tipos de productos para un mismo tipo de cliente. Los símbolos de la figura indican la media para cada categoría de una de las dos variables independientes calculada sin distinguir las categorías que adopta la otra variable independiente, es decir, lo que podemos denominar la “media de la categoría” de las variables independientes (categóricas). El cálculo de dicha “media de la categoría” nos permite evaluar cómo el tipo de producto y/o el tipo de cliente influye en las variables dependientes (métricas). Siguiendo con el ejemplo, un examen visual del gráfico anterior pone de manifiesto que la diferencia entre medias para el tipo de cliente (distancia “d1” en el gráfico) es mayor que la diferencia entre las medias para el tipo de producto (distancia “d2” en el gráfico). Todo ello nos permite concluir que ambas características (tipo de producto y tipo de cliente) causan diferencias significativas, un resultado que no es posible obtener con el análisis discriminante.

El MANOVA difiere del AD en la manera en que se forman y se analizan los grupos. Sólo podría llevarse a cabo el AD sobre los cuatro grupos, sin distinción de las características del grupo. Con el MANOVA, el investigador analiza las diferencias entre los grupos a la vez que valora si las diferencias se deben al tipo de producto, al tipo de cliente o a ambos. Por tanto, el MANOVA se centra en el análisis sobre la composición de los grupos basada en sus características (es decir, en las variables independientes).

Supuestos básicos del MANOVA. Tamaño muestral: 1) El tamaño de cada grupo mínimo debe ser de 20 observaciones. 2) El tamaño de cada “celda” debe ser más grande que el número de variables dependientes incluidas. Supuestos generales: 1) Linealidad. 2) El conjunto de las p-variables dependientes debe seguir una distribución normal multivariante (en la práctica, este supuesto NO se puede comprobar con SPSS; por ello se debe asegurar que cualquier combinación de las variables dependientes sigue una distribución normal). Supuestos específicos: 1) Las observaciones deben ser independientes. 2) Las matrices de varianzas–covarianzas deben ser iguales para todos los grupos de tratamiento (M de Box; en SPSS, seleccione “Opciones” → “Pruebas de homogeneidad”). 3) La ausencia de la multicolinealidad.

Potencia estadística de los contrastes multivariantes: En términos sencillos, la potencia es la probabilidad de que el contraste estadístico identifique un efecto del “tratamiento” si este realmente existe. La potencia puede ser definida como uno menos la probabilidad del error de Tipo II (beta). El investigador debe considerar, no sólo el nivel de significación alfa, sino también la potencia resultante, y debe intentar mantener un nivel de significación alfa aceptable con una potencia cerca de 0,80. El SPSS ofrece una opción para comprobar el nivel de la potencia (“Opciones” → “Potencia observada”). Tras realizar el MANOVA, el investigador debe determinar primero si la potencia obtenida fue suficiente, es decir, 0,80 o más. Si no fuese así, y especialmente si no se han encontrado diferencias significativas, el investigador podría reformular el diseño de análisis.

Diseño del estudio con el MANOVA.     

Objetivos del estudio con el MANOVA. Examen de los supuestos. Estimación del modelo MANOVA y valoración del ajuste global. Análisis sobre efectos de interacciones. Interpretación de los resultados.

Casos prácticos con SPSS. Utilizaremos el archivo AD_SPSS.

Al igual que hicimos en el AD, escogemos las siguientes variables dependientes:     

EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC

Como variable independiente o Factor Fijo  PROMOC_A

En Opciones elegimos Pruebas de Homogeneidad,

Las salidas de SPSS son las siguientes:

Prueba de Box sobre la igualdad a de las matrices de covarianza M de Box 72,140 F 1,501 gl1 45 gl2 36983,674 Significación ,016 Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a. Diseño: Intercept+PROMOC_A

El nivel de significación obtenido es 0,016 < 0,05, por lo que las matrices de varianzas-covarianzas no son iguales. Podemos decir que no se cumple el test de M de Box. c Contrastes multivariados

Efecto Intercept

Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy PROMOC_A Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy

Valor ,970 ,030 32,499 32,499 ,325 ,699 ,397 ,290

F 1000,978 a 1000,978 a 1000,978 a 1000,978 a 3,794 3,933 4,043 9,053 b

Gl de la hipótesis 5,000 5,000 5,000 5,000 15,000 15,000 15,000 5,000

Gl del error Significación 154,000 ,000 154,000 ,000 154,000 ,000 154,000 ,000 468,000 ,000 425,528 ,000 458,000 ,000 Sólo nos vamos 156,000 ,000

a fijar en el lambda de Wilks. En a. Estadístico exacto este caso sale b. El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significativo, por lo que significación. podemos decir que c. Diseño: Intercept+PROMOC_A existen diferencias multivariantes o globales significativas con las variables seleccionadas.

Las pruebas de los efectos inter-sujetos sirven para ver si existen diferencias univariantes. Mediante el MANOVA se pueden ver si existen diferencias univariantes y multivariantes.

Pruebas de los efectos inter-sujetos

Fuente Variable dependiente Modelo corregido EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Intercept EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC PROMOC_A EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Error EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total corregida EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC

Suma de cuadrados tipo III 8,412 a 13,468 b 24,093 c 16,408 d 11,836 e 2201,840 1138,098 1204,498 1211,868 761,240 8,412 13,468 24,093 16,408 11,836 139,267 162,267 219,864 224,036 158,441 2490,000 1499,000 1625,000 1558,000 957,000 147,679 175,735 243,957 240,444 170,278

a. R cuadrado = ,057 (R cuadrado corregida = ,039) b. R cuadrado = ,077 (R cuadrado corregida = ,059) c. R cuadrado = ,099 (R cuadrado corregida = ,082) d. R cuadrado = ,068 (R cuadrado corregida = ,051) e. R cuadrado = ,070 (R cuadrado corregida = ,052)

gl 3 3 3 3 3 1 1 1 1 1 3 3 3 3 3 158 158 158 158 158 162 162 162 162 162 161 161 161 161 161

Media cuadrática 2,804 4,489 8,031 5,469 3,945 2201,840 1138,098 1204,498 1211,868 761,240 2,804 4,489 8,031 5,469 3,945 ,881 1,027 1,392 1,418 1,003

F 3,181 4,371 5,771 3,857 3,934 2498,006 1108,170 865,585 854,661 759,119 3,181 4,371 5,771 3,857 3,934

Significación ,026 ,005 ,001 ,011 ,010 ,000 ,000 ,000 ,000 ,000 ,026 ,005 ,001 ,011 ,010

MANOVA_1

Mod lineal general  multivariante

Opciones:

Resultados: Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 276,347 F 5,958 gl1

40

gl2

1141,882

Significación

,000

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseño: Intercept+EDUCAC

Tenemos que mencionar y justificar teóricamente porqué nos ha salido significativo.

Ahora vamos a realizar un Análisis Discriminante, por lo que tenemos que invertir las VI y las VD.

Primero tenemos que cambiar esta variable a numérica: nivel de educación. En rango ponemos mínimo 1 y máximo 4.

Y en estadísticos seleccionamos ANOVA y M de Box.  Aceptar Tenemos 3 funciones discriminantes pero solo la primera ha salido significativa. Y antes de Box tenemos una tabla que ofrece ex univariante. Hemos obtenido la misma información que el MANOVA. Pruebas de igualdad de las medias de los grupos

Edad (años) Renta anual (en mil)

Lambda de Wilks ,995 ,959

F 1,454 12,115

Deuda de tarjeta de credito

,986

Otras deudas

,971

gl1 3 3

gl2 841 841

Sig. ,226 ,000

4,105

3

841

,007

8,268

3

841

,000

MANOVA_2

Fc fijo: Fumador o no. Variables dependientes: las de actitudes (4 variables). M de box no significativo cumple supuesto La VI es fumador o no, lambda de wilks ha salido 0,142, no significativo, por lo que no hay diferencias multivariantes. No son interesa el análisis posterior. Ahora cambiamos los factores fijos y ponemos sexo porque nos interesa saber si hay diferencias entre hombres y mujeres. Nos sale 0,885 por lo que ya nonos interesa. Cambiamos otra vez fc fijos para saber si hay diferencias globales en los distintos grupos de clase social. M de box cumple el supuesto específico. Wilks sale 0,082  si tenemos suficiente material bibliográfico para sostener la hipótesis pues la aceptamos. Pero si es un estudio exploratorio, rechazamos de fijo. No se puede generalizar. Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 20,067 F 1,369 gl1

10

gl2

937,052

Significación

,190

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseño: Intercept+CLASESOC

Contrastes multivariados(d) Efecto Intercept

Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Traza de Pillai

CLASESOC

Lambda de Wilks Traza de Hotelling Raíz mayor de Roy a b c d

Significación ,000

Parámetro de no centralidad 178,486

Potencia observada(a ) 1,000

Valor ,927

F 44,621(b)

Gl de la hipótesis 4,000

,073

44,621(b)

4,000

14,000

,000

178,486

1,000

12,749

44,621(b)

4,000

14,000

,000

178,486

1,000

12,749

44,621(b)

4,000

14,000

,000

178,486

1,000

,606

1,630

8,000

30,000

,158

13,040

,600

,408

1,978(b)

8,000

28,000

,087

15,820

,694

1,414

2,298

8,000

26,000

,052

18,387

,762

1,389

5,210(c)

4,000

15,000

,008

20,840

,895

Gl del error 14,000

Calculado con alfa = ,05 Estadístico exacto El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación. Diseño: Intercept+CLASESOC

MANOVA_3

Como variables dependientes. Luego elegimos 2 VI (categóricas): Tenemos que reconstruir el análisis de las fotocopias del profesor shintaro. Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 66,430 F ,944 gl1

60

gl2

5107,970

Significación

,598

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Cumple el supuesto. Contrastes multivariados(d) a b c d

Calculado con alfa = ,05 Estadístico exacto El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación. Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Si utilizamos el MANOVA con dos fc fijos la interpretación es muy complicada a no ser que busquemos alguna interacción muy específica. Por lo que no es conveniente usar con dos Fc fijos. *** Interacciones entre análisis cluster y MANOVA: MANOVA_4

Para análisis discriminante

Para MANOVA

Ejercicio 7 1. ¿Por qué se usa el MANOVA en vez del ANOVA? 2. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante? 3. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido? 4. Mencione los supuestos específicos del MANOVA. 5. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio. Variables dependientes (métricas; sólo cinco):  EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada.  LIBERAL: El liberalismo es la mejor doctrina económica.  EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza.  BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa.  MARK_NEC: El marketing es solo un método para vender más, creando necesidades aparentes. Variable independiente (no métrica)  PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta (84/85).

6. Se realizó una investigación acerca de las percepciones hacia el tabaquismo con 80 muestras de la Universidad Autónoma de Madrid. Se examinaron estudiantes de tres carreras distintas: Administración y Dirección de Empresas, Derecho y Bioquímica. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud; (2) No debe permitirse fumar en lugares públicos; (3) Deben aumentarse los impuestos sobre el tabaco, y (4) Debe intensificarse la información sobre los efectos del tabaco en la salud. Sobre la base de la revisión bibliográfica, se planteó la siguiente hipótesis principal: H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales. Nuestra proposición es que los estudiantes de ciencias tienden a señalar actitudes más negativas contra el tabaquismo. Tras efectuar el MANOVA con SPSS, se obtuvieron las siguientes salidas. Haga su interpretación sobre dichas salidas y concluya el estudio. (Nota: se omitió “Potencia observada”.)

Contrastes multivariados(c) Efecto Carrera universitaria

Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy

Valor ,606

F 1,630

Gl de la hipótesis 8,000

Gl del error 30,000

Significación ,158

,408

1,978

8,000

28,000

,087

1,414

2,298

8,000

26,000

,052

1,389

5,210

4,000

15,000

,008

1. ¿Por qué se usa el MANOVA en vez del ANOVA?

Por que se trata de estudiar la varianza de múltiples variables dependientes métricas. El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferentas entre las medias de varios grupos con múltiples variables. No podemos saber si existen diferencias globales o diferencias multivariantes o efectos combinados. Cuando queremos examinar las medias de múltiples variables métricas dependientes podríamos aplicar al ANOVA varias veces a cada una de las variables por separado. Sin embargo la repetición del ANOVA hincha el error de tipo I. Además las múltiples ANOVAs no pueden detectar las correlaciones entre las variables métricas dependientes. El MANOVA evita el aumento del error de tipo I y al mismo tiempo permite identificar las diferencias multivariantes respecto a múltiples variables. 2. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante?

Las diferencias entre el MANOVA y el AD se centran alrededor de los objetivos de los análisis y del papel de las variables no métricas. Las diferencias entre el MANOVA y el AD se centran alrededor de los análisis y el papel de las variables no métricas. El AD emplea una variable no métrica como variable dependiente. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. En el MANOVA por el contrario la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente, en su lugar el investigador utiliza una o más variables independientes (no métricas) para formar grupos. Ambas técnicas son complementarias. Tras realizar el MANOVA conseguimos datos estadísticos pero para conocer que variable contribuye a las diferencias multivariantes realizaremos un AD.

3. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido?

El MANOVA detecta diferencias combinados que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. El contraste mas comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. Este examen estadístico considera todas las raíces características es decir compara si los grupos son de algún modo diferente sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes. 4. Mencione los supuestos específicos del MANOVA.

Supuestos Generales:  Linealidad.  El conjunto de las p variables dependientes debe seguir una distribución normal multivariante (en la práctica, este supuesto NO se puede comprobar con SPSS, por ello se debe asegurar que cualquier combinación de las variables dependientes siguen una distribución normal). Supuestos específicos:  Las observaciones deben ser independientes.  Las matrices de varianzas-covarianzas deben ser iguales para todos los grupos do tratamiento (M de Box > 0,03, es decir no significativo; en SPSS: Opciones pruebas de homogeneidad).  La ausencia de la multicolinealidad. 5. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio. Variables dependientes (métricas; sólo cinco):  EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada.  LIBERAL: El liberalismo es la mejor doctrina económica.  EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza.  BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa.  MARK_NEC: El marketing es solo un método para vender más, creando necesidades aparentes. Variable independiente (no métrica)  PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta (84/85).

Al realizar mediante el M de Box nos sale 0,016 10,10. Es significativo. Cumple la hipótesis de que existen diferencias significativas en la percepción negativa del tabaco entre alumnos de carreras diferentes.)

Pruebas de los efectos inter-sujetos

Fuente Carrera universitaria

Variable dependiente 'Fumar perjudica la salud' 'No debe permitirse fumar en lugares públicos' 'Deben aumentarse los impuestos sobre el tabaco' 'Debe intensificarse la información sobre los efectos del tabaco en la salud'

Suma de cuadrados tipo III

Media cuadrática

gl

F

Significación

13,075

2

6,538

7,868

,004

5,875

2

2,938

2,794

,089

5,875

2

2,938

2,513

,111

,800

2

,400

,313

,736

Existen diferencias significativas en la percepción de los alumnos de las cuatro carreras citadas en cuanto a considerar que fumar perjudica la salud y que no debe permitirse fumar en lugares públicos. Sin embargo no existen diferencias significativas en las otras variables independientes en función de la pertenencia a una carrera de ciencias sociales o científicas. Los contrastes F multivariantes para cada variable dependiente (métricas por separado detectaron diferencias significativas univariantes con un nivel de significación de 0,10 solo para "Fumar perjudica la salud" y "no debe permitirse fumar el lugares públicos", mientras no identifica ninguna diferencia significativa para "debe aumentarse los impuesto sobre el tabaco" y "debe intensificarse la información sobre los efectos del tabaco en la salud". De ello se puede concluir que las diferencias globales se atribuyen a las diferencias univariantes sobre dichas dos preguntas y 2- los efectos combinados de las cuatro variables dependientes (métricas). Se necesita no sólo examinar las medias para cada par de grupos para conocer si efectivamente los estudiantes de la carrera de bioquímica muestran una percepción más fuerte contra el tabaquismo. Sin embargo el presente estudio debe considerarse con un carácter exploratorio debido al tamaño muestral relativamente pequeño, los resultados del estudio no deben generalizarse. Se necesitara una investigación futura con un mayor número de muestras para obtener conclusiones definitivas.

TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT)

Estructura de la clase: 1. Introducción. 2. Objetivo de la RL. 3. Modelo de la RL. 4. Diseño del estudio con la RL. 5. Medición de la variable dependiente. 6. Estimación del modelo. 7. Supuestos básicos de la RL. 8. Bondad de ajuste. 9. Interpretación de los resultados. 10. Comparación de los modelos: regresión, discriminante y logit. 11. Casos prácticos con SPSS. Introducción. ¿Qué características del estilo de vida son factores de riesgo de enfermedad cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta, ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse posteriormente para derivar estimaciones de la razón de las ventajas para cada uno de los factores y así indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una enfermedad cardiovascular frente a los no fumadores.

Objetivo de la RL. El objetivo de la RL es (estimar un modelo de dependencia en el que la variable dependiente es cualitativa y binaria mediante una función logística. Buscamos una combinación lineal entre las variable dependiente e independiente. La variable dependiente ha de ser binaria).

Modelo de la RL.

Diseño del estudio con la RL. 1. Objetivos 2. Seleccionar variable dependiente (categórica) e independientes (métricas, también se puede utilizar variables categóricas). 3. Supuestos del análisis 4. Estimación del modelo de regresión logística y valoración del ajuste global 5. Interpretación y bondad de ajuste 6. Validación de los resultados Podemos cambiar el orden de los pasos para realizar el análisis, realizar primer el 4, después el 3 y luego el 2. También sería válido. En la RM intentamos minimizar la suma de los residuos, pero en el LOGIT, no utilizamos este concepto, porque no cumple la linealidad. En vez de utilizar el concepto de residuo, utilizamos el concepto de Chicuadrado.

Medición de la variable dependiente. -

En el logit, se predice la probabilidad de ocurrencia. Por ejemplo, si utiliza un determinado producto de limpieza,… variable no métrica a) dicotómica b) multicotómica: logit multinominal

Estimación del modelo. -

Variables independientes: categóricas o métricas. Categóricas: se transforman en ficticias. Estimación por máxima probabilidad: estimadores más probables para los coeficientes (no minimización de suma de cuadrados, sino maximización de probabilidad de ocurrencia de un suceso).

Supuestos básicos de la RL. Tienen que cumplir los siguientes supuestos: - Robustez del modelo de la RL. Es muy flexible y poderoso. - Menos restrictivo que el AD (normalidad y homocedasticidad), si no cumple estos supuestos podemos utilizar el Logit. - La RL es adecuada cuando no se cumple el supuesto de igualdad de las matrices de varianzas-covarianzas entre grupos.

Bondad de ajuste. a) -2LL (logaritmo de la probabilidad): 0: ajuste perfecto (probabilidad 1).Cuanto mayor sea peor es el ajuste En RM buscamos un coeficiente de determinación mucho mejor. En Logit, nos centramos en el valor del logaritmo de la probabilidad, si el valor es 0 el ajuste es perfecto. b) Valor de Hosmer y Lameshow: Un valor Chi-cuadrado no significativo indica un buen ajuste del modelo. Con esto comparamos el modelo real y el modelo predicho (si son iguales será significativo). c) R2 de Nagelkerke: 0: ajuste malo 1: ajuste perfecto d) Coeficiente estadístico de Wald

Interpretación de los resultados. Resumen de los modelos

Paso 1

-2 log de la verosimilitud

R cuadrado de Cox y Snell

R cuadrado de Nagelkerke

48.538(a)

.143

.217

a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de .001.

Nos interesa el R cuadrado de Nagelkerke, este es análogo al coeficiente de determinación de la RM. Estos valores varían entre 0 y 1. Prueba de Hosmer y Lemeshow Paso 1

Chi-cuadrado

gl

Sig.

12.132

8

.145

Esta prueba indica el valor de chi cuadrado, con ella detectamos diferencias significativas. Si sale significativo es incorrecto, porque el modelo tiene que ser parecido al modelo real, por lo que debe salir no significativo, serían muy parecidos. No existe ninguna diferencia significativa. En los datos podemos ver como es no significativo 0,145. Tabla de clasificación(a) Observado

Pronosticado q21

Paso 1

q21

.00

1.00

Porcentaje correcto

.00

40

1

97.6

1.00

10

2

16.7

Porcentaje global

79.2

a El valor de corte es .500

Esta tabla es similar a la tabla de clasificación del AD, matriz de confusión o clasificación. Este es uno de los objetivos principales del AD. Los valores a la derecha de q21 determinan la presencia o no de un determinado fenómeno, es la variable dependiente. El 40% de la muestra está clasificada correctamente como no fumador (por ej). Sin embargo la clasificación de presencia de fumador está clasificado por un 16.7%

Variables en la ecuación

I.C. 95.0% para EXP(B)

Paso 1(a)

B

E.T.

Wald

gl

Sig.

Exp(B)

Inferior

Superior

Q1

-.484

.487

.988

1

.320

.616

.237

1.601

Q2

.144

.566

.065

1

.799

1.155

.381

3.500

Q3

1.060

.532

3.966

1

.046

2.888

1.017

8.200

Q6

-.262

.458

.327

1

.568

.770

.314

1.888

Q7

-.493

.444

1.232

1

.267

.611

.256

1.458

Q13

.273

.502

.295

1

.587

1.313

.491

3.511

Constante

-1.842

2.092

.775

1

.379

.159

a Variable(s) introducida(s) en el paso 1: Q1, Q2, Q3, Q6, Q7, Q13.

En este caso hemos utilizado la estimación conjunta por lo que hemos metido todas las variables a la vez. El examen estadístico en esta tabla más importante es el test de Wald. Mediante este examen estadístico, podemos incluir o eliminar las variables independientes. Este test, es análogo al de la t de Student. En RM se utiliza para averiguar si la variable contribuye significativamente al modelo. En este caso sólo la variable q3 ha salido significativa aplicando un nivel de significación de 0.05. INTERPRETACIÓN Coeficientes negativos: Indican baja probabilidad de ocurrencia. Coeficientes cero: no hay ninguna influencia, es decir, no hay cambio en el ratio. Coeficientes positivos: alta probabilidad de ocurrencia. Para la interpretación del modelo logit hay que tener en cuenta estos coeficientes beta. ETAPAS: DISEÑO DE UN MODELO LOGIT Definición del problema: Objetivos: relación entre variables Si no cumple el mínimo tamaño muestral por variable hay que comentarlo en el trabajo. Deberíamos tener 15 o 20 observaciones por variable. Si no se puede generalizar, también hay que incluirlo en el trabajo. Así como recomendaciones para futuras investigaciones.

Comparación de los modelos: regresión, discriminante y logit. Diapositiva gráficos En la RM, buscamos una combinación lineal entre las variables métricas dependientes e independientes. Si utilizamos una variable dicotómica en la RM, no cumple la linealidad. Como esto no es válido. Buscamos la posibilidad en el RL o logit. Aquí buscamos la probabilidad máxima entre los valores 0 y 1. En AD, buscamos si las medias son distintas. Si no cumple la normalidad no podemos utilizar esta técnica, al igual que ocurre con la homocedasticidad. Por lo que buscamos la solución en la Logística. Hay que seleccionar Regresión insertamos las variables de estudio.

logística

binaria.

Luego

Casos prácticos con SPSS. 11.1 Casos prácticos con SPSS.

Variable dicotómica que usaremos como dependiente

Para mirar el efecto interacción de las dos variables. Se introduce pulsando control y seleccionando ambas variables

La primera tabla a la que prestaremos atención es la Tabla de Clasificación

Regresión logística Resumen del procesamiento de los casos a

Casos no ponderados Casos seleccionados

N Incluidos en el análisis Casos perdidos Total

Casos no seleccionados Total

70 0 70 0 70

Porcentaje 100,0 ,0 100,0 ,0 100,0

a. Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos.

Codificación de la variable dependiente Valor original Valor interno No 0 Yes 1

Bloque 0: Bloque inicial Bloque 0 significa que es el análisis previo antes de meter las variables predoctoras. Solo tenemos en cuenta el valor constante. No consideramos variables predictoras. a,b Tabla de clasificación

Paso 0

Observado El respeto es importante.

Pronosticado El respeto es importante. Porcentaje No Yes correcto 0 29 ,0 0 41 100,0 58,6

No Yes

Porcentaje global a. En el modelo se incluye una constante. b. El valor de corte es ,500

No hay ninguna persona que haya contestado NO. Se han clasificado como si todos contestaran SI. Esto es porque es el paso previo o paso inicial. 100% clasificados a “SI”.

Variables en la ecuación Paso 0

Constante

B ,346

E.T. ,243

Wald 2,037

gl

Sig. ,154

1

Exp(B) 1,414

Paso 0 porque solo consideramos el valor constante. No consideramos variables predictoras. El coeficiente de Wald, tiene un grado de sig. 0.154. El modelo no tiene significación estadística. Si el nivel de significación en el bloque 0 es significativo, entonces el modelo no vale, ya que hay un sesgo en los datos. Si el nivel de significación nos saliera 1,000 también tendríamos que preocuparnos, ya que probablemente existiría sesgo. La siguiente Tabla es importante: Variables que no están en la ecuación Paso 0

Variables

Estadísticos globales

EDAD NORESP EDAD by NORESP

Puntuación 26,086 24,617 27,778 36,111

gl 1 1 1 3

Sig. ,000 ,000 ,000 ,000

Son las variables no incluidas en la ecuación. La puntuación es la de la Chi-cuadrado, pero lo más importante es la significación. No salen significativos, todas podrían incluirse en la ecuación, pero aun no están incluidas. En el siguiente bloque meteremos todas las variables, para ver si el modelo predice correctamente.

Bloque 1: Método = Introducir Pruebas omnibus sobre los coeficientes del modelo Paso 1

Paso Bloque Modelo

Chi-cuadrado 42,892 42,892 42,892

gl 3 3 3

Sig. ,000 ,000 ,000

Hay tres líneas (Paso, Bloque, Modelo). Esto significa distintos métodos de estimación. Como nosotros hemos realizado la estimación conjunta, solo observaremos la última fila “Modelo” con las variables predictoras. (Paso seria estimación por pasos; Bloque seria estimación por Bloque. No la estudiaremos este año) El modelo tiene contribución significativa (Sig. = 0,000) Resumen de los modelos

Paso 1

-2 log de la R cuadrado verosimilitud de Cox y Snell 52,081 a ,458

R cuadrado de Nagelkerke ,617

a. La estimación ha finalizado en el número de iteración 6 porque las estimaciones de los parámetros han cambiado en menos de ,001.

2 NL (-2 log de la verosimilitud  indica el nivel de ajuste global) Nos fijaremos en el valor de el R cuadrado de Nagelkerke.Varía entre 0 y 1, como vale 0’617, parece que el valor esta bien. Es análogo al coeficiente de determinación de la regresión múltiple. (Es el mejor índice para ver)

Prueba de Hosmer y Lemeshow Paso 1

Chi-cuadrado 6,357

gl 8

Sig. ,607

Es una prueba de la Chi cuadrado, fundamentalmente. Ha salido 0,607. Eso esta bien, ya que ha salido no significativo. Esta prueba tiene que ser no significativa, ya que hay que aceptar la hipótesis nula de que fenómeno real y modelo predicho son iguales. Si sale significativo hay que rechazar la hipótesis nula. Tabla de contingencias para la prueba de Hosmer y Lemeshow

Paso 1

1 2 3 4 5 6 7 8 9 10

El respeto es importante. = No Observado Esperado 7 6,526 7 6,259 5 5,780 3 4,477 4 2,873 2 1,509 0 ,861 1 ,414 0 ,213 0 ,087

El respeto es importante. = Yes Observado Esperado 0 ,474 0 ,741 2 1,220 4 2,523 4 5,127 5 5,491 7 6,139 6 6,586 7 6,787 6 5,913

Total 7 7 7 7 8 7 7 7 7 6

En este caso no tiene importancia la tabla de contingencias para la prueba de Hosmer y Lemeshow Tabla de clasificacióna

Paso 1

Observado El respeto es importante. Porcentaje global

No Yes

Pronosticado El respeto es importante. Porcentaje No Yes correcto 22 7 75,9 5 36 87,8 82,9

a. El valor de corte es ,500

Recordemos que en el Análisis Discriminante usamos el mismo concepto (Matriz de confusión). El objetivo es el mismo, pero teniendo variable dicotómica.

Variables en la ecuación Paso a 1

EDAD NORESP EDAD by NORESP Constante

B ,106 3,324 -,028 -5,414

E.T. ,041 2,387 ,054 1,775

Wald 6,733 1,939 ,258 9,308

gl 1 1 1 1

Sig. ,009 ,164 ,611 ,002

Exp(B) 1,112 27,767 ,973 ,004

a. Variable(s) introducida(s) en el paso 1: EDAD, NORESP, EDAD * NORESP .

Con esta tabla podemos decir que la variable edad ha salido significativa, mientras que la tercera variable, no respeto, no tiene significación estadística. Tanto la interacción edad con la tercera variable. Por tanto podemos concluir que solo podemos incluir la variable edad en la ecuación. Listado por casosb

Caso 60

Estado de a selección S

Observado El respeto es importante. N**

Variable temporal Pronosticado ,946

Grupo pronosticado Y

Resid -,946

ZResid -4,175

a. S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados. b. Se listan los casos con residuos estudentizados mayores que 2,000.

Vamos a predecir si el individuo es fumador o fumadora en función de otras variables

Ejercicio 9 1. ¿Cuándo emplearía la RL en lugar del AD? ¿Cuáles son las ventajas y desventajas de esta decisión? 2. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa? 3. En la RL, ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación? 4. Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke.

1. ¿Cuándo emplearía la RL en lugar del AD? desventajas de esta decisión?

¿Cuáles son las ventajas y

La RL se puede usar en vez del AD cuando no cumple la linealidad, pero la más importante es cuando tenemos una variable dicotómica como variable dependiente, ya que muchas veces no se cumple la linealidad. El AD es apropiado cuando la variable dependiente es no métrica. Sin embargo, cuando la variable dependiente tiene sólo dos grupos, puede ser preferible la RL por los siguientes motivos. 1. no se cumplen los supuestos de normalidad multivariante, la linealidad y la igualdad de matrices de varianza-covarianza entre grupos. 2. los resultados obtenidos son muy parecida a los de la regresión múltiple y cuenta con contrastes estadísticos directos, por lo que existe la capacidad para incorporar efectos no lineales y permitir una amplia variedad de diagnósticos. 3. existe una variable dicotómica como variable dependiente

2. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa? El término modelo de logit es el mismo que la regresión logística. La medida global de la RL viene dada por el valor de la verosimilitud, que se representa por -2 LL (-2 veces el logaritmo de la verosimilitud). Un modelo con un buen ajuste tendrá un valor pequeño, siendo el valor mínimo de -2LL cero (un ajuste perfecto), cuanto mayor sea el valor peor es el ajuste.

3. En la RL, ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación? En la regresión múltiple, el valor de la t se utiliza para valorar la significatividad de cada coeficiente. La RL utiliza un estadístico diferente, el estadístico de Wald, que proporciona la significación estadística para cada coeficiente estimado de tal forma que se puede contrastar la hipótesis de que un coeficiente sea distinto de cero. Si el valor de Wald es estadísticamente significativo, se incluye dicho coeficiente en la ecuación, y si no, se excluye.

4. Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke. 1. Valor de Hosmer y Lameshow: mide la correspondencia de los valores reales y predichos de la variable dependiente, y se expresa con el valor de chi-cuadrado. Por ello, un valor chi-cuadrado no significativo indica un buen ajuste del modelo. Tiene que salir no significativo porque la hipótesis nula es que son iguales y no queremos rechazarla. 2. R² de Nagelkerke: es comparable con el coeficiente de determinación de la RM que indica con los mayores valores un mejor ajuste del modelo. Varía entre 0 y 1.

5. Interpreta la siguiente tabla: Tabla de clasificación(a) Observado

Pronosticado F1 1

Paso 1

F1 Porcentaje global

1 2

2 258 114

79 161

Porcentaje correcto 76,6 58,5 68,5

a El valor de corte es ,500

Es análoga a la matriz de confusión del análisis discriminante. Esta tabla de clasificación indica cómo de bien se predice la pertenencia a los grupos. Según la información de la tabla, el modelo logia correctamente clasifica 258 hombres, pero erróneamente 79 hombres, por lo tanto un 76,6% de los casos son correctamente clasificados. Respecto a las

mujeres, el modelo clasifica 161 casos pero erróneamente 114 casos, por ello, la tasa de clasificación correcta para las mujeres es un 58,5%. Desde una perspectiva global, un 68,5% de todos los casos están correctamente clasificados.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF