Analisis multivariable

July 28, 2017 | Author: ALEJOROM | Category: Coefficient Of Determination, Regression Analysis, Linear Regression, Multicollinearity, Correlation And Dependence

Share Embed Donate

Report this link

Short Description

Download Analisis multivariable...

Description

INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE)

Eduardo Jiménez Marqués Curso 2004-05

Análisis Multivariante

Análisis Multivariante

ÍNDICE 1.

CONCEPTOS GENERALES............................................. 12

1.1

INTRODUCCIÓN. ................................................................ 12

1.1.1

LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES.......12

1.1.2

¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? ...........................13

1.2

DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE ........................... 14

1.3

ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ........... 14

1.4

DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ................. 14

1.4.1

TIPOS DE VARIABLES .............................................................................15

1.5

ESCALAS DE MEDIDA .......................................................... 17

1.6

VARIABLES Y ESCALAS DE MEDIDA ....................................... 18

1.6.1

CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS..........................19

1.7

CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES .............. 20

1.8

BIBLIOGRAFÍA RECOMENDADA............................................. 24

2.

METODOS EXPLICATIVOS O DE DEPENDENCIA ............. 26

2.1

INTRODUCCIÓN................................................................. 26

2.2

OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: ........................ 26

2.3

TÉCNICAS MAS HABITUALES. ............................................... 26 2

Análisis Multivariante 3.

REGRESIÓN LINEAL..................................................... 28

3.1

CONCEPTO........................................................................ 28

3.1.1

3.2

ANÁLISIS DE REGRESIÓN MÚLTIPLE....................................... 31

3.2.1

3.3

MODELOS ESTOCÁSTICOS.....................................................................30

¿QUÉ NOS INTERESA CONOCER?:...........................................................31

HIPÓTESIS DEL MODELO DE REGRESIÓN................................ 32

3.3.1

ESTIMACIÓN DEL MODELO DE REGRESIÓN ............................................32

3.3.2

COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE

DETERMINACIÓN MÚLTIPLE ..................................................................................33

3.4

COLINEALIDAD .................................................................. 36

3.4.1

MATRIZ DE CORRELACIONES.................................................................36

3.4.2

CORRELACIÓN PARCIAL ........................................................................36

3.4.3

CORRELACIÓN PARCIAL MÚLTIPLE ........................................................37

3.4.4

MULTICOLINEALIDAD............................................................................37

3.4.5

EFECTOS DE LA COLINEALIDAD.............................................................37

3.4.6

FORMAS DE MEDIR LA COLINEALIDAD ..................................................38

3.4.7

SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...............................39

3.4.8

COEFICIENTES DE REGRESIÓN ...............................................................39

3.4.9

ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN .......................................41

3.5

MODELOS CON VARIABLES FICTICIAS ................................... 41

3.6

TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT ................ 42

3.7

EJEMPLO 1......................................................................... 43

3.8

EJEMPLO2 ......................................................................... 49 3

Análisis Multivariante 4.

ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS.......... 52

4.1

ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS

CUADRADOS ORDINARIOS ........................................................... 53

5.

EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ............ 54

5.1

COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:............. 54

5.2

CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1 ............. 55

5.3

COEFICIENTES DE REGRESIÓN ESTANDARIZADOS................... 55

5.4

COEFICIENTE DE CORRELACIÓN DE PEARSON ........................ 56

5.5

EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: .......... 60

5.6

COEFICIENTE DE DETERMINACIÓN ....................................... 61

5.7

COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA........................................................... 61 5.8

PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN...................... 62

5.9

OTROS AJUSTES DE BONDAD DEL MODELO ........................... 63

5.10

USO DEL MODELO PARA ESTIMAR Y PREDECIR .................... 64

5.11

HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE .................. 67

5.12

NORMALIDAD DE LOS ERRORES ........................................ 67

4

Análisis Multivariante 5.13

HOMOCEDASTICIDAD EN LAS PERTURBACIONES ................. 68

5.14

NO AUTOCORRELACIÓN DE ERRORES ................................ 69

6.

LINEALIDAD EN EL MODELO DE REGRESIÓN ................. 71

6.1

7.

OTRAS TRANSFORMACIONES............................................... 71

ANÁLISIS DE REGRESIÓN MÚLTIPLE.............................. 73

7.1

INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN

DE CADA VARIABLE, βI ................................................................. 73 7.2

COEFICIENTE DE DETERMINACIÓN ....................................... 74

7.3

COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA........................................................... 74 7.4

HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ................. 75

7.5

COLINEALIDAD .................................................................. 75

7.6

EFECTOS DE LA COLINEALIDAD ........................................... 76

7.7

FORMAS DE MEDIR LA COLINEALIDAD .................................. 76

7.8

NIVELES DE COLINEALIDAD ................................................. 77

7.9

INTRODUCCIÓN DE VARIABLES BINARIAS .............................. 80

7.10

VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE ........ 82 5

Análisis Multivariante 7.11

INTRODUCCIÓN DE VARIABLES CUALITATIVAS ................... 82

7.12

CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ................ 85

8.

BIBLIOGRAFÍA ............................................................ 91

9.

ANÁLISIS DE LA VARIANZA (ANOVA)............................ 93

9.1

CONCEPTO........................................................................ 93

9.2

MODALIDADES DE ANÁLISIS DE LA VARIANZA ....................... 93

9.3

ANOVA ............................................................................. 94

9.3.1

TIPOS DE ANOVA ..................................................................................94

9.4

EXPERIMENTACIÓN............................................................. 94

9.5

EL MÉTODO DE EXPERIMENTACIÓN ...................................... 95

9.5.1

PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN .........................96

9.6

METODOLOGÍA DE LA EXPERIMENTACIÓN............................. 96

9.7

ELEMENTOS DE UN EXPERIMENTO ........................................ 97

9.7.1

CONCEPTOS GENERALES .......................................................................97

9.7.2

HIPÓTESIS DE TRABAJO .........................................................................98

9.8

¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI

COMPARAMOS MEDIAS?............................................................... 98 9.8.1

9.9

ESTADÍSTICO DE PRUEBA ......................................................................99

EXPERIMENTOS ALEATORIOS CON UN FACTOR .................... 100 6

Análisis Multivariante 9.9.1

MODELO ............................................................................................ 101

9.10

ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ........ 101

9.11

ANOVA CON VARIOS FACTORES ..................................... 103

9.12

TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN

INVESTIGACIÓN COMERCIAL ...................................................... 104 9.12.1

EXPERIMENTO ALEATORIO O AL AZAR ............................................... 104

9.12.2

EXPERIMENTO DE BLOQUE ALEATORIO............................................... 109

9.12.3

EXPERIMENTO DE CUADRADO LATINO............................................... 113

9.12.4

EXPERIMENTO CON INTERCAMBIO ..................................................... 117

9.12.5

EXPERIMENTO FACTORIAL ................................................................. 117

9.13

BIBLIOGRAFÍA ............................................................... 125

10. ANALISIS DISCRIMINANTE......................................... 127 10.1 10.1.1

CONCEPTO................................................................... 127 EJEMPLO ............................................................................................ 128

10.2

OBJETIVOS DEL AD ........................................................ 128

10.3

CLASIFICACIÓN DEL AD ................................................ 128

10.4

RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ..................... 129

10.5

MODELO DEL AD........................................................... 129

10.6

SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD................. 130

10.6.1

SUPUESTOS:....................................................................................... 130

10.6.2

ESTADÍSTICOS ................................................................................... 130

7

Análisis Multivariante 10.7

PASOS DEL ANÁLISIS DISCRIMINANTE .............................. 132

10.7.1

FORMULACIÓN DEL PROBLEMA .......................................................... 132

10.7.2

ESTIMACIÓN ...................................................................................... 133

10.7.3

DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN............................... 133

10.7.4

INTERPRETACIÓN............................................................................... 133

10.7.5

VALIDACIÓN ...................................................................................... 136

10.8

EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:......... 138

10.9

ANALISIS DEL EFECTO CONJUNTO: .................................. 142

10.10

CLASIFICACIÓN DE LAS OBSERVACIONES: ........................ 145

10.11

MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE

WILKS: 149 10.12

ANÁLISIS DISCRIMINANTE MÚLTIPLE................................ 153

10.12.1

DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN........................... 153

10.12.2

INTERPRETACIÓN........................................................................... 153

10.12.3

VALIDACIÓN .................................................................................. 153

11. CASO PRÁCTICO DE ADM ......................................... 154 11.1.1

INTRODUCCIÓN................................................................................. 154

11.1.2

ANÁLISIS DISCRIMINANTE .................................................................. 157

11.2

BIBLIOGRAFÍA ............................................................... 165

12. SEGMENTACIÓN....................................................... 167 12.1

CONCEPTO................................................................... 167 8

Análisis Multivariante 12.2

REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO

SEA EFICAZ. ............................................................................. 167 12.3

CRITERIOS DE SEGMENTACIÓN DE MERCADO. .................. 168

12.4

ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE

MERCADOS. ............................................................................. 170 12.5

TÉCNICAS PARA CLASIFICAR UN MERCADO EN

SEGMENTOS. ............................................................................ 172

13. TÉCNICAS DE SEGMENTACIÓN. ................................. 173 13.1

MÉTODOS CLÁSICOS. .................................................... 173

13.1.1

MÉTODO BELSON............................................................................... 173

13.1.2

MÉTODO DE ANÁLISIS DE LA VARIANZA............................................. 176

13.1.3

MÉTODO DE CHI CUADRADO............................................................. 170

13.1.4

MODELOS DE CANGUILHEM. .............................................................. 170

13.2 13.2.1

AUTOMATIC INTERACTION DETECTION (AID) ................... 172 VENTAJAS E INCONVENIENTES ........................................................... 173

14. CHI-SQUARED AUTOMATIC INTERACTION DETECTION (CHAID)......................................................... 173 14.1

CONCEPTO................................................................... 173

14.1.1

PROCESO ........................................................................................... 174

14.1.2

UTILIDAD........................................................................................... 175

14.1.3

VENTAJAS E INCONVENIENTES ........................................................... 175

9

Análisis Multivariante 15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN MARKETING EN EL COMERCIO .......................................... 176 15.1

RESUMEN ..................................................................... 176

15.2

INTRODUCCIÓN ............................................................ 176

15.3

OBJETIVOS DEL TRABAJO E HIPÓTESIS.............................. 178

15.4

METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ......... 179

15.5

TÉCNICAS A UTILIZAR.................................................... 181

15.5.1

TÉCNICAS DE REDUCCIÓN DE VARIABLES........................................... 181

15.5.2

TÉCNICAS DE SEGMENTACIÓN ........................................................... 185

15.6 15.6.1

RESULTADOS ................................................................ 188 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN.......... 188

15.7

UTILIZACIÓN DE HERRAMIENTAS DE MARKETING.............. 190

15.8

CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES

SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN..... 192 15.9

CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES

SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO........... 195 15.9.1

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN GENÉRICOS ................................................................................... 195 15.9.2

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN ENFOCADOS A CLIENTE ................................................................ 198

10

Análisis Multivariante 15.9.3

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS............. 201

16. CONCLUSIONES ....................................................... 203 17. BIBLIOGRAFÍA .......................................................... 205 18. CONCEPTO DE ACM ................................................. 209 19. MODELO DEL ACM ................................................... 209 19.1

CONSIDERACIONES ACERCA DEL MODELO ....................... 211

20. CASO PRÁCTICO ...................................................... 211

11

Análisis Multivariante

1. CONCEPTOS GENERALES 1.1

INTRODUCCIÓN.

Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas. 1.1.1

LA

ENCUESTA

ESTRUCTURADA

Y

LOS

MÉTODOS

MULTIVARIANTES El objetivo fundamental de la Investigación Comercial es el de obtener información objetiva, que permita el disminuir la incertidumbre del decisor en su toma de decisiones. A través de la Investigación Comercial la empresa puede disponer de una gran cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla su negocio. El mercado donde realiza la actividad económica la empresa, es un fenómeno complejo donde interactúan un gran número de factores que tienen influencia en los resultados empresariales (Inflación, paro, paridad de la moneda, formación de los trabajadores, ecología, legislación, demografía, etc.) Por tanto podemos afirmar que la mayoría de los problemas de la empresa son multidimensionales, es decir cualquier actividad empresarial la podemos describir de acuerdo con diversas dimensiones. Esto nos conduce a que deberemos estudiar los factores que influyen o que bien consideramos que lo puedan hacer, de una manera simultánea y para ello se utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o multivaribles. En la Investigación Comercial a través de encuestas, se realizan una serie de preguntas, mediante la administración de un cuestionario, que permite mediante su

12

Análisis Multivariante combinación obtener la información acerca del fenómeno objeto de la investigación. Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc. A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida. Esta situación la podemos resumir en el siguiente esquema

Esquema 1 Variables observadas 1.1.2

Análisis multivariante

Nueva variable abstracta

¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?

Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones: 1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana 2. Permiten analizar toda la información acerca de un determinado fenómeno, considerando simultáneamente todos los factores que intervienen. 3. Permiten trabajar con cualquier tipo de variable.

13

Análisis Multivariante 1.2

DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE

Podemos definir las técnicas multivariantes como, un conjunto de métodos estadísticos que permiten el análisis de forma simultánea de mas de dos variables observadas en una Investigación Comercial Desde una concepción amplia podemos definir el Análisis Multivariante como un conjunto de métodos que analizan las relaciones entre un número razonablemente amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o más muestras simultáneamente.

1.3

ÁREAS

DE

APLICACIÓN

DEL

ANÁLISIS

MULTIVARIANTE El análisis Multivariante es de aplicación en la Investigación Comercial, en las siguientes circunstancias: •

Reducción de datos. Se trata de simplificar la estructura del fenómeno investigado buscando la mayor simplicidad, lo que permitirá una interpretación muy fácil.

•

Clasificación y agrupación Por ejemplo las técnicas de segmentación y tipología

•

Análisis de las relaciones de dependencia, con el fin de predecir o bien explicar

•

1.4

En la construcción de modelos. Econometría

DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES

En las técnicas del análisis multivariante se entiende por variable alguna magnitud que representa la característica de los elementos objeto de investigación que tratamos de medir.

14

Análisis Multivariante En una primera clasificación las variables las podemos clasificar en dos grupos, variables independientes (VI) y variables dependientes (VD). Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o más variables independientes. Las variables dependientes también se denominan variables criterio o respuesta, mientras que las variables independientes son las que servirán para explicar el fenómeno estudiado y se en ocasiones se denominan como

variables explicativas, factores o variables

predictoras. En los estudios no experimentales, la situación de las variables no siempre es clara, definiéndose su papel en el contexto de la investigación. Una misma variable puede adoptar diferentes roles en función de situaciones. Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada a diferentes niveles de variación de la variable independiente (X) se dice que están relacionadas. Si todas las variables desempeñan el mismo papel se habla de relaciones de interdependencia. En este caso no hay una variables con las que se intente explicar el comportamiento de otras. En ocasiones, al analizar el modelo la única forma de diferenciar las variables es simplemente por donde están situadas en la ecuación. 1.4.1

TIPOS DE VARIABLES

Una variable es una característica o propiedad de un elemento (individuo, objeto, transacción, suceso, etc.), que toma distintos valores para cada elemento. En general se clasifican en dos grandes grupos: •

Variables no métricas o cualitativas

•

Variables métricas o cuantitativas

Los diferentes tipos de variable los resumimos a continuación: 15

Análisis Multivariante Variables cuantitativas o métricas: Son aquellas en las que los valores tomados por diferentes individuos tienen un significado propio.

De hecho, son una

medición o cuantificación de una determinada característica, la respuesta a la pregunta: ¿Cuánto/s ? Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas, beneficios, de una empresa, etc. Variables cualitativas o no métricas1:

Son aquellas en las que las distintas

características de los elementos estudiados son cualidades o categorías alfabéticas. Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre el valor asignado y el significado de la categoría representada. Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación (Suspenso, Aprobado, Notable, Sobresaliente), etc. 1.4.1.1

CLASIFICACIÓN

POR

LOS

VALORES

QUE

PUEDEN

ADOPTAR De acuerdo con el valor que pueden adoptar las variables estas las podemos clasificar en los siguientes tipos: •

Variable continua. Se trata de una variable cuantitativa que puede adoptar cualquier valor numérico, Para todo par de valores siempre podemos encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ...

•

Variable discreta. Puede adoptar un número finito de valores distintos, entre dos valores consecutivos no se puede encontrar ninguno intermedio. Por ejemplo el número de personas por hogar.

•

Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen como 0 y 1 se llama binaria.

1

Algunos autores las denominan atributos

16

Análisis Multivariante •

Variables ficticias o Dummy. Se utiliza con variables cualitativas, para poder obtener información a través de operaciones, se convierten en binarias, indicando el valor 1 la presencia de una categoría de la variable y 0 su ausencia.

Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas variables dummy como categorías tiene la variable menos una. Ejemplos de variables Dummy La variable Sexo con las categorías hombre y mujer necesitaría una sola variable dummy D1: Hombre 0 Mujer 1 Consideremos la variable “Color del producto A” que tiene las siguientes categorías 1 Rojo 2 Verde 3 Azul Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a: D1 = Rojo 1 Verde y Azul 0 D2 = Verde 1 Rojo y Azul 0 La categoría azul queda definida ya que tiene 0 en las dos ficticias

1.5

ESCALAS DE MEDIDA

Prácticamente todas las investigaciones de mercado recogen los datos en forma de números, interesando al investigador lo que estos números representan, por medio de las correspondientes operaciones de medida. Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ... según unas normas predeterminadas. Puesto que utilizamos diferentes reglas para la asignación de los números, un mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la existencia de diferentes escalas de medida. 17

Análisis Multivariante Por escala de medida entenderemos la correspondencia entre los números asignados a las propiedades de los elementos y la significación de los cálculos matemáticos realizadas con los números. Básicamente en el análisis estadístico se utilizan las cuatro escalas siguientes: Nominal, Ordinal, Intervalo y Ratio o de proporción Las características de estas escalas las resumimos a continuación: •

Nominal: los posibles valores de la variable representan diferentes categorías, no existiendo ninguna relación entre el código asignado a una categoría y su significado Ejemplos: profesión, raza, estado civil, ... o Caso particular: variables dicotómicas, sólo admiten dos posibles respuestas.

Ejemplos: sexo, verdadero / falso, si / no, ... Se

denominan binarias si se codifican 0 / 1. •

Ordinal: los códigos o valores de cada categoría mantienen la misma relación de orden que el significado de las categorías. Ejemplos: clase social, escala de preferencia, ...

•

Intervalo: los códigos asignados a diferentes respuestas permiten conocer la magnitud de la característica medida, ya que se mantiene una relación de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable redondeada, ...

•

Ratio o razón: los códigos representan el propio valor de la característica estudiada, observándose una relación de orden y de distancia y la existencia de un origen Ejemplos: cifra de ventas, ratio económicofinanciero, ...

1.6

VARIABLES Y ESCALAS DE MEDIDA

Partiendo de los dos grandes grupos de variables, (cualitativas y métricas), podemos resumir la relación entre las variables y las escalas de medida como sigue: 18

Análisis Multivariante 1. Variables no métricas o cualitativas, vienen medidas en escala nominal u ordinal 2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de razón. 3. Variables binarias se utiliza la escala de razón 1.6.1

CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS

En ocasiones en el estudio se deben realizar transformaciones de escala y origen Las variables las podemos dividir en: Valores o puntuaciones directas, también llamadas brutas, se obtienen directamente del instrumento de medida y en sus mismas dimensiones. Se suelen representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala Valores o puntuaciones centradas en la media o diferenciales, son el resultado de un cambio en el origen al obtenerse de la restando de la media el valor, se suelen representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente operación

x = X - mX

Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las puntuaciones originales. Se produce un cambio de origen no de escala. Valores típicos o estandarizados. Se obtienen restando de cada valor la media y dividiendo por la desviación típica. Se suelen representar por la letra Z y el subíndice de a correspondiente categoría de la variable. Se obtienen de Z =

X − mX sX

Los valores tipificados están libres de escala y siempre tienen media igual a 0 y desviación típica igual a 1.

19

Análisis Multivariante 1.7

CLASIFICACIÓN

DE

LAS

TÉCNICAS

MULTIVARIANTES Los diferentes métodos de análisis multivariante no solo difieren entre sí por el objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la tabulación, forma de codificar y en el trabajo con las variables ya que algunos métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen con variables ordinales y métricas. Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en dos grupos básicos: Métodos descriptivos o de interdependencia y métodos explicativos o de dependencia. Los métodos explicativos o de dependencia se emplean para explicar o proyectar la(s) variable(s) dependiente(s) con base en dos o más variables independientes. Por ejemplo explicar las ventas en función de numerosas variables independientes (número de vendedores, inversión en publicidad, promoción, renta de los consumidores, etc.). Los métodos descriptivos o de interdependencia tratan de dar significado a un conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando realizamos un estudio de segmentación. La clasificación de las técnicas multivariantes las podemos resumir en el siguiente esquema.

20

Análisis Multivariante

TÉCNICAS MULTIVARIANTES

EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES

SI

NO

MÉTODOS EXPLICATIVOS

MÉTODOS DESCRIPTIVOS

Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes criterios los mas habituales son los que reseñamos en los siguientes esquemas2

2

Apuntes investigación Comercial 2 Facultad de Económicas UAB

21

Análisis Multivariante

22

Análisis Multivariante

23

Análisis Multivariante 1.8

BIBLIOGRAFÍA RECOMENDADA

Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición 1999 Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque (Coordinador), Editorial Pirámide 2000

24

Análisis Multivariante

Métodos Explicativos o de Dependencia

25

Análisis Multivariante

2. METODOS EXPLICATIVOS O DE DEPENDENCIA 2.1

INTRODUCCIÓN

Los métodos explicativos o de dependencia, del análisis multivariante, son técnicas que diferencian entre variables independientes, explicativas o predictoras y variables dependientes o a explicar.

2.2

OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS:

El objetivo principal de los métodos explicativos es: Encontrar la relación existente entre la variable/s dependiente/s y la/s independiente/s: Este objetivo nos conduce a los siguientes objetivos secundarios: •

Explicar el comportamiento de la/s variable/s dependiente/s (Y) Por qué la Y no es igual en todas las observaciones

•

Estimar el efecto de una o varias variables explicativas (X) cuantitativas o binarias ¿Cuáles son las variables X que explican el comportamiento de Y? ¿En cuánto varía la Y frente a un cambio de cada una de las X’s?

•

Predecir el valor de Y Cuál es el valor de Y para unas X’s determinadas Hasta que punto hemos conseguido explicar Y

2.3

TÉCNICAS MAS HABITUALES.

En esta modalidad de análisis multivariable de la información las técnicas más habituales son: La regresión, el análisis de la varianza, segmentación jerarquica análisis discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones estructurales.

26

Análisis Multivariante

Regresión Lineal

Análisis Multivariante

3. REGRESIÓN LINEAL Al clasificar los métodos explicativos por el número de variables dependientes y las escalas de medida de las variables dependientes e independientes nos encontrábamos que cuando tenemos una sola variable dependiente y todas las mediciones de las diferentes variables están en escala métrica podemos aplicar la técnica denominada regresión De forma esquemática podemos representar esta situación como

METODOS EXPLICATIVOS NÚMERO DE VARIABLES DEPENDIENTES UNA

ESCALA DE MEDIDA DE LA VARIABLE (S) INDEPENDIENTE (S) MÉTRICA

ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE MÉTRICA

REGRESIÓN

3.1

CONCEPTO

El análisis de regresión trata de analizar la dependencia de una variable cuantitativa a explicar respecto de una o varias variables explicativas, también cuantitativas. Matemáticamente la regresión la podemos representar como:

Y = f (Xi ) Donde Y es la variable dependiente y Xi representa las diferentes variables independientes. Si solo hay una variable independiente (X) se trata de un modelo de regresión simple 28

Análisis Multivariante Cuando hay dos o más variables independientes se trata de un modelo de regresión múltiple. Si recordamos el modelo de regresión simple o modelo de regresión lineal de primer orden responde a la siguiente fórmula matemática.

y = β0 + β1x + ε donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa ε (epsilon) = error o perturbación aleatoria β0 =origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. β1 =pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente. Su representación gráfica corresponde a la indicada en la Fig. 1

El modelo de regresión múltiple viene expresado por:

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde: y = variable dependiente o variable a explicar xi = variables independientes o variables explicativas 29

Análisis Multivariante ε (epsilon) = error o perturbación aleatoria β0 = origen cuando todas las variables independientes son 0 βi = pendiente o coeficiente de regresión de la variable i. Algunos autores utilizan como coeficiente de regresión en el origen

α

en vez de

β 0 La correspondiente ecuación pasa a ser: Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε Los coeficientes de regresión son en todos los casos los parámetros a estimar.

El modelo de regresión requiere que todas las variables sean métricas, las variables independientes que sean cualitativas o no métricas se pueden convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar como cuantitativas

3.1.1

MODELOS ESTOCÁSTICOS

En los modelos denominados deterministas, para los diferentes valores de la variables independientes corresponden valores determinados de la variable dependiente. Sin embargo este modelo no suele describir bien las relaciones entre las variables porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la variable independiente (Y) y que, como tales, no se derivan de la variación de las variables dependientes. Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que contemple esta situación. Se trata de los denominados modelos estocásticos de regresión, denominados así porque forma parte de ellos una variable aleatoria

ε

denominada error y perturbación aleatoria. Esta variable representa todas las influencias, normalmente desconocidas, que pueden hacer variar la variable dependiente (Y), al margen de las variaciones de las variables independientes (X). 30

Análisis Multivariante La ecuación de este tipo de modelo será:

Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε 3.2

ANÁLISIS DE REGRESIÓN MÚLTIPLE

El análisis de regresión múltiple es una extensión del análisis de regresión bivariado que nos permite la investigación simultánea del efecto de dos o más variables independientes sobre una variable dependiente medida en escala métrica. Por consiguiente se trata de buscar la ecuación que mejor exprese matemáticamente la relación de los valores de una variable dependiente (Y) con los valores de dos o más variables independientes (X1 X2 X3 .....Xn) consideradas conjuntamente. De esta forma el problema consiste en la identificación de una relación lineal mediante el análisis de regresión múltiple. La ecuación obtenida es del tipo:

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε Los coeficientes

β i muestran el efecto sobre la variable de un incremento de una

unidad en la variable independiente correspondiente. Estos coeficientes se les denomina como coeficientes de regresión parcial. El valor original de

βi

es el

coeficiente sencillo de la regresión bivariada, se define como el coeficiente de correlación parcial para el que se mantienen constantes los efectos de las otras variables independientes. La función del coeficiente

β0

consiste en asegurar que la media de los valores de

Y coincide con la media de los valores de X 3.2.1

¿QUÉ NOS INTERESA CONOCER?:

β 0 y β i?

•

¿Cómo se calculan los coeficientes de regresión,

•

¿Cómo se interpretan?

•

¿Cómo se determina si son o no estadísticamente significativos?

•

¿Cómo se comprueban las hipótesis del modelo?

31

Análisis Multivariante 3.3

HIPÓTESIS DEL MODELO DE REGRESIÓN

Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las variables independientes Partiendo del modelo: y = β0 + β1xI + ... + ε Las correspondientes hipótesis son: •

La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x.

•

La distribución de probabilidad de ε es normal.

•

Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores).

•

La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad)

•

No debe existir excesiva colinealidad o multicolinealidad

(correlación

entre las variables independientes). La hipótesis primera se considera ciertas y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los errores la estimación por mínimos cuadrados exige que su media sea 0). 3.3.1

ESTIMACIÓN DEL MODELO DE REGRESIÓN

Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las perturbaciones) 32

Análisis Multivariante El método de estimación por mínimos cuadrados minimiza la suma de cuadrados de las diferencias entre los valores reales y los estimados de la variable dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la variable dependiente (Y) De conformidad con este criterio la mejor recta es aquella que haga mínima la suma de los cuadrados de los residuos Min∑ ei2

3.3.2

COEFICIENTE

DE

CORRELACIÓN

MÚLTIPLE

Y

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la variable dependiente Y explicado por la variación en las variables independientes Por tanto representa el grado de asociación entre una variable dependiente y dos o más variables independientes tomadas en conjunto. Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o también llamado coeficiente de determinación múltiple (R2), este índice nos indica el tanto por ciento de la variación total de la variable dependiente Y, explicado por la ecuación de regresión y es igual a la razón entre la variación explicada y la variación total de la variable. Por tanto expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de asociación lineal entre la variable dependiente y las independientes tomadas en conjunto, este valor no es incompatible con la posible existencia de una posible correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las variables. Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través de un ejemplo. Resultados estadísticos de un análisis de regresión múltiple Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3 Coeficiente de determinación múltiple (R2) 0´845 Test F 14´5 Grados de libertad numerador = 3 y denominador. = 8 33

Análisis Multivariante El valor R2 = 0´845 nos indica que la variación de las variables independientes representa 84´5% de la varianza en la variable dependiente. Para probar la significación estadística se realiza el análisis ANOVA (la prueba o test F). Esta prueba permite probar las magnitudes relativas de la suma de cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con sus correspondientes grados de libertad. La fórmula correspondiente es

F=

(SSr ) k (SSe ) (n − k − 1)

Donde k es el número de variables independientes y n es el tamaño de la muestra o el número de observaciones o encuestas. Si consideramos que trabajamos con un nivel de significación del 5% el valor correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y denominador obtenemos que el valor es Ft = 4´07. Por consiguiente como el valor calculado es superior al correspondiente de tablas, obtenemos como conclusión que la relación existente entre las variables independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.

34

Análisis Multivariante

TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F NIVEL DE CONFIANZA 95% m N

1

2

3

4

5

1

161´4

199´5

215´7

224´6

230´2

2

18´51

19

19´16

19´25

19´30

3

10´13

9´55

9´28

9´12

9´01

4

7´71

6´94

6´59

6´39

6´26

5

6´61

5´79

5´41

5´19

5´05

6

5´99

5´14

4´76

4,53

4´39

7

5´59

4´74

4´35

4´12

3´97

8

5´32

4´46

4´07

3´84

3´69

9

5´12

4´26

3´86

3´63

3´48

10

4´96

4´10

3´71

3´48

3´33

11

4´84

3´98

3´59

3´36

3´20

12

4´75

3´89

3´49

3´26

3´11

13

4´67

3´81

3´41

3´18

3´03

14

4´6

3´74

3´34

3´11

2´96

15

4´54

3´68

3´29

3´06

2´90

Siendo m los grados de libertad del numerador y n los grados de libertad del denominador. 35

Análisis Multivariante 3.4

COLINEALIDAD

La colinealidad se produce cuando las variables independientes introducidas en el modelo de regresión están correlacionadas entre ellas. Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén correlacionadas las variables independientes. Cuando una variable independiente se puede expresar como una combinación lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable, solucionando la colinealidad. El problema se produce cuando la correlación entre las X’s es alta o muy alta, pero sin llegar a ser total. Debemos ser conscientes de que en casi todos los modelos de regresión múltiple planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea excesiva ni perjudicial. 3.4.1

MATRIZ DE CORRELACIONES

Se trata de una matriz que tiene tantas filas y columnas como número de variables correlacionadas tengamos. En cada celda se indica el coeficiente de correlación entre las variables que se cruzan. La diagonal expresa la correlación de cada variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que representan las correlaciones entre las casillas en orden invertido ( R12 = R21). 3.4.2

CORRELACIÓN PARCIAL

La correlación múltiple se refiere a modelos en los que se relacionan más de dos variables independientes,. en este tipo de modelo es normal que si tratamos de hallar la correlación simple entre las variables dos a dos, esta no exprese el grado real de asociación entre dichas variables porque el resultado estará con toda seguridad afectado por la influencia en dicha asociación de las demás variables que intervienen en el modelo. Se trata de poder establecer la relación o asociación entre dos de las variables del modelo, eliminando la influencia del resto de variables. Esto es lo que se hace mediante los coeficientes de correlación parcial. Mediante estos coeficientes se puede establecer la correlación entre dos variables, controlando o eliminando el efecto en dicha correlación de otras variables del modelo. 36

Análisis Multivariante Existen diversos tipos de correlación parcial, según el número de variables que se controlan. Cuando no se controla ninguna variable, la correlación entre dos variables, es la correlación simple o total se denomina de orden cero, si hay una variable de control se denomina de orden uno, si se controlan dos variables se trata de una correlación de orden dos y así sucesivamente. 3.4.3

CORRELACIÓN PARCIAL MÚLTIPLE

La correlación parcial múltiple es una modalidad de correlación entre cuatro o más variables, que combina los tipos de correlación parcial y la múltiple Al medir la correlación de más de dos variables estamos realizando una correlación múltiple y si lo hacemos controlando una o más variables, es a su vez una correlación parcial. 3.4.4

MULTICOLINEALIDAD

Se denomina multicolinealidad la existencia de una elevada correlación entre las variables independientes que forman parte del modelo. Se produce cuando las variables explicativas (X) están altamente correlacionadas entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión estimados y sus errores estandar. Cuando esto sucede no es posible separar la influencia propia sobre la variable dependiente de cada una de las variables independientes, produciéndose el efecto de un incremento en los errores estándar de los coeficientes de regresión. La gravedad de la multicolinealidad dependerá del objetivo que se busque con el modelo. Si lo que pretendemos es predecir los valores de la variable dependiente (Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el efecto de cada variable independiente sobre la dependiente. 3.4.5

EFECTOS DE LA COLINEALIDAD

La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor sea la correlación entre las X’s:

37

Análisis Multivariante •

Las desviaciones estándar de los coeficientes de regresión están sobreestimadas, con lo que aparecen como no significativos coeficientes que en realidad sí lo son.

•

Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.

•

Los coeficientes de regresión estimados no son consistentes, es decir, pueden cambiar al modificar la muestra o al introducir diferentes variables en el modelo.

En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están relacionadas). 3.4.6

FORMAS DE MEDIR LA COLINEALIDAD

La colinealidad se puede medir de distintas formas: •

Matriz de correlaciones de Pearson entre cada par de variables independientes. Da una idea pero no es concluyente.

•

Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj frente a todas las demás X’s.

•

Factor de Inflación (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia

38

Análisis Multivariante

3.4.6.1

NIVELES DE COLINEALIDAD

Lo podemos resumir en el siguiente cuadro:

Tolerancia

VIF

Colinealidad:

Toler = 1

VIF = 1

No existe colinealidad

0,3 < Toler < 1

3,33 > VIF > 1

Poca: el modelo no suele presentar efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación 0,01 VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo Toler < 0,01

3.4.7

VIF > 100

Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)

SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD

Para dar solución a este problema se recurre al análisis factorial. Se aplica el análisis factorial a las variables independientes correlacionadas entre sí y se sustituyen sus valores por las puntuaciones de los factores obtenidos, que están absolutamente incorrelaccionados entre sí. 3.4.8

COEFICIENTES DE REGRESIÓN

Lo podemos resumir en: Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple:

39

Análisis Multivariante H0 : βi = 0

(la Xi no influye sobre la Y)

Ha : βi ≠ 0 t = Región de rechazo: se rechaza H0 si el nivel de

Estadístico de prueba:

βˆ i

significación observado es pequeño, menor que 0,05

Sβˆ i

Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente

explicativas

(las

que

tienen

un

coeficiente

de

regresión

significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los coeficientes de correlación de las diferentes variables se ha de realizar mediante los coeficientes estandarizados

3.4.8.1

SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN

El error estándar es la desviación típica estimada del coeficiente de regresión. El intervalo de confianza es el intervalo para el que se establece una probabilidad de que el verdadero valor del coeficiente de regresión esté contenido entre los límites del mismo. La significación del mismo se realiza mediante el estadístico “t” de Student

t=

Coeficiente de regresión Error estándar

Normalmente se contrasta para α = 5% 3.4.8.2

COEFICIENTES DE REGRESIÓN ESTANDARIZADOS

Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).

Beta1 = B1 ⋅

Sx Sy

o B1 = Beta1 ⋅

40

Sy Sx

Análisis Multivariante 3.4.9

ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN

Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable dependiente (Y) y las variables independientes (X) La varianza total de la variable dependiente se divide en

3.5

•

Atribuida al modelo de regresión

•

Residuo no explicado por el modelo

MODELOS CON VARIABLES FICTICIAS

Una de la condiciones del análisis de regresión es que las variables deben estar medidas en una escala métrica. Este análisis también se puede aplicar a variables cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia.

41

Análisis Multivariante

3.6

TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT Valores de la función de distribución g.l. = grados de libertad tc tal que p(t tα/2;donde tα/2 tiene (n-2) g.l. También se puede rechazar la H0 cuando el nivel de significación observado (probabilidad de equivocarme si rechazo H0) sea suficientemente pequeño, menor que 0,05 o 0,10 Supuestos: Hipótesis sobre la distribución de probabilidad de ε

59

Análisis Multivariante 5.5

EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: Coeficientesa

1

(Constante) superficie de la vivienda (m2)

Coeficientes no estandarizados Error típ. B 13.819 1.874 .477

.021

Coefic. estand. Beta .712

t 7.374

Sig. .000

23.037

.000

Intervalo confianza para B al 95% Límite Límite inferior superior 10.137 17.500 .436

.518

a. Variable dependiente: precio vivienda (miles euros)

Cuando aumenta la superficie de la vivienda en 1 m2 el precio de la misma aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento podría situarse entre 436 euros y 518 euros. Coeficientesa

1

(Constante) Arreglos (de 0 -nada- a 10)

Coeficientes no estandarizados Error B típ. 77.931 1.121 -4.240

.208

Coefic. estand. Beta -.667

t 69.543

Sig. .000

-20.349

.000

Intervalo confianza para B al 95% Límite Límite inferior superior 75.730 80.133 -4.649

-3.831

a. Variable dependiente: precio vivienda (miles euros)

Cuando la percepción de arreglos a realizar en la vivienda aumenta un punto en la escala de 10 el precio disminuye en 4240 euros, en promedio. Coeficientesa

1

(Constante) Antigüedad de la casa (años)

Coeficientes no estandarizados Error B típ. 56.422 1.489 -.020

.228

Coefic. estand. Beta -.004

t 37.890

Sig. .000

-.088

.930

Intervalo confianza para B al 95% Límite Límite inferior superior 53.497 59.348 -.469

.429

a. Variable dependiente: precio vivienda (miles euros)

Al aumentar la antigüedad de la vivienda en 1 año el precio de la misma no varía significativamente. Es decir, sea cual sea la antigüedad de la casa el precio previsto será siempre el mismo: 56422 euros (aproximadamente, el promedio de precio de las observaciones disponibles).

60

Análisis Multivariante 5.6

COEFICIENTE DE DETERMINACIÓN

Podemos preguntarnos, ¿por qué la Y no es igual para todos?

( yi − y ) = ( yi − yˆ i ) + ( yˆi − y )

∑ ( yi − y ) 2

=

∑ ( yˆ i − y ) 2

+

∑ ( yi − yˆ i ) 2

SSyy (total) = SSR (explicada) + SSE (residual)

El coeficiente de determinación, R2, representa la proporción de la variabilidad total de la muestra respeto a

y

que es explicada por la relación lineal entre x e y. Se calcula

como: 2

R =

5.7

(yi − yˆ i ) 2 Variabilidad explicada ∑ = 1− = 2 Variabilidad total SS yy ∑ (yi − y )

SSR

COMPROBACIÓN

DE

LA

BONDAD

GLOBAL

DEL

MODELO: ANALISIS DE LA VARIANZA Contraste sobre la utilidad global del modelo H0 : R² = 0 (En la regresión simple coincide con la inferencia sobre β1) Ha : R² ≠ 0 Estadístico de prueba:

F=

R2 SS yy − SSE Varianza explicada k −1 = k − 12 = SSE Varianza residual 1− R n−k n−k

Donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independiente/s) Región de rechazo: cuando el valor de F sea suficientemente grande según las tablas o cuando nivel de significación observado (la probabilidad de equivocarnos si rechazamos la H0) sea suficientemente pequeño, menor que 0,05 o 0,10. Supuestos: Hipótesis sobre la distribución de probabilidad de ε.

61

Análisis Multivariante En nuestro ejemplo del precio del piso explicado a través de su superficie, los estadísticos globales del modelo son: Resumen del modelo Modelo 1

R ,712a

R cuadrado ,507

R cuadrado corregida ,506

Error típ. de la estimación 7,6044

a. Variables predictoras: (Constante), superficie de la vivienda (m2)

ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 30689,069 29838,571 60527,639

Media cuadrática 30689,069 57,827

gl 1 516 517

F 530,708

Sig. ,000a

a. Variables predictoras: (Constante), superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros)

Con las variables incluidas en el modelo, la superficie de la vivienda y una constante, se ha conseguido explicar el 50,7% de la variabilidad del precio del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces la residual (30689 / 57). Como la significación de la F es menor que 0,05 podemos afirmar que esta varianza explicada es suficientemente grande. Es decir, hemos conseguido explicar porqué el precio no es igual en todas las viviendas (por la superficie de la misma). 5.8 •

PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significación de la F se dice que el modelo es “útil” (con un determinado nivel de confianza). Sin embargo, útil no significa que necesariamente sea el mejor. Algún otro modelo podría ofrecer mejores estimaciones y predicciones.

•

Un coeficiente de determinación (o de correlación) “alto” no significa que sea muy próximo a 1, ni un coeficiente “bajo” que sea próximo a 0 (no existe relación). La significación del test de la F (o de la t) es la que dirá si dicho coeficiente es suficientemente grande o no (estadísticamente diferente de 0). 62

Análisis Multivariante •

La ausencia de correlación entre dos variables puede indicar, simplemente, que la relación entre ambas no es rectilínea.

•

Un nivel de correlación elevado no implica necesariamente la existencia de una relación de CAUSALIDAD entre las variables analizadas. Se pueden encontrar altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se producen porque ambas variables están correlacionadas con una tercera variable.

5.9

OTROS AJUSTES DE BONDAD DEL MODELO

R cuadrado corregida,

R 2:

si se introduce una nueva variable en el modelo, la R2

siempre aumenta (ya que se consigue explicar algo más, aunque sea muy poco). De la misma manera, al quitar una variable la R2 siempre disminuye (aunque sea muy poco). Como nos interesa saber si es conveniente introducir/quitar una variable en el modelo, se ajusta la R2 según los grados de libertad:

R 2 = R2 − De esta manera, un aumento de la

k −1 (1 − R 2 ) n−k

R2

indica que el modelo ha mejorado al

introducir/quitar una variable.

Desviación típica de la perturbación o de la estimación, σ: Aún en la población, la estimación de Y para una X concreta puede tener cierto error, ε. Por este motivo se dice que ésta es una fuente de error propio del modelo de regresión. La variabilidad de este error intrínseco se mide por σ. Esta desviación típica de la estimación se estima por:

ei2 ∑ σ ≈s = 2

2

n−k

63

Análisis Multivariante

5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR Error muestral para el estimador de la media de y: La desviación típica de la distribución muestral del estimador del valor medio de y para un valor de x, por ejemplo xp, viene dada por:

1 ( xp − x) σ y∃ = σ + n SSxx

2

Se debe al error muestral: por trabajar con datos de una muestra

Error muestral para el estimador de un valor concreto de y: La desviación típica del error de la predicción de un valor concreto y cuando x = xp, (y y∃), es:

1 ( xp − x) σ ( y − y∃) = σ 1 + + n SSxx

2

Por tanto, la varianza total del error de pronóstico se divide en dos partes: varianza debida a la perturbación aleatoria (σ²) y la varianza debida al error muestral.

64

Análisis Multivariante

Intervalo de confianza al 100(1-α)% para el valor medio de y cuando x = xp y∃± tα/2 (la desviación estándar estimada de y∃)

1 ( xp − x) +

2

y∃± tα/2 s

n

; donde tα/2 tiene (n-2) g.l.

SSxx 100

90

precio vivienda (miles euros)

80

70

60

50

40

30 40

60

80

100

120

140

superficie de la vivienda (m2)

por dónde puede estar la recta de la población

Intervalo de confianza al 100(1-α)% para un valor individual de y cuando x = xp y∃ ± tα/2 [la desviación estándar estimada para (y - y∃)]

1 ( xp − x) 1+ + ; donde t 2

n

SSxx

α/2

tiene (n-2) g.l.

100

90

80

precio vivienda (miles euros)

y∃± tα/2 s

70

60

50

40

30 40

60

80

100

120

140

superficie de la vivienda (m2)

por dónde pueden estar las observaciones

65

Análisis Multivariante En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m2 (observaciones 423 y 444) y las vendió a 53313 y 46084 euros: Resúmenes de casos

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Núme ro de caso 399 406 409 416 423 424 428 430 432 434 437 444 450 452 457 463 465 467 468 478 480 485 499 503

Agen cia Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Otra Otra Otra Nuez Otra Otra

precio vivienda (miles euros) 35.060 42.470 58.735 49.277 53.313 38.253 41.145 52.470 50.120 47.590 43.072 46.084 36.747 32.349 50.422 55.241 41.446 45.964 43.253 39.759 46.928 47.831 31.205 62.229

superfic ie de la vivienda (m2) 69.238 83.238 116.095 96.048 104.286 75.190 84.286 104.095 100.333 96.905 86.762 90.333 76.619 60.619 101.095 113.571 81.810 93.571 84.524 76.762 95.762 92.476 66.000 128.048

Predicted Value 46.847 53.525 69.199 59.636 63.566 49.686 54.025 63.475 61.680 60.045 55.206 56.910 50.368 42.735 62.044 67.995 52.844 58.455 54.139 50.436 59.500 57.932 45.302 74.901

95% L CI for PRECIO mean 45.807 52.828 67.918 58.920 62.663 48.821 53.341 62.577 60.879 59.315 54.543 56.251 49.539 41.406 61.225 66.801 52.124 57.773 53.457 49.611 58.789 57.261 44.158 73.184

95% U CI for PRECIO mean 47.886 54.223 70.480 60.351 64.468 50.552 54.709 64.372 62.481 60.775 55.869 57.568 51.196 44.065 62.863 69.189 53.563 59.136 54.820 51.261 60.210 58.603 46.447 76.618

95% L CI for PRECIO individual 31.871 38.570 54.205 44.679 48.599 34.722 39.070 48.508 46.719 45.088 40.252 41.956 35.406 27.737 47.082 53.008 37.887 43.500 39.184 35.474 44.543 42.978 30.319 59.863

95% U CI for PRECIO individual 61.822 68.481 84.193 74.592 78.532 64.651 68.980 78.441 76.641 75.002 70.160 71.864 65.330 57.734 77.005 82.982 67.801 73.410 69.094 65.398 74.456 72.887 60.285 89.938

Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros. Al 95% de confianza, la estimación promedio podría situarse entre 62663 y 64468 euros. Al 95% de confianza, la predicción de una observación particular podría situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313. Lo mismo sucede con la observación 444. Un piso de 90,333 m2 puede tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la venta a un precio de 46084 euros puede ser factible. 66

Análisis Multivariante 5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE Hipótesis sobre la forma de la distribución de probabilidad de ε: y = β0 + β1x + ε 1. La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x. 2. La distribución de probabilidad de ε es normal. 3. La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad). 4. Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores). La hipótesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que la estimación por mínimos cuadrados exige que la media de los errores sea 0).

5.12 NORMALIDAD DE LOS ERRORES La distribución de probabilidad de ε tiene que ser normal, con una media igual a 0 y una desviación estándar de σ. Al cumplirse esta hipótesis, podemos hacer inferencia sobre β1 y comprobar si su valor es significativamente distinto de 0.

67

Análisis Multivariante

Se contrasta analizando el histograma de los residuos o el gráfico de probabilidad acumulada observada/esperada según la normal: Gráfico P-P normal de regresión Residuo tipificado

Histograma

Variable dependiente: precio vivienda (miles euros)

Variable dependiente: precio vivienda (miles euros)

1.00

40

.75

Prob acum esperada

30

Frecuencia

20

10

Desv. típ. = 1.00 Media = 0.00 N = 518.00

0

.50

.25

0.00

3 2.1 8 1.8 3 1.6 8 1.3 3 1.1 .88 .63 .38 .13 3 -.1 8 -.3 3 -.6 8 -.8 .13 -1 .38 -1 .63 -1 .88 -1 3 1 -2.

0.00

.25

.50

.75

1.00

Prob acum observada Regresión Residuo tipificado

Si el tamaño de muestra es suficientemente grande, el teorema central del límite garantiza las propiedades de los estimadores mínimos cuadráticos, sea cual sea la forma de la distribución de las perturbaciones. Si el tamaño de muestra es pequeño y la distribución es muy asimétrica no se garantiza la normalidad, con los intervalos de confianza pueden ser incorrectos.

5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES Las perturbaciones, ε, han de tener una misma varianza, σ2, para todos los valores de la variable independiente, X. Es decir, la dispersión de las perturbaciones no puede ser, por ejemplo, más grande para los valores más grandes de X y más pequeña para los más pequeños.

68

Análisis Multivariante Se puede utilizar el gráfico de la Y estimada (o de una X) frente a los residuos estandarizados para ver si el error varía su amplitud: Gráfico de dispersión

Gráfico de dispersión

Variable dependiente: OTRA_Y

Variable dependiente: precio vivienda (miles euros)

4

Regresión Residuo estudentizado

Regresión Residuo estudentizado

3

2

1

0

-1

-2 -3

3 2 1 0 -1 -2 -3 -3

-3

-2

-1

0

1

2

3

-2

-1

0

1

2

3

4

4

Regresión Valor pronosticado tipificado Regresión Valor pronosticado tipificado

Heterocedasticidad

Homocedasticidad

Numéricamente se comprueba comparando los errores de las observaciones con valores más bajos con los de las más altas para ver si son estadísticamente diferentes. También se pueden realizar regresiones de los errores al cuadrado con cada variable X en búsqueda de una explicación de la heterocedasticidad.

Si se demuestra que hay heterocedasticidad, los estimadores mínimo cuadrático son ineficientes. Las estimaciones se han de efectuar con un modelo de mínimos cuadrados generalizados o bien, si se pueden establecer supuestos sobre el comportamiento de las varianzas, por mínimos cuadrados ponderados.

5.14 NO AUTOCORRELACIÓN DE ERRORES La autocorrelación de errores se presenta cuando el error que se produce en una observación está relacionado con el de la otra. proceso autorregresivo de primer orden, es decir:

Habitualmente

se

supone

un

ut = ρ ut −1 + ε t .

La presencia de autocorrelación se puede deber a: el modelo no se ha especificado correctamente (falta alguna X o la relación no es recta); la Y depende del tiempo o tiene comportamientos cíclicos.

69

Análisis Multivariante El gráfico de los pronósticos frente a los residuos estandarizados permite ver si los errores tienen algún comportamiento: Gráfico de dispersión Variable dependiente: precio vivienda (miles euros) Regresión Residuo estudentizado

4 3 2 1 0

Comportamiento autoregresivo

-1 -2 -3 -2

-1

0

1

2

Regresión Valor pronosticado tipificado

Relación no rectilínea La autocorrelación se puede contrastar tratando de inferir el componente autoregresivo o por medio del test de Durbin-Watson

Si la autocorrelación se produce por un error de especificación se ha de revisar el modelo. Si hay autocorrelación de errores, pero no se conoce su causa, se debe acudir a los mínimos cuadrados generalizados (pues los estimadores mínimos cuadrados son ineficientes) o bien aplicar un procedimiento bi-etápico.

70

Análisis Multivariante

6. LINEALIDAD EN EL MODELO DE REGRESIÓN

6.1

OTRAS TRANSFORMACIONES

En nuestro ejemplo de las viviendas, vimos como el precio estaba relacionado con la distancia al centro pero no de una forma rectilínea A la vista de esta gráfica se puede pensar que el ajuste se puede mejorar utilizando un modelo cuadrático

100

90

precio vivienda (miles euros)

80

70

60

y = β0 + β1x + β2x2 + ε

50

40

30 0

10

20

Distancia centro (Km)

Los resultados de este modelo de regresión no lineal serían los siguientes: Dependent variable.. PRECIO Multiple R R Square Adjusted R Square Standard Error

Method.. QUADRATI

.81267 .66044 .65912 6.31732

Analysis of Variance:

Regression Residuals F =

DF 2 515

500.82914

Sum of Squares 39974.734 20552.906 Signif F =

Mean Square 19987.367 39.909 .0000

-------------------- Variables in the Equation -------------------Variable B SE B Beta T Sig T DISTANCIA -10.114875 .328898 -4.872461 -30.754 .0000 DISTANCIA**2 .503698 .015961 4.999952 31.559 .0000 (Constant) 93.278782 1.367318 68.220 .0000

71

Análisis Multivariante

precio vivienda (miles euros) 100

Ahora solo hay que interpretar los resultados:

90

Precio vivienda (miles euros)

80

70

Por cada Km. de distancia al centro el precio disminuye en 10114 euros, pero a la vez aumenta en 503 por cada Km. al cuadrado.

60

50

40

Observada

30

Cuadrático 0

10

20

Distancia centro (Km)

Curva de costes medios (transformación inversa)

CT = CF + v Q CT CF = CM = +v Q Q 1 Y = a+b X a = v; b = CF

b>0

a

Curva de crecimiento vegetativo (a una tasa de g) (transformación semi-logarítmica)

Y = A Bx ; B >1

B = (1 + g )

Transformación : lnY = lnA + x lnB

A

(ln Y) = a + bX

B 1

Poca: el modelo no suele presentar efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación 0,01 VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo Toler < 0,01

VIF > 100

Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)

Volvamos al ejemplo que trataba de explicar el precio de las viviendas por medio de la superficie del mismo (en m2), el nivel de reparaciones que necesita y la antigüedad de la vivienda. Ahora las incluimos todas ellas en un modelo de regresión múltiple, obteniendo el siguiente resultado: Correlaciones

Correlación de Pearson

Sig. (unilateral)

precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años) precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)

precio vivienda (miles euros) 1.000 .712 -.667 -.004 . .000 .000 .465

77

superfic ie de la vivienda (m2) .712 1.000 -.951 .055 .000 . .000 .107

Arreglos (de 0 -nada- a 10) -.667 -.951 1.000 -.069 .000 .000 . .058

Antigüe dad de la casa (años) -.004 .055 -.069 1.000 .465 .107 .058 .

Análisis Multivariante Con las correlaciones de Pearson entre cada par de variables podemos observar, en primer lugar, cuáles son las relaciones existentes entre cada una de las variables X y la Y. En nuestro caso, tanto la superficie de la vivienda como el nivel de arreglos tienen una alta correlación estadísticamente significativa con el precio de la vivienda. La única diferencia es que la relación es de signo positivo en la primera variable y negativa en la segunda. La antigüedad de la casa no influye significativamente en el precio de la vivienda. En segundo lugar, se puede apreciar el nivel de correlación que existe entre las variables independientes. Parece ser que la superficie de la vivienda tiene una alta correlación de signo negativo con el nivel de arreglos (parece que las casas grandes están más bien cuidadas que las pequeñas, o al menos lo aparentan). Esto es una indicación de que el modelo presentará colinealidad.

Resumen del modelo

Modelo 1

R .714a

R cuadrado .510

R cuadrado corregida .507

Error típ. de la estimación 7.5984

a. Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)

ANOVAb

Modelo 1

Regresión Residual Total

Suma de cuadrados 30851.138 29676.502 60527.639

gl 3 514 517

Media cuadrática 10283.713 57.736

F 178.115

Sig. .000a

a. Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10) b. Variable dependiente: precio vivienda (miles euros)

Los resultados a nivel global del modelo parecen satisfactorios. Se consigue explicar un 51% de la variabilidad del precio, y está explicación es suficiente comparada con la residual. Aunque, lo cierto es que no hemos conseguido mejorar extremadamente el coeficiente de determinación que teníamos en el modelo que incluía sólo la superficie de la vivienda (50,7%).

78

Análisis Multivariante

Coeficientesa

1

(Constante) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)

Coeficientes no estandarizados Error B típ. 6.654 9.179 .538 .067 .595 .634 -.214 .161

Coefic. estand. Beta .803 .094 -.041

t .725 8.060 .939 -1.333

Sig. .469 .000 .348 .183

Intervalo confianza para B al 95% Límite Límite inferior superior -11.379 24.688 .407 .669 -.650 1.841 -.530 .102

a. Variable dependiente: precio vivienda (miles euros)

Finalmente, a nivel individual parece que la única variable con un coeficiente de regresión significativamente distinto de 0 es la superficie. ¿Qué ha pasado con la significación de la variable Arreglos? Es más, menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el signo contrario (a nivel individual influía negativamente y ahora, de hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables no se parecen a la correlación de Pearson de esa variable y el precio. Estos problemas se han producido por el alto nivel de colinealidad existente en el modelo. La tolerancia y el VIF así nos lo indican: Coeficientesa

1

superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)

Estadísticos de colinealidad Tolerancia FIV .096 10.415 .096 10.434 .994 1.006

a. Variable dependiente: precio vivienda (miles euros)

Concluyendo, en este modelo la colinealidad impide conocer cuál es el efecto de cada variable independiente sobre la dependiente (¿qué varía el precio? la superficie de la vivienda o el nivel de arreglos que ésta necesita). De todos modos, la variable dependiente (el precio) queda perfectamente explicada por ambas variables.

79

Análisis Multivariante

7.9

INTRODUCCIÓN DE VARIABLES BINARIAS

Una variable binaria es aquella que admite dos posibles valores (se cumple cierta propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(sí pasa).

0, xB =   1,

si no se cumple la característica si se cumple la característica

Si se introduce tal cual en un modelo de regresión lineal supone estimar un efecto diferencial sobre el origen de la recta en cada categoría de la variable binaria: y = β0 + β1 x1 + β2 xB + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 = (β0 + β2) + β1 x1

Para ver si el precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido, añadimos la variable Agencia al modelo de regresión simple que explicaba el precio en función de la superficie. 100

90

80

precio vivienda (miles euros)

Gráficamente se puede observar que: Parece que las ventas de la inmobiliaria Nuez se han realizado a unos precios inferiores a las de las otra agencias.

70

60

50

Agencia 40 Nuez 30

Otra

40

60

80

superficie de la vivienda (m2)

80

100

120

140

Análisis Multivariante

A nivel numérico, los resultados obtenidos son: Resumen del modelob

Modelo 1

R R cuadrado .726a .527

R cuadrado corregida .525

Error típ. de la estimación 7.4599

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros) ANOVAb

Modelo 1

Regresión Residual Total

Suma de cuadrados 31868.045 28659.594 60527.639

gl 2 515 517

Media cuadrática 15934.023 55.650

F 286.327

Sig. .000a

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros)

Coeficientesa

1

(Constante) superficie de la vivienda (m2) Agencia que vendio la vivienda

Coeficientes no estandarizados B Error típ. 14.011 1.839 .480 .020 -5.158 1.121

Coefic. estand. Beta .717 -.140

t 7.620 23.632 -4.603

Sig. .000 .000 .000

a. Variable dependiente: precio vivienda (miles euros)

A nivel global, se consigue una explicación del 52,7% de las variaciones del precio, que es estadísticamente significativa. Las ventas de las otras agencias tienen un origen de 14011 euros mientras que las de la Nuez están 5158 euros por debajo. Esta misma diferencia se mantiene para todos los valores de la otra variable explicativa (sea cual sea la superficie).

81

Análisis Multivariante

100

90

Precio vivienda (miles euros)

80

70

60

50

40 Nuez Otra

30 40

60

80

100

120

140

Superficie de la vivienda (m2)

7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE También se pueden introducir variables binarias con efecto en la pendiente. En este caso debe especificarse el modelo en forma multiplicativa: y = β0 + β1 x1 + β2 xB x1 + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 x1 = β0 + (β1+ β2) x1

Así mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es: y = β0 + β1 x1 + β2 xB + β3 xB x1 + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 + β3 1 x1 = (β0 + β2) + (β1+ β3) x1

7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS No se pueden introducir variables cualitativas en un modelo de regresión tal como están codificadas, pues su coeficiente de regresión recogería un efecto lineal de pasar de un valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, ¿cuál es la categoría que precede a otra?

82

Análisis Multivariante En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en qué zona está ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un análisis de medias se puede observar que el precio medio es diferente en cada una de estas zonas: Descriptivos precio vivienda (miles euros)

Este Oeste Sur Total

N 243 166 109 518

Media 62.824 50.718 50.248 56.298

Desviaci ón típica 9.592 8.749 7.531 10.820

Error típico .615 .679 .721 .475

Intervalo confianza para la media al 95% Límite Límite inferior superior 61.612 64.036 49.377 52.059 48.818 51.677 55.364 57.232

Mínimo 37.590 32.349 31.205 31.205

Máximo 89.819 78.494 71.386 89.819

ANOVA precio vivienda (miles euros)

Inter-grupos Intra-grupos Total

Suma de cuadrados 19508.006 41019.634 60527.639

gl 2 515 517

Media cuadrática 9754.003 79.650

F 122.461

Sig. .000

Pero como puede apreciarse, la disminución que sufre el precio de la vivienda por estar situada en el Oeste en lugar del Este no es el mismo que si está situada en el Sur en lugar del Oeste. En cambio, un modelo de regresión que recogiera la variable Zona diría: Resumen del modelo

Modelo 1

R .512a

R cuadrado corregida .261

R cuadrado .262

Error típ. de la estimación 9.3013

a. Variables predictoras: (Constante), Zona donde esta localizada la casa

ANOVAb

Modelo 1

Regresión Residual Total

Suma de cuadrados 15886.798 44640.841 60527.639

gl 1 516 517

Media cuadrática 15886.798 86.513

F 183.634

a. Variables predictoras: (Constante), Zona donde esta localizada la casa b. Variable dependiente: precio vivienda (miles euros)

83

Sig. .000a

Análisis Multivariante

Coeficientesa

1

(Constante) Zona donde esta localizada la casa

Coeficientes no estandarizados B Error típ. 68.619 .997 -7.076 .522

Coefic. estand. Beta -.512

t 68.838 -13.551

Sig. .000 .000

a. Variable dependiente: precio vivienda (miles euros)

Por “incrementar en una unidad la X” el precio de la vivienda disminuye en 7076 euros. Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.

Para introducir adecuadamente una variable cualitativa en una regresión se ha de convertir dicha variable en binarias (tantas como categorías tenga la variable cualitativa menos una) y efectuar el análisis con las variables binarias. Resúmenes de casosa Zona donde esta localizada la casa Oeste Oeste Oeste Sur Este Este Sur Este Oeste Este

1 2 3 4 5 6 7 8 9 10

Zona Este .00 .00 .00 .00 1.00 1.00 .00 1.00 .00 1.00

Zona Oeste 1.00 1.00 1.00 .00 .00 .00 .00 .00 1.00 .00

En nuestro ejemplo convertiríamos la variable zona de 3 categorías en 2 variables binarias, Zona Este y Zona Oeste. La tercera categoría no haría falta incluirla ya que está representada por la ausencia de las otras dos.

a. Limitado a los primeros 10 casos.

Y el resultado que obtenemos con el análisis de regresión coincide con el del análisis de varianza (en el que se comparaban las medias): Resumen del modelo

Modelo 1

R R cuadrado .568a .322

R cuadrado corregida .320

Error típ. de la estimación 8.9247

a. Variables predictoras: (Constante), Zona Oeste, Zona Este

84

Análisis Multivariante

ANOVAb

Modelo 1

Regresión Residual Total

Suma de cuadrados 19508.006 41019.634 60527.639

gl 2 515 517

Media cuadrática 9754.003 79.650

F 122.461

Sig. .000a

a. Variables predictoras: (Constante), Zona Oeste, Zona Este b. Variable dependiente: precio vivienda (miles euros)

Coeficientesa

Modelo 1

(Constante) Zona Este Zona Oeste

Coeficientes no estandarizados B Error típ. 50.248 .855 12.577 1.029 .471 1.100

Coefic. estand. Beta .581 .020

t 58.781 12.224 .428

Sig. .000 .000 .669

a. Variable dependiente: precio vivienda (miles euros)

La interpretación de los coeficientes sería la siguiente: • En promedio y cuando todas las demás variables son cero (es decir estamos en la categoría omitida de la variable cualitativa) el precio medio de las viviendas es de 50248 euros. • Cuando estamos en la zona Este, el precio de la vivienda aumenta, en promedio, en relación a la zona Sur (categoría omitida) en 12577 euros. Por tanto el precio medio se situaría en 62825 (50248+12577). • Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en relación a la zona Sur en 471 euros, en promedio, situándose en 50719 euros. Esta misma interpretación se efectuaría si hubieran otras variables cuantitativas en el modelo. En este caso, los coeficientes de correlación indicarían el origen de cada una de las rectas que se mantendría a lo largo de toda la pendiente provocada por la variable cuantitativa (rectas paralelas). Si se quisiera modelizar un efecto no constante se podrían introducir términos de interacción (como vimos con las variables binarias). 7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS A lo largo de estos apuntes hemos visto como influían las variables cuantitativas disponibles para explicar el precio de la vivienda: superficie (m2), arreglos necesarios (escala 0 – 10), antigüedad y distancia al centro. 85

Análisis Multivariante Las dos primeras explicaban el precio de la vivienda de forma significativa aunque entre ellas existía excesiva colinealidad. La antigüedad no influía en el precio de la vivienda y la distancia al centro lo hacía de una forma no lineal (además se ha comprobado que está variable también está relacionada con la superficie en un modelo cuadrático). Por tanto, ante un modelo de regresión múltiple lineal nos tenemos que conformar con incluir sólo la superficie de la vivienda en m2 (evitando así los problemas de colinealidad). En cuanto a las variables cualitativas, se dispone de la zona y el mes de la venta. Para evitar supuestos de linealidad entre las categorías de estas variables hemos definido unas variables binarias que recogen sus diferentes categorías. Se supone además que los efectos de estas categorías se producen en la constante (y no en la pendiente de la curva). Finalmente, se incorpora la variable agencia que efectuó la venta para comprobar si la Inmobiliaria Nuez actúa o no de mala fe vendiendo los pisos por debajo de su precio. Los resultados obtenidos con este modelo son los mejores de todo el análisis como puede comprobarse a continuación: Estadísticos descriptivos

precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda

Desviación típ. 10.8201 16.15 .4995 .4671 .4445 .4351 .4306 .29

Media 56.2982 89.05 .4691 .3205 .2703 .2529 .2452 9.46E-02

86

N 518 518 518 518 518 518 518 518

Análisis Multivariante

Correlaciones

Correlación de Pearson

Sig. (unilateral)

precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que la vendió precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que la vendió

precio

superficie

Zona Este

Zona Oeste

Mes Enero

Febr ero

Mes Marzo

Age ncia

1.000

.712

.568

-.354

.191

.071

-.079

-.114

.712

1.000

-.053

-.051

.024

.023

.023

.035

.568 -.354 .191 .071 -.079

-.053 -.051 .024 .023 .023

1.000 -.646 .064 -.013 -.068

-.646 1.000 -.027 .010 .003

.064 -.027 1.000 -.354 -.347

-.013 .010 -.354 1.000 -.332

-.068 .003 -.347 -.332 1.000

-.211 .160 -.033 -.021 .015

-.114

.035

-.211

.160

-.033

-.021

.015

1.000

.

.000

.000

.000

.000

.053

.036

.005

.000

.

.116

.123

.297

.300

.299

.211

.000 .000 .000 .053 .036

.116 .123 .297 .300 .299

. .000 .074 .384 .061

.000 . .272 .413 .474

.074 .272 . .000 .000

.384 .413 .000 . .000

.061 .474 .000 .000 .

.000 .000 .225 .316 .366

.005

.211

.000

.000

.225

.316

.366

.

A nivel individual puede apreciarse como todas las variables introducidas en el modelo aportan explicación sobre el precio de la vivienda. Las correlaciones más importantes son la que se producen con la superficie de la vivienda y la zona Este (ambas de signo positivo). Entre las variables independientes hay muy poca correlación. Por el gran tamaño de la muestra, son significativas los tres meses entre sí y la agencia con la zona. Resumen del modelo

Modelo 1

R .959a

R cuadrado .919

R cuadrado corregida .918

Error típ. de la estimación 3.0938

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este

87

Análisis Multivariante

ANOVAb

Modelo 1

Regresión Residual Total

Suma de cuadrados 55646.141 4881.498 60527.639

gl 7 510 517

Media cuadrática 7949.449 9.572

F 830.528

Sig. .000a

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este b. Variable dependiente: precio vivienda (miles euros)

A nivel global se consigue una buena explicación de la variabilidad del precio de venta. Un 91,9% de las diferencias en el precio son explicadas por las variables introducidas en el modelo. Como era de esperar, esta variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene una R cuadrado ajustada de 0,918, la más alta de todos los modelos analizados. Coeficientesa

1

(Constante) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda

Coeficientes no estandarizados Error B típ. 1.061 .869 .498 .009 14.769 .364 2.984 .385 5.375 .386 4.147 .392 2.060 .396 -.275 .476

Coefic. estand. Beta .744 .682 .129 .221 .167 .082 -.007

t 1.221 58.529 40.567 7.760 13.922 10.576 5.206 -.578

Sig. .223 .000 .000 .000 .000 .000 .000 .563

Intervalo confianza para B al 95% Límite Límite inferior superior -.646 2.768 .482 .515 14.054 15.484 2.229 3.740 4.617 6.134 3.377 4.917 1.282 2.837 -1.211 .660

a. Variable dependiente: precio vivienda (miles euros)

A nivel individual todas las variables son estadísticamente significativas, a excepción de la constante y de la agencia que vendió la casa. El modelo sería más eficiente si las elimináramos pero así nos sirve para comprobar que efectivamente, la agencia no provoca diferencias significativas en el precio de venta de la vivienda (una vez deducidos los efectos de la superficie, la zona y el mes de la venta). Ahora se interpretan los coeficientes como hemos hecho en otros modelos: • En promedio, por cada m2 de más que tenga la vivienda su precio aumenta en 498 euros. • Una vivienda localizada en la Zona Este tiene un precio 14769 euros superior a las viviendas de la Zona Sur, en promedio. En cambio, si se localiza en la Zona Oeste la diferencia es de solo 2984 euros. 88

Análisis Multivariante • Los precios de venta van disminuyendo cada mes. Incluso parece que existe una disminución similar (lineal) cada mes de unos 2000 euros. Finalmente, se puede verificar que, como no hay mucha colinealidad, las conclusiones que se obtenían del análisis individual (correlaciones de Pearson) son muy semejantes a las Betas de cada variable en el análisis conjunto.

Coeficientes a

1

superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda

Estadísticos de colinealidad Tolerancia FIV .979 1.021 .560 1.786 .574 1.743 .628 1.591 .636 1.572 .638 1.568 .951 1.051

a. Variable dependiente: precio vivienda (miles euros)

89

Los estadísticos de colinealidad nos indican que no se produce altas correlaciones entre todas las variables independientes. La menor Tolerancia se sitúa a nivel de 0,57 con lo que los efectos de la colinealidad pueden ser despreciables.

Análisis Multivariante

Resúmenes de casos

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Núme ro de caso 399 406 409 416 423 424 428 430 432 434 437 444 450 452 457 463 465 467 468 478 480 485 499 503

Agen cia Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Otra Otra Otra Nuez Otra Otra

precio vivienda (miles euros) 35.060 42.470 58.735 49.277 53.313 38.253 41.145 52.470 50.120 47.590 43.072 46.084 36.747 32.349 50.422 55.241 41.446 45.964 43.253 39.759 46.928 47.831 31.205 62.229

superficie de la vivienda (m2) 69.238 83.238 116.095 96.048 104.286 75.190 84.286 104.095 100.333 96.905 86.762 90.333 76.619 60.619 101.095 113.571 81.810 93.571 84.524 76.762 95.762 92.476 66.000 128.048

Zona Oeste Oeste Sur Sur Sur Oeste Oeste Sur Sur Oeste Sur Sur Sur Oeste Oeste Sur Oeste Sur Oeste Oeste Sur Oeste Sur Sur

Predicted Value 38.545 45.521 58.909 48.919 52.749 41.511 46.043 52.929 51.055 52.331 44.292 45.797 39.239 34.250 54.419 57.651 44.809 47.686 46.162 42.294 48.777 49.849 33.947 64.864

95% L CI for PRECIO mean 37.798 44.824 58.013 48.127 51.630 40.794 45.347 52.111 50.251 51.610 43.503 44.695 38.418 33.439 53.676 56.775 44.111 46.897 45.466 41.583 47.985 48.828 33.060 63.858

95% U CI for PRECIO mean 39.292 46.218 59.804 49.712 53.868 42.228 46.739 53.748 51.858 53.052 45.082 46.898 40.059 35.062 55.161 58.527 45.508 48.474 46.858 43.005 49.569 50.869 34.835 65.870

Finalmente, podemos observar como los precios de venta que fijó la Inmobiliaria Nuez en las observaciones 423 y 444 están incluidos incluso en el intervalo de confianza de la estimación con lo que claramente no aplicó una política fraudulenta.

90

Análisis Multivariante

8. BIBLIOGRAFÍA KMENTA, Jan (1980): Elementos de econometría. Vicens universidad. Barcelona. NEWBOLD, Paul (1997): Estadística para los negocios y la economía. Prentice Hall. Madrid. NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New Jersey. (ya está disponible: SPSS 10.0 Guide to Data Analysis) LUQUE MARTÍNEZ, Teodoro (coordinador) (2000): Técnicas de análisis de datos en investigación de mercados. Ediciones Pirámide. Madrid.

91

Análisis Multivariante

ANÁLISIS DE LA VARIANZA (ANOVA)

92

Análisis Multivariante

9. ANÁLISIS DE LA VARIANZA (ANOVA) 9.1

CONCEPTO.

Se trata de una técnica de análisis adecuada para poder extraer conclusiones acerca de si una o más variables independientes condicionan a otra u otras variables dependientes. Se trata de un método de dependencia en el que la variable o variables dependientes están medidas en escala métrica y las variables independientes están medidas en escalas no métricas. Esta técnica es de gran utilidad en la experimentación científica y por supuesto en la de Marketing. Entendemos por experimentación la manipulación intencionada de las variables independientes (tratamientos) para estudiar la respuesta en la variable o variables dependientes.

9.2

MODALIDADES DE ANÁLISIS DE LA VARIANZA

En el esquema siguiente resumimos las diferentes tipos de análisis de varianza

Variables independientes

Variables dependientes (métricas) Una

Varias

Una

ANOVA de un factor

MANOVA de un factor

Varias

ANOVA de 2 o k factores

MANOVA de k factores

Categóricas e intervalos

ANCOVA

MANCOVA

ANOVA proviene de ANálisis Of VAriance MANOVA de Múltiple ANálisis Of Variance ANCOVA de ANálisis Of COVAriance MANCOVA de Múltiple ANálisis Of COVAriance. 93

Análisis Multivariante ANCOVA En este procedimiento se introduce una variable independiente (X) métrica, que no se controla pero incide en la dependiente (covariable), es decir covaría. Si son varias las dependientes (Y) se llama MANCOVA

9.3

ANOVA

Es una técnica de dependencia diseñada para medir la influencia que una o varias variables independientes (Xi), (no métricas, cualitativas) tienen sobre otra variable (Y) dependiente o cuantitativa. 9.3.1

TIPOS DE ANOVA

ANOVA de un solo factor o variable explicativa (one way) ANOVA con varios factores. Este a su vez se divide en: •

Modelo factorial completo. Es cuando considera los efectos de varias variables independientes conjuntamente con sus interacciones.

•

Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado de las variables, sin tener en cuenta las interacciones. También se llama modelo de efectos principales.

9.4

EXPERIMENTACIÓN

Uno de los objetivos de la Investigación de Marketing es el de tratar de definir las relaciones que unen al mix de Marketing de la empresa con sus resultados. Esta información es de suma importancia en el proceso de toma de decisiones, así como en la planificación estratégica y en los mecanismos de control de la misma. Las relaciones que se identifican entre las variables del Marketing mix de la empresa y sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de causalidad. El análisis causal es el que pretende investigar las relaciones de influencia o causalidad entre las diferentes variables. Desde un punto de vista filosófico se puede entender como causa, aquello que hace ser a algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa implica el que se diferencie entre la causa que produce algo nuevo de la que solo modifica lo existente. 94

Análisis Multivariante Teniendo en cuenta que la investigación de Marketing no se ocupa de los consumidores y productos en su conjunto, sino sólo de las variables de estos en los estudios descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la Investigación de Marketing le interesa la causalidad no en el sentido que produce un nuevo ser, sino en la modificación de lo existente. Cuando se dice que dos variables, están unidas por una relación de causalidad, significa que, una variable influye en la otra, en el sentido de que una modificación en la primera conduce a una variación en la segunda. El análisis de la varianza es la técnica mas apropiada para estudiar y explotar los datos provenientes de situaciones experimentales. El análisis de la varianza permite extraer conclusiones sobre si una o más variables independientes (X) influyen y condicionan a una o varias dependientes (Y), e incluso nos da información si la interacción de las variables independientes (X) es significativa.

9.5

EL MÉTODO DE EXPERIMENTACIÓN

El método de experimentación consiste en reproducir fenómenos a voluntad del investigador. Aplicado a la Investigación de Marketing, trata de provocar la conducta del consumidor en condiciones perfectamente controladas, lo más parecidas posibles a una situación real, con el objetivo de sacar consecuencias de la respuesta a un estímulo cuyo efecto queramos conocer. La principal dificultad de la experimentación consiste en realizar la prueba en las mismas circunstancias que en la realidad, así como en aislar los resultados obtenidos, debido a la variación producida respecto a otras variables no controladas en el experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y tratamos de controlar su incidencia en el comportamiento de compra por parte de los usuarios. La ventaja de este método es que elimina el factor distorsionador que el entrevistado provoca al suministrar información en una encuesta, ya que lo que aquí se estudia es el comportamiento del consumidor ante una determinada situación.

95

Análisis Multivariante La ejecución de una experimentación debe ser perfectamente planificada. Los aspectos de esta planificación son: 1. Definición de los objetivos. 2. Definir la zona experimental. 3. Elección al azar de las unidades experimentales 4. Período de duración de la experimentación 5. Diseño experimental 6. Recogida de información 9.5.1

PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN

Entre las aplicaciones más utilizadas podemos reseñar las siguientes: Fijación de precios. Selección de medios publicitarios y promocionales. Elección de puntos de venta. Determinación del tipo de envase y su tamaño. Lanzamiento de nuevos productos.

9.6

METODOLOGÍA DE LA EXPERIMENTACIÓN

En todo experimento se deben definir: 1 Factor principal Variable independiente estudiada con sus diferentes alternativas, a las que se denomina “tratamientos”. 2 Factores externos Se trata de factores influyentes que es conveniente aislar y controlar. En algunos diseños experimentales se estudian de forma individual y se denominan factores bloque o rodeo. 3 Unidades experimentales Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos: a) De laboratorio •

Se trata de un local donde se reproducen las condiciones reales del mercado. Normalmente se suele hacer en el propio centro de investigación.

b) Natural o real •

El estudio se realiza en lugares muestra del mercado real, zonas geográficas, ciudades, tiendas, etc. 96

Análisis Multivariante 4 Variable dependiente Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las variables estudiadas. EJEMPLO Una empresa de conservas vegetales desea medir el efecto de dos estrategias de promoción diferenciadas para comercio en régimen de autoservicio y para tiendas especialistas. Definir las características del experimento. 1 Factor principal: los dos tipos de promoción 2 Factor externo: situación del producto en la tienda, en la estantería, día de la semana 3 Unidad experimental: comercio de las características requeridas (tiendas reales) 4 Variable dependiente: Unidades físicas de producto vendidas

9.7 9.7.1

ELEMENTOS DE UN EXPERIMENTO CONCEPTOS GENERALES

La respuesta es una variable cuantitativa que se va a estudiar en el experimento. También se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa Los factores (uno o varios) son aquellas variables de las que el experimentador quiere estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas como cuantitativas, los factores se analizan de forma cualitativa, es decir, se experimenta con unos valores concretos. Ejemplos: envase, promoción, precio, ... Los niveles de un factor son los diferentes valores utilizados en el experimento de una de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promoción: Reducción precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas. Los tratamientos de un experimento son todas las combinaciones utilizadas de cada factor-nivel. La unidad experimental es la observación (individuo u objeto) donde la respuesta y los factores son observados y medidos. Un diseño experimental es el procedimiento que utiliza el análisis-para controlar la especificación de los tratamientos y el método para asignar las unidades experimentales a cada tratamiento. 97

Análisis Multivariante Un experimento por observación es aquel en el que el analista observa el tratamiento y la respuesta de cada unidad experimental. 9.7.2

HIPÓTESIS DE TRABAJO

Como hipótesis nula se considera que no existen diferencias entre las medias de los tratamientos. Esto es: H0:

µ1 = µ2 = . . . = µp

Ha:

Por lo menos dos de los p tratamientos tienen medias diferentes.

9.8

¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI COMPARAMOS MEDIAS?

ANOVA pretende medir la influencia de una o más variables independientes y cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la misma población o no. En el caso de que sean de la misma población, el análisis de la varianza permite descubrir si la interacción entre las variables explicativas provoca cambios significativos.

La diferencia existente entre una observación y la media general se divide entre una parte explicada (distancia entre la media del tratamiento y la media general) y una residual (distancia entre una observación y la media de su tratamiento): Es decir 98

Análisis Multivariante (Yij − Y ) = (Yij − Yi ) + (Yi − Y ) Esta misma diferencia, elevada al cuadrado, se calcula para todas las observaciones de la muestra:

Suma de cuadrados entre grupos (inter) SC(Explicada) =

∑ (Y − Y )

2

i

Suma de cuadrados total SC(Total) =

∑ (Y − Y )

2

ij

Suma de cuadrados dentro grupos (intra) SC(Residual) =

∑ (Y − Y ) ij

2

i

A continuación, se divide cada Suma Cuadrados por sus grados de libertad, obteniendo los Cuadrados Medios o varianzas: CM(Total) =

∑ (Yij − Y ) 2 n −1

CM(Inter-grupos) =

CM(Intra-grupos) =

9.8.1

= Varianza Total

∑ (Yi − Y ) 2 p −1

∑ (Y − Y ) ij

n− p

= Varianza Explicada

2

i

= Varianza Residual

ESTADÍSTICO DE PRUEBA

Para comprobar si es suficientemente grande la varianza explicada frente a la varianza residual, se calcula el estadístico de prueba F=

Varianza Explicada Varianza Re sidual

y su nivel de significación observado (F prob), probabilidad de equivocarnos si se rechaza la H0, con el que se podrá decidir si se Rechaza o no la H0. 99

Análisis Multivariante El estadístico F conduce al Rechazo de la H0 cuando el nivel de significación (F prob.) es pequeño (menor que 0,05), entonces las medias de los tratamientos son estadísticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable dependiente realmente depende de la independiente. Además, se puede: a)

realizar comparaciones múltiples de medias por pares utilizan-do un

método como por ejemplo el de Scheffé, que permite ver las diferencias estadísticamente significativas que de forma más estricta existen entre las medias de los tratamientos. b)

construir intervalos de confianza para una o mas medias individuales.

Si el estadístico F no conduce al Rechazo de la H0, entonces: las medias son iguales (No rechazamos la hipótesis nula) No se puede creer que de manera automática esta conclusión es la adecuada. Se tiene que considerar también la posibilidad de un error de tipo II, el que cometemos si no se rechaza la hipótesis nula cuando es falsa. Las medias son realmente diferentes, pero no hemos considera-do otros factores importantes que también afectan a la respuesta. Estos factores aumentan la variabilidad residual generando valores mas pequeños de F. Entonces se tiene que incrementar el tamaño de la muestra para cada tratamiento o se tiene que utilizar un diseño experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.

9.9

EXPERIMENTOS ALEATORIOS CON UN FACTOR

Un diseño completamente aleatorio, es aquel en el que se seleccionan muestras aleatorias para cada tratamiento. Yij = µi + εij donde

Yij: es la respuesta de la observación j a la que se le ha aplicado el

tratamiento µi: es la media del tratamiento i, y εij: es una parte aleatoria específica de cada observación. Hipótesis planteadas: La hipótesis nula es que las medias de los diferentes tratamientos son iguales H0:

µ1 = µ2 = . . . = µp 100

Análisis Multivariante Ha:

Por lo menos dos tratamientos tienen medias diferentes.

Supuestos: Las distribuciones de probabilidad de las p poblaciones son normales. Las varianzas de las p poblaciones son iguales. Las muestras se seleccionan aleatoria e independientemente de las poblaciones respectivas. 9.9.1

MODELO

Este modelo también puede expresarse como: Yij = µ + τi + εij donde

µ: es la media general, y τi: es el efecto diferencial del tratamiento i.

H0:

τ1 = τ2 = . . . = τp

Ha:

Por lo menos dos tratamientos tienen efecto diferencial.

9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) Utiliza una sola variable explicativa (X) El modelo tiene que cumplir los siguientes supuestos: La variable dependiente (Y) sigue una distribución normal Las varianzas de todas las poblaciones deben ser aproximadamente iguales (Homoscedasticidad) Las muestras son independientes y son obtenidas de forma aleatoria EJEMPLO 1: ANÁLISIS DE VARIANZA DE UN FACTOR (SPSS) Caso 1: Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de tiendas diferentes que se están considerando (hipermercados, supermercados, cooperativas y tiendas tradicionales).

101

Análisis Multivariante

ANOVA

Precio lata 33 cc.

Inter-grupos Intra-grupos Total

Suma de cuadrados 1419,757 5848,525 7268,282

gl 3 226 229

Media cuadrática 473,252 25,878

F 18,288

Sig. ,000

Como las diferencias son significativas se quiere conocer cuáles son los precios medios que se aplican en cada tipo de tienda (en la muestra y para la población, con un intervalo de confianza del 95%). Descriptivos

Precio lata 33 cc.

Tipo de tienda

Hipermercado Supermercado Cooperativa Tda. tradicional Total

N 52 46 50 81 230

Media 44,2134 47,8553 45,3896 50,2857 47,3497

Desviación típica 7,9435 5,3715 1,9618 3,7471 5,6398

Error típico 1,0982 ,7934 ,2775 ,4154 ,3723

Intervalo de confianza para la media al 95% Límite Límite inferior superior 42,0086 46,4183 46,2563 49,4543 44,8318 45,9475 49,4590 51,1123 46,6162 48,0832

Finalmente, se quiere averiguar cuáles de estos precios medios aplicados en las diferentes tiendas son significativamente distintos entre sí, de una forma estricta (utilizando el test de comparaciones múltiples Scheffé).

102

Análisis Multivariante

Comparaciones múltiples Variable dependiente: Precio lata 33 cc. Scheffé

(I) Tipo de tienda Hipermercado

Supermercado

Cooperativa

Tda. tradicional

(J) Tipo de tienda Supermercado Cooperativa Tda. tradicional Hipermercado Cooperativa Tda. tradicional Hipermercado Supermercado Tda. tradicional Hipermercado Supermercado Cooperativa

Diferencia de medias (I-J) -3,6419* -1,1762 -6,0722* 3,6419* 2,4657 -2,4304 1,1762 -2,4657 -4,8960* 6,0722* 2,4304 4,8960*

Error típico 1,029 1,006 ,902 1,029 1,040 ,939 1,006 1,040 ,914 ,902 ,939 ,914

Sig. ,007 ,714 ,000 ,007 ,135 ,085 ,714 ,135 ,000 ,000 ,085 ,000

Intervalo de confianza al 95% Límite Límite inferior superior -6,5408 -,7429 -4,0101 1,6577 -8,6115 -3,5330 ,7429 6,5408 -,4645 5,3959 -5,0766 ,2159 -1,6577 4,0101 -5,3959 ,4645 -7,4709 -2,3212 3,5330 8,6115 -,2159 5,0766 2,3212 7,4709

*. La diferencia entre las medias es significativa al nivel .05.

Precio lata 33 cc. a,b

Scheffé

Tipo de tienda Hipermercado Cooperativa Supermercado Tda. tradicional Sig.

N 52 49 45 81

Subset for alpha = .05 1 2 3 44,2134 45,3896 45,3896 47,8553 47,8553 50,2857 ,692 ,096 ,104

Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Uses Harmonic Mean Sample Size = 54,627 b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error del tipo I no están garantizados.

9.11 ANOVA CON VARIOS FACTORES En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de efectos y factores que se pueden analizar y que indicamos a continuación: 103

Análisis Multivariante Intersección: las observaciones habitualmente se sitúan en torno a una media distinta de cero. Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se desea extraer conclusiones. Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los posibles niveles sobre los que se desea extraer conclusiones. Covariables: variables explicativas (factores) cuantitativas. Habitualmente trabajaremos con factores fijos. Los factores también se pueden clasificar como: Principales: son los que el investigador controla y modifica para verificar su efecto. Ejemplos: precio, canal, ... De rodeo o bloqueo: son aquellos que varían por si solos al repetir el experimento varias veces (ya que todas las unidades experimentales no son exactamente iguales), el investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda, día de la semana, ...

9.12 TIPOS

DE

EXPERIMENTOS

HABITUALMENTE

UTILIZADOS EN INVESTIGACIÓN COMERCIAL Los tipos de experimentos que más habitualmente se utilizan en la Investigación Comercial son: -

Experimentación al azar.

-

Experimentación en bloques aleatorios.

-

Experimentación en cuadrado latino.

-

Experimentación con intercambio.

-

Experimentación factorial.

La experimentación factorial permite tratar dos o más variables simultáneamente, mientras que los otros sólo permiten manipular una variable. 9.12.1 EXPERIMENTO ALEATORIO O AL AZAR En este tipo de experimento comercial sólo se controla un factor: la variable independiente estudiada. 104

Análisis Multivariante La asignación de tratamiento a las diferentes unidades experimentales se realiza de forma aleatoria. Vamos a desarrollar lo expuesto anteriormente mediante un caso práctico:

CASO PRÁCTICO Un banco realiza un experimento comercial de tres tipos diferentes de promoción para el lanzamiento de un nuevo producto. Estas promociones consistían en: P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los electrodomésticos de la cocina

Cada promoción se probó en cinco sucursales diferentes durante un mes. Los resultados obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en el cuadro siguiente:

S1

S2

S3

S4

S5

P1

65

50

30

40

65

P2

30

25

15

20

35

P3

15

10

10

25

50

SOLUCIÓN Definiremos las siguientes características: Factor principal: los diferentes tipos de promoción P1, P2, P3, luego K = 3. Unidades experimentales 15 (5 sucursales x 3 tipos de promoción) Variable dependiente: unidades vendidas. Número total de mediciones: n=15 Número de mediciones por cada tratamiento (promoción) nj=5 xij= unidades físicas vendidas en cada sucursal. 105

Análisis Multivariante mj= media de unidades vendidas por tratamiento. m= media total. Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:

S1

S2

S3

S4

S5

S

P1

65

50

30

40

65

250 50

P2

30

25

15

20

35

125 25

P3

15

10

10

25

50

110 22

mj

y por tanto m = 32´333 Una vez obtenidos estos datos, pasamos a realizar los cálculos de la técnica ANOVA Dispersión total.

=

D T

n

k

∑ ∑ j = 1

j

( x

i = 1

ij

− m )

2

Sustituyendo por los correspondientes valores obtenemos: DT = (65 - 32´3)2 + (50 - 32.3)2 + (30 - 32´3)2 + (40 - 32´3)2 + (65 - 32´3)2 + 2

2

2

2

2

(30 2

- 32´3) + (25 - 32´3) + (15 - 32´3) + (20 - 32´3) + (35 - 32´3) + (15 - 32´3) + (10 - 32´3)2 + (10 - 32´3)2 + (25 - 32´3)2 + (50 - 32´3)2 = 4.693´333 Dispersión factorial: k

DF = ∑n j (m j − m) 2 j =1

Sustituyendo obtenemos: DF = 5(50 - 32´3)2 +5(25 - 32´3)2 +5(22 - 32´3)2 = 2.363´333 Dispersión residual DR = DT - DF

Luego DR = 4.693´33 - 2.363´33 = 2.330

Cuadrado medio factorial (CMF) CMF =

DF DF = gl k −1

Sustituyendo obtenemos CMF = 1.181´6667 Cuadrado medio residual (CMR) 106

Análisis Multivariante

CMR =

DR DR = gl n−k

Sustituyendo obtenemos CMR = 194´1667 Test de la F

F=

CMF CMR

Sustituyendo obtenemos F= 6´0858 Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que F = 3´89 Como 6´0858 > 3´89, existe un efecto significativo de los diferentes tratamientos estudiados para un nivel de confianza del 95%. La conclusión es que los diferentes tipos de promoción afectan significativamente a la demanda. La salida realizada con el programa SPSS es: Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la conclusión final es la misma.

107

Análisis Multivariante EXPERIMENTO ALEATORIO AL AZAR a Resumen del procesamiento de los casos

N

Incluidos Porcentaje 15 100,0%

Casos Excluidos N Porcentaje 0 ,0%

N

Total Porcentaje 15 100,0%

a. Ventas (unidades vendidas) por Tipo de promoción, Sucursal

Medias de las casillasb,c

Tipo de promoción Bicicleta Ordenador Electrodoméstico Total

Sucursal Total Total Total 1 2 3 4 5 Total

Ventas (unidades vendidas) Media N 50,0000 5 25,0000 5 22,0000 5 36,6667 3 28,3333 3 18,3333 3 28,3333 3 50,0000 3 a 32,3333 15

a. Media global b. Ventas (unidades vendidas) por Tipo de promoción, Sucursal c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.

ANOVAa

Ventas (unidades vendidas) Efectos principales (Combinadas) Tipo de promoción Sucursal Modelo Residual Total

Suma de cuadrados 4040,000 2363,333 1676,667 4040,000 653,333 4693,333

Método jerárquico Media gl cuadrática F 6 673,333 8,245 2 1181,667 14,469 4 419,167 5,133 6 673,333 8,245 8 81,667 14 335,238

a. Ventas (unidades vendidas) por Tipo de promoción, Sucursal

108

Sig ,004 ,002 ,024 ,004

Análisis Multivariante 9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO En este tipo de experimento comercial se controlan dos factores: 1 La variable independiente o factor principal 2 Un factor de control que se denomina “factor bloque”, también llamado “de rodeo” Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro factor influyente en el aspecto estudiado, aparte del factor principal. Se debe utilizar un número de unidades experimentales suficientes para probar todas las combinaciones posibles entre las alternativas de los dos factores controlados. Desarrollemos lo anterior con el siguiente caso: CASO PRÁCTICO Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza una prueba con tres envases diferentes: P1 envase de 2l., P2 envase de 1l., P3 envase de 0´5l. Además la empresa controla otro factor influyente, que es el tipo de establecimiento donde se expenden los refrescos; para ello definen el siguiente factor bloque: B1 grandes superficies, B2 supermercados, B3 tienda tradicional y B4 autoservicio. Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los resultados siguientes en miles de unidades de producto: Tabla de resultados: B1

B2

B3

B4

P1

3

4

3

2

P2

7

8

7

6

P3

8

12

8

4

SOLUCIÓN Factor Principal: tratamientos P1, P2, P3. Luego k=3 Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4 Unidades experimentales 4x3 =12 Variable dependiente: unidades vendidas Siendo 109

Análisis Multivariante n el número de mediciones (12) xij las unidades vendidas en los diferentes establecimientos. mj la media de ventas por tratamiento mi la media de ventas por cada alternativa de bloque m la media total Cálculos

B1

B2

B3

B4

S

mj

P1

3

4

3

2

12

3

P2

7

8

7

6

28

7

P3

8

12

8

4

32

8

S

18

24

18

12

mi

6

8

6

4

Luego m = 6 Dispersión total DT = 92 Dispersión factorial DF = 56 Dispersión bloque

DB = ∑k (mi − m) 2 DB = 3(6 - 6)2 + 3(8 - 6)2 + 3(6 - 6)2 + 3(4 - 6)2 = 24 Dispersión residual DR = DT - DF - DB

Sustituyendo, DR = 12

Cuadrado medio factorial CMF = 28 Cuadrado medio bloque CMB = 8 Cuadrado medio residual CMR = 2 Test de la F 1 Factor principal

F=

CMF CMR

Luego F = 14 Como el valor en tablas para el 95% y gl 2 y 6 es 5´14 110

Análisis Multivariante Podemos decir que existe un efecto significativo de los tratamientos estudiados para un nivel de confianza del 95% 2 Factor bloque

F=

CMB CMR

Luego F = 4 El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 4´76 Como 4 < 4´76 podemos decir que: NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%

La correspondiente salida de SPSS es:

111

Análisis Multivariante

9.12.2.1 EXPERIMENTO DE BLOQUE ALEATORIO (SPSS)

a Resumen del procesamiento de los casos

N

Incluidos Porcentaje 12 100,0%

Casos Excluidos N Porcentaje 0 ,0%

Total Porcentaje 12 100,0%

N

a. Ventas (miles de unidades) por Tipo de promoción, Tipo de tienda Medias de las casillasb,c

Envase 2 litros 1 litro 1/2 litro Total

Tipo de tienda Total Total Total Gran superficie Supermercado Tienda tradicional Autoservicio Total

Ventas (miles de unidades) Media N 3,0000 4 7,0000 4 8,0000 4 6,0000 3 8,0000 3 6,0000 3 4,0000 3 6,0000a 12

a. Media global b. Ventas (miles de unidades) por Envase, Tipo de tienda c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.

ANOVAa

Ventas (miles de unidades) Efectos principales (Combinadas) Envase Tipo de tienda Modelo Residual Total

Suma de cuadrados 80,000 56,000 24,000 80,000 12,000 92,000

Método jerárquico Media gl F cuadrática 5 16,000 8,000 2 28,000 14,000 3 8,000 4,000 5 16,000 8,000 6 2,000 11 8,364

a. Ventas (miles de unidades) por Tipo de promoción, Tipo de tienda

112

Sig ,012 ,005 ,070 ,012

Análisis Multivariante 9.12.3 EXPERIMENTO DE CUADRADO LATINO En este tipo de experimentación comercial se controlan tres factores: 1 La variable independiente o factor principal 2 Dos factores de control o rodeo que se denominan “factores bloque” El diseño en cuadrado latino exige utilizar el mismo número de alternativas en los tres factores controlados. Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores influyentes en el fenómeno estudiado, aparte del factor principal. Se debe diseñar un número de unidades experimentales suficiente para probar todas las combinaciones posibles entre los tres factores sometidos a control. Vamos a desarrollarlo con el siguiente caso práctico: CASO PRACTICO Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el color adecuado para confeccionar el envase. Se proponen los siguientes colores: P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y verde. Para ello la empresa controla los siguientes factores influyentes: Bloque 1 Tipo de punto de venta. B11 gran superficie, B12 autoservicio, B13 comercio tradicional Bloque 2 Región geográfica. B21 Cataluña, B22 Aragón, B23 País Vasco. Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones geográficas. Los resultados obtenidos son (en miles de unidades):

B11

B12

B13

B21

P1

P2

P3

B22

P2

P3

P1

B23

P3

P1

P2

113

Análisis Multivariante SOLUCIÓN Supongamos los siguientes datos para la matriz

B11

B12

B13

B21

(P1) 5

(P2) 2

(P3) 3

B22

(P2) 3

(P3) 4

(P1) 6

B23

(P3) 3

(P1) 6

(P2) 2

Conceptos: Factor principal: los diferentes tratamientos P1, P2, P3, luego K = 3 Factor bloque 1: las alternativas B11, B12, B13, luego R= 3 Factor bloque 2: las alternativas B21, B22; B23, luego L= 3 K=R=L=3 Unidades experimentales: 9 tiendas (3x3) Variable dependiente: unidades vendidas n el número de mediciones 9 xijk unidades vendidas mi media de las unidades vendidas B1 mj media de las unidades vendidas B2 mk media de unidades vendidas por tratamiento m la media total Cálculos

B11

B12

B13

S

mj

B21

5

2

3

10

3´3

B22

3

4

6

13

4´3

B23

3

6

2

11

3´4

S

11

12

11

mi

3´4

4

3´4

mk toma los valores 5´7, 2´3 y 3´3 114

Análisis Multivariante mkP1 = (5+6+6) : 3 = 5´7, Dispersión total DT = 19´556 Dispersión factorial (mk)DF = 17´556 Dispersión bloque 1 (mi) DB1 = 0´222 Dispersión bloque 2 (mj) DB2 = 1´556 Dispersión residual DR = DT -DF - DB1 - DB2 DR = 0´222 Cuadrado medio factorial CMF =17´556 : 2 = 8´778 Cuadrado medio bloque 1 CMB1 =0´222 : 2 = 0´111 Cuadrado medio bloque 2 CMB2 = 1´556 :2 = 0´778 Cuadrado medio residual CMR = 0´222 :2 = 0´111 Test de la F 1 Factor principal F = 8´778 : 0´111 = 79´000 El valor de tablas para el 95% y gl 2 y 2 es Ft = 19 Sí que existe significación 2 Factor bloque 1 F = 0´111 : 0´111 = 1, siendo Ft = 19 Es válida H0 2 Factor bloque 2 F = 0´778 : 0´111 = 7, siendo Ft = 19 Es válida H0 La correspondiente salida del SPSS es:

115

Análisis Multivariante

9.12.3.1 EXPERIMENTO CUADRADO LATINO (SPSS) a Resumen del procesamiento de los casos

N

Incluidos Porcentaje 9 100,0%

Casos Excluidos N Porcentaje 0 ,0%

N

Total Porcentaje 9 100,0%

a. Ventas (miles de unidades) por Envase, Tipo de tienda, REGIÓN Medias de las casillasb,c

Envase Verde/blanco Rojo/verde Azul/verde Total

Tipo de tienda Total Total Total Gran superficie Autoservicio Tienda tradicional Total

Región Total Total Total Total Total Total Cataluña Aragón Pais Vasco Total

Ventas (miles de unidades) Media N 5,6667 3 2,3333 3 3,3333 3 3,6667 3 4,0000 3 3,6667 3 3,3333 3 4,3333 3 3,6667 3 3,7778a 9

a. Media global b. Ventas (miles de unidades) por Envase, Tipo de tienda, Región c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.

ANOVAa

Ventas (miles de unidades) Efectos principales (Combinadas) Envase Tipo de tienda Región Modelo Residual Total

Suma de cuadrados 19,333 17,556 ,222 1,556 19,333 ,222 19,556

Método jerárquico Media gl cuadrática F 6 3,222 29,000 2 8,778 79,000 2 ,111 1,000 2 ,778 7,000 6 3,222 29,000 2 ,111 8 2,444

a. Ventas (miles de unidades) por Envase, Tipo de tienda, Región

116

Sig ,034 ,013 ,500 ,125 ,034

Análisis Multivariante 9.12.4 EXPERIMENTO CON INTERCAMBIO Este procedimiento consiste básicamente en la aplicación alternativa y sucesiva de los diferentes tratamientos a las unidades experimentales. El orden de aplicación de los diversos tratamientos sobre las unidades experimentales debe ser al azar, con la condición de que haya el mismo número de unidades experimentales que reciba primero un tratamiento y después los otros. Este tipo de experimento combina las características de los bloques aleatorios y los de los cuadrados latinos pequeños. 9.12.5 EXPERIMENTO FACTORIAL En los experimentos comerciales de tipo factorial se controlan varios factores principales, midiendo sus efectos individuales y los conjuntos sobre la variable dependiente. Esta es una situación muy habitual en el área de Marketing, donde la aplicación del Marketing mix produce en el mercado unos resultados diferentes del que se obtendría por la suma de los efectos aislados de cada factor del mix de Marketing. La técnica estadística que se utiliza se denomina ANOVA de vía múltiple. Veamos este experimento con un caso práctico: CASO PRACTICO Una empresa realiza un experimento con tres tipos de promoción (Puntos, precio y sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran superficie y en una tienda tradicional, durante un mes. Los resultados en miles de unidades de producto vendidas son las indicadas en el siguiente cuadro.

E1

E2

P1

P2

P3

40

34

28

36

28

20

30

26

14

22

16

10

117

Análisis Multivariante SOLUCIÓN Factor principal 1 los modelos de envase E1, E2 a=2 Factor principal 2 los tipos de promoción P1, P2, P3 b=3 Unidades experimentales: 12 (dos por cada combinación de factores) K = 2 Variable dependiente: unidades vendidas n es el número de mediciones totales (12) xijk unidades vendidas en las diferentes mediciones mi es la media de unidades vendidas por alternativas del factor 1 mj es la media de unidades vendidas por alternativas del factor 2 mk es la media de unidades vendidas por cada combinación de factores m es la media total Cálculos

P1

P2

P3

S

mj

40

34

28

186

31

36

28

20

30

26

14

118

19´67

22

16

10

S

128

104

72

mi

32

26

18

E1

E2

mk

304

P1E1

P1E2

P2E1

P2E2

P3E1

P3E2

38

26

31

21

24

12

Siendo m = 25´3 Dispersión Total DT = 930´667

Dispersión Factor 1 DF1 = ∑aK (mj − m)2

Sustituyendo obtenemos:

DF1 = (2x2) ( 31 - 25´3)2 +(2x2) ( 19´6 - 25´3)2 = 385´33 118

Análisis Multivariante Dispersión factor 2

DF 2 = ∑bK ( mi − m) 2

Sustituyendo obtenemos

DF2 = (3x2) (32 - 25´3)2 + (3x2) (26 - 25´3)2 + (3x2) (18 - 25´3)2 = 394´667

Dispersión de la interacción DIN = S(m +mk - mj - mi)2 DIN = 2´667

Dispersión residual DR = DT - DF1 - DF2 - DIN DR = 148

Cuadrado medio del factor 1 CMF1 = 385´333 : 1 = 385´333 Cuadrado medio del factor 2

CMF2 = 394´667 :2 = 197´33

(gl= a-1) (gl=b-1)

Cuadrado medio de la interacción (CMIN) CMIN =

DIN (a − 1)(b − 1)

Sustituyendo obtenemos: CMIN = 1´333

Cuadrado medio residual (CMR) CMR =

DR ab ( K − 1)

Sustituyendo obtenemos CMR = 24´667

Test de la F

1 Factor 1 F= 385´333 : 24´667 = 15´622 Ft para el 95% y gl 1 y 6 es 5´99 Por tanto existe un efecto significativo.

2 Factor 2 F = 197´333 : 24´667 = 8 Ft para el 95% y gl 2 y 6 es 5´14 119

Análisis Multivariante Por tanto existe un efecto significativo. 3 Interacción F = 1´333 : 24´667 = 0´054 Como el valor de F es menor de la unidad, nos indica que no existe un efecto significativo de la interacción de los dos factores objeto de la experimentación sobre la demanda. No es preciso comparar con tablas. La correspondiente salida con el paquete estadístico SPSS es la siguiente:

120

Análisis Multivariante

9.12.5.1 EXPERIMENTO FACTORIAL SIMPLE (SPSS)

a Resumen del procesamiento de los casos

N

Incluidos Porcentaje 12 100,0%

Casos Excluidos N Porcentaje 0 ,0%

N

Total Porcentaje 12 100,0%

a. Ventas (miles de unidades) por Envase, Promoción

Medias de las casillasb

Envase 500 cc.

1000 cc.

Total

Promoción Puntos Precio Sorteo Total Puntos Precio Sorteo Total Puntos Precio Sorteo Total

Ventas (miles de unidades) Media N 38,00 2 31,00 2 24,00 2 31,00 6 26,00 2 21,00 2 12,00 2 19,67 6 32,00 4 26,00 4 18,00 4 25,33a 12

a. Media global b. Ventas (miles de unidades) por Envase, Promoción ANOVAa

Ventas (miles de unidades) Efectos principales

Interacciones de orden 2

(Combinadas) Envase Promoción Envase * Promoción

Modelo Residual Total

Suma de cuadrados 780,000 385,333 394,667

Sig ,008 ,008 ,020

2,667

2

1,333

,054

,948

782,667 148,000 930,667

5 6 11

156,533 24,667 84,606

6,346

,022

a. Ventas (miles de unidades) por Envase, Promoción

121

Método jerárquico Media gl F cuadrática 3 260,000 10,541 1 385,333 15,622 2 197,333 8,000

Análisis Multivariante TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F (Nivel de confianza 95%)

m n

1

2

3

4

5

1

161´4

199´5

215´7

224´6

230´2

2

18´51

19

19´16

19´25

19´30

3

10´13

9´55

9´28

9´12

9´01

4

7´71

6´94

6´59

6´39

6´26

5

6´61

5´79

5´41

5´19

5´05

6

5´99

5´14

4´76

4,53

4´39

7

5´59

4´74

4´35

4´12

3´97

8

5´32

4´46

4´07

3´84

3´69

9

5´12

4´26

3´86

3´63

3´48

10

4´96

4´10

3´71

3´48

3´33

11

4´84

3´98

3´59

3´36

3´20

12

4´75

3´89

3´49

3´26

3´11

13

4´67

3´81

3´41

3´18

3´03

14

4´6

3´74

3´34

3´11

2´96

15

4´54

3´68

3´29

3´06

2´90

Siendo m los grados de libertad del numerador y n los grados de libertad del denominador. 122

Análisis Multivariante

ANEXO 1 RESUMEN DEL MÉTODO ANOVA TRADICIONAL El proceso de este método es: Se determinan las siguientes dispersiones: 1.- Dispersión total (DT) Mide la suma de las dispersiones. 2.- Dispersión factorial (DF) Mide la dispersión entre los grupos creados por las diferentes alternativas del factor o factores estudiados. Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales, correspondientes al factor principal y a los factores de bloque. 3.- Dispersión residual (DR) Mide la dispersión dentro de los grupos creados por las diferentes alternativas del factor o factores estudiados. DT = DF + DR

DR = DT - DF

4.- Se calcula el cuadrado medio total (CMT) Se trata de la dispersión total dividida por el número de grados de libertad. CMT = DT / gl

donde gl son los grados de libertad.

5.- Se calcula el cuadrado medio factorial (CMF) Se trata de la dispersión factorial dividida por el número de grados de libertad. CMF = DF / gl Dependiendo del tipo de experimento pueden existir varias varianzas factoriales, correspondiendo al factor principal y a los factores bloque. 6.- Se calcula el Cuadrado medio residual (CMR) Se trata de la dispersión residual dividida por el número de grados de libertad. CMR = DR / gl 7 Se realiza el test de la F Para cada factor estudiado se calcula: 7-1.- Se calcula el estadístico F F = CMF / CMR 123

Análisis Multivariante Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto significativo del factor estudiado sobre la variable dependiente, y por tanto no es necesario realizar la comparación de F con el correspondiente valor de las tablas. 7-2.- Se determina el valor de F en las tablas estadísticas de la distribución de la F, en base a los grados de libertad del numerador y del denominador. 7-3.- Se comparan ambos valores. La hipótesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR ESTUDIADO. Entonces: Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia significativa sobre la variable dependiente. Si F= Ft (tabla), entonces se cumple H0 ANEXO 2 RESUMEN DE TÉRMINOS UTILIZADOS A continuación vamos a explicar brevemente los conceptos utilizados habitualmente en la Investigación Comercial por experimentación. Diseño experimental. Forma de atribuir los diferentes tratamientos a las unidades experimentales. Dispersión de bloque. Variación que se produce como consecuencia de la acción de diversas variables que no pueden ser controladas, pero cuya existencia conocemos. Dispersión factorial. Variación producida como consecuencia de la influencia de los diversos tratamientos (factores), cuyos efectos se quieren medir y comparar. Dispersión residual. Variación que se produce como consecuencia de diferentes variables, cuyo valor y presencia no conocemos (es decir están sin controlar). También se llama “error experimental”. Dispersión total. Es la variación total originada por los diferentes tratamientos, factores no controlados y las interacciones entre los diversos tratamientos. Grados de libertad. Expresan el número de datos independientes necesarios para calcular el valor de un parámetro. Interacción. Variación que se produce como consecuencia de la influencia recíproca entre varios tratamientos. 124

Análisis Multivariante Repetición. Consiste en realizar dos o más veces una experimentación bajo las mismas condiciones, con el objetivo de obtener una conclusión. También se denomina “réplica”. Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar. Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento, cuyos efectos se quieren medir y comparar. Varianza. Es la medida de dispersión de un conjunto de datos con relación a su media. Matemáticamente se expresa por la fórmula siguiente:

∑( X N

σ2 =

i =1

i

− µ)

2

donde Xi es el valor del dato, µ es la media del universo o

N

población (N). Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de dicha muestra se sustituye por los grados de libertad (n-1). La expresión matemática correspondiente es.

∑( x n

S2 =

i =1

i

− m)

2

n−1

donde n es el tamaño de la muestra, m es la media de la

muestra, y xi = valor del dato correspondiente.

9.13 BIBLIOGRAFÍA Análisis Multivariable para las Ciencias Sociales. Lévy Varela Editorial Perrazo Prentice Hall 2003 El Análisis de la Varianza en la Investigación Comercial. Gregoria Mateos-Aparicio y Miguel Martín. Prentica Hall 2002

125

Análisis Multivariante

ANÁLISIS DISCRIMINANTE

126

Análisis Multivariante

10. ANALISIS DISCRIMINANTE Introducción Vamos a reseñar en el siguiente esquema de situación la técnica del Análisis Discriminante entre los diferentes procedimientos multivariables

Análisis multivariante Dos grupos de variables Método Explicativo Número de variables a explicar: UNA Tipo de la variable a explicar: Cualitativa Tipo de las variables explicativas: Métricas Análisis Discriminante

10.1 CONCEPTO El análisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el análisis de datos con una variable dependiente categórica y variables independientes medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a las diferentes categorías o grupos preestablecidos 127

Análisis Multivariante 10.1.1

EJEMPLO

Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta, Kas, Schweppes) Variables independientes o de predicción: Las valoraciones obtenidas a través de una escala Diferencial Semántico (7 puntos).

10.2 OBJETIVOS DEL AD •

Explicar la pertenencia de individuos u objetos a grupos preestablecidos

•

Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de las variables independientes (predictoras), que discriminan mejor entre las categorías (Grupos) de la variable dependiente.

•

Identificar diferencias significativas entre los grupos en función de las variables predictoras

•

Determinar las variables independientes (predictoras) que más contribuyen a la diferencia entre grupos.

•

Clasificar los casos para uno de los grupos en función de las variables predictoras.

•

Evaluar la exactitud de la clasificación.

10.3 CLASIFICACIÓN DEL AD Las técnicas del AD se clasifican por el número de categorías que tiene la variable criterio 1. Análisis discriminante de dos grupos: la variable criterio tiene dos categorías (dicotómica) 2. Análisis discriminante múltiple: la variable criterio tiene tres o más categorías 128

Análisis Multivariante 10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN Las similitudes entre las tres técnicas y sus diferencias las resumimos en el siguiente cuadro Análisis

ANOVA

Discriminante

REGRESION

N de variables dependientes

Una

Una

Una

N de variables independientes

Varias

Varias

Varias

Naturaleza de la variable dependiente

Categórica

Métrica

Métrica

Naturaleza de la variable independiente

Métricas

Categóricas

Métricas

El análisis discriminante de dos grupos está estrechamente relacionado con la Regresión múltiple. En esta situación la variable dependiente se clasifica como binaria (0 y 1) da como resultado coeficientes de regresión parcial proporcionales a los coeficientes de la función discriminante.

10.5 MODELO DEL AD El modelo estadístico en que se fundamenta el AD comprende combinaciones lineales de la siguiente estructura:

D = b0 + b1x1 + b2 x2 + b3 x3 + …..+ bk xk Siendo •

D la calificación discriminante

•

B los coeficientes discriminantes

•

X variables predictoras

129

Análisis Multivariante 10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD 10.6.1 SUPUESTOS: 1. Cada uno de los grupos es una muestra de una población normal de variables múltiples 2. Todas las poblaciones tienen la misma matriz de covarianza 10.6.2 ESTADÍSTICOS Los estadísticos que más importancia y tienen mayor relación son: •

Correlación Canónica: Mide la asociación entre la única función discriminante y el conjunto de variables simuladas que definen los datos del grupo (algunos autores llaman membresía, aunque esta palabra no existe en nuestro idioma, la podemos considerar equivalente a membrete) del grupo. Mide el grado de asociación entre los valores discriminantes y los grupos.

•

Centroide. Esta formado por los valores medios de las calificaciones discriminantes para un determinado grupo. Por tanto existen tantos centroides como grupos. Las medias para un grupo en todas las funciones es el centroide del grupo.

•

Matriz de clasificación o matriz de confusión o predicción. Contiene el número de casos que se clasifican en forma correcta y errónea. Los casos clasificados correctamente se distribuyen en la diagonal. La suma de los casos de la diagonal dividida por el total de casos es la razón de aciertos.

•

Coeficientes de la función discriminante. Los no estandarizados son los multiplicadores de las variables, cuando estas se encuentran en las unidades de medición originales.

130

Análisis Multivariante •

Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican por los valores de las variables independientes y se suman al valor constante (b0) obteniéndose el valor D (Calificación Discriminante)

•

Valor específico. Es la razón de la suma de los cuadrados entre y dentro de los grupos. Los valores específicos altos indican funciones superiores.

•

Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de grupo como variable independiente categórica. Cada indicador sirve como variable dependiente métrica del ANOVA.

•

Medias y desviaciones estándar. Se determinan para cada indicador de cada grupo

•

Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante el promedio de las matrices de covarianza separadas para todos los grupos.

•

Coeficientes estandarizados de función discriminante. Se utilizan com multiplicadores cuando las variables se estandarizan con media 0 y varianza 1

•

Correlaciones de estructura. También se llaman cargas discriminantes, representan

las correlaciones sencillas entre los indicadores y la función

discriminante •

Matriz de correlación total. Los casos se tratan como si fueran de una sola muestra y se determinan las correlaciones

•

La λ de Wilks. También llamado estadístico U Para cada indicador es la razón de la suma de los cuadrados dentro de los grupos con la suma total de cuadrados. Su valor esta comprendido entre 0 y 1 Los valores próximos a 1 indica que las medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que las medias de los grupos parecen diferentes.

131

Análisis Multivariante

10.7 PASOS DEL ANÁLISIS DISCRIMINANTE Los pasos o fases que contiene el análisis discriminante son: 1. Formular el problema, 2. Estimar los coeficientes de función discriminante, 3. Determinar la significación discriminante, 4. Interpretar los resultados 5. Verificar la validez del análisis discriminante. 10.7.1 FORMULACIÓN DEL PROBLEMA Hemos de identificar a través de los objetivos que perseguimos la variable criterio y las variables predictoras o independientes. La variable criterio debe establecerse en categorías mutuamente excluyentes y colectivamente exhaustivas. Las variables predictivas deben escogerse en función del criterio del investigador. La muestra se divide en dos partes, Una parte de la muestra se utiliza para el cálculo de la función discriminante (Muestra de análisis) La otra parte que se suele denominar como proposición o muestra de validación y se usa para validar la función discriminante. Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es intercambiar el papel de las mitades haciéndose lo que se denomina validación cruzada doble.

132

Análisis Multivariante 10.7.2 ESTIMACIÓN La muestra de análisis la utilizamos para determinar los coeficientes de función discriminante. Método directo. Todos los indicadores se incluyen directamente. Es decir se incluyen todas las variables sin importar su poder de discriminación Análisis discriminante discreto. Las variables de predicción entran de forma secuencial, en función de su capacidad para discriminar entre los grupos. El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias) el investigador quiere que la discriminación se base en todos los indicadores. El método discreto es de utilidad cuando se quiere seleccionar un conjunto o subconjunto de indicadores para su inclusión en la función discriminante final. 10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN Para probar la significación estadística se toma como hipótesis nula (H0) En la población las medias de todas las funciones discriminantes son iguales en todos los grupos. La prueba se basa en la λ de Wilks La significación se calcula con base en una transformación de ji cuadrado Normalmente se trabaja para un contraste del nivel de significación α = 5% Rechazamos H0 cuando la significación calculada sea menor que 0´05 10.7.4 INTERPRETACIÓN La interpretación de los coeficientes es similar a la que se realiza en el análisis de regresión múltiple. El valor del coeficiente de un indicador concreto depende del resto de indicadores que se incluyan en la función discriminante. 133

Análisis Multivariante Los signos de los coeficientes indican que valores de la variable dan como resultado valores de la función altos y bajos así como las correlaciones con los grupos Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna medición objetiva de la significación relativa de los indicadores en la discriminación entre los grupos. Podemos tener idea de la significación relativa al examinar los coeficientes estandarizados de la función discriminante En la praxis, los indicadores con coeficientes estandarizados altos contribuyen más al poder discriminante. También se analiza la significación relativa de las variables predoctoras (indicadores) analizando las correlaciones de estructura (Cargas canónicas o cargas discriminantes) Estas correlaciones simples entre el indicador y la función discriminante representan la varianza que la variable independiente comparte con la función. También podemos añadir a la interpretación de los resultados el Perfil Característico, se trata de interpretar los resultados mediante la descripción de cada grupo en términos de las medias de los grupos para las variables de predicción. Una comparación entre las medias nos ayuda a comprender sus diferencias. Para una mejor comprensión de estos conceptos reseñamos el siguiente ejemplo del autor Narres K. Malhotra. 10.7.4.1 EJEMPLO5

LOS VENDEDORES SATISFECHOS CONSERVAN SU

TRABAJO. Se utilizó el AD para determinar que factores explicaban las diferencias entre los vendedores que permanecen en la empresa y los que la abandonaron. Las variables utilizadas pueden observarse en la tabla de resultados

5

Naresh K. Malhotra Investigación de Mercados un enfoque práctico. Segunda edición Prentice Hall 1997

134

Análisis Multivariante El resultado fue: La correlación canónica, un índice de discriminación R = 0,4572 es significativa λ de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180. Por tanto el resultado indica que las variables consideradas discriminan entre los que se fueron de la empresa y los que permanecen. Ejemplo.

135

Análisis Multivariante

10.7.5 VALIDACIÓN Si recordamos los datos se dividían aleatoriamente en dos submuestras. Una la denominamos muestra de análisis y la utilizamos para estimar la función discriminante y la segunda que llamamos muestra de validación se utiliza para desarrollar la matriz de clasificación Los valores relativos discriminantes que se calculan a través de la muestra de análisis, se multiplican por los valores de las variables de predicción con el objetivo de obtener las correspondientes calificaciones discriminantes (D) de la muestra de validación. De aquí se obtiene la razón de aciertos, que es, el porcentaje de casos que se clasifican correctamente por medio del Análisis Discriminante. Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma correcta con el AD con el porcentaje que obtendríamos por la probabilidad. Cuando las dos submuestras tienen el mismo tamaño el porcentaje de clasificación por probabilidad es 0,5, en general cuando los grupos tienen el mismo tamaño el porcentaje de clasificación por probabilidad es1 dividido por el número de grupos. Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un 25% mayor que la alcanzada por la probabilidad. Los paquetes estadísticos utilizados habitualmente estiman una matriz de clasificación con base en la muestra de análisis. Dando significación a la variación probable de esos datos.

136

Análisis Multivariante 10.7.5.1 EJEMPLO: 10.7.5.2 ANÁLISIS DISCRIMINANTE DE DOS GRUPOS.

137

Análisis Multivariante

10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:

Estadísticos; Clasificar; Discriminante; Variable de agrupación ... (cualitativa); Definir rango ... (mín., máx.); Independientes ... (variables cuantitativas o binarias), Introducir independientes juntas Estadísticos: Descriptivos: Medias* y ANOVAs univariados; Matrices: correlación intra-grupos, Coeficientes de la función: no tipificados; Clasificar: Mostrar: Resultados para cada caso* Tabla de resumen Clasificación dejando uno fuera*. * pedir solo si interesa. EJEMPLO DE LAS BICICLETAS

Somos una empresa fabricante de Bicicletas y deseamos conocer, a través Cuáles son las características diferenciadoras de los consumidores de la gama Alta y de la gama Media de nuestras bicicletas.

Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Código de grupo de perdido o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total Total

138

N 180 0 0

Porcentaje 100,0 ,0 ,0

0

,0

0 180

,0 100,0

Análisis Multivariante 1. ANÁLISIS UNIVARIANTE: Estadísticos del grupo

Gama de Producto Media

Alta

Total

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana

N válido (según lista) No ponderados Ponderados 141 141,000 141 141,000 141 141,000

Media 28,93 ,65 26928,72

Desv. típ. 7,09 ,48 6726,99

85,96

30,89

141

141,000

2,91 ,47

,68 ,50

141 141

141,000 141,000

2,98

,79

141

141,000

29,21 ,64 42587,18

6,98 ,49 12704,88

39 39 39

39,000 39,000 39,000

168,46

60,02

39

39,000

4,67 ,21

,62 ,41

39 39

39,000 39,000

4,44

1,12

39

39,000

28,99 ,64 30321,39

7,05 ,48 10559,63

180 180 180

180,000 180,000 180,000

103,83

51,70

180

180,000

3,29 ,41

,98 ,49

180 180

180,000 180,000

3,29

1,06

180

180,000

¿Las medias de estas variables para cada uno de los grupos son significativamente distintas? Deberíamos hacer un análisis de la varianza, considerando cada una de las variables independientes como la variable a explicar y como variable explicativa, el factor, nuestra variable dependiente (el grupo al que pertenece la observación). Por ejemplo, el resultado obtenido en el análisis de varianza para la variable “autoevaluación del nivel ciclista” sería el siguiente:

139

Análisis Multivariante

ANOVA de un factor ANOVA

Autoevaluación del nivel ciclista

Inter-grupos Intra-grupos Total

Suma de cuadrados 94,510 78,468 172,978

gl 1 178 179

Media cuadrática 94,510 ,441

F 214,389

Sig. ,000

El análisis discriminante efectúa ese mismo análisis para todas las variables explicativas: Pruebas de igualdad de las medias de los grupos

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana

Lambda de Wilks 1,000 1,000 ,625

F ,047 ,003 106,929

,565

gl1 1 1 1

gl2 178 178 178

Sig. ,829 ,960 ,000

136,839

1

178

,000

,454 ,952

214,389 9,068

1 1

178 178

,000 ,003

,675

85,832

1

178

,000

Además del test F, ya conocido, se calcula la Lambda de Wilks: λ

WILKS

=

Suma de cuadrados intra - grupos (residual) Suma de cuadrados Total

En ambos casos, la H0 es: las medias son iguales. Si la Significación es pequeña (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay diferencias entre las medias de los grupos. Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables explicativas 140

Análisis Multivariante

Matrices intra-grupo combinadas

Corre lación

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana

edad 1,000

est. civil ,179

Ingreso ,716

Km por semana ,010

nivel ciclista ,037

sexo -,010

Veces sem. -,029

,179

1,000

,159

,062

-,058

,079

-,013

,716

,159

1,000

,102

,015

-,009

,040

,010

,062

,102

1,000

,577

-,138

,695

,037

-,058

,015

,577

1,000

-,180

,393

-,010

,079

-,009

-,138

-,180

1,000

-,135

-,029

-,013

,040

,695

,393

-,135

1,000

La correlación “intra-grupo” se calcula teniendo en cuenta la pertenencia a un determinaro grupo. Ejemplo:

141

Análisis Multivariante

10.9 ANALISIS DEL EFECTO CONJUNTO: En primer lugar se busca la Función discriminante: D = B0 + B1 X 1 + B2 X 2 + Λ + BK X K siendo los coeficientes B’s aquellos que maximizan la relación Suma de Cuadrados Explicada / Suma de Cuadrados Residual. En nuestro ejemplo: Coeficientes de las funciones canónicas discriminantes

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana (Constante)

Función 1 -,10273 ,01998 ,00012 -,00025 1,00256 -,01476 ,14424 -4,38912

Coeficientes no tipificados

Con ellos se pueden calcular las puntuaciones discriminantes para cada observación: D1 =

– 0,102 (22) + 0,019 (0) + 0,0001 (22100) – 0,0002 (120) + + 1,002 (5) – 0,014 (0) + 0,144 (3) – 4,389 = 1,40 Resúmenes de casosa

1 2 3 4 5

edad 22 22 23 23 23

estado civil (1=casado) soltero soltero soltero soltero soltero

Ingreso familiar anual (Euros) 22100 28900 24650 31450 28050

Promedio de Km realizados por semana 120 200 140 100 100

Autoevaluación del nivel ciclista Profesional (5) Profesional (5) Profesional (5) Experto (4) Profesional (5)

a. Limitado a los primeros 5 casos.

142

sexo (1=mujer) hombre hombre hombre mujer hombre

Promedio de veces que utiliza la bici por semana 3 4 4 3 4

Puntuaciones discriminantes de la función 1 para el análisis 1 1,40039 2,33522 1,74085 1,39958 2,15595

Análisis Multivariante

Las puntuaciones discriminantes se pueden guardar, pudiéndose utilizar en otros análisis. Por ejemplo, podemos comprobar como se han separado los grupos con un análisis de varianza: Descriptivos

Puntuaciones discriminantes de la función 1

Gama de Producto

N 141 39 180

Media Alta Total

Media -,8222 2,9725 ,0000

Desv. típica ,8910 1,3263 1,8579

Error típico ,0750 ,2124 ,1385

Intervalo de confianza para la media al 95% Límite Límite inferior superior -,9705 -,6738 2,5425 3,4024 -,2733 ,2733

ANOVA

Puntuaciones discriminantes de la función 1

Inter-grupos Intra-grupos Total

Suma de cuadrados 439,903 178,000 617,903

gl 1 178 179

Media cuadrática 439,903 1,000

F 439,903

Sig. ,000

Como también hace el análisis discriminante:

Análisis 1: Resumen de las funciones canónicas discriminantes =

Autovalores

Función 1

Autovalor 2,471a

% de varianza 100,0

% acumulado 100,0

Correlación canónica ,844

439,9 SC Explicada = ≡R 617,9 SC Total

a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.

SC Explicada / SC Residual = 439,9 / 178 Lambda de Wilks Contraste de las funciones 1

Lambda de Wilks ,288

Chi-cuadrado 217,174

gl 7

Sig. ,000

SC Residual / SC Total = 178 / 617,9 143

Análisis Multivariante Después de comprobar que los grupos tienen unas medias estadísticamente diferentes, se pueden analizar los coeficientes de la función discriminante y la correlación entre ésta y las variables: Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 -,726 ,010 ,997 -,010 ,666 -,007 ,125

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana

Matriz de estructura Función 1 ,698 ,558 ,493 ,442 -,144 ,010 -,002

Autoevaluación del nivel ciclista Promedio de Km realizados por semana Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana sexo (1=mujer) edad estado civil (1=casado)

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

Coeficientes de las funciones canónicas discriminantes Función 1 -,103 ,020 ,000 ,000 1,003 -,015 ,144 -4,389

edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana (Constante) Coeficientes no tipificados

144

Análisis Multivariante

Funciones en los centroides de los grupos Función 1 -,822 2,972

Gama de Producto Media Alta

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: La probabilidad de pertenecer a un grupo g dado una puntuación discriminante d se calcula a través del teorema de Bayes: P (G = g | D = d ) =

P( D > d | G = g ) • P(G = g ) ∑ P ( D > d | G = g ) • P (G = g ) ∀g

donde P(G = g) es la probabilidad a priori. Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero se puede asignar en función del peso de cada grupo. P(D > d | G = g) es una probabilidad condicionada. Es la probabilidad de obtener un valor discriminante superior a d dado que la observación pertenece al grupo g. Se calcula a partir de la distribución de puntuaciones discriminantes de la muestra.

145

Análisis Multivariante

A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la probabilidad de pertenecer al grupo g, dado que el valor discriminante es d. La observación se clasifica en el grupo que tiene una mayor probabilidad.

Estadísticos de clasificación Probabilidades previas para los grupos

Gama de Producto Media Alta Total

Previas ,500 ,500 1,000

Casos utilizados en el análisis No ponderados Ponderados 141 141,000 39 39,000 180 180,000

146

Análisis Multivariante

Estadísticos por casos

Grupo mayor

P(D>d | Grupo G=g) Número Grupo pronosticado de caso real p gl 1 2 2 ,116 1 2 2 2 ,524 1 3 2 2 ,218 1 4 2 2 ,116 1 5 2 2 ,414 1 6 2 2 ,185 1 7 2 2 ,774 1 8 2 2 ,610 1 9 2 2 ,373 1 10 2 2 ,227 1 11 2 1** ,141 1 12 2 2 ,851 1 13 2 1** ,216 1 14 2 2 ,410 1 15 2 2 ,503 1 16 2 2 ,509 1 17 2 2 ,155 1 18 2 2 ,505 1 19 2 2 ,835 1 20 2 2 ,423 1

P(G=g | D=d) ,775 ,992 ,926 ,774 ,984 ,898 ,998 ,995 ,979 ,932 ,834 ,998 ,925 ,983 1,000 1,000 ,858 ,991 ,998 ,985

Segundo grupo mayor

Distancia de Distancia de Mahalanobis Mahalanobis al cuadrado al cuadrado hasta el hasta el P(G=g Función centroide centroide Grupo | D=d) 1 2,471 1 ,225 4,940 1,400 ,406 1 ,008 9,969 2,335 1,517 1 ,074 6,569 1,741 2,474 1 ,226 4,936 1,400 ,667 1 ,016 8,869 2,156 1,754 1 ,102 6,102 1,648 ,082 1 ,002 12,307 2,686 ,261 1 ,005 10,785 2,462 ,794 1 ,021 8,430 2,081 1,460 1 ,068 6,690 1,764 2,165 2 ,166 5,398 ,649 ,035 1 ,002 13,007 2,784 1,528 2 ,075 6,545 ,414 ,679 1 ,017 8,824 2,148 ,449 1 ,000 19,933 3,642 ,435 1 ,000 19,842 3,632 2,024 1 ,142 5,627 1,550 ,444 1 ,009 9,789 2,306 ,043 1 ,002 12,865 2,765 ,642 1 ,015 8,960 2,171

**. Caso mal clasificado

Resultados de la clasificacióna

Original

Recuento %

Gama de Producto Media Alta Media Alta

Puntuac iones discrimi nantes

Grupo de pertenencia pronosticado Media Alta 138 3 2 37 97,9 2,1 5,1 94,9

a. Clasificados correctamente el 97,2% de los casos agrupados originales.

147

Total 141 39 100,0 100,0

Análisis Multivariante Estadísticos de clasificación utilizando el método de validación cruzada. Este método da resultados de clasificación algo más realistas, puesto que trata de clasificar cada observación en un modelo que se estima con una muestra en la que no se incluye dicha observación. Por tanto, se realizan tantos modelos como observaciones haya en la muestra, y con cada uno de ellos se comprueba si se clasifica adecuadamente o no una observación omitida. Resultados de la clasificaciónb,c

Original

Recuento %

Validación a cruzada

Recuento %

Gama de Producto Media Alta Media Alta Media Alta Media Alta

Grupo de pertenencia pronosticado Media Alta 138 3 2 37 97,9 2,1 5,1 94,9 138 3 2 37 97,9 2,1 5,1 94,9

Total 141 39 100,0 100,0 141 39 100,0 100,0

a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 97,2% de los casos agrupados originales. c. Clasificados correctamente el 97,2% de los casos agrupados validados mediante validación cruzada.

148

Análisis Multivariante 10.11 MÉTODO

DE

INCLUSIÓN

POR

PASOS:

MÉTODO

LAMBDA DE WILKS: Variables introducidas/eliminadasa,b,c,d Lambda de Wilks

Paso 1 2 3

Introducidas Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) edad

Estadís tico .454 .360 .291

gl1 1 2 3

gl2 1 1 1

gl3 178.0 178.0 178.0

Estadístico 214.389 157.568 143.197

En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El número máximo de pasos es 14. b. La F parcial mínima para entrar es 3.84. c. La F parcial máxima para eliminar es 2.71 d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

Variables en el análisis

Paso 1 2 3

Autoevaluación del nivel ciclista Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) edad

Tolerancia 1.000 1.000 1.000 .998 .488 .487

149

F para eliminar 214.389 130.445 46.248 99.817 98.642 41.805

Lambda de Wilks .625 .454 .455 .454 .360

F exacta gl1 gl2 1 178.0 2 177.0 3 176.0

Sig. .000 .000 .000

Análisis Multivariante

Variables no incluidas en el análisis P a s0

1

2

3

edad sexo (1=mujer) estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana Autoevaluación del nivel ciclista edad sexo (1=mujer) estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana edad sexo (1=mujer) estado civil (1=casado) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana sexo (1=mujer) estado civil (1=casado) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana

Tolerancia mín. 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .968 .997 1.000 .845 .667 .487 .968 .971 .844 .659 .487 .482 .482 .472

Tolerancia 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .968 .997 1.000 .845 .667 .487 .968 .971 .844 .659 .968 .962 .835 .646

Resumen de las funciones canónicas discriminantes Autovalores

Función 1

Autovalor % de varianza 2.441a 100.0

Correlación canónica .842

% acumulado 100.0

a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks Contraste de las funciones 1

Lambda de Wilks .291

Chi-cuadrado 218.105

gl 3

150

Sig. .000

F para introducir .047 9.068 .003 106.929 85.832 136.839 214.389 .047 .068 .285 46.248 6.567 7.150 41.805 .036 .252 4.223 2.865 .025 .012 1.532 .523

Lambda de Wilks 1.000 .952 1.000 .625 .675 .565 .454 .454 .453 .453 .360 .437 .436 .291 .360 .359 .351 .354 .291 .291 .288 .290

Análisis Multivariante

Coeficientes estandarizados de las funciones discriminantes canónicas

edad Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista

Función 1 -.745 1.019 .715

Matriz de estructura

Autoevaluación del nivel ciclista Promedio de Km realizados por semanaa Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semanaa sexo (1=mujer)a estado civil (1=casado)a edad

Función 1 .702 .509 .496 .343 -.130 -.012 .010

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. a. Esta variable no se emplea en el análisis.

Coeficientes de las funciones canónicas discriminantes

edad Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista (Constante)

Función 1 -.10544 .00012 1.07664 -4.17625

Coeficientes no tipificados

Funciones en los centroides de los grupos

Gama de Producto 1 Media 2 Alta

Función 1 -.817 2.954

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

151

Análisis Multivariante Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos

Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados

180 0 0 180

Probabilidades previas para los grupos

Gama de Producto 1 Media 2 Alta Total

Previas .500 .500 1.000

Casos utilizados en el análisis No Ponderados ponderados 141 141.000 39 39.000 180 180.000

Resultados de la clasificacióna

Original

Recuento %

Gama de Producto 1 Media 2 Alta 1 Media 2 Alta

Grupo de pertenencia pronosticado 1 Media 2 Alta 138 3 2 37 97.9 2.1 5.1 94.9

Total 141 39 100.0 100.0

a. Clasificados correctamente el 97.2% de los casos agrupados originales.

152

Análisis Multivariante

10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE Se habla de técnicas de Análisis Discriminante Múltiple (ADM): cuando la variable criterio tiene tres o más categorías Si en el ADM existen K categorías o grupos, de la variable criterio, pueden estimarse K – 1 funciones discriminantes, siempre que el número de variables predictivas (indicadores) sea mayor a K-1 La primera función tiene la razón más alta que la suma de cuadrados entre los grupos con la suma de cuadrados dentro de los grupos. La segunda función no correlacionada con la anterior, tendrá la segunda razón más alta y así sucesivamente. Puede ocurrir que no todas las razones sean significativas estadísticamente. 10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN La hipótesis nula (H0) es que los centroides de grupo son iguales Deben tomarse las funciones simultáneamente. Seguidamente se excluye una función y las medias restantes se prueban en cada paso. 10.12.2 INTERPRETACIÓN La interpretación de los resultados se realiza a través del examen de los coeficientes estandarizados de la función discriminante, de los diagramas de dispersión, examen de la matriz de estructura y del mapa territorial Mapa territorial: en este diagrama el centroide de cada grupo se indica con un asterisco (*). Las fronteras de los grupos se muestran por medio de números que corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el número 1, el centroide del grupo 2 por el número 2 y así sucesivamente. 10.12.3 VALIDACIÓN Se requiere que la mejora con la probabilidad sea al menos un 25% superior. 153

Análisis Multivariante

11. CASO PRÁCTICO DE ADM EL PEQUEÑO COMERCIO DETALLISTA DE ZARAGOZA

11.1.1 INTRODUCCIÓN A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de Zaragoza, y tras un análisis uni y bivariante (este último validado con la Chi-cuadrado) se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de marketing no es excesivamente elevado. Para la consecución de los objetivos, hemos aplicado algunas técnicas de investigación comercial a los datos obtenidos con una encuesta estructurada, recogida mediante entrevista personal, de una muestra estadísticamente representativa del sector comercio detallista en Zaragoza6. Dado que Zaragoza en los estudios de mercado ha sido considerada siempre como ciudad piloto, y por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se pueden suponer que en cierto modo son representativos del comercio en todo el territorio nacional. Para la obtención de la muestra se ha partido del censo de establecimientos que ha proporcionado la Federación de Empresarios de Comercio de Zaragoza y que está fundamentado en la base de datos del Servicio de Información Empresarial de la Diputación General de Aragón. Según el INE, el número total de establecimientos de la ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito. Para la obtención de las unidades muestrales se siguieron las normas y procedimientos del muestreo sistemático, eligiendo el primer elemento al azar y el resto mediante adiciones sucesivas del coeficiente de elevación (relación entre el universo y el tamaño de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto

6

Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo.

154

Análisis Multivariante con el propietario, gerente o encargado del establecimiento comercial se utilizó el procedimiento del telemarketing, concertando cita y hora para la celebración de la entrevista. La fase de recogida se realizó durante el primer trimestre de 1996. Una vez depurados los cuestionarios han quedado 818 entrevistas válidas, lo que para un nivel de confianza del 95,5% y un nivel de indeterminación máximo p=q=0,5, supone trabajar con un error máximo del 3,3%. La encuesta incluía preguntas acerca de las características de los establecimientos, número de empleados, actividad que realizan en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la formación continuada (cuándo, por qué, dónde debe hacerse, qué cursos, duración, etc.), aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82 preguntas que generan un total de 253 ítems. Las técnicas aplicadas para la explotación de esta información son las siguientes. En primer lugar, se ha realizado un análisis univariante sobre todas las variables de la base relacionadas con características o atributos de los establecimientos así como sobre las variables relacionadas a herramientas concretas de marketing. Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha aplicado el contraste de la Chi-cuadrado que permite establecer la asociación o la independencia entre dos variables cualitativas. Como se puede suponer, en este trabajo se ha establecido relación entre las variables que recogen atributos de los establecimientos entrevistados y las variables que contienen información sobre el empleo/conocimiento de algunas herramientas del área de marketing.

155

Análisis Multivariante

En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada: CUADRO 1.

Ficha técnica de la encuesta. Características Universo

Empresas sección G, divisiones 50, 51 y 52 CNAE937

Ámbito geográfico

Ciudad de Zaragoza

Unidad muestral

Empresa comercial: establecimientos

Método de recogida de información

Encuesta personal estructurada

Tamaño de la muestra

818 encuestas válidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

Sistemático: coeficiente de elevación 17

Fecha trabajo de campo

Octubre de 1995 a Abril de 1996

Fuente: elaboración propia

Tras la aplicación de diferentes técnicas de investigación de reducción de dimensiones (análisis factorial de componentes principales y de correspondencias) se produce la siguiente reclasificación de los establecimientos comerciales en tres categorías según el grado de utilización de herramientas de marketing. Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula de independencia entre las variables con un nivel de confianza prácticamente absoluto.

7

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

156

Análisis Multivariante CUADRO 2 Recodificación de la variable Marketing Tabla de frecuencia Grado aplicación de marketing Categoría No Marketing Marketing Básico Marketing Sofisticado

Definición Dimensión 1 0 y Dimensión 2 > 0 Dimensión 1 > 0 y Dimensión 2 < 0

Total

Frecuencia 412 261 145

Porcentaje 50,4 31,9 17,7

818

100,0

Fuente: elaboración propia.

11.1.2 ANÁLISIS DISCRIMINANTE Con los datos obtenidos vamos a ilustrar este caso de análisis discriminante de tres grupos. El objetivo que se persigue es determinar las características diferenciales de las empresas que no aplican técnicas de marketing, frente a las que hacen un marketing básico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitirá predecir en que grupo se clasificarán otras empresas no incluidas en la muestra. De esta manera, se podría por ejemplo, determinar cuales son las empresas que pueden resultar más interesantes para un consultor en Marketing.

Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales

157

N 475 0 0

Porcentaje 100.0 .0 .0

0

.0

0 475

.0 100.0

Análisis Multivariante

Estadísticos de grupo Grado aplicación de marketing 1 No Marketing

2 Marketing Básico

3 Marketing Sofisticado

Total

Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador

158

N válido (según lista) No Pondera ponderados dos 228 228.000

Media .263

Desv. típ. .441

19.189

19.185

228

228.000

.140 2.184 .206 .860 -.214 -.050 -.156 .406

.348 2.774 .405 .348 .995 1.069 .991 .493

228 228 228 228 228 228 228 155

228.000 228.000 228.000 228.000 228.000 228.000 228.000 155.000

18.942

19.395

155

155.000

.181 3.781 .445 .645 .087 .013 .218 .467

.386 4.418 .499 .480 1.003 .951 1.005 .502

155 155 155 155 155 155 155 92

155.000 155.000 155.000 155.000 155.000 155.000 155.000 92.000

19.446

27.532

92

92.000

.359 5.630 .674 .728 .384 .103 .019 .349

.482 9.490 .471 .447 .871 .899 .952 .477

92 92 92 92 92 92 92 475

92.000 92.000 92.000 92.000 92.000 92.000 92.000 475.000

19.158

21.072

475

475.000

.196 3.373 .375 .764 .000 .000 .000

.397 5.389 .485 .425 1.000 1.000 1.000

475 475 475 475 475 475 475

475.000 475.000 475.000 475.000 475.000 475.000 475.000

Análisis Multivariante

Pruebas de igualdad de las medias de los grupos

Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador

Lambda de Wilks .968 1.000 .958 .941 .861 .949 .947 .997 .973

F 7.861 .017 10.472 14.887 38.140 12.766 13.235 .790 6.607

gl1 2 2 2 2 2 2 2 2 2

gl2 472 472 472 472 472 472 472 472 472

Sig. .000 .983 .000 .000 .000 .000 .000 .455 .001

Matrices intra-grupo combinadas

Correlación Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador

Es socie dad 1.000

Antigüe dad (años) -.088

Estab. asociado .286

Núm. emplea dos .319

Realiza formaci ón .186

Ventas en mostrador -.180

Val. PF Genéricos Marketing -.063

Val. PF Atención cliente -.020

Val. PF Ténicos ordenador .098

-.088

1.000

-.189

.213

.056

.026

-.066

.048

.048

.286

-.189

1.000

.025

.069

-.087

.065

.064

-.019

.319 .186 -.180

.213 .056 .026

.025 .069 -.087

1.000 .139 -.175

.139 1.000 -.035

-.175 -.035 1.000

-.080 .106 .052

.039 .095 .146

.115 .175 -.135

-.063

-.066

.065

-.080

.106

.052

1.000

-.014

-.025

-.020

.048

.064

.039

.095

.146

-.014

1.000

-.005

.098

.048

-.019

.115

.175

-.135

-.025

-.005

1.000

159

Análisis Multivariante Análisis 1

Resumen de las funciones canónicas discriminantes Autovalores

Función 1 2

Autovalor % de varianza .285a 84.4 a .053 15.6

% acumulado 84.4 100.0

Correlación canónica .471 .224

a. Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks Contraste de las funciones 1 a la 2 2

Lambda de Wilks .739 .950

Chi-cuadrado 141.439 24.090

gl 18 8

Sig. .000 .002

Coeficientes estandarizados de las funciones discriminantes canónicas

Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador

Función 1 .012 -.032 .246 .363 .622 -.240 .403 .061 .037

160

2 -.238 .046 .508 .309 .147 .690 -.043 -.131 -.491

Análisis Multivariante

Matriz de estructura Función 1 Realiza formación Número empleados Val. PF Genéricos Marketing Es una sociedad Val. PF Atención cliente Ventas en mostrador Val. PF Ténicos por ordenador Establecimiento asociado Antigüedad del establecimiento (años)

2

.753* .469* .443* .337* .107* -.324 .204 .358 .004

.056 .097 .043 -.138 .038 .676* -.552* .387* .036*

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante.

Coeficientes de las funciones canónicas discriminantes

Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador (Constante)

Función 1 .026 -.002 .631 .069 1.380 -.578 .413 .060 .037 -.412

Coeficientes no tipificados

Funciones en los centroides de los grupos Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado

Función 1 2 -.505 9.837E-02 .231 -.314 .861 .285

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

161

2 -.507 .002 1.305 .059 .327 1.664 -.044 -.131 -.497 -1.713

Análisis Multivariante Estadísticos de clasificación

Resumen del proceso de clasificación Procesados Excluidos

475

Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados

0 0 475

Probabilidades previas para los grupos

Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado Total

Previas .333 .333 .333 1.000

Casos utilizados en el análisis No ponderados Ponderados 228 228.000 155 155.000 92 92.000 475 475.000

11.1.2.1 MAPA TERRITORIAL

En la página siguiente se indica el mapa territorial correspondiente.

Símbolos usados en el mapa territorial

Símbolo Grupo Etiqueta ------ ----- --------------------

1

1

No Marketing

2

2

Marketing Básico

3

3

Marketing Sofisticado

*

Indica un centroide de grupo

162

Análisis Multivariante

Mapa territorial Discriminante canónica Función 2 -3.0

-2.0

-1.0

.0

1.0

2.0

3.0

∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ 3.0  13  ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 2.0    13    ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 1.0    13    ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 133 * ⌠ ⌠ * 12233 ⌠ .0    12 223    ⌠ 12 233 ⌠ ⌠ 12 * 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ -1.0    12   2233   ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 2233 ⌠ -2.0   12    223  ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233⌠ ⌠ 12 22⌠ ⌠ 12 ⌠ -3.0  12  ∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ -3.0 -2.0 -1.0 .0 1.0 2.0 3.0 Función discriminante canónica 1 _

163

Análisis Multivariante

Estadísticos por casos

Grupo mayor

Original

Número de casos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Grupo real 3 1 2 1 1 1 1 1 2 1 1 2 1 1 1 2 3 1 1 1

Grupo pronos P(D>d | G=g) ticado p gl 3 .009 2 2** .958 2 1** .304 2 1 .955 2 1 .833 2 1 .776 2 1 .897 2 1 .976 2 2 .571 2 2** .630 2 1 .537 2 1** .764 2 1 .603 2 1 .765 2 1 .766 2 3** .944 2 3 .195 2 1 .721 2 1 .486 2 1 .872 2

Segundo grupo mayor

P(G=g | D=d) .945 .384 .559 .512 .622 .602 .414 .503 .484 .488 .727 .504 .664 .515 .645 .440 .825 .649 .742 .582

Distancia de Mahalan obis al cuadrado hasta el centroide 9.462 .085 2.381 .092 .366 .507 .217 .048 1.120 .923 1.244 .538 1.013 .535 .534 .116 3.270 .654 1.443 .273

Grupo 2 1 3 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2

P(G=g | D=d) .045 .313 .249 .342 .267 .305 .396 .341 .382 .363 .205 .265 .211 .372 .244 .320 .120 .268 .198 .307

Distancia de Mahalan obis al cuadrado hasta el centroide 15.550 .491 4.002 .897 2.054 1.863 .303 .826 1.593 1.513 3.771 1.822 3.302 1.182 2.477 .751 7.127 2.424 4.081 1.551

Puntuaciones discriminantes

Función 1 3.221 .185 -.613 -.699 -1.095 -1.132 -.319 -.644 -.404 -.299 -1.586 -.483 -1.139 -.828 -1.148 .581 1.957 -1.301 -1.683 -.993

Función 2 2.257 -.026 1.638 -.134 .230 -.239 -.329 -.069 -1.160 -1.114 .370 .832 .880 -.557 .445 .479 1.723 -.040 .333 -.087

**. Caso mal clasificado

a Resultados de la clasificación

Original

Recuento

%

Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado

Grupo de pertenencia pronosticado 1 No 2 Marketing 3 Marketing Marketing Básico Sofisticado 153 37 38 50 57 48 21 15 56 67.1 16.2 16.7 32.3 36.8 31.0 22.8 16.3 60.9

a. Clasificados correctamente el 56.0% de los casos agrupados originales.

164

Total 228 155 92 100.0 100.0 100.0

Análisis Multivariante

11.2 BIBLIOGRAFÍA Análisis multivariable para las Ciencias Sociales. Jean-Pierre Lévy mangin. Jesúa Valera Mallou. Prentice Hall 2003 Malhotra Investigación de Mercados. Un enfoque práctico. PrenticeHall 1996

165

Análisis Multivariante

SEGMENTACIÓN

166

Análisis Multivariante

12. SEGMENTACIÓN. 12.1 CONCEPTO. La segmentación de mercado consiste en la agregación de consumidores en grupos homogéneos, de forma tal que cada uno de ellos puede ser seleccionado como un segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix diferenciadas. Las características de los segmentos resultantes deben ser tales que nos posibiliten el establecimiento y realización de una oferta comercial especializada y diferenciada, es decir orientada a satisfacer necesidades y deseos de los consumidores específicos de cada segmento.

12.2 REQUISITOS

PARA

QUE

LA

SEGMENTACIÓN

DE

MERCADO SEA EFICAZ. Los principales requisitos que hacen que la segmentación de mercado sea eficaz son: 1. Cada segmento nos debe dar una respuesta diferente a la acción de Marketing mix. 2. Los criterios de segmentación deben ser identificados y evaluados con facilidad. 3. La obtención de los diferentes segmentos no implicará la existencia de categorías mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede pertenecer a varios segmentos de mercado. 4. La segmentación debe basarse en un adecuado análisis de costes beneficios. 5. Los segmentos identificados deben representar un potencial de mercado suficiente, por su tamaño y / o por los beneficios que presentan, que sean justificables las acciones de Marketing a realizar. 6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa. 7. La empresa tendrá que disponer de recursos suficientes (económicos y humanos), para poder atender adecuadamente el segmento o segmentos de mercado seleccionados. 8. Los segmentos deberán ser estables a lo largo del tiempo, con el fin de rentabilizar la estrategia adoptada de Marketing. 167

Análisis Multivariante 9. Serán prioritarios los segmentos que sean compatibles con los que ya actúa la empresa con el fin de evitar canibalizaciones. 10.Se deberá involucrar a la empresa a todos los niveles, en la implantación de la estrategia

de

segmentación,

con

el

fin

de

evitar

posibles

conflictos

interdepartamentales. 11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe esperar distintas respuestas a las acciones de Marketing mix. 12.Las diferencias en las percepciones de los consumidores deben ser identificadas y asociadas a los diferentes grupos del público objetivo.

12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. En el mercado de productos de consumo la segmentación se realiza siguiendo una serie de criterios que se dividen en: de carácter objetivo y subjetivos. Los criterios objetivos son aquellos en los que existen parámetros que nos permiten medirlos de forma inequívoca. Los criterios subjetivos son susceptibles de interpretación. Criterios objetivos. Los mas usuales son: •

Geográficos. Es el método mas sencillo, se basa en la desigualdad zonal explicando así los diferentes comportamientos que aparecen en diferentes territorios de cierta extensión, en los que aparecen diferencias climáticas, culturales, económicas...etc.

•

Demográficos. Las diferentes características físicas de los consumidores, tales como, edad ,sexo, estado civil, familia...etc., son la causa de necesidades y deseos diferentes.

•

Socioeconómicos. El comportamiento de los consumidores dependería, en este caso, de su nivel de renta y su estatus, explicando así la clase social.

Criterios subjetivos. Los más usuales son: •

Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las personas, viene definido por sus actividades, opiniones e intereses.

168

Análisis Multivariante •

Por situación. Se separan grupos que ante un mismo producto buscan satisfacciones diferentes en distintas circunstancias o situaciones. (caña de día copa de noche).

•

Basados en ventajas buscadas. se basa en que, los consumidores encuentran en el producto ventajas diferentes y los consumen precisamente por ello.

•

Psicográfica. Integra dos grupos de criterios: estilo de vida y personalidad. La basada en la personalidad se aprecia en el mercado cuando las empresas dotan a sus productos de personalidad de marca que se corresponde con la personalidad de los consumidores.

Segmentación por comportamiento. Segmentación en función de

comportamientos específicos de compra y uso del

producto. Los más utilizados son: •

El uso. El consumo no esta uniformemente repartido, unos usuarios consumen más que otros.

•

El usuario. Se hace una clasificación considerando los usuarios regulares, los no usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo recibirá un tratamiento específico.

•

El grado de fidelidad. Se recompensa la fidelidad.

Criterios de segmentación utilizados en mercados industriales. En el mercado industrial la segmentación puede realizarse desde dos enfoques: basarse en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir de las características del vendedor y segmentar el mercado de la forma más accesible y rentable. El mejor método será el que optimice el comportamiento de compra del cliente con los costes del vendedor. Normalmente en el mercado industrial se identifican criterios de segmentación, que se jerarquizan de la siguiente manera: •

1º- Factores demográficos. Naturaleza de la empresa (pública o privada). Sector al que pertenece. Tamaño (ventas, plantilla, capital). Localización.

•

2º- Variables operativas. Tecnología de los procesos productivos. Tecnología del producto, Ventajas competitivas. Productos complementarios. Productos substitutivos. 169

Análisis Multivariante •

3º- Enfoques de compra. Organización de compras. Estructura de poder entre las diferentes personas que intervienen en el proceso de compra. Relaciones existentes (fidelidad). Política de compras. Criterios de compra.

•

4º- Factores de situación. Urgencia de la necesidad. Tamaño del pedido. Aplicaciones del producto. Beneficios de pedidos concretos.

•

5º- Características personales del decisor. Similitud de actitudes y características entre comprador y vendedor. Motivaciones del decisor. Percepción por parte del comprador de la empresa del vendedor. Actitud al riesgo por parte del comprador.

Valoración de los segmentos. Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La posible alternativa depende entre otros de los siguientes factores: •

Intensidad de la competencia. A la empresa le interesará actuar donde la competencia sea nula o mínima. Cuanto menor sea la probabilidad de entrada de competidores más atractivo resultará para la empresa ese segmento.

•

Aparición de productos substitutivos en un determinado segmento.

•

El poder de negociación de los diversos agentes que intervienen en el proceso de la compra venta.

12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE MERCADOS. Siguiendo a P. Kotler podemos diferenciar tres etapas: •

La primera es el arte de dividir un mercado en grupos de consumidores que puedan requerir estrategias de Marketing diferenciadas, constituye lo que se denomina el proceso de segmentación.

•

La segunda etapa consiste en definir el mercado objetivo.

•

La tercera etapa consiste en fijar el posicionamiento, esto es establecer la posición competitiva de la empresa y de su oferta en función del público objetivo.

170

Análisis Multivariante Lo podemos resumir en el siguiente esquema. Proceso

Definición del mercado Posicionamiento del producto objetivo Posibles bases de Valorar el atractivo de cada 1- Identificar conceptos de segmentación. segmento. posicionamiento y alternativas de diferenciación en los segmentos objetivos. Identificar variables de Seleccionar los segmentos - Seleccionar, desarrollar y objetivos.. comunicar el concepto de segmentación posicionamiento escogido relevantes para el estudio. Recoger información Estrategias de cobertura del sobre variables de mercado segmentación Derivar segmentos mediante técnicas de segmentación y tipología. Describir perfil de los segmentos. Para llevar a cabo el proceso de segmentación, en principio se recaba y ordena toda la información existente y disponible en el mercado en relación a una serie de variables consideradas relevantes. Dichas variables emanan de las bases de segmentación. En gran número de casos no se conocen a priori todas las características importantes para orientar la segmentación, para esta circunstancia se realiza una investigación cualitativa de enfoque para así seleccionar las variables que nos permitirán segmentar el mercado. Ante la carencia de información lo que se hace es emplear técnicas de investigación comercial como la observación o la encuesta. Esta última técnica es la más utilizada, se define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza el correspondiente trabajo de campo. La información obtenida se analiza aplicando técnicas de segmentación y tipología para de esta manera obtener grupos de público objetivo con características homogéneas. Las bases de segmentación parten de los criterios antes indicados. No existe una forma idónea para segmentar el mercado. Existen criterios generales y específicos, unidos a los objetivos y subjetivos, esta situación la podemos resumir en el siguiente esquema: 171

Análisis Multivariante CRITERIOS OBJETIVOS Criterios generales.

Criterios específicos.

Geográficos.

Estatus.

Demográficos.

Uso y situaciones

Socioeconómicos.

Fidelidad.

Sus combinaciones.

Intención de compra.

CRITERIOS SUBJETIVOS Criterios generales.

Criterios Específicos.

Psicográficos.

Beneficio buscado.

Estilo de vida.

Comportamiento

Clase social.

Marketing mix.

Personalidad.

Percepciones, preferencias y actitudes.

12.5 TÉCNICAS

PARA

CLASIFICAR

UN

a

las

acciones

MERCADO

de

EN

SEGMENTOS. Una vez definidas que variables de segmentación son adecuadas para realizar una segmentación de mercado, es preciso acudir a procedimientos estadísticos, que partiendo de la información obtenida sobre las bases de segmentación, permitan dividir el mercado en segmentos. Los tipos mas usuales son: Técnicas de segmentación. En estas técnicas el investigador selecciona una variable o criterio de segmentación a explicar, antes de realizar el análisis. Posteriormente, se consideran por parte del investigador diversas variables explicativas, tratando de estudiar de que forma se relacionan con la variable a explicar. Se denominan diseños de segmentación a priori. Técnicas de tipología. En este tipo de técnicas los consumidores se agrupan de acuerdo a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer distinción entre variables descriptivas y variables a explicar. Se desconoce a priori el número de segmentos. Se denominan diseños de segmentación post-hoc.

172

Análisis Multivariante 13. TÉCNICAS DE SEGMENTACIÓN. Se suelen clasificar en tres grandes grupos: • Métodos clásicos. • Métodos basados en la teoría de la información • Otras técnicas de segmentación.

13.1 MÉTODOS CLÁSICOS. Los métodos clásicos desarrollan un proceso de división del mercado conformando una estructura arborescente que finaliza con una norma estadística predeterminada, el criterio para medir la intensidad de la relación entre la variable a explicar y las variables explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a señalar los fundamentos de los métodos más usuales. 13.1.1 MÉTODO BELSON. Trata de estimar el poder discriminante de diferentes variables explicativas sobre la variable a explicar. El procedimiento es como sigue: ♠- Se convierten las diversas variables explicativas y la variable a explicar en dicotómicas. Si tienen más de dos categorías se sigue el siguiente criterio: Para cada variable explicativa los individuos se agrupan de tal forma que los que dispongan de una proporción de la variable a explicar inferior a la de toda la muestra pertenezcan a una categoría, agrupando en otra a todos aquellos con una proporción superior a la de la muestra. ♠- Analizar, con una cualquiera de las categorías de cada variable explicativa, su relación con la variable a explicar mediante la siguiente formula: C = NC ki  P x N ki  NC

ki

donde k = 1, 2.

Representa el número de personas que consumen el producto, (variable a

explicar), y que pertenecen a la categoría k de la variable explicativa i. P Es el porcentaje de personas que consumen el producto para toda la muestra. N ki Es el número de personas que pertenecen a la categoría k de la variable explicativa “y”. Con independencia de que sean o no consumidores del producto). 173

Análisis Multivariante ♠- Tomar aquella variable explicativa (la subdivisión en categorías que la representa) que manifiesta tener una relación más fuerte con la variable a explicar, mayor valor absoluto de C. La muestra se desglosa en dos segmentos correspondientes a la variable de mayor relación y sus subdivisiones. ♠- A cada uno de los segmentos resultantes se aplica independientemente el método de segmentación descrito considerando tan solo las restantes variables explicativas. Seguidamente vamos a realizar un caso practico, en el que aplicaremos los métodos de Belson y el de análisis de la varianza, más adelante. EJEMPLO.

Una empresa desarrolla su actividad comercial en Aragón, comercializando cuatro marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos, tiendas tradicionales, hipermercados y supermercados. Con la finalidad de establecer una adecuada segmentación, se realiza un estudio de mercado sobre una muestra de 4.000 hogares, que en el último trimestre han consumido alguna marca de los diferentes tipos de productos. Se obtiene información acerca de la marca comprada y el tipo de tienda donde efectuó la compra. Se saca el siguiente resumen de datos.

174

Análisis Multivariante DATOS DEL CASO PRÁCTICO. Tipo de producto.

Compradores marca

Total compradores.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592. 4.000.

1.000.

TOTAL:

Tipo de tienda. Tradicional. (T).

100.

450.

Hipar. (H).

575.

2.500.

Supermercado. (S).

325.

1.050.

TOTAL.

1.000.

4.000.

Método BELSON. Criterio: Realizar la dicotomía de las variables agrupando por un lado las variables que tengan un porcentaje superior a la media y por otra parte los que sea su porcentaje inferior a la media.

Porcentaje de consumidores.

Variables. Productos: A.

28´47 %.

B.

28´41 %.

C.

28´48 %.

D.

5´06 %.

Establecimiento. T.

22´22 %.

H.

23´00 %.

S.

30´95 %. 25%.

Media total.

Las agrupaciones que obtenemos de conformidad con el criterio son: Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.

175

Análisis Multivariante Para la variable tienda o establecimiento donde se efectúan las compras, la correspondiente agrupación es: Superior a la media: S. Inferior a la media; T + H. Los resultados de esta segmentación los podemos resumir en el siguiente cuadro: AGRUPACIONES.

COMPRAN MARCA.

TOTAL COMPRAN.

970.

3.408.

30.

592.

Producto. A + B + C. D. Tienda. S.

325.

1050.

T + H.

675.

2.950.

Aplicando la ecuación antes descrita obtendremos los siguientes valores. C = NC ki  P x N ki . Producto. C = 970  0´25 x 3408 = 118. Tiendas. C = 325  0´25 x 1050 = 62´5. 13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA. Trata de encontrar la mejor división dicotómica cuando las variables explicativas tienen más de dos categorías. Selecciona la mejor dicotomía no la mejor variable explicativa de cada rama de la estructura arborescente. La expresión matemática para estimar el poder discriminante es:

N a × N b ( Pa − Pb ) 2 D= n Donde: n es el tamaño total de la muestra. N a y b es la dicotomización de las categorías de cada variable explicativa en dos grupos a y b. P

a y b

es el porcentaje de consumidores de las categorías a y b de la

variable explicativa objeto de estudio.

176

Análisis Multivariante Vamos seguidamente a desarrollar

el ejemplo visto con anterioridad aplicando el

método de análisis de la varianza.

DATOS DEL CASO PRÁCTICO. Tipo de producto.

Compradores marca

Total compradores.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592.

TOTAL:

4.000.

1.000.

Tipo de tienda. Tradicional. (T).

100.

450.

Hipar. (H).

575.

2.500.

Supermercado. (S).

325.

1.050.

TOTAL.

1.000.

4.000.

177

Análisis Multivariante

Los resultados los resumimos en el cuadro siguiente: ANÁLISIS DE LA VARIANZA: Grupo.

Total com.

Co marca.

%Co marc

A+B

2.762.

786.

28´46

C+D.

1.238.

214.

17´28.

A+C

2.690.

766.

28´48.

B+D

1.310.

234.

17´83.

A+D

2.636.

612.

23´22.

B+C

1.364.

388.

28´44.

A

2.044.

582.

28´47.

B+C+D

1.956.

418.

21´37.

B

718.

204.

28´41.

A+C+D.

3.282.

796.

24´25.

C

646.

184.

28´48.

A+B+D.

3.354.

816.

24´33.

D

592.

30.

5´07.

A+B+C.

3.408.

970.

28´46.

** D = 2.690 x 1.310 ( 0´2848 - 0´1783 )2 / 4.000 = 9´98. Del mismo modo procederíamos para la variable tiendas.

178

D discrim.

10´68.

9´98.**

2´44.

5´04.

1´02

0´97.

27´59.←

Análisis Multivariante

13.1.3 MÉTODO DE CHI CUADRADO. Este procedimiento trata de comparar la distribución efectiva de consumidores, en las diferentes categorías de cada variable explicativa; con la que correspondería si se distribuyera según el porcentaje promedio para toda la muestra. Se selecciona la mejor dicotomía de cada variable explicativa de acuerdo con el criterio discriminante expresado por la siguiente fórmula:

( NCOi − NCTi ) 2 SC = ∑ NCTi Donde: NCOi

es el número de personas que consumen el producto en la

categoría dicotómica “i” de cada variable explicativa. NCTi

es el número de consumidores teóricos para la categoría

dicotómica “i” de cada variable explicativa. Su cálculo es como sigue: se multiplica el tamaño de la muestra en cada categoría por el porcentaje medio de consumidores para toda la muestra. 13.1.4 MODELOS DE CANGUILHEM. Se basa en dos posibles soluciones para segmentar el mercado: Descripción por categorías ponderadas de variables no agregadas. Descripción por segmentos ponderados de variables agregadas. En el primer caso el método a seguir es: Se calculan los índices de penetración para las categorías de cada una de las variables explicativas de acuerdo con la siguiente fórmula: IP kj = MP kj / S kj Donde: IP

kj

es el índice de penetración o proporción de consumidores en la

categoría k de la variable explicativa j respecto del público objetivo. MP

kj

es el número de personas que consumen ( variable a explicar ) el

producto y que pertenecen a la categoría k de la variable explicativa j.

S

kj

Es

el número de personas del público objetivo que pertenecen a la categoría k de la variable explicativa j.

170

Análisis Multivariante

2. Para cada categoría de las variables explicativas se toma el índice de penetración máximo y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes categorías de una variable se obtienen dividiendo su índice de ponderación por el de valor máximo. 3. La variable que más discrimina es la que presenta mayor disparidad (recorrido o varianza) entre las ponderaciones de sus categorías. Método de segmentos ponderados de variables agregadas Todos los procedimientos descritos con anterioridad consideran las variables explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar trata de evitar este inconveniente. Es válido cuando se trata de encontrar un segmento optimo, resultante de la agrupación o cruce de diversas variables explicativas. Se trataría de obtener el segmento que mejor discrimine el comportamiento de los consumidores. Se estima para cada segmento o agrupación, un índice de penetración y un índice de cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente fórmula:

1 D= ( S − IP ) 2 2

 (S − M )  1 + 1 − − (1 − IP ) 2 + (1 − IC ) 2   (U − P )  2 2

Donde IC = M / P es el índice de cobertura o proporción de los consumidores de un determinado segmento o agrupación respecto del total de consumidores. M es el número de personas que consumen (variable a explicar ) el producto y que pertenecen a un segmento o agrupación. P es el total de consumidores. IP = M / S Es el índice de penetración o proporción de consumidores de un determinado segmento o agrupación respecto al público objetivo. S es el número de personas del público objetivo que pertenecen a cada segmento o agrupación de consumidores. U es el total de personas del público objetivo.

171

Análisis Multivariante

13.2 AUTOMATIC INTERACTION DETECTION (AID) El AID (Detección automática de interacciones) es una técnica de análisis estadístico que estudia la relación de una variable dependiente o criterio y múltiples predictivas o independientes, detectando el efecto y las interacciones existentes en las variables explicativas (X). El AID no proporciona una función que determine la relación existente entre la variable dependiente (Y) y las independientes. Las variables explicativas son de tipo cualitativo, es decir, están medidas en escalas nominal u ordinal, mientras que la variable dependiente debe estar en escala métrica o bien ser dicotómica (1,0), con dos frecuencias muy similares. El AID procede de forma secuencial, mediante análisis de la varianza, realizando divisiones dicotómicas de la variable dependiente o a explicar. Se parte del total de la muestra y se divide en dos, en función de la variable que mejor explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamaño) de grupo mínimo que fijamos con anterioridad o bien las diferencias entre los valores medios de los grupos no son significativas. La técnica AID realiza un análisis secuencial de la varianza, con el fin de obtener en cada etapa la variable explicativa y dentro de ella la partición entre categorías de la misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos. Las particiones de las variables independientes dependen de si se las considere Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000 euros con de 1500 a 2000 y de 5000 a 10000 euros. Variables monótonas, la partición solo es posible en sentido ascendente o descendente. Por ejemplo menos de 5.000 euros, más de 5.000 euros. Como el AID no proporciona una función, esta técnica puede utilizarse conjuntamente con otras técnicas multivariantes para completar el análisis. Con el AID se aíslan en primer lugar las variables y categorías que mejor explican en mayor medida la varianza

172

Análisis Multivariante

de la variable criterio (Y), seguidamente se puede aplicar un análisis de regresión para estimar los parámetros de las variables seleccionadas por el AID con el fin de poder realizar predicciones. 13.2.1 VENTAJAS E INCONVENIENTES La técnica AID nos permite: Conocer las variables independientes que mejor explican la independiente Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la varianza que explica Identificar segmentos y sus características Conocer la media de la variable criterio para cada segmento Fácil comprensión ya que los resultados se representan normalmente en forma arbolescente Por el contrario la técnica AID presenta las siguientes limitaciones Es necesario disponer de muestras grandes (1000 ó más unidades) Se necesita el que existan varios predictores La primera variable elegida condiciona las sucesivas particiones

14. CHI-SQUARED

AUTOMATIC

INTERACTION

DETECTION (CHAID) 14.1 CONCEPTO Esta técnica estadística estudia la relación entre una variable criterio (Y) que puede ser tanto cualitativa como métrica y múltiples variables cualitativas Este modelo es muy similar al AID, pero a diferencia de este que las particiones son dicotómicas, en el CHAID no tienen por que ser dicotómicas. El criterio de partición de las variables según las categorías de las mismas se basa en la maximización de la “ji cuadrado de Bonferroni. Según Magidson8 (1994) presenta las siguientes mejoras respecto al AID

8

Magidson (1994) Cita en Técnicas de análisis de datos en investigación de mercados. Teodoro Luque Martinez y otros Ed. Pirámide 2000

173

Análisis Multivariante

Une aquellas categorías de un predictor más homogéneas con respecto a la variable dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma, combina categorías que no difieran mucho entre ellas. Como varias categorías pueden diferir estadísticamente, el resultado del proceso de CHAID no necesariamente será una división dicotómica. Para dividir un grupo solamente se eligirán variables que sean estadísticamente significativas. Utiliza el test de independencia de la ji cuadrado de Bonferroni. CHAID compara el valor p asociado con el test de independencia de la variable dicotómica con el valor p ajustado de Bonferroni para la variable con varias categorías. La mejor variable predictora será la que presente menor p ajustado. CHAID considere tres tipos de variables Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000 euros con de 1500 a 2000 y de 5000 a 10000 euros. Variables monótonas, la partición solo es posible en sentido ascendente o descendente. Por ejemplo menos de 5.000 euros, más de 5.000 euros. Variable Flotante es similar a la monótona, salvo en la última categoría (suele ser “Otros”) que puede ser unida a cualquier otra categoría. Esto no sirve si la variable es dicotómica. 14.1.1 PROCESO El proceso lo podemos resumir como sigue •

En primer lugar se determinan la variable a explicar y las predictoras o independientes

•

Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y la dependiente (Y)

•

Se determina las ?2 para cada tabla formada por cada par de categorías capaces de unirse y la variable dependiente

•

Entre los pares que resultan estadísticamente no significativos se unen en una sola categoría

174

Análisis Multivariante

•

Entre los pares significativos la unión se realiza para las categorías más parecidas, es decir las que tengan menor Chi cuadrado,

y con pocas

observaciones •

Se obtiene la “p”, la variable predictora que tenga menor valor es la que se usa para dividir

•

Si “p” no es significativo no se procede a la división

•

Este proceso se repite hasta la obtención de todos los grupos, o bien hasta alcanzar la dimensión de grupo mínimo.

•

El resultado es un árbol, las tablas cruzadas para cada nivel de segmentación y las tablas de ganancia

14.1.2 UTILIDAD La información obtenida nos permite: •

Identificar segmentos y sus características

•

La secuencia de particiones y las variables independientes o predictoras que intervienen

•

Agrupaciones entre variables o entre categorías

•

Información acerca de las interacciones entre las variables

14.1.3 VENTAJAS E INCONVENIENTES Entre las ventajas podemos destacar: •

Podemos tratar variables medidas en escala nominal

•

La partición no tiene por que ser dicotómica

•

Elimina o corrige el sesgo de que las variables con muchas categorías sean seleccionadas para la partición, solamente por esta razón

•

Puede intervenir el investigador introduciendo variables predictoras, aunque no sean las más significativas.

Como inconvenientes son de destacar los siguientes: La respuesta obtenida no tiene por que ser la optima Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5 observaciones en el 20% de las celdas) Se necesitan muestras amplias, (más de 1000 unidades)

175

Análisis Multivariante

15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN MARKETING EN EL COMERCIO M. TERESA OBIS ARTAL9 JOSEP RIALP CRIADO1 EDUARDO M. JIMÉNEZ MARQUÉS Universidad Autónoma de Barcelona10

15.1 RESUMEN A lo largo de este trabajo se analiza la actitud hacia la formación en marketing por parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la aplicación de diferentes técnicas de investigación tanto de reducción de dimensiones (análisis factorial de componentes principales y de correspondencias) como de segmentación (análisis CHAID y AID) se caracterizan los comercios según que realicen o no formación y según la valoración que realizan a diferentes programas de formación en marketing (genéricos, de atención al cliente y técnicos con ordenador). Se concluye que la realización de formación depende, básicamente, del número de trabajadores y de la utilización de herramientas de marketing. En cuanto a los diferentes programas de formación, son estas variables junto con la antigüedad del establecimiento y los artículos que comercializa, las que proporcionan una valoración estadísticamente diferente de los mismos. Palabras clave: Comercio, Formación, Componentes principales, A. Correspondencias, AID, CHAID Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.

15.2 INTRODUCCIÓN Según la Encuesta de Comercio Interior del año 1992, publicada en 1996, el sector comercio en España está constituido por un total de 642.780 empresas. Su relevancia en

9

Los autores agradecen la financiación recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT, proyecto PB94-0708 (J.Rialp). 10 Departamento de Economía de la Empresa. Facultad de Ciencias Económicas y Empresariales. Universidad Autónoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona). Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: [email protected] / [email protected]

176

Análisis Multivariante

la economía queda de manifiesto si se considera que este sector ocupa a más de 2 millones de trabajadores, lo que representa aproximadamente un 17% del empleo del país. Sin embargo, y como señala Kotler (1992, p. 596), únicamente algunos de los establecimientos que estén bien situados, tengan una adecuada gestión, presten un óptimo servicio a sus clientes y hayan adoptado prácticas modernas de marketing y gestión, sobrevivirán. Centrándonos en el último de los aspectos enumerados por Kotler, en un estudio elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran en la línea de los obtenidos por Rodríguez del Bosque et al. (1997). En su trabajo se puede observar, por ejemplo, como el pequeño comercio autónomo tiene objetivos más conservadores en la marcha de su negocio que las empresas que recurren a estructuras jurídicas más complejas, como sociedades limitadas o anónimas. Asimismo, también se detecta que la edad de los comerciantes influye en los objetivos perseguidos. El interés que se origina llegados a este punto sería responder por qué los establecimientos comerciales no utilizan herramientas de marketing si éstas favorecen su subsistencia. En nuestra opinión, la respuesta a esta pregunta podría ir por dos direcciones: se podría pensar, por un lado, que estas herramientas realmente no se necesitan en los establecimientos comerciales y, por otro, que los establecimientos comerciales desconocen tanto la existencia como la forma de emplear estas herramientas. La primera de las causas señaladas no parece justificar el escaso empleo de estas herramientas pues en un entorno turbulento, donde el número de competidores aumenta, los consumidores están mejor informados y el ciclo de vida de los productos cada vez es más corto (Santesmases, 1992), el conocimiento y la aplicación de diversas técnicas de marketing pueden proporcionar una mejor satisfacción de las necesidades del consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el desconocimiento tanto de las herramientas como de su uso sería lo que explicaría el escaso empleo de las herramientas de marketing.

177

Análisis Multivariante

15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS Dada la situación de desconocimiento planteada en la introducción de este trabajo, nos parece interesante profundizar en los programas de formación en marketing que realizan los comercios detallistas. En la literatura especializada, los programas de formación, de forma general, se consideran que favorecen la subsistencia de las empresas (Davies y Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos establecer cuál es el seguimiento de los programas de formación por parte de los establecimientos de comercio. Es más, en caso de que los establecimientos de comercio no sigan ningún programa de formación, trataremos de determinar las causas ya que tal vez el no seguimiento se produce porque estos programas no encajan con las necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones (1993), por ejemplo, establecen que las pequeñas empresas en West Yorkshire sienten que el nivel de soporte no es adecuado y que no existen cursos de formación que encajen con las necesidades de las pequeñas empresas. Además, en este trabajo se intenta determinar qué establecimientos siguen planes de formación, qué características presentan y, por último, se trata de identificar aquellos comercios que pueden estar más interesados en seguir un plan de formación de naturaleza más genérico o uno más especifico, por ejemplo, un programa de formación centrado en la relación con el cliente o con instrumentos técnicos de soporte a la gestión. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993; Sainz de Vicuña, 1996; Sarabia y Ruiz de Maya, 1996). En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que cuentan con más de 6 empleados; los establecimientos en forma de sociedades o asociados; los comercios dirigidos por personal contratado; los establecimientos de confección, moda y textil; los que inician la actividad entre 1991 y 1996; los que presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con una dirección con una edad que oscila entre 26 y 45 años y los que el porcentaje de clientes de la zona de influencia no supera el 50%, son los establecimientos que emplean y/o utilizan más herramientas de marketing. En la línea de este resultado nuestra primera hipótesis establece que van a ser los establecimientos que más utilizan

178

Análisis Multivariante

las herramientas de marketing los que más van a seguir cursos de formación. De hecho, no podemos establecer cuál es la causa y cuál el efecto, pero lo cierto es que cuanta más formación más marketing (o viceversa). De igual forma, se puede suponer que algunas de estas características de los establecimientos van a estar relacionadas con la preferencia por un determinado programa de formación. Además, la realización de programas de formación y el grado de utilización de las herramientas de marketing también pueden afectar la valoración a un determinado programa de formación. En resumen, las hipótesis a contrastar en nuestro trabajo son dos: H1: Los establecimientos que realizan más formación son los que emplean más herramientas de marketing. H2: La valoración a los distintos programas de formación en marketing viene determinada por la actitud hacia la formación, el grado de utilización del marketing y algunas otras características del establecimiento comercial.

15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR Para la consecución de los objetivos previamente señalados, hemos utilizado diferentes técnicas de investigación sobre los datos obtenidos con una encuesta estructurada11, recogida mediante entrevista personal, a una muestra estadísticamente representativa del sector comercio detallista en Zaragoza12. En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:

11

Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo. 12

Dado que Zaragoza en diferentes estudios de mercado se ha considerado ciudad piloto, por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e. Rodríguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este supuesto.

179

Análisis Multivariante

Cuadro 1. Ficha técnica de la encuesta.

Características

Encuesta

Universo

Empresas sección G, divisiones 50, 51 y 52 CNAE9313

Ámbito geográfico

Ciudad de Zaragoza

Unidad muestral

Empresa comercial: establecimientos

Método de recogida de información

Encuesta personal estructurada

Tamaño de la muestra

818 encuestas válidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

Sistemático: coeficiente de elevación 17

Fecha trabajo de campo

Octubre de 1995 a Abril de 1996

Fuente: elaboración propia

De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta investigación. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los establecimientos encuestados, variables de utilización de herramientas de marketing y, por último, variables referidas a la valoración de los programas de formación continuada relacionados con marketing. Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y P17B) y el resto, valoraciones a los programas de formación, que son de naturaleza cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa (incluyendo los porcentajes que representan cada categoría) y en el cuadro 3 las variables cuantitativas (incluyendo su media y su desviación típica).

13

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

180

Análisis Multivariante

15.5 TÉCNICAS A UTILIZAR 15.5.1

TÉCNICAS DE REDUCCIÓN DE VARIABLES

Como se puede observar, hay un número considerable de variables que reflejan tanto utilización de herramientas de marketing como valoraciones a programas de formación. Para sintetizar la información contenida en ambos colectivos se han utilizado dos técnicas descriptivas que si bien tienen el mismo objetivo requieren variables de diferente naturaleza. En concreto, las técnicas que se han utilizado han sido: • un análisis factorial de componentes principales para resumir la información contenida en las variables cuantitativas. • un análisis factorial de correspondencias múltiple para resumir la información contenida en las variables cualitativas. 15.5.1.1 ANÁLISIS FACTORIAL DE COMPONENTES PRINCIPALES Dentro del área de análisis multivariante que persigue la reducción de dimensiones el análisis factorial es un técnica estadística utilizada para identificar un número relativamente pequeño de factores que resumen la información compartida por muchas variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de variables sirve como el punto del partida del análisis factorial, la medición de las variables debe ser tal que el coeficiente de correlación sea una medida estadística aceptable, por tanto, las variables que se utilizan en este análisis son variables cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las valoraciones a los programas de formación cumplen esta condición. El análisis se efectúa expresando cada variable como una combinación lineal de un número pequeño de factores, los cuales son compartidos por todas las variables, y un factor único que es específico para la variable. Los factores comunes se estiman como combinación lineal de las variables originales y para mejorar su interpretación se puede proceder a alguna rotación de la solución inicial. 15.5.1.2 ANÁLISIS FACTORIAL DE CORRESPONDENCIAS MÚLTIPLE Dentro del área de análisis multivariante que persigue la reducción de dimensiones también se encuentran los procedimientos de escalamiento óptimo, que en cierta forma

181

Análisis Multivariante

suponen una extensión de las técnicas estadísticas de componentes principales y del análisis de correlación canónica ya que las variables empleadas son de naturaleza cualitativa. Más concretamente, el resultado de un análisis de escalamiento óptimo incluye un conjunto de puntuaciones óptimas o cuantificaciones de las categorías de las variables cualitativas que se analizan, tratando de recoger la mayor asociación posible entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma variable, que categorías son similares o diferentes y qué categorías podrían agruparse; y entre variables distintas, que categorías van juntas y cuál es la correlación máxima entre las variables.

182

Análisis Multivariante

CUADRO 2: Variables cualitativas utilizadas en este estudio. Porcentajes por categoría. Sobre los establecimientos encuestados (%) ACT Actividad del establecimiento 1 Alimentación y bebidas 2 Confección, moda y textil 3 Manufacturas 4 Ocio y recreo 5 Servicios y otros 6 NS/NC P01 Tipo de sociedad 1 Autónomo/Soc. Civil 2 Sociedad/Cooperativa P02 Tipo de dirección 1 Propietario 2 Persona contratada P03 Año comienzo actividad 1 Antes de 1980 2 De 1980 a 1985 3 De 1986 a 1990 4 De 1991 a 1996 P04 Superficie sala ventas 1 Hasta 50 m2 2 51 – 100 3 101 – 150 4 Más de 150 P05 Tipo de establecimiento 1 Independiente 2 Asociado P06 Número de empleados 1 1 2 2 3 3–6 4 Más de 6 P11.D Edad Dirección 1 18-25 años 2 26-45 años 3 Más de 46 4 NS/NC P36.1 % clientes zona influencia 1 Hasta el 50% 2 Del 50 al 99 3 Todos (100%) 4 NS/NC P57 Vende productos importados 1 No Importa 2 Si, mayoristas 3 Si, directamente P75 Tipo de artículo que comercializa 1 Cotidiano 2 Duradero de temporada 3 Duradero especializado 4 Varios tipos

14,2 14,9 8,3 12,3 14,7 35,6 70,8 29,2 85,6 14,4 37,9 18,6 18,7 24,8 67,0 21,4 5,0 6,6 83,5 16,5 38,1 29,1 25,8 7,0 1,6 27,8 21,6 49,0 30,3 24,2 26,9 18,6 38,3 47,3 14,4 24,1 16,0 42,4 17,5

Herramientas de marketing (%) P37 Dispone de base datos clientes 1 No BDC 2 Si BDC P38 Ha hecho publicidad en el último año 1 No Pub 2 Si Pub P40 Trabaja con alguna agencia de publicidad 1 No APu 2 Si APu P39 Principal medio publicitario 1 T.V. 2 Radio 3 Prensa 4 Buzoneo 5 Otros P41 Hace alguna promoción 1 No Pro 2 Si Pro P43 Aplica técnicas Merchandising 1 No Merchandising 2 No sé que es 3 Si Merchandising P44 Contrata escaparatistas profesionales 1 No Esc 2 Si Esc P48 Realizó un estudio de mercado antes de abrir 1 No EMe 2 Si EMe P53 Acude a ferias y certámenes 1 No FyC 2 Si FyC Variables de formación P17 Ha realizado formación en los 2 últimos años 1 Si hacemos formación 2 No, no tenemos necesidad 3 No, no existen programas 4 No, por falta de tiempo 5 No, por otros motivos NS/NC P17B Ha realizado formación en los 2 últimos años (binaria) 1 Si Formación 2 No Formación Núm. de casos válidos

Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L.

183

58,9 41,1 49,1 50,9

80,9 19,1 5,0 25,1 29,6 25,4 14,9 52,7 47,3 39,9 40,6 19,6 90,7 9,3

78,1 21,9 30,6 69,4 %

32,9 18,8 5,4 24,4 10,0 8,4

32,9 67,1 818

Análisis Multivariante

CUADRO 3 Variables cuantitativas utilizadas en este estudio. Estadísticos descriptivos básicos

Media

Desviación Estándar

Variables de valoración de los Programas de Formación relacionados

Casos válidos

con Marketing P29.AC

Val. PF Atención a clientes

8,40

2,71

750

P29.DO

Val. PF Diseño asistido

2,87

2,95

669

ordenador P29.ES

Val. PF Escaparatismo

7,27

3,17

735

P29.GS

Val. PF Gestión stock

5,18

3,62

674

P29.ME

Val. PF Merchandising

4,46

3,47

538

P29.MK

Val. PF Marketing

5,36

3,40

708

P29.PC

Val. PF Psicología consumidor

6,64

3,30

714

P29.PR

Val. PF Promoción

6,56

3,45

703

P29.PU

Val. PF Publicidad

5,60

3,39

718

P29.TE

Val. PF Telemarketing

2,59

2,65

629

P29.TN

Val. PF Técnicas de

5,25

3,50

692

7,16

3,23

739

negociación P29.TV

Val. PF Técnicas de ventas

Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L. Casos válidos en el conjunto de las 12 variables: 475.

Por tanto, ya que las puntuaciones tienen propiedades métricas, esta técnica se ha descrito como una forma de cuantificar datos cualitativos. El paquete estadístico SPSS presenta diferentes procedimientos de escalamiento óptimo que se pueden clasificar en función del número y tipo de variables cualitativas que se utilizan14. Dado que las variables de utilización de herramientas de marketing que consideramos en nuestro 14

Cuando el número de variables que se relaciona son 2 y están medidas con una escala nominal, el procedimiento a utilizar es el ANACOR (el análisis de correspondencia simple). Cuando se relacionan más de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el análisis de correspondencia múltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numéricas el procedimiento a utilizar es el PRINCALS (el análisis de componentes principales no lineal) y, por último, tenemos el OVERALS (el análisis del coeficiente de correlación canónica no lineal) que es el más general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede originar los resultados obtenidos con los demás procedimientos.

184

Análisis Multivariante

análisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el análisis de correspondencias múltiple (el HOMALS). El input para este análisis es una matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las columnas variables (las diferentes herramientas de marketing consideradas). En el análisis sólo se considera la información categórica de las variables, es decir, la única consideración que se realiza es que algunos objetos están en la misma categoría mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las categorías de una misma variable. El HOMALS va asignando puntuaciones a cada categoría de cada variable de forma que las categorías tengan la máxima extensión, es decir, que las categorías estén separadas unas de otras tanto como sea posible. El análisis HOMALS también asigna puntuaciones a los objetos de forma que las cuantificaciones de las categorías son los promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la misma categoría15. Por diseño, el análisis HOMALS trata de producir una solución en la cual los objetos dentro de la misma categoría son representados juntos y objetos en diferentes categorías son representados alejados unos de otros. Esto se hace para todas las variables en el análisis. Las representaciones tienen la propiedad de que cada objeto está tan próximo como sea posible a las puntuaciones de las categorías a las que pertenece. En este sentido, las categorías dividen los objetos en subgrupos homogéneos (esta es una de las razones para denominarlo “análisis de homogeneidad”). Las variables se consideran homogéneas cuando clasifican los objetos dentro de los mismos subgrupos. 15.5.2 TÉCNICAS DE SEGMENTACIÓN Los objetivos que persigue este trabajo son tanto la caracterización de las empresas de comercio que realizan programas de formación en marketing como la caracterización de las empresas según la valoración a unos programas de formación específicos del campo de marketing.

15

El método que utiliza en este procedimientos es el de los mínimos cuadrados alternativos (ALS). Se trata de un método iterativo en el cual las estimaciones mínimo cuadrado de las puntuaciones de los objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan alternativamente.

185

Análisis Multivariante

En cierta forma, queremos dividir los establecimientos de comercio en segmentos que se diferencian con respecto, en este caso, a dos criterios: 1. la realización o no de formación, y en caso negativo el motivo de ello. 2. la valoración a diferentes programas de formación de marketing. Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza cualitativa ya que se pueden agrupar los establecimientos en diferentes categorías; mientras que la variable o variables que representan el segundo criterio son de naturaleza cuantitativa pues se trata de una valoración. Ello lleva a que las técnicas a utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo aplicaremos un análisis CHAID mientras que para el segundo aplicaremos la técnica del AID. 15.5.2.1 ANÁLISIS CHAID. Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los establecimientos encuestados en función de si el establecimiento ha realizado formación en los 2 últimos años (la variable a la que nos referimos es la P17, variable cualitativa con 5 categorías). Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian con respecto a un determinado criterio (en este caso la realización o no de formación y en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un modelo de segmentación, un CHAID, que está basado en la Chi cuadrado (Kass, 1980; Magidson, 1988). Este análisis divide la población en grupos distintos basándose en las categorías del mejor predictor de la variable dependiente16, que debe ser categórica. Cada uno de los grupos los divide posteriormente en grupos más pequeños basándose en otras variables predictivas. Este proceso de división continúa hasta que no se pueden encontrar más predictores estadísticamente significativos o hasta que el tamaño de los grupos llega a un mínimo establecido. Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un segmento. Además, como los segmentos son definidos por combinaciones de variables

186

Análisis Multivariante

predictivas, fácilmente se puede clasificar cada caso en su segmento apropiado simplemente conociendo sus categorías en las variables predictivas. El CHAID fusiona categorías de las variables predictoras que no son significativamente diferentes. Este procedimiento, combinado con el algoritmo de división, asegura que los casos en un mismo segmento son homogéneos respecto al criterio de segmentación mientras que los casos en segmentos diferentes tienden a ser heterogéneos con respecto al criterio de segmentación. 15.5.2.2 ANÁLISIS AID El AID o detección automática de interacciones es una técnica de análisis estadístico que se utiliza para estudiar la relación de dependencia entre una variable dependiente y múltiples predictoras. Su aplicación, como en el caso del CHAID, permite dividir un conjunto de individuos o entidades de acuerdo con un determinado criterio.

Sin

embargo, y a diferencia de este análisis, la variable dependiente o a explicar debe estar medida en una escala métrica o dicotómica17. En nuestro caso vamos a contar con los factores que van a resumir la valoración que las empresas de comercio realizan a los programas de formación. Los factores resultantes del análisis factorial son variables de naturaleza cuantitativa. Este análisis procede de forma secuencial, mediante el análisis de varianza, realizando divisiones de la variable dependiente. Como en el caso anterior, divide la población en grupos distintos basándose en la variable que mejor explica las diferencias en la variable dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores medios de la variable dependiente en los grupos no son diferentes o hasta que el tamaño de los grupos llega a un mínimo establecido. Por tanto, se podría pensar que el AID constituye un análisis de varianza secuencial que permite aislar aquellas variables, y niveles dentro de las mismas, que explican en mayor medida la varianza de la variable dependiente. A diferencia de las técnicas anteriores, que se han obtenido con el paquete

16

El empleo de una variable dependiente es la principal diferencia entre el CHAID y el análisis Cluster tradicional. 17 Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en escalas nominales u ordinales.

187

Análisis Multivariante

estadístico SPSS para Windows versión 7.5, los resultados del AID se han obtenido con el DYANE (Santesmases, 1996).

15.6 RESULTADOS 15.6.1 IDENTIFICACIÓN

DE

DIFERENTES

PROGRAMAS

DE

FORMACIÓN. La primera etapa en la aplicación de un análisis factorial consiste en verificar la adecuación del empleo de este análisis. Para comprobar dicha adecuación se utiliza el KMO y la significación del test de esfericidad de Barlett. En este caso ambos indicadores permiten establecer la adecuación de aplicar un factorial a la variables que recogen la valoración a diferentes programas de formación (KMO = 0.875 y significación del test de Barlett inferior al 5%). Los tres factores extraídos por componentes principales (ver Cuadro 4) explican más del 60% de la varianza total. Aplicando una rotación varimax se puede establecer que: 1. El primer factor representa los programas de formación en marketing que

podríamos denominar genéricos. Las variables con una mayor correlación son la valoración al programa de formación en publicidad, en marketing, en promoción y en merchandising. 2. El segundo factor representa los programas de formación enfocados al clientes.

Las variables que hacen referencia a la valoración de un programa de formación de atención al cliente y de psicología del consumidor presentan correlaciones que superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente). 3. El tercer factor representa los programas de formación técnicos que implican el

empleo de herramientas informáticas (la variable que recoge la valoración a los programas de formación de diseño asistido por ordenador presenta la correlación más alta con este factor: 0.758).

188

Análisis Multivariante

CUADRO 4 Resultados del Análisis factorial.

Matriz Factorial

Comunalidad

Matriz Factorial Rotada

Variables

F1

F2

F3

(% var.explicada)

F1

Val. PF Publicidad

,75

,01

-,38

,72

,80

Val. PF Marketing

,73

,17

-,31

,66

,75

Val. PF Promoción

,74

,11

-,16

,59

,64

Val. PF Merchandising

,66

,14

-,22

,52

,64

Val. PF Atención Cliente

,56

-,54

,13

,63

,77

Val. PF Psicolog.

,59

-,29

,51

,70

,75

Val. PF Téc. Ventas

,66

-,37

-,00

,58

,40

,64

Val. PF Escaparatismo

,58

-,46

-,20

,60

,48

,59

Val. PF Diseño asis.

,45

,54

,31

,60

Val. PF Telemarketing

,58

,50

,14

,62

Val. PF Gestión stocks

,66

,00

,33

,55

Val. PF Téc. Negociación

,66

,00

,13

,47

Valor propio

4,98

1,37

% varianza explicado

41,51

% varianza acumulado

41,51

F2

F3

,33

,38

consumidor

,76

ordenador ,37

,70 ,49

,52

,37

,36

,45

,90

2,78

2,46

2,00

11,42

7,49

23,22

20,52

16,70

52,93

60,43

23,22

43,73

60,43

Fuente: elaboración propia.

Por tanto, la reducción que consigue el análisis factorial permite identificar tres tipos de programas en marketing: los programas genéricos, los programas enfocados a cliente y, por último, los programas técnicos asistidos por ordenador. En el apartado 4.4. se clasificarán los establecimientos comerciales que prefieren cada uno de estos programas.

189

Análisis Multivariante

15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING Como se ha comentado anteriormente, el análisis HOMALS permite clasificar en un mismo grupo a aquellas observaciones que se asemejan entre sí. Como se puede ver en el Cuadro 518, la primera dimensión que extrae este análisis, la del eje de abcisas, claramente separa las empresas que emplean herramientas de marketing de las que no. La

segunda

dimensión

parece

que

solamente

tiene

influencia

en

aquellos

establecimientos comerciales que emplean herramientas de marketing. No provoca ninguna diferencia relevante entre los que no emplean estas herramientas mientras que entre los que sí utilizan herramientas de marketing separa los que usan herramientas más sofisticadas o complejas de los que aplican herramientas más básicas. Debido a que pretendemos utilizar esta información en las técnicas de segmentación AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa. Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de aplicación de Marketing que permite clasificar a las empresas en tres grupos según la utilización que hacen de las diferentes herramientas de marketing (ver Cuadro 6): empresas que NO emplean herramientas de marketing, empresas que emplean las herramientas de marketing más básicas y empresas que utilizan herramientas más sofisticadas de marketing.

18

Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensión y 0.142 para la segunda.

190

Análisis Multivariante

CUADRO 5 Resultados del Análisis de correspondencias múltiples. Posicionamiento de cada categoría en los factores 1,5 Buzoneo Prensa

1,0

No Merchand Si Pub No EMe No Esc No Pro Si BDC Otros No No FyC No APu que es Si FyC Nose BDC Si ProRadioSi APu No Nomedios Pub

,5 0,0

Ferias y certámenes Estudio de mercado Escaparatistas prof.

-,5

Técnicas Merchandis Si Si Merchand EMe

Aguna promoción

-1,0

Dimensión 2

Agencia publicidad -1,5 Si Esc

Medio publicitario T.V.

-2,0

Ha hecho publicidad

-2,5 -1,5

Base datos clientes -1,0

-,5

0,0

,5

1,0

1,5

2,0

Dimensión 1 Fuente: elaboración propia.

Conviene remarcar que con la reclasificación de los establecimientos comerciales en tres categorías según el grado de utilización de herramientas de marketing se preservan los resultados obtenidos con el análisis factorial de correspondencias múltiple. Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula de independencia entre las variables con un nivel de confianza prácticamente absoluto.

191

Análisis Multivariante

CUADRO 6 Recodificación de la variable Marketing Tabla de frecuencia Grado aplicación de marketing Categoría No Marketing Marketing Básico Marketing Sofisticado Total

Definición Dimensión 1 0 y Dimensión 2 > 0 Dimensión 1 > 0 y Dimensión 2 < 0

Frecuencia 412 261 145 818

Porcentaje 50,4 31,9 17,7 100,0

Fuente: elaboración propia.

15.8 CLASIFICACIÓN

DE

LOS

ESTABLECIMIENTOS

COMERCIALES SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN El análisis CHAID utilizado para caracterizar a los establecimientos que han realizado una determinada formación en los dos últimos años divide a los establecimientos en 8 grupos: Grupo 1: está formado por los establecimientos con un solo empleado (285 establecimientos). De estos un 37,89% no hacen formación por falta de tiempo y un 28,42% considera que no tienen necesidad. Grupo 2: Está formado por los establecimientos con dos empleados, que no utilizan herramientas de marketing y que son autónomos (en total, 85 establecimientos). De éstos un 30,59% no hacen formación porque no tienen necesidad y un 36,47% no la hacen por falta de tiempo. Grupo 3: También está formado por los establecimientos con dos empleados que no utilizan herramientas de marketing pero en este caso tienen forma de sociedad o cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen formación mientras que un 23,08% no hacen formación por otros motivos. Grupo 4: Está formado por establecimientos con dos empleados que utilizan herramientas de marketing, ya sean básicas o sofisticadas. De estos establecimientos más de un 50% realizan cursos de formación. Grupo 5: Esta formado por aquellos establecimientos que cuentan con un número de empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan

192

Análisis Multivariante

herramientas básicas y que no importan productos. De estos establecimientos, 54 en total, un 42,59% hacen cursos de formación y un 24,07% señalan que no tienen necesidad. Grupo 6: Lo forman los establecimientos que cuentan con un número de empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas básicas y que venden productos importados. De estos establecimientos, 95 en total, un 48,42% hacen cursos de formación y un 10,53% señalan que no hacen porque no existen programas adecuados. Grupo 7: Este grupo está compuesto por los establecimientos que cuentan con un número de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de formación y un 15,22% no hacen cursos de formación por diferentes motivos. Grupo 8: Está formado por los establecimientos con más de 6 empleados (51). De estos más del 82% hacen cursos de formación mientras que no hay ninguno que diga no hacer cursos de formación por no tener necesidad. En conclusión, la mayor diferenciación entre los que realizan programas de formación y los que no los hacen es el tamaño del establecimiento (a mayor tamaño más realización de formación).

El grado de utilización de las herramientas de marketing también

diferencia entre los que realizan o no programas de formación pero sólo en establecimientos de 2 empleados o de 3 a 6.

La no existencia de programas de

formación adecuados no parece ser una justificación importante para la no realización de programas de formación puesto que en la mayoría de grupos únicamente alrededor de un 5% mencionan este aspecto, a excepción de los establecimientos de 3 a 6 trabajadores, que no aplican marketing o bien realizan un marketing básico y que venden productos importados (en este grupo la no existencia de programas adecuados la manifiestan un 10,5% de los establecimientos).

193

Análisis Multivariante

CUADRO 7 Resultados del Análisis de clasificación Chaid. Características de las empresas según formación Total Si Form: 35,91 No nece: 20,56 No progr: 5,87 Falta tpo: 26,70 Otros mo: 10,95 n = 749

Número de Empleados

1

2

3-6

Más de 6

Si Form: 18,25 No nece: 28,42 No progr: 6,67 Falta tpo: 37,89 Otros mo: 8,77 n =285

Si Form: 34,40 No nece: 22,02 No progr: 5,05 Falta tpo: 25,69 Otros mo: 12,84 n = 218

Si Form: 51,28 No nece: 12,82 No progr: 6,67 Falta tpo: 17,44 Otros mo: 11,79 n = 195

Si Form: 82,35 No nece: 0,00 No progr: 1,96 Falta tpo: 3,92 Otros mo: 11,76 n = 51

Utilización de Marketing

Utilización de Marketing

(1)

(8)

No Marketing

Mark. Básico y Sofisticado

No Marketing Mark. Básico

Marketing Sofisticado

Si Form: 18,92 No nece: 27,03 No progr: 5,41 Falta tpo: 32,43 Otros mo: 16,22 n = 111

Si Form: 50,47 No nece: 16,82 No progr: 4,67 Falta tpo: 18,69 Otros mo: 9,35 N = 107

Si Form: 46,31 No nece: 15,44 No progr: 6,71 Falta tpo: 20,81 Otros mo: 10,74 n = 149

Si Form: 67,39 No nece: 4,35 No progr: 6,52 Falta tpo: 6,52 Otros mo: 15,22 n = 46

(4)

(7)

Tipo de sociedad

Vende produc. importados

Autónomo

Sociedad

No importa

Si importa

Si Form: 12,94 No nece: 30,59 No progr: 5,88 Falta tpo: 36,47 Otros mo: 14,12 n = 85

Si Form: 38,46 No nece: 15,38 No progr: 3,85 Falta tpo: 19,23 Otros mo: 23,08 n = 26

Si Form: 42,59 No nece: 24,07 No progr: 0,00 Falta tpo: 20,37 Otros mo: 12,96 n = 54

Si Form: 48,42 No nece: 10,53 No progr: 10,53 Falta tpo: 21,05 Otros mo: 9,47 n = 95

(2)

(3)

(5)

(6)

194

Análisis Multivariante

15.9 CLASIFICACIÓN

DE

LOS

ESTABLECIMIENTOS

COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO Atendiendo a los resultados del análisis factorial de componentes principales realizado anteriormente, se han identificado tres programas de formación en marketing: programas de formación genéricos, programas de formación enfocados a cliente y programas de formación técnicos asistidos por ordenador. A continuación vamos a identificar aquellos establecimientos que valoran más cada uno de estos programas aplicando la técnica del AID. 15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN GENÉRICOS La aplicación del AID tomando como variable cuantitativa el primer factor nos permite identificar 6 grupos.

195

Análisis Multivariante

CUADRO 8 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación genéricos de marketing Total Media: -0,011 D.Est.: 0,999 n = 440

Ha realizado formación ∆R² = 0,041

Si Formación

No Formación

Media: 0,235 D.Est.: 0,910 n = 178

Media: -0,178 D.Est.: 0,989 n = 262

Número de empleados ∆R² = 0,020

Año comienzo actividad ∆R² = 0,030

Más de 2

1y2

Después 1985

Antes 1986

Media: 0,036 D.Est.: 0,884 n = 99

Media: 0,484 D.Est.: 0,830 n = 79

Media: 0,071 D.Est.: 0,976 n = 118

Media: -0,383 D.Est.: 0,906 n = 144

(1)

(2)

Artículos que comercializa ∆R² = 0,020

Utilización de Marketing ∆R² = 0,010

Durad. Temp. y Cotidiano

Durad. Espec. y varios tipos

No Marketing

Mark. Básico y Sofisticado

Media: 0,488 D.Est.: 0,781 n = 30

Media: -0,161 D.Est.: 0,801 n = 69

Media: -0,497 D.Est.: 0,789 n = 102

Media: -0,105 D.Est.: 1,081 n = 42

(3)

(4)

(5)

(6)

Grupo 1: Esta formado por 79 establecimientos que otorgan una valoración media al factor 1 de 0,4837. Son establecimientos que siguen cursos de formación y que tienen 1 ó 2 empleados.

196

Análisis Multivariante

Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoración media al factor 1 de 0,0713. Son establecimientos que no hacen formación justificando esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su actividad después de 1985. Grupo 3: Se agrupan 30 establecimientos. Dan una valoración al factor 1 de 0,4882. Son establecimientos que hacen formación, que tienen más de 3 empleados y que comercializan artículos duraderos de temporada o cotidianos. Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una valoración media al factor 1 negativa (-0,1605). Son establecimientos que hacen formación, que tienen más de 3 empleados pero que comercializan artículos duraderos especializados y artículos de varios tipos. Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior, también dan una valoración negativa al factor 1 (-0,4970). Estos establecimientos no hacen

formación

y

arguyen

cualquiera

de

los

motivos

considerados,

son

establecimientos que comenzaron su actividad antes de 1985 y que no aplican herramientas de marketing. Grupo 6: Aquí se agrupan 42 establecimientos que también dan una valoración negativa al factor 1. Como en el caso anterior, no hacen formación y son establecimientos que también comenzaron su actividad antes de 1985 pero, a diferencia de los establecimientos del grupo anterior, utilizan herramientas de marketing básicas y/o sofisticadas. En definitiva, los establecimientos que prefieren cursos de formación genéricos se encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de formación y que tienen 1 ó 2 empleados o establecimientos que hacen formación, que tienen más de 3 empleados y que comercializan artículos duraderos de temporada o cotidianos. Por contra, los que menos valoran este tipo de formación son los establecimientos del grupo 4 y 5, es decir, los que hacen formación, tienen más de 3 empleados y comercializan productos duraderos especializados o de varios tipos; o los que no hacen formación por los motivos señalados, operan desde antes de 1985 y no utilizan herramientas de marketing.

197

Análisis Multivariante

15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN ENFOCADOS A CLIENTE La aplicación del AID tomando como variable cuantitativa el segundo factor nos permite identificar también en este caso 6 grupos: Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoración media al factor 2 de -0,5503. Son establecimientos que no hacen formación justificando que no tienen necesidad. Grupo 2: Esta formado por 58 establecimientos que otorgan una valoración media al factor 2 de 0,4736. Son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad y que comercializan varios tipos de articulo. Grupo 3: Se agrupan 141 establecimientos. Dan una valoración media al factor 2 de 0,0951. Son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad, comercializan productos duraderos de temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que adoptan es la de autónomos o sociedad civil.

198

Análisis Multivariante

CUADRO 9 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación enfocados al cliente Total Media: -0,001 D.Est.: 1,003 n = 440

Ha realizado formación ∆R² = 0,063

Si formación y no por otros

No tenemos necesidad

Media: 0,114 D.Est.: 0,875 n = 364

Media: -0,550 D.Est.: 1,266, n = 76

(1) Artículos que comercializa ∆R² = 0,020

Varios tipos

Específicos

Media: 0,474 D.Est.: 0,672 n = 58

Media: 0,045 D.Est.: 0,884 N = 306

(2) Superficie de ventas ∆R² = 0,010

Más de 50 m²

Hasta 50 m²

Media: 0,210 D.Est.: 0,759 n = 108

Media: -0,045, D.Est.: 0,929 n = 198

Año comienzo actividad ∆R² = 0,019

Tipo de sociedad ∆R² = 0,022

Antes 1986

Después 1985

Autónomo

Sociedad

Media: 0,468 D.Est.: 0,717 n = 58

Media: -0,090 D.Est.: 0,641 n = 50

Media: 0,095 D.Est.: 0,864 n = 141

Media: -0,390 D.Est.: 0,717 n = 58

(5)

(6)

(3)

(4)

199

Análisis Multivariante

Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una valoración media al factor 2 negativa (-0,39). En cuanto a las características, presentan las mismas que los establecimientos del grupo 2 con la excepción de que la forma que adoptan es la de sociedad o cooperativa. Grupo 5: Este grupo presenta 58 establecimientos que dan una valoración media al factor 2 positiva (0,4683). Estos establecimientos no hacen formación y arguyen cualquiera de los motivos considerados excepto el de que no tienen necesidad, comercializan productos duraderos (de temporada y especializados) y también productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de 1985. Grupo 6: Aquí se agrupan 50 establecimientos que dan una valoración promedio al factor 2 negativa (-0,0897). Respecto a las características presentan las mismas que el grupo anterior a diferencia de que comenzaron su actividad después de 1985. En definitiva, los establecimientos comerciales que prefieren programas de formación enfocados a clientes son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad y que comercializan varios tipos de articulo. También están los que presentan esas características pero comercializan productos duraderos de temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que adoptan es la de autónomos o sociedad civil y, por último, tenemos los establecimientos que no hacen formación y arguyen cualquiera de los motivos considerados excepto el de que no tienen necesidad, comercializan productos duraderos (de temporada y especializados) y también productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de 1985. Destaca la valoración negativa de los programas de formación enfocados al cliente que hacen los establecimientos que afirman que no hacen formación porque no tienen necesidad (grupo 1).

200

Análisis Multivariante

15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN

TÉCNICOS

QUE

EMPLEAN

HERRAMIENTAS

INFORMÁTICAS La aplicación del AID tomando como variable cuantitativa el tercer factor nos permite identificar ahora 8 grupos: Grupo 1: Este grupo presenta 62 establecimientos que dan una valoración media al factor 3 positiva (0,0268). Estos establecimientos hacen formación y utilizan herramientas sofisticadas de marketing. Grupo 2: Aquí se agrupan 78 establecimientos que dan una valoración promedio al factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan y, en cuanto a los productos que comercializan, son productos cotidianos. Grupo 3: Esta formado por 28 establecimientos que otorgan una valoración media al factor 3 de 0,7503. Son establecimientos que siguen cursos de formación, que no utilizan herramientas de marketing y si utilizan son herramientas básicas y, además, no importan productos. Grupo 4: Aquí se agrupan 49 establecimientos que dan una valoración promedio al factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan. En cuanto a los productos que comercializan son duraderos especializados y de temporada o comercializan varios tipos de productos. En este grupo encontramos los establecimientos de confección, moda y textil y manufacturas. Grupo 5: Se agrupan 66 establecimientos. Dan una valoración media al factor 3 de 0,1231. Son establecimientos que siguen cursos de formación, que no utilizan herramientas de marketing y si utilizan emplean herramientas básicas, venden productos importados y comenzaron su actividad antes de 1990.

201

Análisis Multivariante

CUADRO 10 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación técnicos con ordenador Total Media: -0,029 D.Est.: 0,987 n = 440

Ha realizado formación ∆R² = 0,056

Si Formación

No Formación

Media: 0,256 D.Est.: 1,041 n = 178

Media: -0,222 D.Est.: 0,836 n = 262

Utilización de Marketing ∆R² = 0,012

Artículos que comercializa ∆R² = 0,019

Marketing Sofisticado

No Marketing Mark. Básico

Duraderos y varios tipos

Cotidiano

Media: 0,027 D.Est.: 0,908 n = 62

Media: 0,378 D.Est.: 1,069 n = 116

Media: -0,106 D.Est.: 0,863 n = 184

Media: -0,495 D.Est.: 0,665 n = 78

(1)

(2) Vende produc. importados ∆R² = 0,012

Actividad ∆R² = 0,018

Si importa

No importa

Confección y Manufacturas

Alimentación, ocio, servicios

Media: 0,260 D.Est.: 1,087 n = 88

Media: 0,750 D.Est.: 0,829 n = 28

Media: -0,445, D.Est.: 0,779 n = 49

Media: 0,017 D.Est.: 0,837 n = 135

(3)

(4)

Año comienzo actividad ∆R² = 0,012

Edad de la dirección ∆R² = 0,018

Antes 1991

Después 1990

Menos de 46

Más de 45

Media: 0,123 D.Est.: 1,058 n = 66

Media: 0,671 D.Est.: 0,948 n =22

Media: 0,154 D.Est.: 0,818 n = 102

Media: -0,405 D.Est.: 0,658 n = 33

(5)

(6)

(7)

(8)

202

Análisis Multivariante

Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una valoración media al factor 3 de 0,6709. Presentan las mismas características que los establecimientos del grupo anterior pero comenzaron su actividad después de 1990. Grupo 7: Aquí se agrupan 102 establecimientos que dan una valoración promedio al factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan. En cuanto a los productos que comercializan son duraderos especializados y de temporada o comercializan varios tipos de productos. En este grupo encontramos los establecimientos de alimentación y bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los directivos oscila entre 18 y 45 años. Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoración media al factor 3 de -0,4052. Son establecimientos que presentan las mismas características que las del grupo anterior con la diferencia de que la edad de la dirección supera los 45 años (a más edad menos preferencia por la informática). En definitiva, los establecimientos comerciales que más valorar los programas de formación que emplean herramientas informáticas son los que hacen formación, que no utilizan herramientas de marketing o utilizan herramientas básicas y que no venden productos importados (grupo 3) o los que con las mismas características sí que venden productos importados e inician su actividad después de 1990 (grupo 6). En cambio, las valoraciones más negativas las realizan los establecimientos que no hacen formación y venden productos cotidianos (grupo 2), los que no hacen formación, venden productos duraderos o de varios tipos y son de confección o manufacturas (grupo 4) o los que son de alimentación, ocio o servicios y la edad de la dirección supera los 45 años (grupo 8). En la valoración a este tipo de programas de formación sorprende que los establecimientos que utilizan marketing sofisticado y los que venden productos importados tienen una valoración inferior a los que no lo hacen (esto podría sugerir que los cursos más técnicos no están al nivel de exigencia esperado por

aquellos

establecimientos que están en un estadio más avanzado en su actividad).

16. CONCLUSIONES La clasificación del comercio ha sido un aspecto desarrollado por diferentes trabajos de la literatura, como se ha puesto de manifiesto con algunas referencias comentadas

203

Análisis Multivariante

anteriormente. Sin embargo, no se había realizado una clasificación de los establecimientos comerciales atendiendo a su valoración y a su relación con los programas de formación. En este trabajo, con la aplicación de técnicas de segmentación como el CHAID y el AID, se han podido caracterizar a los establecimientos que hacen cursos de formación así como a los establecimientos que prefieren un determinado curso de formación. Así, según la realización de programas de formación, en el lado de los que no realizan formación por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos grupos: los comercios con un solo empleado y los comercios con dos empleados que no hacen marketing y son autónomos. Por otro lado, entre los comercios que mayor formación realizan encontramos los de más de 6 trabajadores y los de 3 a 6 trabajadores que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing básico y que venden productos importados puesto que un 10,5% de los mismos detectan que no existen programas de formación adecuados (en los otros grupos este porcentaje se situaba alrededor del 5%). Como resultado general, se puede señalar que hay una clara relación entre realizar cursos de formación y valorar muy positivamente los diferentes programas de formación en marketing. De hecho, los grupos de establecimientos que otorgan una valoración más negativa a los diferentes programas de formación en marketing son establecimientos que no hacen formación. Por ejemplo, los establecimientos que no hacen formación, creados antes de 1986 y que tampoco hacen marketing son los que valoran

más

negativamente

los

programas

de

formación

genéricos.

Los

establecimientos que dicen no tener necesidad de formación son los que valoran más negativamente los programas enfocados a clientes. En cuanto a la preferencia por un determinado curso de formación, se puede señalar que existen variables que influyen en la valoración de todos los programas de formación aunque no de la misma forma en cada uno de ellos. Así, cuando los artículos que comercializa el establecimiento son duraderos de temporada y cotidianos, aumenta la valoración a los programas genéricos; cuando los establecimientos comercializan diversos tipos aumenta la valoración de los programas enfocados a los clientes y, por

204

Análisis Multivariante

último, cuando se comercializan artículos cotidianos disminuye en gran medida la valoración de los programas técnicos. Atendiendo a la antigüedad de la empresa, se observa como aquellos establecimientos que operan desde antes de 1986 otorgan una valoración media positiva a los programas de formación enfocados a clientes y negativa a los programas de formación genéricos. Para la valoración de los programas de formación técnicos, la diferencia se sitúa en los comercios creados antes o después de 1990, siendo estos últimos los que más los valoran. Finalmente, otras variables que caracterizan la valoración de los programas de formación considerados son el grado de utilización de las herramientas de marketing. Para aquellos establecimientos que no utilizan marketing la valoración a los programas de formación genéricos es más baja que para los establecimientos que utilizan estas herramientas. Por contra, para aquéllos que ya utilizan herramientas sofisticadas de marketing, la valoración de los programas técnicos asistidos por ordenador es inferior a los que no hacen marketing o utilizan herramientas básicas. En definitiva, los resultados obtenidos permiten contrastar las dos hipótesis planteadas en un inicio. De este modo, los establecimientos que más emplean herramientas de marketing son los que realizan más formación (o viceversa) y también se puede observar como la preferencia por un plan de formación específico viene determinada por estas dos variables más algunas características del establecimiento comercial.

17. BIBLIOGRAFÍA Davies Bush, V. y Ingram, T. (1996): “Adapting to Diverse Customers: A Training Matrix for International Marketers”. Industrial Marketing Management, Vol. 25, nº 5, p. 373 - 383. Fondo Social Europeo, FORCEM, Federación de Empresarios de Comercio de Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO, S.L. Hogart-Scott, S. y Jone, M.A. (1993): “Advice and Training Support for the Small Firms Sector in West Yorkshire”. Journal of European Industrial Training, Vol 17, nº 1, p.18 - 22.

205

Análisis Multivariante

Kass, G. (1980): “An Exploratory Technique for Investigating Large Quantities of Categorical Data”. Applied Statistics, Vol. 29, nº 2, p. 119-127. Kotler, P. (1992): Dirección de Marketing. Análisis, planificación, gestión y control. 7ª Ed. Prentice Hall. Magidson, J. (1988): “Improved Statistical Techniques for Response Modeling. Progresion Beyond Regresion”. Journal of Direct Marketing, Vol. 2, nº 4, p.6 - 18. Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS Inc. Chicago. Norusis, M.J. (1983): SPSSx. Introductory Statistics Guide. McGraw-Hill Book Company. Obis, T.; Jiménez, E.; Rialp, J. (1997): “El marketing en el comercio de Zaragoza”. IX Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de Septiembre, p. 315-334. Rebollo, A. (1993): “Clasificación de las Formas Comerciales: el ProductoEstablecimiento”. Distribución Actualidad, nº 10 (junio-julio), p. 10-18. Rodríguez del Bosque, I.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los Salmones, Mª. (1997): “La modernización del Comercio minorista: Predisposición hacia el Cambio”. IX Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de Septiembre, p. 359-375. Rodríguez del Bosque, I.; Trespalacios Gutiérrez, J.A.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los Salmones, Mª; Fernández Polanco, J. (1997): El Sector Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de Cantabria. Gobierno de Cantabria. Santander. Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones Pirámide, S.A. Madrid. Santesmases, M. (1997): DYANE. Diseño y análisis de encuestas en investigación social y de mercados. Ediciones Pirámide. Madrid

206

Análisis Multivariante

Sarabia, F.J. y Ruiz de Maya, S. (1996): “Aspectos Metodológicos para la realización de Estudios en el Ámbito de la Distribución Comercial”. Esic Market, enero-marzo, p. 117-141. SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago Weeks, W.A. y Stevens, C.G. (1997): “National Account Management Sales. Training and Directions for Improvement”. Industrial Marketing Management, Vol. 26, nº 5, p. 423 - 431. Weiers, R.M. (1986): Investigación de Mercados. México. Prentice Hall.

207

Análisis Multivariante

ANÁLISIS DE CLASIFICACIÓN MÚLTIPLE (ACM)

208

Análisis Multivariante

18. CONCEPTO DE ACM El análisis de clasificación múltiple fue diseñada por Andrews, Morgan y Sonquist y analiza la relación entre un variable dependiente o criterio, medida en escala métrica o binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas. Aplicación El ACM sustituye con ventaja a la regresión múltiple con variables ficticias (dummy), por la dificultad o complejidad que puede suponer la transformación de variables categóricas en ficticias.

Resumen Y medida en escala métrica Las x en nominales u ordinales

19. MODELO DEL ACM El modelo estadístico expresa la variable dependiente (Y) como una función del valor medio de la misma más los coeficientes asignados a las categorías correspondientes de las variables explicativas y un término de error. La ecuación matemática es:

Yi , j ,.... n = Y + a i + b j + c k + ........+ ei , j , ,,,, n Donde: Yi,j,k

..n

Es el valor de la variable dependiente en el individuo n, que pertenece a la

categoría i de la variable explicativa A, a la categoría j de la variable B, etc.

Y Es la media de todos los casos de la variable dependiente. Gran media ai Coeficiente estimado correspondiente a la categoría i de la variable independiente A bj Coeficiente estimado correspondiente a la categoría j de la variable independiente B ck Coeficiente estimado correspondiente a la categoría k de la variable independiente C ei,j,,k, …. n error para el elemento o individuo n

209

Análisis Multivariante

Los coeficientes se estiman mediante el método de los mínimos cuadrados. En el ACM la proporción de varianza explicada por cada una de las variables independientes se denomina eta cuadrado. ( η 2 ) Su expresión matemática es.

η2 =

∑N j

ij

(Yij − Y ) 2

∑ (Y

k

−Y )2

k

Donde Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i

Yij Valor medio de la variable dependiente de los casos incluidos en la categoría j de la variable explicativa i

Y Gran media

La medida de la relación entre una variable explicativa y la variable dependiente, manteniendo constante a las demás, se llama beta cuadrado ( β 2 ) . Su expresión matemática es:

β2 =

∑N

ij

(a ij ) 2

j

∑ (Y

k

−Y )2

k

Donde Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i aij es el coeficiente de la categoría j de la variable explicativa i Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, ….. n)

Y Gran media

210

Análisis Multivariante

La proporción de la varianza de la variable dependiente explicada por el modelo, Coeficiente de correlación múltiple al cuadrado (R2) viene dado por

∑∑∑ a Y ij

R = 2

i

j

∑ (Y

ijk

k

k

−Y )2

k

19.1 CONSIDERACIONES ACERCA DEL MODELO El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de la función estimada miden el efecto sobre la variable dependiente de todas y cada una de las categorías de las variables explicativas. El modelo también mide el efecto global de cada variable explicativa, tanto de forma individual como teniendo en cuéntale efecto simultáneo de todas las demás variables. Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de la variable dependiente. El ACM no detecta directamente las interacciones entre las variables explicativas por ser un modelo aditivo. El ACM guarda relación con el Análisis de detección automática de interacciones, también desarrollado por Sonquist y Morgan.

20. CASO PRÁCTICO

211

Analisis multivariable

Short Description

Description

Comments

We need your help!