Técnicas de análisis de datos en investigaclon de mercados (Teodoro Luque)
Short Description
Download Técnicas de análisis de datos en investigaclon de mercados (Teodoro Luque)...
Description
Coordinador
TEODORO LUQUE MARTíNEZ PROFESOR TITULAR DE COMERCIALlZACION E INVESTIGACION DE MERCADOS DE LA UNIVERSIDAD DE GRANADA
Técnicas de análisis de datos . . . en lnvestlgaclon de mercaaos /
••/
0,05. Skipping rotatwn 1 for extraction 1 m analyslS 1.
La matnz de correlacIOnes reproducidas (debaJo de la diagonal) para este caso cOincide con la Imclal y la comunalidad (en la diagonal y para todos los casos es uno); todas las vanables están perfectamente recogidas en el modelo, y por tanto no hay residuos (valores por encima de la diagonal). Esto no sería así con otros procedimientos de extraccIón de los ejes. TABLA 2.19
Matriz de coeficientes de puntuaciones factonales (Factor Score Coefficzent Matrix)
X, X2 X3 X.
70
Faclol' 1
Factor 2
0,26870 0.28061 0,27242 0,24848
-0,58950 -0,38242 -0,44619 1,55855
Faetor~,;
1,86908 -0.27670 -1,69807 0,15293
I
F~ct?;'. 1,56758 -4,09660 2,41821 0,28004
© EdiCIones Pirámide
AnálisIs factorial TABLA 2.20
Matriz de covarianzas para las puntuaciones factoriales estimadas por regresión (Covariance Matrix for Estimated Regression Factor Scores)
Factor 1 Factor 2 Factor 3 Factor 4',
Factor ,
Factor 2
1,00000 0,00000 0,00000 0,00000
1,00000 0,00000 0,00000
1,00000 0,00000
1,00000
4 pe EXAcr factor scores will be saved. Followmg factor scores will be added to the working file: Name
Label
FACI_2 FAC2_2 FAC3_2 FAC4_2
REGR factor REGR factor REGR factor REGR factor
score score score score
1 for 2 for 3 for 4 for
analysis analysis analysis analysis
1. 1. l. 1.
Las puntuaciones factonales sirven para la representación gráfica. Si se qUiere calcular la puntuación de un factor en una observación: sea el factor 1 en la observación i-ésima: (Factor 1), = 0,26870X¡ + 0,28061X2 + 0,27242X3 + 0,24848X4 Estas puntuaciones pueden ser estimadas por vanos procedimientos; en este caso se ha utilizado el de regresión, por lo que se proporcIOna la matnz de covananzas. Cuando se aplica el método las puntuaciones no están tipificadas m mcorrelaclOnadas; no es éste el caso ahora. En SPSS las puntuaciones para cada caso se graban en un fichero con el nombre y etiqueta (name, label) para cada columna como el especificado arriba. Por ejemplo, FACL2 REGR factor score 1 for analysis l. Así se puede proceder a la representación de los casos. En otros programas se dan directamente, como en STATISTICA, que facilita la sigUiente tabla de puntuacIOnes factonales para los diferentes casos: TABLA 2.21
Puntuaciones factoriales (factor scores) 1: l"actorJ
1 2 3 4 5 6
© Ediciones Pirámide
-1,17650 0,21733 1,41951 -1,04593 -0,08681 0,67240
Fa~t(}r2 '.'.
0,69316 1,20879 0,64754 -0,49907 -0,64581 -1,40460
•..
Fact~r
3 . I{F~ct~f"
-1,21295 0,55350 -0,18474 0,46142 1,39598 -1,01321
-0,61970 -0,39695 0,82435 1.59579 -1,05347 -0,35002
71
Técnicas de análisis de datos en Investigación de mercados
Los diversos métodos de obtención de estas puntuaciones factonales pueden presentar valores muy diferentes. En realidad esto es debido a problemas de escala, pero cuando se trasladan a un plano de dos factores las representaciones así obtenidas comciden.
Análisis factorial Si se hubiese optado por un análisIs factonal seleccionando tres factores se producIrían algunas varIantes a partIr de esta decIsión.
TABLA 2.22
Estadístictas imciales (Inttwl Statistics) lflJ,'!Sjrjanza acumulada (Cum Pet.)
X, X2 X3 X4
1,00000 1,00000 1,00000 1,00000
* *
* *
1 2 3 4
3,48555 0,32032 0,15440 0,03974
87,1 8,0 3,9 1,0
87,1 95,1 99,0 100,0
Se extraen tres factores por componentes pnncipales cuya matriz de cargas factoriales es:
TABLA 2.23
Factor Matrix Factor
0,93658 0,97810 0,94953 0,86608
-0,18883 -0,12249 -0,14292 0,49923
0,28858 -0,04272 -0,26217 0,02361
pe extracted 3 factors.
Hasta aquí todo comcide salvo que ahora tenemos tres factores.
72
© EdiclOnes Pirámide
Análisis factorial TABLA 2.24
Estadístlctas finales (Final StatistlcS)
X,
0,99612 0,97350 0,99077 0,99988
X2 X3
X4
* * * *
3,48555 0.32032 0,15440
1 2
3
87,1 8,0 3,9
87,1 95,1 99,0
Ya la comunalidad no es l y su valor para cada varIable comcide con la diagonal de la matnz sIgUIente. TABLA 2.25
Matrtz de correlactón reproductda (reproduced correlatton matrzx)
0,99612* 0,92687 0,84064 0,72370
-0,01014 0,97350* 0,95744 0,78494
0,00599 -0,01564 0,99077* 0,74482
0,00069 -0,00181 0,00107 0,99988*
The lower teft triangLe contams the relJroduced correlatwn malriX; the diagonal, reproduced communalities;· and the upper nght triangle residuals between the observed correlattons and the reproduced corre~ latrons. There are O rO,O%) residuals (above diagonal) with absolute vaLues > 0,05. Skipping rotatwn 1 for extractlOn 1 in analysls 1.
Esta matriz ya es diferente, tenemos estImacIOnes de la comunalidad (diagonal) que no llegan a l puesto que sólo tenemos tres factores. Por ejemplo, para la VarIable X,:
0,93658 2 + (-0,18883)2 + 0,28858 2 = 0,99612 Tampoco las correlacIOnes entre variables (valores por debajO de la diagonal) van a ser las mIsmas que las Ill1CIales; en realidad la diferencia entre las miClales y las reproducidas o residuos (valores por encima de la diagonal) nos da una medida de la bondad de ajuste de la solución factorial. En este caso los residuos son pequeños y podemos afirmar que el ajuste es bueno. Ahora la correlación reproducida entre las varIables Xl y X3 se calcula de la sIgUIente forma:
(0,93658 © Ediciones Pirámide
X
0,94953) + (-0,18883
X
-0,14292) + (0,28858
X
-0,26217) = 0,84064
73
Técnicas de análisis de datos en inuestigación de mercados
La matnz de coeficIentes de puntuacIOnes factonales cOIncide con la comentada antenormente y el procedimIento para estImar las puntuacIOnes factoriales también.
Rotación Si se rotan los factores se producen diferencIas en la matriz de cargas, en la representación y en las puntuaciones factonales. Todo lo cual tIene sus consecuenCIas en la Interpretación de los resultados, aunque ésta es una faceta que no tIene mucho Interés en este ejemplo. Lo que sIgue es la salida de STATISTICA para una rotación Varimax raw.
TABLA 2.26
Matriz de cargas factoriales
Ij;¡/;i,:.< • X, X, X3 X4
Expl. var. PIp. Iotales
Fastof
0,439360 0,674305 0,818523 0,336607 1,431009 0.357752
Factor 2
Factor '3
0,356830 0,421235 0.379546 0.887203 1,235952 0.308988
0,822043 0,584272 0,420393 0,315344 1.293302 0.323326
Se observa una gran diferencia en el porcentaje de vananza explicado por cada factor, aunque el total de vananza explicada entre los tres sea el mismo, es decir, el 99%. Esto da lugar a una representación gráfica muy diferente a la antenor.
TABLA 2.27
Comunalidades con rotación Vanmax raw
De: 111i
factor
0.193037 0,454688 0.669980 0.113304
74
-[ .'
De dos'
! Detrcs'
fa~~ox:~s',,' ! factores 0.320364 0,632127 0.814036 0,900434
0,996120 0.973501 0,990766 0,999876
Múltiple
k. cuadrado
0,843026 0,941465 0.888944 0,614291
© Ediciones Pirámide
Análisis factorial
1,0 r->-----je--;--t!-+-+-+--j---+---+--+-i¡-+-+-+--¡---+--+--+--t-+-+----+-l-~___+_____;~e____~_I___+__+__+__J -0,2 1,4 -0,6 0,2 0,6 -1,0 1,0 Factor 1
Figura 2.10.
6.
Representación de las CIUdades (rotación vanmax).
APLICACIONES Y LIMITACIONES DEL ANÁLISIS FACTORIAL De todas las variantes a las que nos hemos referido, y a modo de resumen, lo más utilizado es el análisis de componentes princIpales, para seleCCIOnar el número de factores el cnteno del valor propIO y la rotación más frecuente es la varimax. En general, y como ya se ha comentado, las grandes aplicacíones del análisis factonal se resumen en: Reduccíón de mfonnación. Identificación de estructuras subyacentes.
84
© Ediciones Pirámide
Análisís factonal Como paso mtermedio en la obtención de nuevas variables mcorrelaclOnadas para utilizar en posteriores análisIs. En el campo del marketmg y en sus diferentes ámbItos se manejan muchos conceptos (constructos) complejos y no directamente observables, por lo que el análisIs factorial se muestra como una herranuenta susceptible de aplicaclOnes diversas en: -
InvestIgaclOnes sobre productos y sus atributos determmantes.
-
InvestIgaciones sobre imagen corporatIva, de productos o de marca: identificación de los valores atribuidos a la marca o a la imagen.
-
Segmentación: identificación de grupos de consumidores y perfiles según actItudes, preferencias, etc. Identificar estilos de vida.
-
InvestIgación sobre comunicación: identificación de códigos de comumcación relevantes. Estudios sobre precios.
-
Denominar e interpretar dimenslOnes de una medida. Construcción de escalas: para identificar o seleccionar ítems, desarrollar medidas de satIsfacción de distribuidores o representantes.
Algunos ejemplos de aplicacIOnes concretas son los sigUIentes: -
Test de producto y elaboración de cuestlOnanos (Abascal y Grande, 1989).
-
Imagen de los consumidores (Abascal y Grande, 1989).
-
Estudio de imagen y posicionamiento de entidades financIeras (Alonso Rivas y Cruz Roche, 1991).
-
Imagen de la empresa detallista y su percepción por los consumidores (Vázquez Caslelles, 1989).
-
Clasificación tipológica de los mumclplOs de Cataluña con base en una serie de vanables socioeconómicas (BautIsta y EstIvill, 1983 8).
-
CaracterístIcas estructurales del comercio español (Pedret, 1986).
-
PrincIpales atributos de la oferta política sobre los que se decide la votación.
A pesar de que se han Ido antIcIpando las limItaclOnes, habría que subrayar como advertenCIas las sIgUIentes: -
8
© EdiclOnes Pirámide
Cuidado con la utilización de varIables con escalas muy diferentes, puesto que las de mayor varIanza tendrán un peso supenor. Las vanab1es han de ser comparables o susceptibles de ser analizadas conJuntamente. Véase Ballsta (1984, 26 Y ss.).
85
Técnicas de análisis de datos en investigación de mercados
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • • •
AnálisIs factonal y análisis en componentes pnnclpales. Factores latentes. Test de esfencidad de Bartlett. CoefiCiente de correlación parcial. Índice KMO. Índice MSA. Valor propIO. Comunalidad. Métodos de análisIs factonal. Gráfico de segmentación. Test de Kaiser. Cargas factoriales. Matnz de covananzas y de correlaCiOnes antiimagen. Matnz de correlaCIOnes reproducidas. RotacIOnes ortogonales y oblicuas.
BIBLIOGRAFíA Aaker, D. A., Y Day, G. S. (1989): Investigación de mercados, McGraw-HiII, México. Abascal, E.. y Grande, 1. (1989): Métodos multivarzantes para la investigación comercial, AneJ, Barcelona. Alonso Rivas, J., y Cruz Roche, 1. (1991): «Esludio de la Imagen y posICIOnamiento de mstltuclOnes finanCieras competidoras en un territono detenmnado», III Encuentro de Profesores Umversitanos de Marketing, Salamanca, septiembre, pp. 608-620. Batista Foguet, J. M.. Y Martínez Anas, M.' del R. (1989): AnáliSIS Multivariable. AnáliSIS en componentes prmcipates, Hispano Europea, Colección ESADE, Barcelona. Batista Foguet, J. M. (1984): «Componentes pnncipales y análiSIS factonal (exploratorío y confirmatono»>, en J. J. Sánchez Carríón, Introducción a las técnicas de análiSIS multivarzable aplicadas a las ciencias SOCiales, Centro de Investigaciones Sociológicas, Madríd. Cuadras, C. M. (1991): Métodos de análiSIS multlvarzante, PPU, Barcelona. Churchill, G. A. (1979): Marketing Research. Methodotoglcat Foundatlons, The Dryden Press, Hinsdale (IL). Dillon, W. R.; Madden, T. J., Y Firtle, N. H. (1987): Marketing Research m a Marketmg Envzronment, Irwm, Homewood (IL). Evrard, Y.. Pras, B., y Roux, E. (1993): Market. Études et recherches en marketing, ÉditlOns Nathan. Harmau, H. H. (1967): Modem factor analYSlS. Umversity of Chicago Press, Chicago (IL).
86
© Ediciones Pirámide
Análisis factorial Halr, J. F.; Anderson, R. E., Tatham, R. L., YBlack, W. C. (1995): Multlvanate Data AnalySIS wlth Redings, Prenhce-Hall IntematlOnal, Englewood Cliffs, NJ. Kinnear, T. c., y Taylor, J. R. (1989): Investigación de mercados. Un enfoque aplicado, McGraw-Hill, Bogotá (Colombia). Lawley, D. N., YMaxwell, A. E. (1971): Factor analysls as statlstlcal method, Amencan EIseVler, Nueva York. Luque Martínez, T., y Cordón Pozo, E. (1994): «Una aplicación del análisIs mulhvarlable a las caracterísllcas socioeconómlcas y comerciales de las capitales de provmcla españolas». ReVIsta Europea de Dirección y Economía de la Empresa, vol. 3, núm. 1, pp. 101-112. Malhotra, N. K. (1993): Marketing Research. An Applied OnentatlOn, Prentice-Hall, Englewood Cliffs (NJ). Norusis, M. J. (1986): Advanced Statlstlc SPSS/PC+, SPSS Inc., Chicago (IL). Ortega, E., et al. (1990): Manual de investigación comercial, Pirámide, Madrid. Sánchez Carrión, J. J., et al. (1984): Introducción a las técmcas de análisis multivariable aplicadas a las cIencias socIales, Centro de InvestigacIOnes SocIOlógicas, Madrid. Santesmases Mestre, M. (1997): DYANE. Diseño y análiSIS de encuestas en investIgación soCIal y de mercados, Pirámide, Madrid. Sanz de la Tajada, L. A. (1990): «El análiSIS mulhvanable». en E. Ortega et al., Manual de investigación comercial, Pirámide, Madrid. Sheth, J. N. (1971): «The Mulllvarlate RevolutlOn in Marketmg Research», Joumal of Marketing, vol. 34, núm. 1, enero, pp. 13-19. Statlstlca for Windows (1995). StatSoft. Stevens, J. (1986): Applied multivariate statlstlcs for the socIal SClences, Hillsdale NJ., Er!baumn. Uriel, E. (1995): AnáliSIS de datos. Senes temporales y análiSIS multivanante, AC, Madrid. Vidosa, J. (1990): «AnálisIs factona!», en E. Ortega et al., Manual de investigación comercial, Pirámide, Madrid.
© EdicIOnes Pirámide
87
Miguel Ángel Rodríguez Melina
1.
INTRODUCCiÓN El análisis de correspondencIas (AC), o también análisIs factorial de correspondencias, es una técllÍca multIvariante que fue desarrollada en la década de los sesenta por J. P. Benzécn y sus colaboradores. El ongen francés de esta técnica explica en parte por qué no se encontraba presente en la mayoría de los paquetes estadístIcos anglosajones. Sin embargo, poco a poco, el análisIs de correspondencIas ha ido extendiéndose en su aplicación y en estos momentos constituye un poderoso InStrumento en los casos en que el investigador tIene que trabajar con datos cualitatIvos. Es una técmca de Interdependencia que no se limita simplemente a describIr un conjunto de datos, SInO que va más allá, trata de descubrir sus dimenSIOnes estructurales, estudiando las sllnilitudes no entre las magnitudes absolutas, sino entre las formas. Además de reducIr las dimenSIOnes, conduce a la obtención de mapas perceptuales; por esto, puede ser clasificada como una técnica de composIción, porque proporcIOna un mapa perceptual basado en la asociación entre objetos y un conJunto de característIcas descnptIvas o atributos (Haír et al., 1995). Lagarde define el análiSIS de correspondencIas como «••• un modo de representación gráfica de las tablas de contIngencIa o, SI se prefiere, de las tablas cruzadas y múltiples. Dicho análisis trata de evidenCIar en uno o en vanos gráficos (generalmente menos de cuatro y habitualmente en uno sólo) la mayor cantidad posible de información contenida en una tabla, fijándose no en los valores absolutos, SInO en las correspondencIas entre las característIcas, es decir, en los vaJores relatIvos»' Como se desprende de estas defimclOnes, las prinCIpales característIcas del análisis de correspondencIas se resumen en: 1.
Está Incluida dentro de los métodos de InterdependencIa. Es deCIr, no eXISte distInción entre variables dependientes e independientes.
Véase Conde (1992). © EdicIOnes Pirámide
89
Técnicas de análisIs de datos en investigación de mercados
2. 3. 4.
Su objetIvo es establecer relaciones entre vanables categóricas dispuestas en una tabla de contingencIa. Trabaja con variables categóricas, es decir, no con mediciones cuantitatIvas SinO con frecuencias. Las relacíones entre las variables se analizan mediante mapas perceptuales muy intUItIvos, que perilllten no sólo reducir el número de variables que interVIenen en el análisIs, SinO estudiar las fonnas que adoptan las relaCIOnes entre las variables.
El análisis de correspondenCIas cOincide con el MDS (multidimensional scaling) en que utiliza datos cualitatIvos, y con el anáJisis factorial en su objetIvo de redUCIr el número de dimensíones para facilitar y sImplificar la interpretacIón de un fenómeno. Sin embargo, a pesar de esta estrecha relaCIón en el objetIvo perseguido, eXIste una diferenCIa fundamental: el análisIs factorial utiliza datos básicamente métricos, mIentras que el análisIs de correspondencias utiliza datos no métricos. Tanto el análisis de correspondenCIas como el MDS pueden representar, en un espacío de menor dimensión que el originalmente dado, un conjunto de datos no métricos, pero la métrIca utilizada es diferente. Mientras que en AC los datos de entrada están medidos en escalas nominales, en MDS vIenen medidos en escalas ordinales o cuantItatIvas. El hecho de que el análisIs de correspondencIas trabaje con datos cualitatIvos le confiere dos característIcas diferenCIales. Por un lado, trabaja con frecuencIas que son el producto del cruce de dos vanables o más. Por otro, cuando se cruzan dos variables, el análisis de correspondencIas utiliza como individuos y variables las distIntas modalidades. Éste es el análisis de correspondencias simple (ACS). Cuando el número de modalidades pertenece a más de dos varIables, el método puede generalizarse. Éste es el análisis de correspondencias múltiple (ACM). Con anteríoridad, el anáJisis de tablas de contingencIa se limItaba a comprobar SI existía asociación entre las varIables estudiadas con el fin de formular algún modelo causal o sImplemente para tratar de observar si eXIstía algún tipo de interrelación, a partir de diferentes tests como la ji-cuadrado (X 2 ). Pero esto no aclara nada sobre qué categorías son las que provocan esta relación y cuáles son aquellas que contribuyen poco a dicha asociacIón, El análisis de correspondencIas pennIte extraer conclusiones de este tIpo, es decIr, define similitudes y disImilitudes entre modalidades de una varIable permItIendo observar cuáles son las categorías que se encuentran relacíonadas. Además, permIte la representación en gráficos fáciles de lllterpretar que vIsualizan las relaCíones obtemdas. Por otra parte, este análisIs puede constItUIr un paso intennedio para la aplicación de otras técnicas como el análisis cluster, el análisis de regresIón o el análisis discriminante. Así, posibilita la aplicacIón a un cOllJunto de datos cualitativos obteniéndose coordenadas métricas en el espacIO que definen los factores. En fin, es un método multIvanante ellllnentemente descriptivo, una herrallllenta
90
© Ediciones Pirámide
Análisis de correspondenciaS simple y múltiple muy útil para el lllvestIgador, sobre todo en estudios de carácter exploratono donde no eXIsten hIpóteSIS definidas preVIamente.
2.
BREVE RESEÑA HISTÓRICA Los orígenes del análiSIS de correspondenCIas se remontan casi 65 años graCIas al trabajO publicado por Hartley (1935), donde se exponía la fórmula que calculaba la correlación entre filas y columnas de una tabla de contlllgencIa. En la década de los trelllta existen también otros trabajos que sugerían ideas SImilares a las de Hartley en el campo de la pSIcometría. En este sentido son de destacar los trabajos de Richardson y Kuder (1933) y Horst (1935). Más tarde, Fisher (1940) desarrolló la mIsma teoría a partIr del análiSIS discnmlllante, utilizando un ejemplo basado en el color del pelo y de los ojos que es cláSICO en los manuales de análiSIS de correspondenCIas. Al mIsmo tIempo, Guttman (1941) trató el caso general de más de dos variables InIciando los pnmeros pasos de 10 que hoy se conoce con el nombre de análiSIS de correspondencIas múltIples. La década de los cincuenta supuso un fuerte Impulso para el desarrollo matemátIco del análiSIS de correspondencias. Además de los trabajOS de Guttman y sus seguidores en el campo de la pSlcometría, aparecen los trabajOS de Hayashi (1950, 1952, 1954, 1968). El desarrollo de los ordenadores supuso también un fuerte empujón para el conocImIento de la téCnIca, ya que todos los procedimIentos matemátIcos desarrolladOS hasta el momento tuvIeron una aplicación lllmediata. Sin embargo, el AC no era tan cOJlocido fuera del campo de la pSIcometría. Fue a partIr del trabajO de Hill(1974) cuando la popularidad de esta téCnIca aumentó. Hill la catalogó como una técnIca multivarJante descuidada. El desarrollo geométrico del análiSIS de correspondencIas tuvo lugar durante la década de los setenta con los trabajos de Benzécn y sus colaboradores. Las aportacIOnes teóncas de Benzécri 2 facilitaron su conocImIento generalizado. Entre tales aportacIOnes destacan: 1.
2. 3.
Su planteamiento lllductIvo, desde lo particular a lo general. Esto permite formular uno de los pnnciplOs de Benzécn: «El modelo se ajusta a los datos, no viceversa». Uso de la geometría para lllterpretar mediante gráficos sencillos la información. RazonamIento matemático nguroso y exhaustIvo en la expresión de las funcIOnes y características de los operadores y operandos.
2 Junto al trabajo de Benzécn. son destacables las obras de Lebar!. Morineau y Tabard (1977) y Lebar!, Morineau y Warwlck (1984), entre otras. Para más detalle sobre la histona del AC véase Mallows and Tukey (1982), Gifi (1981) Y Greenacre (1984).
© EdiclOnes Pirámide
91
Técnicas de análisis de datos en investigación de mercados
3.
ANÁLISIS DE CORRESPONDENCIAS SIMPLE (ACS) 3.1.
Consideraciones generales
El análisIs de correspondencIas sImple parte de una tabla de contmgencIa que contiene dos varIables. con sus diversas modalidades, y cada casilla recoge la frecuenCIa en que se presentan. A partIr de aquí trata de hacer algo parecido al análiSIS de componentes principales, considerando a las filas como los mdividuos y a las columnas como las variables. Aunque SI se cambIan las filas por las columnas en la tabla de contmgencIa la mformación permanece malterada. Igual que el análisIs de componentes princIpales, el ACS trata de explicar la dispersión de la,matriz de varianzas-covarianzas (aunque en este caso se denomina matriz de mercia) a través de un número menor de varIables (factores), pero este análiSIS debe realizarse tanto para las filas como para las columnas. Por tanto, y es una partIcularidad de la técmca, se tienen que llevar a cabo dos análisIs de componentes principales, uno para eL espacIO que definen las filas y otro para el espacio que definen las columnas. En muchos estudios es frecuente que el investIgador precIse utilizar sImultáneamente variables medidas tanto en escalas no métrIcas como métricas. En tal caso. resulta mteresante transformar las variables métricas en otras que no lo sean. De este modo, todas las variables estarían medidas en la mIsma escala (no métrica) y sería posible operar con ellas conjuntamente aplicando ACS o ACM. Un dilema a resolver es establecer el número de clases elegidas y los mtervalos de VarIación de cada clase. El número de clases a defimr siempre resulta polémico. ya que SI es muy reducido hace que se pIerda mucha mformación; además, se agruparían en una ll11sma clase mdividuos posiblemente muy heterogéneos, por lo que las conclusiones serán muy generales. Por el contrarIo, un número de clases muy amplio no está exento de problemas. ya que complica la mterpretación. Tampoco para definir los mtervalos hay reglas fijas a segUIr. Una regla práctica de gran aceptación conSIste en defimr clases que contengan parecido número de efectIvos más que clases con igual intervalo de varIación.
3.2.
Formulación del ACS
Sea una tabla de contingencia (tabla 3.1) donde están representadas las varIables 1, con n categorías, y J, con p, donde la mtersección de una fila y una columna es la frecuencIa con que se presenta la modalidad i de la varIable 1 y la modalidad J de la variable 1. A esta matriZ de frecuencIas la denoll11naremos matriZ K.
92
© Ediciones Pirámide
Análisis de correspondenczas simple y múltiple TABLA 3.1 Matriz de frecuencias absolutas (K)
k ,.
Total col.
k,.J
k
donde
k·1. = ~ k .. ~ IJ J
k..} =
~ L..J
k1)
Es evidente que los valores absolutos no perrmten comparar a dos filas o a dos columnas. Por tanto, nos mteresa expresar la matrrz K en térrmnos relatIvos, dividiendo cada una de las frecuencIas absolutas entre el total de las filas o de las columnas (k). Obtenemos así la matriz de frecuencIas relatIvas (F) (tabla 3.2). TABLA 3.2 Matriz de frecuencias relativas (F) Total fIla
Total col.
© Ediciones Pirámide
12
l
93
Técn¡cas de análisis de datos en investigación de mercados
donde k fu =
¡
k.
~
f,=t=,L,fu ,
If, = ~J = LJL ~ ~ f,. = 1 1.
~.) J
1]
,
J
La suma de las frecuencIas relativas para cada fila nos permIte obtener la frecuencia margInal de cada fila f,,, mientras que la suma para cada columna permIte obtener la frecuencia marginal de cada columna Jr Por otra parte, la ley condicIOnal de una columna j será la forma en que se distribuye su margInal Jj entre las diferentes filas, es decIr, un vector columna que contIene los coefiCIentes f,/f)' Éstas representan cómo se distribuyen las proporciones en que se presentan las característIcas definidas por las filas dada la característica definida por la columna J. A este vector se le denomina «perfil de la columna». Un razonamIento smular podría hacerse para el caso de las filas,
3.2.1.
Distancias entre filas y columnas
El carácter cualitatIvo de las varIables obliga a usar una distancIa distInta a la euclídea. En nuestro caso, para medir la distancIa entre dos filas o entre dos columnas se recurre a la denomInada distancIa Xl. En realidad es una distanCIa euclídea ponderada por la masa de las columnas en caso de que estemos midiendo la distanCIa entre dos filas o ponderada por la masa de las filas en caso de que estemos mIdiendo la distanCIa entre dos colunmas. Se demuestra que con esa ponderación al sumar filas o columnas proporCIOnales, o con perfil SImilar, la distanCIa queda inalterada (pnnciplO de eqUIvalenCIa distribuclOnal). La expresión de la distanCIa entre dos filas , e i' es Igual a: (1)
Paralelamente, la distancia entre dos columnas j y j' se obtiene aplicando la SIguiente expresión: (2)
94
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple
Las distancias no se miden entre dos filas o entre dos columnas, smo que vIenen expresadas con respecto al centro de gravedad definido en cada fila o en cada columna. El centro de gravedad de una fila vIene dado por la masa de la columna if.), mIentras que para una columna es la masa de una fila (J;). Así, el centro de gravedad para una columna podemos defirnr!o como el promedio de las coordenadas de esa columna ponderadas por su masa. Es un vector formado por puntos del tipo:
(3)
La distanCIa de cada columna y de cada fila al centro de gravedad se expresa como sigue:
y
3.2.2.
Inercia de las filas y las columnas
Hasta ahora sabemos medir la distancia de una fila o una columna al centro de gravedad. esto es, a su «media». Sin embargo, esto no es más que parte del cálculo de una vananza o una covananza. Así. en el caso de la varianza, cada diferencIa entre un punto y su media está elevada al cuadrado y está ponderada de la mIsma forma (IIn). En el cálculo de la covananza cada diferencIa entre un punto y el centro de gravedad está ponderada por lln. No obstante, en este último caso la diferencIa entre cada punto y el centro de gravedad no está elevada al cuadrado. Ahora bien, en el ACS las filas o las columnas no reciben la rmsma ponderación. Benzécn aSIgna unas ponderacIOnes que son Iguales a las masas de cada fila o de cada columna. En defirntiva, la dispersión o merCIa de las columnas es la suma de las diferencias de cada punto respecto del centro de gravedad ponderadas por la masa de cada fila. Esto se expresa de la sIgUIente forma:
I=" f.d 2 (,G)=" fI~(fij _t)2 =I(fij-t.Xf¡? '"-'.} J e '"-'.} "f" "xf.J J Ji. . .J Ji. j '
© EdiCIOnes Pirámide
(6)
i,j
95
Técnicas de análisIs de datos en investigación de mercados Análogamente, la dispersIón o merCla de cada fila es la suma de las diferencIas de cada punto respecto de este centro de gravedad ponderadas por la masa de cada columna. Esto es:
1 = L. f,d2(i,G ) = ."
f
L1, ~ -.l. (fij _ f .)2 = L. (fij - ¡; x ¡y ."'¿'" J
f _/
+. Ji.
.J
, • >./
+. x f .J Ji.
(7)
Por tanto, la suma de la merCIa de las filas es Igual a la suma de la merda de las columnas. La matríz de dispersión o matríz de mercla tanto para las columnas como para las filas se expresa como sIgue: para el espacIO que definen los puntos i en RP para el espacIO que definen los puntos) en R"
(8) (9)
donde X es la matnz cuyo ténmno general es:
(10)
Las matnces antenores sQn simétrícas. Al diagonalizar una matrIz sImétrIca, la suma de los autovalores es la traza de la matrIz (V). Recordemos que la traza de la matrIz V viene dada por las varIanzas de las columnas o de las filas, y que la suma de ellas es la mercla o dispersión que tratamos de explicar a través del nuevo espaCIO. En conclusión, los autovalores indican qué parte de esa dispersión vIene explicada por cada dimenSIón (factor) en el nuevo espado. Éste será el próxImo paso. No obstante, antes de esto veamos la reladón que existe entre el estadístIco X2 y la merCIa. De las expresIOnes 6 y 7 se deduce que la mercla de una tabla es Igual al estadístico X2 dividido entre el número de mdividuos encuestados (k). Además, el cocIente entre la contribudón de cada casilla al estadístIco X2 y el número de mdividuos encuestados (k) es Igual a cada uno de los sumandos en el cálculo de la merCIa.
3,2.3.
Diagonalización de las matrices Ve y VF
Obtenidas las matnces de merda para las columnas y para las fIlas, el sIguiente . paso es calcular sus valores y vectores propIOS. Para el espacIO de p dimenSIOnes que definen los puntos fila, es necesarIO diagonalizar la matrIz V p obteniendo sus valores y vectores propIOS que penmtuán calcu-
96
© Ediciones Pirámide
Análisis de correspondencias simple y múltiple
lar las coordenadas de los puntos 1 en RP Estas coordenadas tendrán la sIgUIente expresión:
(11)
donde uc'
l·
.. '
0,76359 0,66675 0,59792 0,90155 0,32747 0,83951 0,20699 0,43517 0,35175 0,60862 0,58306 0,91029 0,63214 0,84706 0,73792 0,10564 0,94424 0,94969 0,78322 0,81473 0,66983 0,32082 0,44708 0,79330 0,95522
-'I~erc~~
....
relativa
,i
0,07608 0.02188 0.01000 0,07495 0,01694 0,04568 0,02472 0,05686 0,02055 0,03619 0,04266 0,03214 0,01448 0,03027 0,04105 0,01202 0,13097 0,05035 0,04472 0,03710 0,01958 0,02719 0,01836 0,03044 0,08483
0.11118 0,01067 0,01178 0,12970 0,00068 0,07027 0,00924 0,04730 0,01384 0,02618 0.03893 0,04064 0,01708 0,03062 0,03621 0.00007 0,00179 0,08945 0,01101 0,05837 0,01526 0,01718 0,01562 0,04071 0,15621
.' 0,74004 0.24687 0,59664 0,87630 0,02036 0,77894 0,18926 0,42124 0,34110 0,36632 0,46218 0,64022 0,59750 0,51221 0,44669 0,00274 0,00693 0,89968 0,12465 0,79670 0,39481 0,31999 0,43073 0,67728 0,93245
CTR2 ••••••
0,00761 0,03905 0,00005 0,00804 0,02211 0,01176 0,00186 0,00337 0,00093 0,03727 0.02191 0.03689 0,00213 0,04307 0,05081 0,00526 0,52169 0,01070 0,12517 0,00284 0,02288 0,00010 0,00128 0,01501 0,00821
0,02355 0,41988 0,00128 0,02524 0,30712 0,06058 0,01773 0,01394 0,01065 0,24230 0,12088 0,27007 0,03464 0,33484 0,29123 0,10290 0,93731 0,05001 0,65857 0,01802 0,27501 0,00083 0,01635 0,11602 0,02276
© EdiCIOnes Pirámide
Análisis de correspondencias sImple y múltiple TABLA 3.21 (continuación) ColulllIllls (l)Ia~c""r ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA
..
.1
! 0.11398 0,09231 0,03445 0,20000 0,04962 0,37616 0,04984 0,03554 0,04810
Calidad
",. , ..
0,32753 0,47248 0,66063 0,75802 0,96083 0,96444 0,36384 0,73194 0,38482
0.06739 0,11581 0,02842 0.17014 0,20017 0,23138 0,04383 0,08857 0,05428
.. .i¡~i~~; ¡,erA
....,........... (~
0,04141 0,05256 0,03445 0,22848 0,07227 0,43566 0,02349 0.10760 0,00408
0,31116 0,22981 0,61379 0,68004 0.18282 0,95344 0,27141 0,61517 0,03809
2
0,00469 0,11944 0,00566 0,05638 0,66185 0,01082 0,01722 0,04396 0,07999
CTR2 ..
0,01637 0,24268 0,04684 0,07798 0,77800 0,01100 0,09243 0.11678 0,34672
TABLA 3.22 Coordenadas de las filas y las columnas en los dos przmeros ejes
Marca cara Producto maSIVO Poca vanedad Se anunCIa en televisión Acabado perfecto Marca no conocida Ahorra tiempo Dura tIempo Innovadora ExclusIva Fácil de encontrar IIIlltación Marca económIca Anticuada Artesanal De moda LUjosa Buen diseño Buen rendimiento Barata Para clase alta Buen servicio ProporCIOna orgullo Ofrece regalos Marca de calidad
© Ediciones Pirámide
Coordenadas factor 1
Co9"'d~nádasfact~.. 2
0,538955 -0.151412 -0,157826 0,515630 0,038992 -0,381486 -0.150068 -0,311373 -0,161921 0,222707 0,292414 -0,287144 0.194775 -0,260755 -0,286784 0,011410 0,066292 0,437266 0.162332 -0,368314 -0.179191 -0.191122 0.177565 -0,309395 0,574782
0,096140 0,197464 0,007310 0,087511 0,151456 -0,106384 -0,045932 0,056634 -0,028612 -0.181127 0,149544 0,186496 -0,046898 0,210828 -0,231564 0,069863 -0,771020 0.103090 -0,373121 -0,055396 0,149553 0,009730 0,034599 0.128057 0,089805
¡
125
I
Técnicas de análisis de datos en investigación de mercados TABLA 3.22 (continuación)
ECUA JACKOA MARLBO EMPRES ABSOR IMATI NECESI
COLOCA NOVOCLA
-0,I77387 -0.222070 -0,294303 -0,314558 -0,355170 0,316720 -0,202060 0,512107 0,085743
0,040688 0,228202 0,081296 0,106520 -0,732679 0,034024 -0,117918 -0,223124 -0,258690
explica con dos factores, es un concepto análogo al de comunalidad. Igualmente expresa la parte en que cada punto contribuye a la formación de la Inercia de la tabla (inercIa relatIva). Si analizamos los puntos que mayor contribución tIenen en la formación del PrImer eje debemos resaltar: marca de calidad, se anunClG en teleVIsión, marca cara, buen diseño, marca no conocida y barata. Estos puntos están bien representados (alta contribución relativa) y explican más del 61 % de la información que contIene el prImer factor. Si observamos las coordenadas de los puntos en el primer factor comprobamos cómo marca de calidad, se anuncia en teleVIsión, marca cara y buen diseño se oponen a marca no conocida y barata. El primer factor diferenCIa entre marcas percibidas como muy diferentes. Por un lado, las que se asocian como de calidad, buen diseño y una considerable publicidad en televisión y, por otro, las que se perciben como baratas y no conocidas. Para Interpretar el segundo factor segUImos el Ullsmo procedimiento. Los puntos que más contribuyen a la formacIón de este factor son: lUjosa y buen rendimiento. Con sólo estos dos puntos se explica más del 64% de la InerCIa del segundo factor; ya el primer punto (lUJosa) contribuye de forma muy Importante con cerca del 53%. Esto hace sospechar de la presencIa de un punto aberrante u outliers. Los puntos aberrantes hacen que la Interpretación de los ejes sea difícil ya que agrupa al resto de los puntos, además con riesgo de provocar Inestabilidad en el segundo factor. Por esta razón el sIgUIente paso será Investigar la estabilidad Interna de los factores con la configuración actua1 9 La tabla 3.23 recoge la transformación que sufren los factores cuando se elimIna algún punto. El prImer eje puede considerarse estable ya que la elimInación de cualqUIera de los puntos no hace que rote más de 45 0 En el caso del segundo factor los puntos lUjosa y la marca ABSOR provocan rotacIOnes considerables aunque no llegan a ser superiores a 45 0 Para el caso del plano el punto lUjosa es el que ma9
A este respecto véase el anexo al final de capítulo donde se presenta mayor detalle sobre la ope-
ratorta.
126
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple yor inestabilidad provoca. Así pues, consideramos a este último punto como suplementario, ya que hace inestable al segundo factor y provoca también un alto grado de mestabilidad en el plano (véase figura 3.7).
TABLA 3.23
Estabilidad interna de los dos primeros ejes y el plano 1-2
Marca cara Producto masIvo Poca variedad Se anuncia en TV Acabado perfecto Marca no conocida Ahorra tiempo Dura tiempo Innovadora ExclUSIVa Fácil de encontrar Imitación Anticuada Artesanal De moda LUjosa Buen diseño Buen rendinuento Barata Para clase alta Buen servicIO ProporcIOna orgullo Ofrece regalos Marca de calidad
0,2903 0,0841 0,0384 0'.2887 0,0650 0,1759 0,0946 0,2190 0,0794 0,1399 0,1638 0,1239 0,0556 0,1162 0,1574 0,0463 0,5008 0,1936 0,1712 0,1422 0,0753 0,1046 0,0708 0,1166 0,3263
8,2408 1,9899 1,0883 6,8253 0,4950 4,5965 2,0012 5,9040 2,1005 3,7022 4,5828 3,5106 1,5772 3,3223 4,3764 0,1328 1,5917 3,9172 2,8613 3,5617 2,0728 2,6851 1,9852 3,2436 6,4269
0,1715 0,1440 0,0352 0,0812 0,1447 0,0884 0,1742 0,2881 0,1189 0,2015 0,2002 0,1013 0,0508 0,1288 0,1980 0,1050 1,1303 0,0441 0,3405 0,0657 0,1036 0,1616 0,0916 0,0855 0,0501
1,2798 3,9538 0,0697 0,6770 3,6036 1,1200 1,1272 1,5100 0,6265 4,4450 3,2330 2,4554 0,5085 3,3258 4,7171 1,6856 -41,9060 0,5300 9,9514 0,4708 2,5255 0,2295 0,6111 1,4710 0,4085
0,6597 0,1912 0,0874 0,6561 0,1477 0,3997 0,2149 0,4977 0,1805 0,3180 0,3723 0.2815 0,1263 0,2641 0,3578 0,1053 1,1381 0,4399 0,3890 0,3231 0,1712 0,2376 0,1608 0,2649 0,7416
20,3387 5,4475 2,4912 19,7832 3,7577 10,9675 4,3956 12,4359 4,6464 9,2189 10,6856 5,9075 3,5914 6,5513 10,3854 1,7105 -40,9310 8,8255 11,1764 8,7457 4,8497 5,7765 4,4683 7,1275 21,6791
ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA
0,2806 0,4707 0,1086 0,7845 0,7770 1,3682 0,1702 0,3388 0,2104
6,6094 8,7611 3,0941 22,7844 10,9583 -31,0783 3,9967 9,8378 1,9288
0,4392 0,8238 0,0953 0,5705 1,4429 0,1448 0,2818 0,2963 0,4599
2,2366 13,1915 1,0616 5,8339 -42,0812 0,7578 3,7805 4,4079 10,4943
0,6376 1,0696 0,2468 1,7829 1,7658 3,1095 0,3867 0,7699 0,4781
13,0657 32,5751 7,1216 -38,5195 -22,2629 -14,9736 9,3032 23,3474 11,3682
Marca econÓlllica
© EdiCIOnes Pirámide
127
Técnicas de análisis de datos en investigación de mercados
';;'
0,4 ~-~,-~,~-~,--~,--r,-~,--T,--r,-~,--T,--',-~
.s
0,3
"§
~
"
0,2
'$.
0,1
~ I"f"l~
0,0
t!.-
-0,1
t
!
I
I
,
I
,
I
I
------t-~~~~~c~t1~~~~~i------i-------i------t------i-------r------t------i------------i-~c1aSeaftr--i------T-:~--T------i---faCi~C6ñ--~i;~fi~-¡~~1~------
------T-~~~~rli----_d~-T--propQrpig-1MATf--¡-+----i+-.¡;+-- ¡------------~arams_~-----~~~------J-------L~on--J-~-----l------L -----J------nbcono:: +: : : + : : : :
-- --- -~- ---- -..:- __ ..NE5ES.L -~- ---- -..:- --- - - -\...-- ---- ~ - -- ---..:- - ---- -:...---- --~- --- - -...:------.l.: I : : : exo~uslVOS: : : : -f-----a.rt¡e&allaL~t -~--- CD~CA_+ _
-----f----- -WV0¡f:K---f- ----+----o~ -0,3 ------r------:- ------:------r----- --r ------b~~~;~d -------r- -----r------r----- --r-----.9 -0,4 ------f------+-----+------f------+-----+---7--f------+ ------t------f------+-----l,f)
90 -0,2 ----'"
e}./: Co6rderiadas
Buen diseño Buen rendimiento Barata Para clase alta Buen servicIO ProporcIOna orgullo Ofrece regalos Marca de calidad ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA LUjosa
0,44368 0,14292 -0,37274 -0,16656 -0,18702 0,17966 -0.30077 0,58042 -0,17527 -0,21246 -0,28729 -0.30610 -0,44645 0,32279 -0,21739 0,52576 0,07776 0,01463
So()riferi~~'!St~dºr2
,1;1
I
-0,04046 0.26986 0,13291 -0,07981 0,10157 0,04643 -0,18393 -0,01931 0,03048 -0,37603 -0,06975 0,05095 0,44769 -0,00289 -0,06661 0,22563 0,00945 0,50732
Si representamos las coordenadas de las columnas en un mapa aSlmétnco (véase figura 3.8) se observa que son competidoras, por un lado, las marcas MARLBO y EMPRES lO y, por otro, lo son entre ellas IMATI y COLOCA. La marcas JACKDA y ABSOR son percibidas como muy diferentes y opuestas, estando muy aleJada la una de la otra. Del posIcIOnamiento de la figura 3.8 se desprende cómo son percibidas las marcas por los consumidores, mostrando qué es lo primero que viene a la mente del consumidor en relación a tales marcas. Los comentanos realizados se completan analizando el mapa Simétrico conjunto de filas y columnas. Para ello utilizamos la mterpretación angular. Los resultados de este análiSIS se muestran en el figura 3.9, donde sólo se han recogido los atributos que tlenen altas contribuciones absolutas y que están bien representados. ASimismo, se muestra, como ilustración, los ángulos que fonuan las marcas IMATI y COLOCA con el atributo marca cara. De la parte derecha de la figura 3.9 se desprende que las marcas IMATI y COLOCA se encuentran asociadas a los atributos marca cara, se anuncia en teleVisión, buen diseño y marca de calidad. Esto mdica que estas marcas son percibidas como diferentes debido a su calidad y a un precio alto. A veces, 10 PrÓXimas a ellas están ECUA y NECESI, pero S]l defiCiente calidad de representación desaconseJa extraer conclusiones. © EdicIones Pirámide
131
Técnicas de análisis de datos en investigación de mercados
0,6 I
0,5
I
I
I
,
I
I
I
I
: I
,
r----A:BgO-e------+------}------:------+-----~------+------~ ------:------+-----f-----I .l} I I I , I 1 , I I I
0,4
_____ -'
: +: .J
J.
:
L
:
:
I I I ,
, I I I
, I I ,
I I I ,
I , , ,
0,3
------:------~------t------~------¡------:------1------¡ ------¡------¡--CUt-OC"A.t------
0,2
-----..:
I
,
,
:
:
, , ,
, I ,
,
------..,------~------
I , I
: ..-
L
,
:. . r
.J
:
..I
:
J.
:
: L
:
I I I ,
I I I I
, , , ,
I I , I
I I I I
1
:
I
,
L
,
:
:
:
I I I
, , ,
I , 1
------l------..,------+------~------
, I I I I l i t
.J
:
.I.
I I I I
: I I I I
I
+-
I
I I I
I I I
I I I
:. . -----_t------.. :+ :
_
_
0,0
I I , I I I I 1 , I I I -----..,------..,------T------r------,...------,------,------T------,------,...-----,------"T-----i~a
.' Sí 'Nri
Mercedes
210
12 9 12 3 6 2 8 11 13 8 6 15 10 11 18 3 14 7 10 11 21 O
No
I
240 100 140 80 120 100 110 130 140 200 170 170 220 120 180 160 230 110 230 110 210 130
Total
130 3400
12 1 2 5 6 8 3 2 1 12 11 2 12 1 O 13 9 4 13 O O 13
Sí
Xantia:
Técmcas de análisis de datos en Investigación de mercados .trategla comercIal más adecuada. Para ello ha llevado a cabo un estudio exploratono con un total de 34 personas entrevIstadas a las que se pregunta por su actitud hacia detenrunados modelos (en total 7) y por algunas cuestIOnes generales como la edad, el nivel de mgresos o el estado CIvil. La tabla de frecuencIas observadas o tabla de Burt aparece en la tabla 3.28. La aplicación de ACM sobre esta tabla disyuntIva completa arroja los siguientes resultados. En pnmer lugar, hemos calculado las distanCIaS de las modalidades de las vanables respecto del centro de gravedad y, posterionnente, hemos calculado la inerCIa de cada modalidad. Un ejemplo de este cálculo es: Volvo: Sí = "'!'-(l- 20)· = 0,0411768 10 34 y así sucesIvamente. Conocida la mercla de cada modalidad, el sIguiente paso es la matrIz a diagonalizar y, a partIr de ahí, los autovalores y autovectores para cada factor. Los autovalores, la mercla explicada por cada uno de ellos y la descomposición de la X2 se muestran en la tabla 3.29.
TABLA 3.29 Autovalores y descomposición de la
i· >. :Xi i· 1 2 3 4 5 6 7 8 9 10 11 12
5..Y.~mr!'fi> ....
0,7673 0,4428 0,3433 0,2978 0,2747 0,2080 0,1853 0,1387 0,1237 0,0939 0,0834 0,0729
, .. > •
>"'si >....
.•. • >.
0,5888 0,1961 0,1178 0,0887 0,0755 0,0433 0,0343 0,0192 0,0153 0,0088 0,0070 0,0053
../
;ji
» .••••
....•....
49,0638 16,3375 9,8186 7,3897 6,2894 3,6042 2,8615 1,6025 1,2749 0,7354 0,5797 0,4429
r
iL;%~~
/ 49,0638 65,4013 75,2199 82,6096 88,8990 92,5032 95,3647 96,9671 98,2420 98,9774 99,5571 100,0000
> 694,5088 231,2612 138,9849 104,6026 89,0275 51,0182 40,5051 22,6833 18,0464 10,4100 8,2053 6,2694
El pnmer factor explica el 49% de la inerCIa y el segundo el 16%. Entre ellos dos totalizan casi el 65% de la mercia. La tabla 3.30 muestra las coordenadas de las modalidades en los dos pnmeros factores, así como la masa o frecuencIa margmal, la calidad de la representación y
140
© EdiCIOnes Pirámide
AnálisIs de correspondencias simple y múltiple TABLA 3.30 Coordenadas, masas, calidad de representación e inercza
Casado Soltero Ingresos baJos Ingresos medios Ingresos altos >40 30-40 40 30-40 ______+-->-__l__+__+__+__+__I___+__.;_+__~e__..___+__>___+__l_-+-_+__+__+_i -1,0 -0,5 o 0,5 -1.5 1.0 1,5
Dimensión 1; Autovalor: 0,58887 (49,06% de la merela)
Figura 3.13.
5.
Representación de las vanables. Dimensión l versus dimensión 2.
APLICACIONES DEL ANÁLISIS DE CORRESPONDENCIAS El análisIs de correspondencIas es una técmca muy utilizada entre los lllvestIgadores. sobre todo cuando se trata de posicionar marcas. productos o servicIOs, formas de distribución. etc. Las pnnclpales aplicacIOnes al campo del marketIng se pueden resumIr en: Identificación de claves para la comunicación. Pruebas prevIas en la elaboración de mensajes publicItanos. Descubnmíento de segmentos o huecos de mercado. PosICIOnamIento y reposlclOnarmento de productos. Medida de eficaCIa de campañas publicitarIas. Identificación de la imagen de productos. entidades (en general, conceptos) y de sus competidores. Sin ámmo de ser exhaustIvos, se recogen algunos trabajos que utilizan en el análiSIS de correspondenCIas.
© EdiclOnes Pirámide
143
Técnicas de análisis de datos en investigación de mercados Posicionamiento e imagen La mayoría de los estudios que utilizan el análisIs de correspondencIas lo hacen pala posIcionar productos, marcas, canales de distribución, países e mcluso lugares geográficos con arreglo a CIertas características o atributos. Penelas (1998) trata de identificar las c\istmtas estrategias comercIales que realizan las entidades bancanas en el área del mercado mmoflsta, así como de determinar las variables que influyen en la elección de una estrategIa comercIal. Para esto utiliza dos análisIs de correspondencias sImples. En el pnmero, las columnas son las cajas y bancos clasjficados según la dimensión (grande, mediano, pequeño) y las filas los objetivos comerciales (fidelizar al cliente, nuevas áreas geográficas, dismmUlr el nesgo, etc.). En el segundo, las columnas están formadas por las cajas y bancos y las filas por distmtos atributos relatIvos al producto, distribución y promociónventa. Gómez (1997) intenta detectar las diferenCIas más significativas entre el marketmg de la banca de empresas y el de la banca al por menor. Para esto emplea el análiSIS de correspondencIas simple donde las filas son distintos atributos relaCIOnados con la distribución (desarrollar o Implantar la banca electrómca, crear oficinas espeCIalizadas en empresas, desarrollar o Implantar la banca telefónica, etc.) y las columnas son las entidades clasificadas por su naturaleza (banco o caja) y su tamaño (grande, mediano y pequeño). Moliner et al. (1994) estudia la percepción de determmados servICIOS basándose en algunos atributos. Al Igual que antes se usa el análisis de correspondencias SImple donde las filas son los atributos (información que ofrecen, trato amable, dominio de su trabajO, etc.) y las columnas son los tipos de serVICIOS (bomberos, tercera edad, deportes, cultura, etc.). Miquel et al. (1996) utiliza el análisis de correspondencIas sImple en cuatro ocaSIOnes para identificar grupos de países homogéneos en funCIón de los productos que más se conocen de cada uno de ellos, identificar grupos de países homogéneos en función de los productos por los que se les prefiere, identificar grupos de países homogéneos en función de los prOductos que más se compran procedentes de los mIsmos y conocer los atributos que mejor definen la producción de cada país, defimendo grupos entre los mismos. Del Barno et al. (1996) utilizan el análisis de correspondencIas para pOSICIOnar los distmtos formatos de venta a distancIa. Las filas están formadas por algunos atrIbutos relevantes (adecuado para personas que trabajan, libertad de horarIO, mejores precIOS, etc.) y las columnas por los distintos formatos (venta por correo, por teléfono, videocatálogo, etc.).
Clasificación y estructura de los mercados Gómez (1997), en uno de los múltiples objetivos planteados mvestiga la potencialidad de una agrupaCIón de empresas con relación a variables cualitativas. Para esto utiliza el análiSIS de correspondencIas múltIple usando la relevancia de la ac-
144
© EdiCIones Pirámide
Análisis de correspondencias sImple y múltiple tuación mnovadora, el poslClOnamiento de la actuación mnovadora, el perfil de actuación estratégica o el clima empresarial. Muñiz (1996) analiza las diferencias en las estructuras comerciales de los pnnclpales países de Europa tratando de determmar su mfluencla en las estrategias de las empresas. También se usa, en este caso, el análisIs de correspondencias múltlple considerando variables como: ventas, margen comercial, productlvidad, porcentaje de marcas propias, etc. Esteban et al. (1996) usan el análisIs de correspondencias múltiple para destacar las aplicaclOnes de carácter empírico que tlene la planificación estratégica en marketlng turístlco. Las vanabies utilizadas son, entre otras: motlvos de la visíta, organización del viaje, transporte, etc. Destaca también la combmación de técmcas, ya que también usa como variables segmentos obtenidos en una etapa antenor mediante el análisIs cluster.
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • •
AnálisIs de correspondencias simple y múltiple. Perfil de fila y de columna. DistanCia X2 entre filas y entre columnas. Inercia. Coordenadas estandanzadas de filas y columnas. Relación bancéntnca. Puntos suplementanos. Calidad de representación. Contribución absoluta y contribución relatlva. Descomposición aditlva de la X2 Mapas slmétncos y asimétrícos. Estabilidad mterna y externa. Desdoblamiento. Polanzación.
ANEXO Estabilidad interna: ángulos de variación de los ejes y el plano Para analizar la vanación que supone en los ejes la elimmación de un punto, es necesano calcular el parámetro h que refleja la parte de la mercia del punto s (can© EdicIones Pirámide
145
Técnicas de análisis de datos en investigación de mercados didato a ser elimmado) que permanece en el subespaclO formado por los ejes k, k + 1, ..., en relacIón a la diferencIa entre el autovalor de k y k + 1 y ajustado por el nuevo centroide [11(1 - ws)]' s.k 1 _w ) (1.2 ( h= ws
s
Ak
2 .+ ) +1.s,k+1 ... (34)
Ak +1
-
donde: w s : Masa del punto s.
!; k: Coordenada al cuadrado del punto s en el factor k. Ak : Autovalor del factor k. Otro concepto Importante es la contribución relativa de un punto en un factor. Se puede demostrar que la contribucIón relativa es Igual al coseno al cuadrado del ángulo rjJ, siendo este últImo el ángulo formado por el eje pnnClpal y el punto s. Por tanto: cos 2 rjJsk
= Contribución relatIva del punto s en el factor k = 2 !s~
d (s, G)
(35)
Calculadas las cantidades antenores, el ángulo de rotación de los ejes (rjJ) se obtiene de la sIgUIente fonna: Si h ;" 1:
tg 2'"'1'
h x sen 2rjJsk
~ ------'-""-1- h X COS2rjJsk
(36)
Si h
< 1:
tg 2'"'1'
h x sen 2rjJsk 1- h X COS2rjJsk
~ ------'-'''--
Así pues, SI I/J es menor de 45° entonces el eje k puede considerarse mternamente estable y en caso contrario mternamente mestable. De fonna análoga puede estudiarse la estabilidad de un plano. En este caso, el parámetro h se modifica de la sigUIente fonna:
ws
(1.2S,1
h = (l - w,) .
A2
+
1'2 J s,2
+
...
)
-~
(37)
y el ángulo que contiene el plano prmclpal (l/Js,I'2J es igual a:
COS
2," 'I's,I-2
. = COS 2 1JsI + cos 2,"'I's2
(38)
CalcUlado lo anterior se probará de nuevo la deSIgualdad que contiene la expresión 36.
146
© Ediciones Pirámide
Análisis de correspondencIas simple y múltiple No obstante, tal y como señalan Escofier y Page (1988), no puede exclmrse a los puntos fila o columna úmcamente basándose en critenos de merCla, porque su exclusión implica la modificación de los obJellvos del estudio. Por ejemplo, si deseamos estudiar la imagen que los consumIdores llenen de las marcas de leche comercializadas en Andalucía basándose en cIertos atributos y en el primer factor se evidencia una gran contribución de la marca líder, no se puede elimmar este punto del análisis porque estaríamos representando el mercado parcIalmente y se está suprimIendo la marca que mayor cuota de mercado llene en Andalucía.
BIBLIOGRAFíA Abasca!, E. (1986): «El análisis factorial de correspondencias aplicado al Marketing», Boletín de Estudios Económicos, vo!' XLI, núm. 129, diciembre, pp. 575-592. Abascal, E., y Grande. 1. (1989): Métodos multlvarzantes para la mvestlgación comercial, Anel, Barcelona. Bendixen, M. (1996): «A Practlcal Guide to the Use of Correspondence Analysls m Marketmg Research», Umversíty of the Witwatersrand, vo!' 1, Sudáfrica, pp. 16-38. Benzécri, J. P. (1992): Correspondence analysls handbook. Marcel Dekker, Nueva York. Benzécri. J. P. (1984): Practlque de l'analyse des donées, Dunod, París. Bisquerra Alcina, R. (1989): Introducción conceptual al análisis multivarzable: un enfoque mformátlco con los paquetes SPSS-X, BMDP, LISREL y SPAD, Promociones y PublicaCIOnes Umversilmas, Barcelona. Carrasco de la Peña, J. L., Hemán Huerta. M. A., Y Centro de Investlgación Bioestadístlca (1993): EstadístIca multlvarzante en las clenczas de la vida: fundamentos, métodos y aplicación, CienCIa, Madrid. Carroll, J. D.; Green, P. E., Y Schaffer, C. M. (1989): «Reply to Greenacre's Comentary on the Carroll-Green-Schaffer Scaling of Two.Way Correspondence Analysis SolutlOm>, Joumal of Marketmg Research, vol. 26. agosto. pp. 366-368. Cmoll, J. D.; Green. P. E.. Y Schaffer, C. M. (1987): «Comparing Interpoint Distances m Correspondence Analysis: A ClarificatlOn», Joumal of Marketmg Research, vol. 24, noviembre, pp. 45-50, Carroll, J. D.; Green, P. E., Y Schaffer, C. M. (1986): -------~----------
,
l
'
I
I
I
!
: :
:
ql
:
1
"
I
I
"
o
I
----------~-----------t-----------:_---------- -----------~-----------:--------e_-+----------I
:
__ - - - - - - __ -l_ - - _
, ,
__ - - -
I"
l
i
t ' I
I
I
" I
I
: : : : -------f"---- ---- -J-------------- -------: ----------;----------..----- ----¡ I ¡ I I ~
1
1
,
I
I
1,
I"
I
I"
I
¡,
;
:
:
nO:
:
:
-lI
,¡ . - - -
v
-,..--________ I
v
----
- - - ,' . - --
;"
---
"
I" I
I I
" I l i T ' "
I
I
I
I
: : : ---- ---- ---1------- - ---~---- ----- --+-----------
I
I
I
----t- ---- ------
,
,I , ,
1
,
i
,
I
I
1
I
I
I
I
I
------- --- ~--e--- --- --~ --- --- - ----~ --- ------- -- ---- ---- -~--- ----- ---:-- ------ --- t---- ------I
O: I
Q:
-- --- -----E>- --- ----e--1--------- ---:---------- II
"I
I I 1
I I I
I 1 I I
"1 I I I
I I I I
I
II , , I
Índice de capacidad de compra
Figura 4.1.
Ejemplo de representación de ciudades.
como los de linealidad o nonnalidad. La representatlvidad condicIOna el propio análisis y los resultados obtenidos están supeditados a ella. Las conclUSIOnes sobre una tipología de consumidores a la que se ha llegado con una muestra poco representativa tendrán escaso fundamento, y desde luego no tendrán mngún valor para generalizar. Por otro lado, nuestras conclUSIOnes serán muy criticables SI se basan en un análiSIS que haya considerado muchas variables que estén midiendo solamente una dimensión concreta de los casos y ninguna o pocas vanables que midan otras dimensOnes de interés. Estas deficIencias se superan trabllJando con una muestra representativa y consIderando para el análisIs un conjunto de vanables en el que se tenga una medida equilibrada respecto de las dimensIOnes relevantes. Hay otras técnicas que también conducen a la fonnación de grupos. El análisis discnminante a través de casos conocidos llega a establecer una regla de aSIgnación de los elementos a los grupos, distingUIendo entre la pertenencIa a un grupo como varIable a explicar y las otras característIcas o varIables como explicatIvas; mIentras que el cluster llega a grupos homogéneos pero no establecIendo una nonna de asignación, y tampoco hace distinción entre vanables explicativas y a explicar. Por lo que respecta a la distincIón con el análisIs factorial, el cluster agrupa vanables (o bIen casos) consIgUIendo grupos de vanables asocIadas pOSItivamente, en tanto que el factonal SintetIza vanables en un factor, que está relaCIOnado con ellas posItIva o negativamente. Las variables relacIOnadas posItivamente y las relaCIOnadas negativamente con un factor no aparecerían en un mIsmo grupo si aplicamos el análiSIS cluster.
154
© Ediciones Pirámide
Análisis cluster
3.
PROCESO DE ANÁLISIS CLUSTER Como cualqUIer técmca de análisIs de datos, el análisIs cluster conStItuye una fase dentro de un proceso de mvestIgación en el que ya se habrían fijado los obJetIvos, las hipótesIs o los procedimIentos de obtención de datos que se consideraran pertinentes. Incluso para la obtención de la información ya se deben contemplar los requenmientos de los análisis de datos que se piensan adecuados según nuestros objetIvos de investIgación. Cuando estos objetIvos supongan la división o la clasificación de elementos, ya sea con mtenclOnes exploratorias ya sea con mtenclOnes descriptIvas, o mcluso para apoyar la existenCIa de una determinada estructura, entonces podemos recurnr al análisIs cluster. En tal caso cabe distIngUir vanas etapas.
3.1.
Fase de preparación
Dada una base de datos, en pnmer lugar hay que seleCCIOnar y preparar las vanables y los casos con los que vamos a trabajar. Las conclusiones que se alcancen siempre están supeditadas a las variables con las que se ha trabajado. Por tanto, la selección de las variables debe hacerse de manera que éstas sirvan para describIr la relación entre los casos u objetos y que sean pertmentes para las pretensIOnes de la mvestIgación. En caso contrarIO pueden distorsionar los resultados. Así, es convemente para la elección recurnr a: Los planteamientos teóncos que sobre el fenómeno en cuestIón se tengan. El conocImIento empínco de estudios realizados. El conocImIento basado en suposiciones sufiCIentemente fundadas o en mvestIgaclOnes exploratorias previas. En este análiSIS, como en el factonal, el analista puede repetIr el proceso con vanables o especificaCIOnes diferentes y valorar las diferentes conclUSIOnes alcanzadas. En el caso del cluster la posibilidad de influenCIa del analista en los resultados es considerable, en tanto que vendrán condicionados por sus decisiones. Es frecuente que las varIables vengan en diferentes unidades o diferentes escalas de medida, por lo que conviene normalizarlas para evitar tales mcidencias. Otras circunstancIas poco deseables que se presentan son que las variables estén correlaCIOnadas o mcluso que su número sea excesivo, lo que tendría como consecuencIa dificultar el análiSIS y/o un efecto redundante para detenninadas dimenSIOnes o atrIbutos similares. Para corregIrlos cabe recurnr a alguna técmca que smtetIce la mfonnación y nos proporcIOne vanables incorrelaclOnadas como el análiSIS factonal o en componentes prinCIpales. Por otro lado, también deben especificarse los casos o elementos a considerar, bIen todos o bien sólo una parte. Los valores extraños o extremos reqUIeren un tratamIento especial. Estos valores constItuyen una verdadera excepción pero, sm em© EdiCIOnes Pirámide
155
Técnicas de análisis de datos en investigación de mercados bargo, distorsIOnan la estructura, la representación gráfica y hasta la mterpretación, por lo que sería aconsejable su exclusión del análisis.
3.2.
Determinación de las especificaciones
Como ya se ha comentado, se pretende formar grupos de elementos homogéneos; por tanto, y en prImer lugar, se reqUIere una forma de medir el 'parecido entre dos elementos y, en segundo lugar, hay que defilllr un procedimiento para constltUlr los grupos entre los que más adelante se comentan. Para medir la semejanza o parecido entre dos objetos se utilizan medidas de SImilitud o distanCIa; dos objetos son más parecidos cuanto más sImilares son, o cuanto más pequeña es la distanCia entre ellos. Estas medidas se agrupan en tres clases que exammamos a contmuación. a)
Medidas de correlación
Se trata de una medida emínentemente cuantltatlva, aunque también puedan calcularse coeficIentes de correlación para variables no métrIcas que vengan en escala nommal u ordinal; es el caso de los coeficientes de correlación de rangos de Spearman o de Kenda1l2 Para unas vanables dadas, dos objetos son muy simílares SI tIenen correlacIOnes altas y no serán parecidos si tienen correlacIOnes bajas. Aunque hay que advertlr que la correlación nos informa sobre la forma en la que varían dos variables más que sobre la magllltud de las mismas. Por ejemplo, en la tabla adjunta las variables 1 y 2 tlenen una correlación muy alta y lo mIsmo ocurre con la 3 y la 4; sin embargo, nada tlenen que ver en cuanto a las magllltudes de sus valores, y en tal caso se parecerían más la varIable 1 a la 3 y la varIable 2 a la 4. TABLA 4.1 DiferenclG entre correlación y magnitud
b)
1 2
100
10
110
110
3 4 5
200 160 150
12 20 17
120 90 150
15
15
140
14
11 10 9
Medidas de distancias
Son las más utilizadas. La distanCIa entre dos Objetos A y B de un mIsmo conJunto es una medida que satlsface las sIgUIentes condiciones: 2 Para más detalle de estos y otros coeficIentes de correlación, véase Luque (1997).
156
© EdiCIones Pirámide
Análisis cluster La distancIa de A a B, d(A, B), es un valor POSItiVO. Si es cero entonces A y B son Iguales. La distancIa de A a B es igual que la de B a A. Si C es un objeto que pertenece al mIsmo conjunto que A y B, entonces: d(A, B) :'> d(A, C) + d( C, B) La distancIa entre dos elementos de un conjunto se obtiene por la proxImidad que tales elementos tienen en cada una de las vanables consideradas. En referencIa a estas varIables hay que advertir que la relación eXIstente entre ellas condicIOna el resultado final. Así, SI una parte importante de las vanables están correlacIOnadas o miden diferentes aspectos de una misma característIca, será esta característica la que mayor mfluencla tenga en los grupos obtenidos. Por ejemplo, SI se trata de identificar tipos de automóviles utilizando seIs varIables de las que cuatro se refieren a capacidad, una a estilo y otra a tecnología, no cabe duda de que los grupos resultantes serán consecuencia, sobre todo, de la mcidencla que tengan las características de capacidad. Una forma de corregIr este efecto consiste en ponderar las vanables de manera diferente, pero entonces surge el problema de cómo establecer los cntenos para la ponderación. Como se ha dicho, una alternativa es el análisIs factonal, que nos proporcIOna las dimensiones fundamentales y además las establece como mcorrelaclOnadas. Ante la selección de una medida de la distanCIa deben contemplarse sus propIedades y la forma de agrupar a los elementos. Por otro lado, se ha de tener presente que cuando se agrupa utilizando medidas de distanCia se está consIderando la similitud de las magnitudes de las variables, aunque su variabilidad no tenga mucho que ver, mIentras que SI se recurre a medidas de correlación lo que predomzna son los patrones de varzación y no tanto las magnztudes de las variables. Algunas medidas de distancia son las sIgUIentes: Distancia euclídea. Es la distanCIa geométrica en un espacIO de unas dimensIOnes determinadas. La distancia euclídea es espeCIalmente adecuada para ejes ortogonales. Con dos dimenSIOnes es la hIpotenusa del triángulo rectángulo, mientras que para i dimensiones la distancia entre dos elementos X e Y es la raíz cuadrada de la suma de las diferencIas al cuadrado para cada dimensión: d(X, Y) =
~~(X¡ - r:?
Además de esta distanCIa euclídea denommada simple, se utiliza la distancia euclídea al cuadrado que es Igual. pero sm hacer la raíz cuadrada; o la distancia euclídea media que se obtIene dividiendo por el número de sumandos o vanables sobre las que se calculan las diferencias. Veamos un ejemplo: SI conocemos los índices de nqueza y de capacidad de compra de CInco cmdades la distanCIa euclídea entre la ciudad 1 y la 2 es: © EdicIOnes Pirántide
157
Técnicas de análisis de datos en investigación de mercados
TABLA 4.2 Ejemplo de característIcas de cinco ciudades
4,00 6,00 8,00 5,00 7,00
1
2 3 4 5
d(l, 2)
= ~(6 -
1,20 1,40 0,90 0,80 1,50
4)2 + (1,4 _1,2)2
La distanCIa euclídea al cuadrado es d2(1, 2) la distanda media: d(l 2)
,
= (6 -
= 2,01 4)2 + (1,4) - (1,2? = 4,04; Y
= d(l,2 2) = 1' 005
La distanCIa euclídea para cada pareja de casos sería: TABLA 4.3 Distancla entre ciudades
0,00 2,01 4,01 1,08 3,01
2,01 0,00 2,06 1,17 1,00
4,01 2,06 0,00 3,00 1,17
1,08 1,17
3,01 1,00
3,00 0,00 2,12
2,12 0,00
1,17
Ahora bien, si el índice de capacidad de compra vlmese dado en porcentajes, por ejemplo: 120 para la dudad 1, 140 para la cIUdad 2 y así respectIvamente, las distanCIas entre CIUdades cambIarían sensiblemente. En ambos casos la distanCIa menor se da en la pareja (2, 5), pero mIentras que en el primer caso a contmuación estaban las parejas (1, 4); (2, 4) Y (3, 5); en la segunda sítuadón son las parejas (3, 4) Y (1, 2). Lógicamente esto afectará a la formación de los grupos, aunque ése no es un problema específico de la distancia euclídea, smo que se presentan en otras. En estas cIrcunstanCIaS conviene estandarizar los datos.
158
© Ediciones Pirámide
AnálisIs cluster TABLA 4.4
Distancza entre cIudades
En notacióI! matnclal la expresión de la distancia sería:
d2(X, Y)
= (X, -
Y;)' (X, - Y;) = d' d
Distancza de Minkowski. Se expresa como d(X, Y)
= [~(X, -
Y;)n
r
para n mayor o igual a 1. Para n = 2, es la distancIa euclídea. Para n = 1, se trata de una distancIa denommada de city-block o de Manhattan, que representa la distancIa a recorrer entre dos puntos con un trazado urbanístico perpendicular. Consiste en sumar las diferencias absolutas entre las variables; en muchas ocasIOnes proporcIOna resultados similares a la distancia euclídea. Su expresión es:
d(X, Y) =
LIX, - 1;1
La tabla 4.5 recoge los valores de las diferentes medidas de distanCIa y para las diferentes escalas en las que se mide la varIable capacidad de compra.
Distancia de Chebychev. Su expresión es: d(X, Y)
= maxlX, - 1;1
DistanCia de Mahalanobis. Esta distanCIa tJene una métnca distmta a la de la euclídea. Es recomendable para situaciones en las que se produce multlcolinealidad. Comcide con la euclídea para variables estandarJzadas cuando las correlaciones son nulas. Se obtiene a partir de la expresión d(X, Y)
= (X, -
Y;)' W-' (X, - Y;)
W: Matnz de covarianzas. © EdiclOnes Pirámide
159
Técnicas de análisis de datos en Investigación de mercados TABLA 4.5 Diferencia entre tipos de distancia utilizando diferentes escalas
l.
'. .
"--.~--1·2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5
Distancia"· Distancia' euclídea2 • euclídea
404 916 1.601 909 2.504 3.601 101 109 3.601 4.904
* DistanCIas cuando el c)
20,1 30,2 40 30,1 50 60 10 10,4 60 70
Distancia Manhattán
Distancia*
22
4 16,1 1,2 9,1 4,25 1,36 1,01 9 1,4 4,49
34 41 33 52 61 11 13
61 72
eu~líd~a2
n;~WJ1~ia~ r"Di~,ta~cia* euclídea
. Manhattan
2,01 4,01 1,08 3,01 2,06 1,17 1 3 1,17 2,12
2,2 4,3 1,4 3,3 2,5 1,6 J,¡
3,1 1,6 2,7
índice de capacidad de compra está expresado en porcentajes.
Medidas de asociación
Tienen un carácter cualitativo, se obtIenen a partir de la existencia de comcldenclas, de acuerdos o desacuerdos. La medida del parecido entre objetos a través de sus características cualitatIvas también se suele denommar medidas de sImilitud que, al contrano de la distanCia, a mayor sImilitud mayor parecido. La medida de la sImilitud debe satIsfacer las sIgUIentes condicIOnes: -
La sImilitud entre A y B es Igual que la eXIstente entre B y A: SAB = SBA' La similitud de A consigo mIsmo o de B consIgo ID1smo es Igual y mayor que la sImilitud existente entre A y B: SAA = SBB > SAB' para A *- B. Al igual que en la distancia, a veces se añade una tercera condición conocIda como la deSIgualdad del triángulo: SI SAB y SBC son grandes, entonces SAC también lo es.
La utilización de estas medidas en el análisIs cluster está condicIOnada por los programas mformáticos; en realidad los programas convencIOnales de mayor difusión ofrecen unas posibilidades limitadas para las medidas de asocIacIón. Las medidas de sImilitud se obtienen bIen mterrogando directamente a personas sobre su percepción, bIen midiendo las característIcas o la posesión de atributos. En este sentido, un caso partIcular es la utilización de vanables bmanas (con valores O, no posesIón de un atributo, y 1, posesión de un atributo) a partIr de las cuales se construyen índices sabIendo que las posibilidades que se pueden presentar son: -
p = Número de comcidenclas positIvas (1, 1).
-
n = Número de coincidencIas negativas (O, O). d = Número de diferenCias (1, O).
-
160
© EdiCIOnes Pirámide
AnálisIs cluster
-
e = Número de diferencias (O, 1).
-
t=p+n+d+e.
La combmación de estas situacIOnes da lugar o una amplia gama de índices, según se pnme las comcidenclas positivas y/o negatIvas o las diferencias de uno u otro tIpo. Algunos de estos índices son: -
Índice de Sokal y Michener = (p + n)/t. • Indice de Rogers y Tammoto
Índice de Sokal y Sneath
=
= t-(d+e) = t+(d+e)
p+n (p+n)+2(d+e)
,
p
p+2(d+e)
En algunos programas se proporcIOnan medidas de este tIpo, como el porcentaje de desacuerdo o número de diferencIas entre las característIcas de dos objetos. Dadas las medidas para conocer la proxImidad o el parecido de los elementos de una población, lo sIguiente es detenmnar cómo proceder a la agrupación, es decir, decidir cuándo dos elementos van a formar parte de un mIsmo grupo o de grupos diferentes. También ahora existe un abamco amplio de posibilidades, los procedimientos de agrupación se clasifican en dos grandes tIpOS: procedimientos jerárqUIcos y procedimIentos no JerárqUICOS. a)
ProcedimIentos Jerárquicos
Como su propIO nombre mdica, suponen desarrollar una jerarquía, la formación de grupos constituye un proceso secuencIal que se representa gráficamente. Dada una población, se trata de establecer una jerarquía de partes, delirmtando un número de subconjuntos de forma que entre ellos no tengan elementos comunes (sean disjuntos) y que cada subconjunto esté mcluido en otro Gerarquía). El número de grupos identificados depende de la secuenCIa en la que nos detengamos a considerar. Dentro de los procedimIentos JerárqUIcos se distmgue entre: -
-
© EdiCIOnes Pirámide
Ascendentes (jozning), que comienzan con tantos grupos como mdividuos, se van formando grupos entre los mdividuos más parecidos según un determinado cnterio y termma con un solo grupo que integra a todos los elementos de la población. En este caso se dispone de la secuencIa de agrupación: además, una vez formado un grupo permanecerá, no se divide aunque algún elemento tenga más parecido con algún grupo nuevo. Estos procedimientos suelen considerar muchas variables para la formación de los grupos, y de ahí la denormnación de politétIcos. Descendentes (divislve), que consisten justamente en lo contrario, partIr del conjunto poblaclOnal e Ir dividiendo en subconjuntos hasta llegar al elemento.
161
Técnicas de análisis de datos en investigación de mercados En los métodos JerárqUicos se recurre a representaciones gráficas para facilitar la mterpretación de la formación de los grupos; sobre todo se utilizan dos tipos de gráficos denommados dendrograma y gráfico de témpanos (iclele), cuya mterpretación es muy slllular. Dentro de los Jerárquicos ascendentes eXIsten diversas maneras o reglas para determlllar cómo se forman los grupos. Uno de los primeros algontmos fue el de Johnson, que procede a la agrupación secuencIal considerando la sImilitud para la cual utiliza la distanCIa euclídea. En DYANE (Santesmases, 1997) se encuentra una aplicación. Entre los procedinuentos más utilizados destacan los denonunados de unión, los basados en el centroide y los que lo hacen en la vananza. 1. Vínculo úmco o vecino más próximo (single linkage o nearest neighbor). En este procedimIento la distancia entre dos grupos determmados es la distanCIa entre los dos objetos más cercanos, pertenecIentes cada uno a un grupo distmto. Los dos pnmeros objetos a agrupar son los que tienen la distanCIa más pequeña entre ellos. A continuación se identifica la distanCIa mínima sigUiente y habrá un terCer indivIduo que se Illcorpore al grupo o bIen se formará un nuevo grupo con dos nuevos componentes; así se contmúa hasta que todos los objetos están comprendidos en un solo grupo. Los grupos deben estar nítidamente definidos para que proporcione buenos resultados.
Ejemplo: Dada la SIgUiente matrIz de distanCIas, para formar grupos por este procedimiento en pnmer lugar se agruparían los elementos más próximos, que en este caso son el 2 y el 5.
TABLA 4.6 Matriz de distancias
Una vez agrupados estos dos elementos, se calcula la distanCIa mínima a los demás elementos. Así, la distanCIa mímma entre el nuevo grupo y el elemento 3 es la distancia mímma eXIstente entre el 3 y el 2 o entre el 3 y el 5. Tales distanCIas son 5 y 8, respectIvamente, y por tanto la distanCIa mímma es 5. En consecuencIa la nueva matnz de distanCIas es como sIgue.
162
© Edictones Pirámide
Análisis cluster TABLA 4.7 Matriz de distancias
1 (2, 5) 3 4
4
6 2
7 5
3
Ahora la distancia menor es la que hay entre el grupo (2, 5) Yel elemento 4; estos elementos serán los que se agrupen y se calcula la distancia mímma entre 2,5 y 4 Y los casos restantes. Por ejemplo, con respecto al elemento 1 la distancia será: d(z, s, 4)1 = min (d z, l ' ds, d4 , 1) = 4 j
De la mIsma forma se operaría SI la distancia fuese entre dos grupos; se escoge la mímma entre las distancias por pares de elementos, La matriz de distancias queda: TABLA 4.8 MatriZ de distancias
1 (2, 5, 4)
7 3
4
3
Así sucesivamente hasta que todos los elementos se mtegran en un solo grupo. 2, Vínculo completo (complete linkage o furthest neighbour), Es sImilar al anterior salvo que ahora como distancIa entre dos grupos se toma la mayor existente (vecmo más alejado) entre dos objetos cualquiera, cada uno de un grupo diferente, Si aplicamos este procedimIento al ejemplo antenor, los pnmeros elementos a agrupar volverían a ser el 2 y el 5 que son los más próxImos; pero ahora se calcula la distancIa máxIma, esto es:
© EdicIOnes Pirámide
DistancIa entre (2, 5) con el 1: máxImo (dz l ' DistancIa entre (2, 5) con el 3: máxImo (dz, 3; Distancia entre (2, 5) con el 4: máximo (d 2
4'
ds 1) que es 10. ds, 3) que es 8. d s J que es 7,
163
Técnicas de análisIs de datos en investigación de mercados La nueva matnz de datos es: TABLA 4.9 Matriz de distanczas
1 (2, 5) 3 4
10
7 8
6 7 3
En este caso los elementos más próxImos son el 3 y el 4, que agrupar. Se sigue calculando la distancIa máxIma como en la distancIa entre (2, 5) Y (3, 4) es la máxIma entre: d2, 3' d2• 4 ; núa el proceso hasta que se agrupa en un solo grupo.
que son los que hay el caso antenor. Así, ds, J Y dS,4' Se conti-
3. Vínculo medio (average linkage). En este caso no solamente IntervIenen dos Individuos o elementos; para calcular la distanCIa entre grupos se recurre a la media pero esto adopta muchas varIantes. Así, puede ser la distancia media entre pares de objetos de los dos grupos sin ponderar (unwelghted pazr-group average), o ponderando por el tamaño de los grupos o número de elementos de cada uno, sobre todo en el caso de grupos de tamaño muy diferente (wetghted pair-group average). Con este procediIlllento se considera más información, no solamente la denvada de las situaciones extremas de distanCIa mínima o máxima. Los grupos obtemdos tIenen una varianza SImilar y además pequeña. 4. Método del centroide. El centroide de un grupo es el punto medio en un espacIO multidimensIOnal determinado por las dimensIOnes o varIables que se consideran en nuestro análiSIS. A medida que se producen Incorporaciones a un grupo y el número de elementos que lo integran varía, el centroide también se modifica. Los métodos que se basan en el centroide toman la distancIa entre grupos como la distancia entre sus centroides o centros de gravedad. Precisamente al considerar un punto medio, los valores extraños o raros no Influyen tanto en este método. También tIene variantes según se pondere, es decir, según se considere el tamaño de los grupos o no. Se utiliza el ponderado cuando los grupos se estIman que son sensiblemente diferentes. 5. Método de Ward. Forma parte de los denomInados métodos de la varIanza porque utiliza un análiSIS de la vananza para evaluar las distancIas entre grupos. En este caso se Intenta mInImizar la suma de los cuadrados de los grupos que se pueden formar en cada paso, los grupos se van formando de manera que se produzca el menor aumento en las sumas de los cuadrados. Es un procedimiento que tIende a producIr grupos pequeños y equilibrados en cuanto al número de elementos que los mtegran.
164
© EdicIOnes Pirámide
AnálisIs cluster 6. Algoritmo de Howard-Harris. A diferencia de los antenores éste es un procedilll1ento de tipo descendente, en tanto que fonna grupos a partir de otros y de forma secuencIal utilizando el criteno de mmilll1zar la varianza intragrupos en cada subdivIsión 3 Es adecuado para grandes muestras. La fonna de operar es como SIgue:
l. 2.
3.
4.
5. 6.
Seleccíona la variable que tIene mayor varIanza, distmguiendo dos grupos según estén por enCIma o por debajo de la media. Comprueba que cada elemento forma parte del grupo que le es más afín. Para ello calcula la distanCIa euclídea del elemento a los valores medios del grupo para aSIgnarlo al más prÓXImo, aunque no sea al que provIsíonalmente se asignó; en tal caso se trata de una reasIgnación. Así se consolidan los dos primeros grupos. Calculada la suma de cuadrados para cada grupo o la suma de las diferenCIas entre los valores de las vanables y los valores medios del grupo, se seleccíona el que tenga dicha suma mayor y se elige la vanable con mayor varianza dividiendo, como antes se comentó, en dos grupos según los elementos tengan valores supenores o mfenores a la media de tal vanable. Ahora con tres grupos se procede Igual que en el punto 2 para comprobar y, si es necesano, reasIgnar hasta que no se produzca reasignacíones o se llegue a un número de iteracíones establecido. Para obtener un grupo más se procede de Igual fonna (punto 3). El proceso finaliza cuando: -
Se consigue uu número de grupos determinado. El tamaño de los grupos no llega a un mímmo establecido. No se consigue !lna reducción SIgnificatIva de la suma de cuadrados, en suma, de la variabilidad de los grupos.
En el programa DYANE, para llevar a cabo un análiSIS cluster aplicando este algoritmo, se reqUIeren al menos dos vanables numéricas o de mtervalos. Una vez seleccionado el archIvo y el modulo de análisIs de grupos (análiSIs cluster) descendentes -algontmo de Howard-Hams- se presentan las opciones de: Estandanzar las vanables, lo que es necesano SI no están en la misma escala. Puesto que en otro caso SIempre pesarían más las vanables con mayor rango de varIación, es decIr, con mayor variación absoluta. Si la escala fuera la misma no ocurriría así. Fijar el número de grupos a retener; obviamente ha de ser dos o supenor. Esto se establece como una décima parte del tamaño de la muestra, fijando un límite de 10 grupos. Guardar la pertenencIa al grupo en una nueva vanable. Esta opción permite guardar la identificación al grupo de pertenencIa como una vanable categóe SegUImos a Santesmases (997). © EdicIOnes Pirámide
165
Técnicas de análisis de datos en investigación de mercados rica (clusters) para poder utilizar en postenores análisIs como tabulacíones cruzadas o análisIs discnmmante. b)
Procedimientos no Jerárquicos
A partir de un número de mdividuos, n, hay que fonnar K grupos, siendo K un número que el analista detennina, para lo cual se guiará por conocnll1entos y expenenCIaS previas o por los resultados de los procedimientos JerárqUicos que ayudan a identificar un número de grupos justificado. Fijar un número muy reducído de grupos puede llevar a conclusíones demasiado pobres, mientras que SI se trata de un número elevado complica la mterpretación. Es necesano determinar un número equilibrado entre esos extremos, para lo cual repetir el análiSIS por procedimientos distintos o con número de grupos diferentes puede ser de gran ayuda. En este caso el número de grupos se establece a priori, mientras que en los jerárquicos ascendentes se decídía a posteriori. Para llegar a la fonnacíón de los grupos se sigue un proceso Iterativo de aSignación. Una vez establecido el número de grupos se seleccíona el ongen de cada grupo y después se efectúan las asignacíones de los elementos a los diferentes grupos. Por otro lado, en cíertos casos resultaría interesante dejar fuera de la clasificación a algunos elementos extraños o raros, o bien definir una clasificación en la que algún elemento pueda pertenecer a más de un grupo para evitar la norma drástica de la pertenencia a uno solo que a veces mduce a forzar la pertenencia. Con respecto a los anteriores, los procedimientos no JerárqUiCOS mtentan un óptimo global y no sucesivos subóptimos en cada fase de agrupación, y a la vez que agilizan el proceso de agrupacíón. Pennite reaslgnar un elemento en pasos posteriores si procede agruparlo en un grupo diferente al lll1cIalmente aSignado. Los no jerárquicos también se denominan de k-medias y se distinguen tres tipos:
-
Umbral secuencial (secuential threshold). Dado un centro de un grupo todos los elementos de una población dentro de un valor o umbral preestablecído se agrupan en un mismo grupo; así se contmúa eligiendo otros centros y formando otros grupos. Ahora bien, una vez que un elemento ha sido aSignado a un grupo no se considera para otros. Umbral paralelo (paralell threshold). Con esta opcíón se fijan vanos centros de grupos desde el princípio. Los objetos se asignan al grupo, dentro del umbral establecido, cuyo centro esté más próximo. Las distanCias pueden ser ajustadas a medida que se desarrolle el proceso o incluso dejar fuera a elementos que no estén dentro del umbral establecido para nmgún centro. Métodos de optimización. Se diferenCia en que permite la reaslgnacíón de los objetos, de manera que un objeto aSignado a un grupo puede pasar a otro, SI así se consigue una menor distanCia media dentro del grupo.
Existen otros procedirmentos como el que facilita el programa STATISTICA denominado two-way Joinzng, que consiste en agrupar casos y variables slmultánea-
166
© Ediciones Pirámide
AnálisIs cluster mente, pero claro está que deben tener un sentido y una explicación la consideración conjunta de casos y vanables. Sin embargo, este procedimiento tiene como inconvemente la dificultad de interpretación Es recomendable utilizar varios procedimientos (jerárqUicos y no jerárquicos) para que las conclUSIOnes a las que se llegue tengan mayor garantía. Como el k-medias tiene su pnncipal problema en la delirmtación del número de grupos, se aconseja utilizar algún método JerárqUico primero para identificar un número de grupos razonable y lÓgicO Una vez detenmnadas todas estas especificaciones, es decir, la elección de una distancia y de un procedirmento de agrupación, el programa ejecuta todo el proceso y nos proporcIOna unos resultados en fonna de gráficos, matrices de distancias, esquema secuencial de la agrupación, estadísticas descnptIvas por grupos y análiSIS de la vananza, entre otras lllfonnaclOnes.
3.3.
Interpretación de los grupos
Para proceder a la lllterpretación de los grupos, en pnmer lugar hay que conocer algo tan obvIO como el número y composición de los mismos. Si se ha seguido un procedimiento no jerárquico esto es lllmediato, puesto que incluso se define el número de grupos a pnon. Esto lleva a una solución pero no se puede comprobar si es la mejor entre las posibles. Ahora bien, en caso de haber optado por un procedimiento JerárqUico, el número (le los grupos no es algo tan evidente. Nonnalmente, la representación gráfica de cómo se fonnan los grupos pone en relación la distancia de unión entre dos elementos con la distanCia mayor eXistente; por tanto el número de grupos depende de la distanCia a la que se haga el corte para analizar. Si el corte se hace a distancias pequeñas el número de grupos será mayor que SI se toman distancias grandes. porque entonces todos los elementos estarán comprendidos en pocos grupos. Concretado el número de grupos y su compOSición, la lllterpretación de cada uno de ellos se efectúa considerando las características de los elementos que lo componen y analizando si poseen o representan detennllladas características en mayor medida que otras. recurriendo a las estadísticas descnptIvas por grupo de las vanables de partida. El centroide de un grupo es un buen referente para la descnpción, Slll olvidar que en realidad los grupos muestran tendenCias dentro de la población que se estudia y no es fácil que sean agrupacIOnes incuestIOnables o puras. Por otro lado, reCUrrIr a vanables diferentes de las utilizadas para el análisis, por ejemplo relaCIOnadas con características soclOeconórmcas o pSlcográficas de los llltegrantes del grupo, ayuda a la lllterpretación y a extraer conclusiones. Todo lo antenor perrmte calificar o poner nombres a los grupos. La lllterpretación en los no JerárqUicos se ennquece reCUrrIendo a un análisis de la vananza para exarmnar las diferenCias entre los grupos. Si el análisis ha cumplido con su objetivo de conseguir una buena clasificación de elementos. la variabilidad © Ediciones Pirámide
167
Técnicas de análisis de datos en investigación de mercados dentro de un grupo será pequeña y la vanabilidad entre grupos será grande. La comparación de las diferencias al cuadrado entre grupos con las de dentro del grupo nos perrrute obtener un ratIO F y un nivel de sIgnificación. Las vanables con un F grande y el nivel de sIgnificación pequeño difieren entre los distintos grupos. Sin embargo, debe quedar claro que aquí el test F debe utilizarse con precaución y, desde luego, con un sentido descnptivo, puesto que los grupos se han calculado precIsamente para maXImIzar la diferencIa entre ellos y no a partIr de mnguna hIpótesis a pnori. En suma, no se debe utilizar como prueba de la igualdad de la media de los grupos.
3.4.
Valoración del análisis
Comprobar que la solución obtenida mediante análisIs cluster es la mejor, conocer SI es representatIva de la población, o que es generalizable a otras poblaciones, y probar su estabilidad en el tIempo, son tareas que no están resueltas. No se tiene un procedimiento disponible para evaluar la fiabilidad estadístIca. Todo esto tIene que ver con la dificultad para fonnular hIpótesis, puesto que el contenido del universo no es conoCIdo. Además se admIte la eXIstencia de heterogeneidad parcIal mIentras que las distribucIOnes de objetos y vanables son desconocidas en gran parte. Por tanto, sería osado adlllitir que las vanables se ajustan a algún modelo. Por su opcionalidad a la hora de elegIr distancIas y procedimiento de agrupación, este análisIs nos proporcIOna solUCIOnes que varían según la elección que realicemos. ¿Qué se puede hacer para garantIzar una solución mínimamente aceptable? Hay varias recomendacIOnes para avalar o reforzar la bondad de los resultados obtenidos: -
RepetIr el proceso con diferentes medidas y procedimIentos de agrupación para comprobar la estabilidad en los grupos identificados. Es convemente, mcluso, compagmar procedimIentos jerárquicos con otros no JerárqUIcos. - Dividir la población de estudio en dos mItades, aleatonamente, proceder a la agrupación y comprobar el grado de coincidencIa en los resultados. - Una fonna de aproxImarse a la bondad de la solución en los procedilllientos no JerárqUIcos es la comparación de la varIanza dentro del grupo con la va-fianza entre grupos.
4.
ESQUEMA DEL PROCEDIMIENTO En la práctIca, y en los programas informátIcos usuales, la manera de proceder es SImilar, aunque sIempre haya algún matIz según la filosofía del programa que se utilice. La secuenCIa podemos resulllirla en los sigUIentes pasos: L 2.
168
SeleCCIOnar el fichero de datos y modulo de análisIs cluster. SeleCCIOnar el método de agrupación, normalmente alguna varIante de los de unión o vínculo (joining) o de los no jerárquicos (K-medias). © Ediciones Pirámide
AnálisIs cluster 3.
4.
Indicar las especificaciones: selección de variables, SI se agrnpan casos o varIables, fijar la regla de agrnpación (vínculo úmco, completo, etc.) y el tipo de distancIa a utilizar. Para los métodos no Jerárquicos: indicar el número de grnpos y la forma de identificar los centros mlclales de los grnpos. Ordenar las salidas que se conSIderen de mterés. Para los JerárqUIcos serán: -
RepresentacIOnes gráficas: dendrogramas y gráficos de témpanos. Matrices de distanCias. Esquema de la secuencia de agrnpación. Estadísticas descrIptivas.
Para los no JerárqUIcos: 5. 6.
5.
Matrices de distanCIas. Gráficos de medias. Análisis de la varIanza. Estadísticas descnptivas por grnpo y mIembros que los componen.
AnáJisls y descripción de los grupos. Interpretación de los resultados.
EJEMPLO DE ANÁLISIS Co~ los datos del ejemplo utilizado en el capítulo del análisIs factonal vamos a efectuar un análisIs cluster. Recordemos que disponemos de una sene de características de las diferentes capitales de provmcla españolas (AnUarIO del Mercado Español, ejemplo AME)* y para obtener conjuntos de CIUdades con características SImIlares recurriremos a formar grnpos. Postenormente, se identifican para cada grupo la CIUdad que mejor represente las característlcas del nusmo de manera que SIrva como laboratorio de pruebas de acciones de marketing. Utilizaremos diferentes procedinuentos para comprobar la comcidencla o no de la agrupación obtenida. Utilizando la distancia euclídea, en los dos procedinuentos JerárqUICOS que se exponen para una distancia no muy alta (aproxImadamente 15.000 para el caso del vínculo único y 30.000 para el de Ward) ya se identifican cmco grupos; esto ha sido lo que se ha tenido en cuenta para .fijar en cmco los grupos para el procedimiento no jerárqUICO. En los respectivos dendrogramas se comprueba la formación de los grupos, es decir, cómo se van agrupando las diferentes CIUdades. El esquema de agrupación proporciona la distanCIa y la secuencia de agrupación, aunque los programas proporcIOnan todo el extenso listado de las diferentes secuencias de agrupación. Por razones obVIas, sólo se detalla en la tabla una parte de las fases iniciales de agrupación. Mantenemos las imClales de las capitales de proVincia para su representación.
* © EdiCIOnes Pirámide
Véase fichero en la dirección www.ugr.es/-tluque.
169
Técnicas de análisis de datos en investigación de mercados Análisis jerárquicos DistancIas euclídeas
r-.-.
J AL H f-----'
GR
MA
PO CA MU CO AB !===Jo.. SE BA
OR TO SG AV BU P SA CR LU L
LO
TF
HU
TE CC VA
CU ZA GU Z
t:::=-,
~~ ti
.,i
h
r
C V
,
:,
,, , ,
,,
10.000
20.000
30.000
40.000
,
, ,
PM SS M
f--
SO ::::;--LJ"j ~~
LE NA GC O S A BI T GI
i-
B
o
50.000
DistancIa de unión
Figura 4.2.
Diagrama en árbol (dendrograma). Vínculo úmco. DistancIas euclídeas
1,6e5
r--------------------------_
l,4e5 1,2e5
. ..
.
.
leS
.g ro
'j
80.000
. ...............
.
"r"'="'="'="'="===~==='''='''='''='''=''''=¡'
60.000
i5
::::
l·tlJ·~ltl· ·,~r· ~· L·" · .·6- I- '~,".'~" '·;~=·Ll·¡~· J:·:1i· ~· ·~ · b· ~· · -'=· "'· ~·r ~.=~.=~+ ·= ·~ " '· =· ~ ·= ·":·= l·1= ~ ·= ·~ 4· 5· ..
...
...;:::.=.. .. ...
ü,..J,."bJ
Mrn~BI~CSCS~~WLn~oouP~crMro~~H
I
BSSVA~UToro~SOZSGwcrrn~M~~ocro~M~
Figura 4.3.
17O
Diagrama de árbol (icicle o de témpanos). Método de Ward. © EdicIOnes Pirámide
Análisis cluster TABLA 4.10 Esquema de agrupación (parcw!) I)istlUlcíll 958.8561 1.054.355 1.124.155 1.423,079 1.685,390 1.867,305 1.991,032 2.045,468 2.059,959 2.081,675 2.426,400 2.576,864 2.588,337 2.865,859 2.890,805 2.942.123 3.009,021 3.054,581 3.359,847 3.370,807 3.508,177 3.527.898 3.636.181 3.736,633 4.320,025 4.673,889
© EdicIOnes Pirámide
¡.()jJj~to.núm.l. . (ljJj~to lJú*,.~
()Net~nÜJJl.
BU P SO LE AV TF eR HU AL eo TO eR L L TF HU BU MA AV O ZA
VA eu LO NA ce es OU SO
AL
J
A eo T
BI AB e
BA
AL
J
OR
3
Objet(jn~m.4
J
AB OR OU SO SO es SO VA PO ce S eR
LU LO LO
LE TE P
VI NA eu
SA OU OR
LU
H
171
Técnicas de análisIs de datos en investigación de mercados
1,8e5 ~-~,-~,--~,--~,-~,--~,-~,~-~-~,-~ ,
,
1,6e5 l- ------i--I
I
I
I
,
I
,
I
I
l
I
i
I
t
I
I
I
I
I
I
I
I
I
-----r--- ----i-------- t--------r-------f--------r------- -------- r-------
1,2eS
I-------i--------r-------i-------- t------ --¡------- -t--------r------- --------r---- ------- -i------- -t---- ---i-- ------t-------i--------i--------r------- ------- -t---- --
leS
------i--------t-------i--------t--------¡--------f--------t------- --------t---- --
,
1,4e5
I
40.000
,
I
I
I
I
,
,
I
I
,
,
I
"
I
I
,
I
"
I
60.000
I
I
I
80.000
I
1
I
I
I
I
I
,
I
I
I
I
,
! ,
,
l
I
I I
, ,
, I
I I
I I
, I
I I
, 1
I I
, I
I I
I I
1 I
1 1 )
1 1 1
1 , 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1 l I t
1 1
1 1
1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1
1 1
1 ) ,
1 1 1
1 1 1
1 1 1
1 1 1
-------i-------- t-------i------- -t---- ----i----- ---t--------t------- --------t---- ---------{--- ----- ~-------+------ -+--------:------ --+- -------:- ---- --- ----- ---f--- - --+- ---- --1 --------r------ -1--------t--------¡------- -t--------r------- --------, ----1 1
20.000 t-- ------~-----1 1 1
'
--+-------i-- ------+--------:------- -+--- -----:-------- ----
O
-:--- ----1 1 1
-r-------,--------T-------,--------f--------:-------- --------:-------1 1 1
1 1 1
-20.000 -I---i----i---+---i----i--+---+---+--+_~ O 5 15 20 30 35 45 40 lO 25 50 Paso
Figura 4.4.
Representación de las distancias de unión.
Análisis no jerárquico TABLA 4.11
Medias de los grupos
i> • • /bb*3) J+ 4,77 1,84 6.13 1,62 2.00 1,33 3,57 1,84 3.31 2,28
5,17 1,46 6,50 1,27 4,96 1,97 1,90 1.15 3,94 2.16
6,07 1,09 6,63 0,86 6.33 0.98 3.10 1,90 6,44 1,06
Suma de cuadrados explicada: 35,23%
La pnmera vanable elegida para formar grupos es la RELDTü8, que es la que tIene mayor desviación típica. Mediante esta pnmera partIción se reduce la suma de cuadrados en un 11,1 %, pasando de 5.162,28 a 4.585,51. A mayor número de grupos se aumenta la vananza explicada; en el caso de cinco grupos el porcentaje de vananza explicada es del 35,23 %. Si observamos los cmco grupos obtenidos al final se extraen como conclusiones pnnclpales las sIgUIentes: -
-
-
-
© Ediciones Pirámide
Grupo 1: Es el más numeroso, los mmonstas que lo mtegran son bastante aquiescentes, muestran un grado de acuerdo con casi todas las afirmaCIOnes, presentan una buena predisposición en todos los aspectos. Sin embargo, casI sIempre el grupo 2 le supera, aunque por poco, salvo en las vanables 7 y 9. Es deCIr, son los que han puntuado más que mantienen una buena relación con sus suministradores y consideran deCISIva la calidad de los productos que le sumInIstran. Grupo 2: Son los mmoristas más satisfechos con sus suministradores, es el grupo menos numerosos Junto con el 5. Son los que están más y muy de acuerdo con la mayoría de las cuestIones planteadas. Sin embargo, muestran su desacuerdo con que la forma de pago a los proveedores sea Irrelevante y no le Importa mucho que el distribuidor les vIsIte en persona con cierta frecuencIa. Grupo 3: Es el segundo más numeroso, 10 componen minoristas que opman que el distribuidor no se mteresa por sus problemas y que no tIenen mucho mterés por mejorar la relación ni la cooperación con los sumInIstradores, son bastante desconfiados. Grupo 4: Podríamos calificarlos como los dejados u olvidados por el sumimstrador puesto que destacan por su opmión de que los distribuidores nI les
183
Técnicas de análisIs de datos en investigación de mercados mforrnan de las promociones, m de las mnovaClOnes, m siquiera le prestan el asesoranuento deseado. Además, son los que se muestran más de acuerdo con la necesidad de que se les vIsIte regularmente por parte del sunumstrador. Grupo 5: Críticos desprendidos, son los más críticos y se muestran más en desacuerdo con la mayoría de los ítems. No están de acuerdo con la necesidad de mejorar las relaciones con el distribuidor ni de cooperar más, no les importa mucho m el surtido, m el que se les vIsIte más m tampoco la forma de pago.
7.
APLICACIONES DEL ANÁLISIS CLUSTER Las aplicaCIOnes del análiSIS cluster se han prodigado en todas las ramas del conocImIento. Así, en bIOlogía se ha utilizado para establecer clasificaCIOnes de seres VIVOS, ya sean plantas o ammales e identificar especies y familias; en psicología, para identificar tIpologías de personalidad, de comportamientos paranOIcos o esqUlzofrémcos; en sociología, para definir grupos socIales con arreglo a unas característIcas determmadas; en medicma, para establecer tIpos de síntomas o de trastornos; en arqueología para describIr diferentes objetos líticos o herramientas de diversa índole, y así en otras ramas científicas. El análiSIS cluster en marketmg se ha utilizado para: -
-
Estudiar tipologías de comportamIentos de compra y de consumIdores. Obtención de segmentos en un mercado deternunado. Estudios de Imagen y de necesidades con respecto a un producto. Lograr clasificaCIOnes de productos, marcas o empresas y de esta forma entender mejor sus parecidos y sus diferencIas identificando grupos estratégIcos de deterrnmada OrIentación estratégIca de empresas o clases de productos competitivos. Identificación de grupos de CIUdades y, dentro de cada uno de ellos, de la ciUdad más representativa que pueda servir como laboratorIO de pruebas para accIOnes de marketmg como probar un diseño nuevo, una campaña de publicidad o una actividad promocIOna!.
Algunas investIgacIOnes concretas a modo de ejemplo en las que se ha utilizado el análiSIS cluster son las sIgUIentes: -
184
Para establecer grupos estratégICOS de empresas del sector de la distribución comerCIal y además analizar su evolución (Muñiz, 1996). Para identificar los valores relevantes para una región concreta, entre los que destacan: familia, honradez, amIstad o paz; y otros que no se consideran tan Importantes (política, sentImIento europeo, viVIr al día, religIón). A partIr de ahí defimr segmentos de consumidores y efectuar recomendaCIOnes para llevar a cabo aCCIOnes comerciales (Díaz et a!., 1996). © EdiclOoes Pirámide
AnálisIs cluster Para distmgUlr segmentos de consumidores de vino con denominacIOnes de ongen de Navarra y de Aragón (Sánchez, Oil, Delso, 1996). La satisfacción en el sector servIcios es un tema compleJo, se ha utilizado el análisIs cluster para identificar grupos de usuarIOs de un detenmnado servIcio público con diferente mvel de satisfacción (Bigné, et al., 1996). Para diferenCIar entre consumIdores de un producto a los que finalmente se denommó como: marquistas, eXIgentes y prácticos (RUlZ, Oonzález, IgleSIas, 1996). Para la caractenzación del electorado potencial de un partido (Martínez Ramos, 1984). Finalmente, es neceSarIO resumir, al mIsmo tiempo que resaltar, algunas advertenCIaS y recomendaCIOnes: 1.
2.
3.
4.
5.
6.
© EdiCIOnes Pirámide
Los datos deben estar en escalas comparables y, si es necesario, estandarizados. La determmación del número de grupos debe inspIrarse en el conocmllento teórico y/o práctico existente sobre el fenómeno en estudio. Las consideraciones de tipo operativo también S1fven de onentación; así, un número excesivamente reducido de grupos aportaría una información pobre, no generaría un mcremento del conocImIento sobre la cuestión en estudio, mIentras que si se trata de un número demaSIado grande de grupos complica la mterpretación y conduce a la confusión. La distanCIa elegida puede constItUIr, por sí mIsma, un elemento detenmnante en el proceso de agrupación. Éste es un elemento perverso puesto que los grupos han de vemr detenmnados por las características que se estimen y no por utilizar una u otra distancia. Otro tanto ocurre con el orden de los casos en los procedimIentos no Jerárquicos. Es decIr, el orden condicIOna la composIción de los grupos: si eXISte sospecha de la presencia de este efecto habría que proceder cambiando el orden. Los procediJmentos JerárqUIcos han perdido parte de su popularidad a favor de los no jerárqUIcos como consecuencia del desarrollo de programas mformátlcos. En estos últimos la clave está en la selección de los puntos de ongen: por lo demás les afectan en menor medida los valores raros, el tipO de distanCIa utilizada o la mclusión de varIables relevantes. Como ya se ha comentado es recomendable compagmar ambos tipos de procedimIentos como medida de garantía. El tamaño relativo de los grupos tiene su relevanCIa. No es apropIada una solución con grupos formados por uno o muy pocos elementos, en tanto que otros contienen muchos elementos.
185
Técnicas de análisis de datos en investigación de mercados
INVENTARIO DE TÉRMINOS Y CONCEPTOS o o o o o o
o o o
o o
Taxonomía. Cluster. Medidas de correlación. Similitud, distancIa y formas de medirla. Medidas de asociación. Procedimientos jerárqUIcos ascendentes y descendentes. Vínculo úmco, completo y medio. Método del centroide. Método de Ward. Procedimientos no JerárqUIcos, k-medias. Algontmo de Howard-Hams.
BIBLIOGRAFíA Aaker, D. A., Y Day, G. S. (1989): InvestIgación de mercados. McGraw-Hill, México. Bigné, E. (1990): «El análisis cluster: una aplicación a las áreas de Interés de las agencIas de publicidad», Esic-Market, julio-septíembre, pp. 367-388. Bigné, E., Vallet, T. M.; Molinero, M. A., Y Sánchez, J. (1996): «Las satIsfacción de los usuarIOs de los servicIOS públicos hospItalarios», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 231-240. Churchill, G. A. (1979): Marketing Research. Methodologlcal FoundatlOns. The Dryden Press, Hinsdale (IL). Díaz, A. M.; Del Río, A. B.; Santos, M. L., Y Sanzo, M. J. (1996): «Los valores SOCIales del consumidor. Un estudio para el mercado del automóvi!», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 31-41. Dillon, W. R., Madden, T. J., Y Firtle, N. H. (1987): Marketing Research In a Marketing Environment. IrwIn, Homewood (IL). Evrard, Y.; Pras, B., y Roux, E. (1993): Market. Études et recherches en marketing, ÉditlOns Nathan. Hair, J, F.; Anderson, R. E., Tatharn, R. L., Y Black, W. C. (1995): Multivanate Data Analysis with Redings, Prenl1ce-Hall IntematlOnal, Englewood Cliffs, N. J. Ketchen, D. J. (Jr), y Shook, C. L. (1996): «StrategIc Management Research: An Analysis and Critíque», Strateglc Management Joumal, vol. 17, pp. 459-480. Kinnear, T. C., Y TaylOr, J. R. (1989): Investzgación de Mercados. Un enfoque aplicado, McGraw-Hill, Bogotá (Colombia). Luque Martínez, T., y Cordón Pozo, E. (1994): «Una aplicación del análisis multivanable a las caracterísl1cas soclOeconómÍcas y comercIales de las capItales de proVIncia españolas», Revista Europea de Dirección y Economía de la Empresa, vol. 3, núm. 1, pp. 101-112.
186
© Ediciones Pirámide
Análisis cluster Malhotra. N. K. (1997): Investlgación de mercados. Un enfoque práctlco. PrenlIce-Hall, MéXICO.
Martínez Ramos, E. (1984): «Aspectos teóncos del análisis cluster y aplicación a la caractenzación del electorado potencial de un partido», en J. J. Sánchez Canión, Introducción a tas técnicas de análisIs muttlvanable a las CIenciaS sociales, Centro de InveslIgaclOnes SociológIcas. Madrid. Muñiz, N. (1996): «Evolución de los grupos estratégIcos en la distribución comercial europea», VIII Encuentro de Profesores de Marketing, Zaragoza. pp. 327-338. NOruSIS. M. J. (1986): Advanced Statistic SPSS/PC+, SPSS Inc., Chicago (IL). Ortega. E. et aL (1990): Manual de Investigación ComerCial, Pirámide. Madrid. Sánchez. M.. Gil, J. M .. Y Delso, M. J. (1996): «Estudio de las preferencias en el consumo de vmo mediante análisis de componentes princIpales no lineal y análisis cOllJunto», VIII Encuentro de Profesores de Marketzng, Zaragoza, pp. 77-92. RUlz. A., González, F.. e Iglesias, V. (1996): "ComercIalización de un producto mdiferenciado: la gasolina en España», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 311-325. Statistica for Windows (1995): StatSoft.
© EdicIOnes Pirámide
187
José Ángel Ibáñez zapata Teodoro Luque Martínez
1.
INTRODUCCiÓN 1.1.
¿Qué es el escalamiento multidimensional?
El escalamlento multidimenslOnal (EMD) surge en el ámbito de la pSlcología como una respuesta a la necesidad de relacionar la mtensidad física de Ciertos estímulos con su mtensidad subJetlva. Torgerson (1958) es conslderado como uno de sus pnnclpales precursores, contribuyendo decisivamente a la clasificación y utilización de estos métodos. Este autor fue el primero en proponer una generalización del escalamlento. Pronto surgleron nuevos modelos y métodos que paulatma y slstemátlcamente fueron cubriendo un amplio abamco de demandas realizadas desde diferentes campos de mvestlgación como la pSlcología, la educación, soclOlogía, las ClenClas políticas, la economía y, por supuesto, el marketlng. Un factor que favoreció su desarrollo fue la evolución expenmentada por los eqUlpos infonnátlcos y el software a partlr de los años cmcuenta. Ello permitió el desarrollo de numerosos algoritmos de escalamlento multidimensional (EMD) matenalizados en programas de amplia difusión a mvel mundial (KYST, INDSCAL, SINDSCAL, MULTISCALE, ALSCAL, PREFMAP, etc.). Incluso, paquetes estadístlcos tan populares como SPSS-X, STATISTICA y SYSTAT tlenen lmplementados sus proplOS programas de EMD. El escalamiento multidimenslOnal se enmarca dentro de los métodos de interdependencia y es un procedimiento que pennite al investlgador determinar la imagen relativa percibida de un conjunto de objetos (empresas, productos, ideas u otros objetos sobre los que los individuos desarrollan percepciones). Es declr, el aspecto característlco de este procedimiento es que proporclOna una representaclón gráfica en un espaclO geométnco de pocas dimenslOnes que pennite comprender cómo los © Ediciones Pirámide
189
Técnicas de análisis de datos en investigación de mercados individuos perciben objetos y qué esquemas, generalmente ocultos, están detrás de esa percepción. En estos espacios, los objetos adoptan la forma de puntos y la proxImIdad entre ellos refleja la analogía eXIstente entre los nusmos. La interpretación de las dimenSiones depende del conOCImIento que se tenga acerca de esos estímulos y se realiza de forma similar a como se haría con un análisIs factorial clásIco o un análisIs de correspondencias. En térmmos algo más técnicos y concretos, el objetivo del escalamIento multIdimensional es transformar los JUicioS de sImilitud o preferencias llevados a cabo por una serie de individuos en distancias susceptibles de ser representadas en un espacio multidimensional. Así, por ejemplo, SI un conjunto de indivIduos opma que los objetos A y B son los dos más parecidos de entre un conjunto de objetos, el escalamIento multidimensional posIcionará A y B de modo que la distancIa entre ambos sea la menor de las eXIstentes entre cada par de objetos. El mapa perceptual resultante muestra la posIción relativa del conjunto de objetos sobre los que se centra el estudio. El tipO de datos que hay que recabar son JUICIOS de similitud, diSImilitud o preferencIa que los sUjetos encuestados manifiestan en relación con todas las posibles COmbInaCioneS de pares de objetos a mvestIgar. La aplicación de esta téCnIca no reqUiere un conOCImIento prevIO de los atributos que los sUjetos utilizan al emItIr sus JUICioS. Tampoco se precisa un nIvel de medida muy restnctIvo para operativizar los JUICioS que se realicen. El escalamIento multidimensional está basado en la comparación de objetos, admItiendo que cualquier objeto está formado tanto por dimenSiones objetivas como por dimensiones subjetivas o perceptuales. Las dos pnncIpales repercusiones para la mvestIgación de esta importante diferenciación entre atributos objetivos y percibidos son: Las dimenSiones percibidas por los consumidores no tienen por qué COIncidir con las dimenSiones objetivas asumidas como relevantes por el Investigador. Las evaluaCiones de dichas dimenSiones (aun en el caso de que las dimenSiones percibidas coincidan con las obJetivas) pueden no ser Independientes o no comcidir con los valores obJetivos. Desde un pnmer momento queremos llamar la atencIón sobre la precaUCIón necesana en la Interpretación de los resultados de este tipo de análiSIS. Dicha mterpretación constituye más un arte que una CIenCIa, es deCIr, no eXIsten reglas fijaS para llevarla a cabo. Es por ello que el analista debIera reSIstirse a la tentación de permitir que sus propias percepCiones afecten a la mterpretación de las dimenSiones percibidas por los mdividuos encuestados. En definItiva, el EMD es una herranuenta muy útil cuando se pretende Investigar objetos para los que el conoCimiento está poco organIzado y los esquemas perceptuales son poco o nada conocidos.
190
© EdiCIones Pirámide
Escalamiento multidimenslOnal
1.2.
Una visión simplificada del funcionamiento del escalamiento multidimensional
Para ilustrar el funcionamiento de escalamiento multidimenslOnal, consideremos un sencillo ejemplo. Hemos reunido datos de un conjunto de individuos acerca de las similitudes o diferencias eXistentes entre un conjunto de seis productos. Estos datos se han obtenido mediante preguntas del tipo: «Puntúe el grado de smulitud de los productos A y B en una escala de '1 (muy similares) a 10 (muy distintos»>. A partir de las respuestas a estas preguntas es posible trazar un gráfico que revele algún tipo de pauta eXistente en las mismas. El siguiente ejemplo ilustra este proceso. Con el fin de simplificar la tarea del mdividuo entrevistado, se preparan 15 tarjetas, cada una de ellas representativa de un par de productos (el número total de pares distmtos se calcula mediante la Siguiente expresión: Número de pares = n[n - 1]12). Hecho esto, se pide a un encuestado que ordene las 15 tarjetas aSignando el valor 1 al par de productos más similares y el valor 15 al par de productos más diferentes entre sí. Supongamos que los resultados para determmado individuo son los presentados en la tabla 5.1:
TABLA 5.1 '1
.
Matriz de diszmilitudes
o
2
2
O 12 6 5 7
13
4 3 8
3 5 10 1
O 15
8 7 11 14 15
O
Para este mdividuo, los productos D y E son los dos más parecidos entre sí, mientras que E y F forman el par más distmto de entre los 15 posibles. Intentemos representar el grado de similitud entre los seiS productos en un espaclO unidimensional. Para ello tomamos como referenCia la escala arbitraria representada en la figura 5.1, que muestra las distancias AB, BC y AC de forma ordenada. Se observa que (A, B) es el par más cercano mientras que el (A, C) está constiluido por los dos productos más distantes entre sí. Este poslclOnaffilento de A, B Y C se ajusta perfectamente a la ordenación de los tres pares correspondientes, ofrecida por el mdividuo objeto de estudio. © EdiclOnes Pirámide
191
Técnicas de análisis de datos en investigación de mercados
-10 -9 -8 _7 -6 -5 -4 -3 -2
-1
O I 2 3 4 5 6 7 8 9 10
I 11
I
1···1 .~.
I
I I I I I!I
I I
.......
Figura 5.1.
Configuración con una dimensión.
Tratemos ahora de inclUir un cuarto producto, D, en la escala representada en la figura 5.1. Considerando las respuestas del mdividuo encuestado, la posición de D debería ser tal que: d(A, D) < d(B, D) < d(C, D) < d(B, C) < d(A, C)
Si posicionamos D en el lugar propuesto en la figura 5.1, observaremos que se cumple que: d(A, D) < d(B, D) < d(C, D)
Sin embargo, no es posible lograr que simultáneamente se cumpla que: d(C, D) < d(B, C) < d(A, C)
Independientemente de la posición que aSignemos a D, nunca lograremos que se cumplan todos los térmmos de la desigualdad antenor. Parece claro que si un mdividuo, a la hora de Juzgar el grado de similitud entre los productos, ha hecho uso de una regla simple de similitud (basada en un úmco atributo), todos los pares posibles pueden representarse sobre una escala unidimensional arbitraria que reproduciría fielmente la dimensión empleada para llevar a cabo tales JUICioS. Puesto que no es posible representar los JuiCIOS de similitud de nuestro ejemplo mediante una escala unidimensional, podemos mtentarlo mediante una escala bidimensional. La figura 5.2 muestra una posible solución. Un examen detenido de esta solución nos permitirá comprobar que las distancias entre los seis productos en el espacio bidimensional reproducen fielmente las relaCiones de similitud expresadas por el mdividuo encuestado, a saber: d(D, E) < d(A, B) < d(A, E) < .,. < d(D, F) < d(E, F)
192
© EdiCiOnes Pirámide
Escalamiento multidimenslonal
cz 0 0
E
Dimensión 1
D
'"'o d
0 Figura 52,
'X·
:
Simétrica
ASimétrica Escalamiento de procesos multidimensional asirnémúltiples tnco interno
Objeto por atributo
>
J11fJ~elo .
Escalamiento multidimenslOnal aSimétrico mterno
EJEMPLOS PRÁCTICOS Existen. al menos, dos formas de constrUir escalas objetIvas que se correspondan de forma razonable con las «escalas» mternas de los mdividuos. Una de ellas consiste en obtener datos multivanables y emplear postenonnente un método de análiSIS factonal (o cualqUier otro método de compOSición) y otra en obtener datos de prOXimidad y/o preferencias y emplear un procedimiento de escalamiento multidimenslOnal para analizarlos.
204
© EdiCIOnes Pirámide
Escalamiento multidlmensional A modo de ejemplo, se parte de un conjunto de datos ficticIOs que se corresponden con los Juicios de 15 sUjetos hipotéticos (sujetos 1, 2, "" 15) acerca de la disImilitud eXistente entre 12 modelos de automóviles (modelos A, B, ..., L). El análisis de estos datos nos pernntirá ilustrar la utilización del escalamiento multidimenslOnal clásIco (EMDC), del escalamiento multidimenslOnal repetido, del escalamiento multidimenslOnal replicado (EMDR) y del escalamiento multidimensional ponderado (EMDP) o modelo de diferencias mdividuales (INDSCAL). Postenormente. utilizaremos otro conJunto de datos ficticIOS que se corresponden con los JUlcios de preferencias de los mismos 15 sUjetos acerca de los 12 modelos de automóviles. Ello nos perrmtirá mostrar el procedimiento de realización e mterpretación del desdoblamiento multidimenslOnal clásico mterno (DMDCI) y externo (DMDCE). Vamos a trabajar con la versión 7.5 del módulo «estadísticas profesIOnales» mclUldo en el conocido paquete SPSS, que contiene. entre otros, el programa ALSCAL. que constltuye uno de los programas más completos de escalamiento multidimensional.
4.1.
Escalamiento multidimensional clásico (EMDCl
El escalanuento multidimenslOnal cláSICO (EMDC) es la forma más sencilla de escalanuento multidimensional, ya que parte de una úlllca matriz de diSimilitudes. Para ilustrar su aplicación analizaremos la matriz de disimilitudes presentada en la tabla 5.3 (fichero MDSl.SAV*). Se trata de una matnz en la que cada elemento oij representa el Juicio realizado por el individuo entrevistado (en este ejemplo conSlTABLA 5.3 Matriz de disimilitudes •. A. A
O
B
1
e
4 2 3 3 4 5 7 5 9
D
E F G H
1
7
* © EdicIOnes Pirámide
B
O 5 1
4 2 3 5 6 4 8 6
e
O 4
.E ! F
1
O 3
5 4 3 6 5 8 8
3 4 6 3 8 5
Véase fichero en la dirección
1
O 3 2 2 4 4 7 7
O 2 3 4 2 6 4
G
H
.1
J
K
L
O 6 3
O 6
O
O 1
O
3 2 5 5
3
2 5 5
O 4 2 6
www.ugr.es/~t1uque.
205
Técnicas de análisis de datos en investigación de mercados deraremos úmcamente los JUlClOS realizados por el mdividuo 1) acerca de la disnrulitud entre los objetos i y j en una escala de O (muy smúlares) a 9 (muy distmtos). Se muestra la sintaxis empleada para la realización del análisIs. Hemos de destacar, sm embargo, que este tipo de análisIs puede llevarse a cabo haciendo uso de los menús y cuadros de diálogo del programa, sm necesidad de emplear el lenguaje de comando.
TABLA 5.4 Escalamiento multldimensional clásico métrico ALSCAL
a bcd e /SHAPE=SYMMETRIC /LEVEL=INTERVAL ICONDITION=MATRIX
VARIABLES""
f
g h
.1..
j
K
1
/MODEL=E'q'CLID ICRITERIA=CONVERGE(.OOOl) /PLOT=DEFAULT ALL
STRESSMIN(.OOOS)
ITER(lOO)
CUTOFF(O)
DlMENS(2,3)
/PRINT=DATA HEADER /OUTFILE=outputOl.sav
La línea /OUTFILE=outputO 1. sav nos perrmte grabar en el fichero outputa 1. sav las coordenadas de los estímulos en el espacio tridimensional y bidimenslOnal resultantes. Es muy importante destacar que este fichero (es deCir, esta matnz de distancias resultante) será empleado como configuración micial de los estímulos en los sucesivos ejemplos de esta sección para lograr que los resultados de los distmtos análisis estén basados, en la medida de lo posible, en las Ill1smas dimensiones, lo que perrrntirá la comparación de los resultados. La tabla 5.5 resume todas las opclOnes elegidas para este análisIs de escalamiento multidimenslOnal concreto. La tabla 5.6 muestra los detalles del proceso iterativo realizado por el programa para llegar a una configuraCión óptima de los estímulos en un espaclO tridimenslOnal. El proceso se detiene cuando la mejora producida por una nueva Iteración en el valor del índice de S-stress es mfenor al nivel umbral especificado, que en este caso es 0,0001. Obsérvese que el valor del S-stress tras la pnmera Iteración es de 0,05468, el cual se ve reducido hasta 0,04872 después de cmco lteraclOnes. Como ya hemos visto anteriormente, el S-stress es una medida de ajuste que varía entre 1 (el peor ajuste posible) y O (aJuste perfecto). A continuación, el programa presenta otras dos medidas de ajuste, la medida de stress de Kruskal (0,04308) y el coefiCiente de correlación al cuadrado (RSQ = 0,98803) entre los datos y las distanCiaS. Las tres medidas de ajuste mdican que el modelo euclidiano tridimenslOnal describe bastante bien los JUlClOS de diSImilitud realizados por el mdividuo en cuestión.
206
© EdiCIOnes Pirámide
Escalamiento multidimenslonal TABLA 5.5 Resumen de opcIOnes seleccionadas Alscal Procedure Options Data OptionsNumber of Rows (Observations/Matrix). Number of Columns (variables) Number of Matrices Measuremente Level Data Matrix Shape Type Approach to Ties Conditionality Data Cutoff at
12 12 1
lnterval Synunetr~c
Dissimilarity Leave Tied Matrix ,000000
Model OptionsModel Max~mum Dimensionality Minimum Dimensionality Negative WeJ.ghts
Euclid 3 2
Not Permitted
Output OptJ.onsJob OptJ.ons Header. Data Matrices Configurations and Transformations Output Dataset lnitial Stimulus Coordinates
Printed PrJ.nted Plotted Not Created Computed
Algorithmic OptionsMaximum Iterations _ Convergen Criterion Minimum S-stress Missing Data Estimated by
100 ,00010 ,00050 ulbounds
TABLA 5.6 Resumen del proceso iterativo para la solución en tres dimensiones y medidas de ajuste Iteration history for the 3 dimensional solution (in squared distances) Young s S-stress formula 1 is used. lteration S-stress lmprovement 1 ,05468 2 ,04939 ,00528 3 ,04886 ,00053 4 ,04875 ,00011 5 ,04872 ,00003 i
Iterations stopped because S-stress J.mprovement is les s than ,000100 Stress and squared correlation
(RSQ)
in distances
RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are KrusKal' s stress formula l.
Stress
© EdiclOnes Pirámide
For matrix ,04308 RSQ
,98803
207
Técnicas de análisis de datos en investigación de mercados La tabla 5.7 muestra las coordenadas de los estímulos (es deCIr, la matriz X de configuración de los estímulos) empleadas para trazar la figura 5.3 1 A contmuación (tabla 5.8), SPSS muestra una matriz llamada Optlmally scaled data (disparitles) for sUbJect 1 [datos óptimamente escalados (disparidades) para el sUjeto 1]. Para este análisIs, en el que se ha especificado que los datos están expresados en una escala de mtervalos, los valores de esta matnz de disparidades están linealmente relacIOnados con las disimilitudes ongmales. TABLA 5.7 Coordenadas de los estímulos respecto a las tres dimensiones (Configuration derived in 3 dimenslOns)
I
DimenSiones Coche
I A B
e D
E F G H 1 J K L
1
2
3
1,93 1,29 1,12 1,20 0,72 0,22 -0,17 -0,44 -1,62 -0,32 -2,80 -1,12
0,15 0,67 -1,57 0,65 -1,12 0,64 -0,27 -0,64 -0,80 0,68 -0,46 2,06
-0,50 -0,87 0,77 0,07 0,10 -0,37 -0,20 0,70 -0,56 0,82 -0,67 0,72
El elevado nivel de ajuste mdicado por los tres mdicadores antenormente mterpretados es confirmado gráficamente por la figura 5.4. Este gráfico representa a las disparIdades (eje honzontal) en relación con las distanCIas ongmales (eje vertIcal). Las disparIdades han sido estandarIzadas, de modo que sus unidades han cambIado. Las distanCIas representadas son distanCIas euclidianas entre todos los pares de puntos representados en la figura 5.3. Por tanto, la figura 5.4 representa el lllvel de aJuste entre las distancias de la configuración final y los datos ongmales, que es el lllvel de ajuste que busca ser optImizado por el procedimiento de escalamIento multidimensIOnal. El RSQ es SImplemente la correlaCIón al cuadrado entre los datos y las distancias. Por tanto, SI observamos el gráfico podemos ver en qué medida los puntos se concentran en torno a la línea de ajuste perfecto que Iría desde la esquma infenor Izqmerda a la esquma superior derecha. En este caso, vemos que la mayoría de los puntos se concentran en torno a dicha línea de ajuste perfecto. I Aunque esta figura muestra la disposición de los puntos en un espacIO tridimensional, el analista siempre tiene la posibilidad de representarla en planos basados en cada par de dimensiones.
208
© Ediclones Pirámide
EscalamIento multidimens[onal
1,5 ~
'o
' i>
./. X>
)
1,6698 1,3631 1,0640 1,4767 0,7472 1,1896 1,0451 0,9608 -1,2358 0,8497 -1,2022 0,0951
0,3288 0,8060 -0,8641 0,6062 -1,3522 -0,1012 -1,0424 -1,1420 -1,6381 0,2911 -1,0599 1,1232
-0,7219 -0,6596 1,7920 -0,4463 1,1261 -0,1625 0,4501 0,7275 -0,4037 0,4178 -1,2018 0,3898
-1,9820 -0,3337 -1.1918 -1,4512 -1,1481 -0,5374 2,0373 0,1100 0,9342 -1,1581 -1,0863 -0,3794 -0,2431 -1,7823 0,1891
-0,8873 1,6663 -1,0739 0,5964 0,7373 1,3369 -0,0798 -0,5001 -0,8842 -0,7520 0,6484 1,3364 1,4012 -0,8390 1,3381
-0,4646 -0,0920 -1,8855 0,2759 1,0422 0,8344 0,8047 0,2498 -1,5389 -0,2387 0,4724 0,5265 -0,2069 -0,3942 -0,6926
Una vez interpretados los ejes, podemos extraer algunas conclUSIOnes acerca de las preferencias individuales de los qUlllce sUjetos estudiados. Así, por ejemplo, observamos que el llldividuo 7 se decanta claramente por los automóviles de menor precIO y prestaciones, al contrario que el individuo 1. El llldividuo 2 opta, fundamentalmente, por los vehículos de mayor tamaño.
© Ediciones Pirámide
233
Técnicas de análisis de datos en investigación de mercados
2,5
,---~--~--~:--~--~-~--~--~--,
: 20: - -------~---------}--- ------:----o---~----- -IS-:--- ------{--- ------:--- ---- --~- ----- --¡ i ¡ o o ~ 13 LO ¡ ¡ : i
2 1,5
--------~---------t--------+-----J~-f-----8-+--------i---------~--------+-------5'
: : -o: 1 1 : Bq ¡ --------l-------otencia de no cen.
I
-:;-~ ~,
12,933
I
observada
0,001 0,000
25,867 672,133
0,984 1,000
0,001
25,867
0,984
Variable dependiente: VALORACI. a: Calculado con alfa = 0,05. b: R cuadrado = 0,683 (R cuadrado corregido = 0.630). Pi,;'2 = 3,88; Y Fi.;'2 = 6,93.
En consecuencia, para ambos mveles de significacIón se rechaza la hIpóteSIs nula (puesto que el F calculado: 12,933, es mayor que el F teónco para 2 y 12 g.d.!. Y un mvel de sIgnificacIón del 0,05: 3,89) de igualdad de medias. Los planes de promocIón son valorados de forma sIgnificatIvamente diferente. Respecto a las dos últimas columnas, SPSS presenta el parámetro de no centralidad, empleado en el cálculo de la potencia observada o poder de la prueba (probabilidad de rechazar la hIpótesis nula cuando debe serlo). La potencIa observada nos muestra la probabilidad de que el test F detecte unas diferencias entre los grupos iguales a las encontradas en la muestra. En nuestro caso, la potencIa observada es caSI 1, lo que mdica que casI siempre que se tome una muestra de este tamaño encontraremos que existen efectos de esta magmtud a mvel poblaclOna¡7 6 Éste es un térmmo independiente que nonnaimente se inCluye en el modelo y que se puede exclUIr en el caso de que los datos pasen por el origen. 1 Recordemos que en los tests estadísticos, además del nivel de confianza (l - a), o probabilidad de rechazar la hipóteSIS nula cuando es falsa (siendo a el error tlpo 1), está el poder de la prueba o proba-
290
© Ediciones Pirámide
AnálisIs de la varianza La vanable dependiente se distribuye aproxImadamente como una normal, como lo prueban los tests de K - S (p > 0,2) y Shaplro-Wilk (p = 0,26). Como hay igualdad en el tamaño de las muestras la presencIa de heteroscedastIcidad no afectaría decIsIvamente a los resultados del análisIs. De cualquier forma se han realizado los tests adecuados que proporcIOnan los paquetes estadístIcos: test de Levene (para F- 2,12) =0,649168 y test de Cochran =0,730641. Los resultados de estos tests no nos permiten rechazar la hIpótesIs de homoscedastIcidad, ya que la probabilidad de cometer un error al rechazar la hIpótesis de homogeneidad de la vananza es excesivamente alta (con un a de 0,65 y 0,73). El coeficiente de determmación en este ejemplo es l2,933(SCF)/18,933(SC1) = = 0,68; lo que significa que un porcentaje considerable de la variabilidad de la vanable dependiente (puntuacIOnes) es explicada por la variable Independiente (planes de promoción). Conocida la existencIa de diferenCIas en la valoración otorgada a cada uno de los planes promoclOnales, se trata alIara de identificar entre qué grupos se producen (análisis post hoc). Para ello contamos con dos tipos de procedi1lllentos (Uriel, 1995): La construcción de Intervalos de confianza individuales, que constituye el método más recomendable cuando se especifican las comparaciones correctas. Construyamos un Intervalo de confianza para cada grupo y para un mvel de confianza del 95%, siendo el valor de ( para 12 gdl 2,1 79; para PI se construye de la sIgUIente forma: )'1
± (0.05/2
7
n,
= 6 ± 2,179
~0/c5 => [5,311; 6,689] '15
para 1-l2, (0.0512 Y-2+ -
-!MCR + 2179 ~O, F = 4' 4 -, -f55 => [3"711' 5089] ,
Finalmente, para!i3 el intervalo es [3,1l1; 4,48]. Esto significa que es el plan 1 el que nada tIene en común con el plan 2 y el 3 (los intervalos no se solapan). bilidad de rechazar la hipóteSIS nula cuando debe serlo, esto es, (1 - fJJ, donde f3 es el error (¡po II o probabilidad de no rechazar la hipótesis nula cuando debe serlo. f3 no es constante y, ceteris paribus, se prefiere un test con más. poder a otro con menos. f3 varía de forma opuesta al lllvel de sIgnificación, SI éste disminuye el poder de la prueba se reSIente. Por otro lado, a mayor tamaño de la muestra mayor poder de la prueba. Pues bien, los programas informáticos proporcionan el poder de la prueba y, en términos generales, se recomIenda que su valor supere el 0,80. Si la muestra es muy grande una diferencia relativamente pequeña puede resultar SIgnificativa, por 10 que además de observar el nivel de signIficación ha de observarse el poder de la prueba. Para un tratanuento con un efecto reducido es necesario tomar muestras mayores que en el caso de un tratamIento con un efecto mayor para alcanzar un nIvel similar del poder de la prueba. © EdicIOnes Pirámide
-
291
Técnicas de análisis de datos en investigación de mercados -
La realización de tests que prueban las comparaciones múltiples. Este procedimiento tiene el nesgo de «¡nflar» el error tlpo 1. Existen diferentes tests que proporcionan un lllvel de significación para cada comparación por pares de grupos. Para todos los tests realizados, las diferencias entre el plan 1 con respecto al 2 y al 3 son significativas (un ex menor del 5% y un mtervalo en el cual los límites tlenen el mismo signo), mientras que ocurre todo lo contrano en las comparaciones entre el plan 2 y el 3, que tlenen un lllvel de significación supenor a 0,05 e intervalos de confianza que contienen el cero. TABLA 7.5
ComparacIOnes múltlples 8
DHS de TUkey
2 3 1 3 1 2
1,600 2,200 -1,600 0,600 -2,200 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,01 0,00 0,01 0,40 0,00 0,400
0,407 1,007 -2,793 -0,593 -3,393 -1,793
2,793 3,393 -0,407 1,793 -1,007 0,593
I
2 3
2
1
3
3 1 2
1,6 2,2 -1,6 0,6 -2,2 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,013 0,001 0,013 0,432 0,001 0,432
0,353 0,953 -2,847 -0,647 -3,447 -1,847
2,847 3,447 -0,353 1,847 -0,953 0,647
2 3 1 3 1 2
1,6 2,2 -1,6 0,6 -2,2 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,011 0,001 0,011 0,614 0,001 0,614
0,357 0,957 -2,843 -0,643 -3,443 -1,843
2,843 3,443 -0,357 1,843 -0,957 0,643
1
2 3 Scheffe
Bonferroni
1 2 3
Vanable dependiente: VALüRACI. Basado en medias observadas. El ténmno error es Error. a
La diferencia d.e medias es significatIva al nIvel ,05.
En definitlva, el plan 1 es el preferido por parte de los distribuidores tradiclOnales de la empresa, al haber obtenido unas valoraclOnes slgnificatlvamente supenores a las de los dos planes restantes, tal y como se muestra en la figura SigUIente: 8
Ante la gran vanedad de tests disponibles se ha optado por seleccionar los que se expresan en la
tabla.
292
© Ediciones Pirámide
Análisis de la varianza
7
,, ,
6,5
------------------t-------------------{-------------------1------------------, , o
6 5,5 ~
:su
5
E'"
§ 4,5
'"
4 3,5 3
,,, ,,
,
,,
,
,, , ,, ,
,, ,
,,
---- --- ----+--------- - ---- ----.,----------- ------, ,
------------------~-------------------t-------------------i-------------------
,,
,
-----------------T----------~----------T------------------
::::::::::::::::::t:::::::::::~:::--------j--------::::::::::: ¡,
:,
,
,
o
- ---- ------ ---- ---,------------ ------- T-----------
------ -----
-------------------i------------.,.------1---------------- __ 1--------,
,, ,,
, ,,,
2 Plan promocional
3
2,5
I ±DeSVlación típIca c=J ±Error estándar
_
O Media Figura 7.1.
2.2.
Representación de las puntuacIOnes.
ANOVA con varios factores
2.2.1.
Ejemplo: modelo factoríal completo
La empresa ANAGOGIA * ha recogido mformación entre sus minonstas sobre la necesidad de realizar más promoción a la distribución (vanable medida en un escala de 1, no es necesaria más promoción, a 7, sí lo es), para lo cual tiene en consIderación la antIgüedad de la relación con la empresa y la zona temtonal en la que trabaja. En esta sítuación mteresa conocer cuál es la valoración de la necesidad de promoción según la zona y según la antigüedad de la relación empresa-distribuidor y, además, la evaluación de la posible mteracción de estos dos factores. Se trata de un diseño 3 x 3. puesto que se distmguen tres zonas (A, B Y C) Y tres niveles antigüedad (l larga. 2 media y 3 corta). Siendo: -
-
* © Ediciones Pirámide
Zona A. Próxima al centro de producción pnnclpal, donde eXIste un fuerte arraIgo de nuestra marca y en la que ocupa una postción de liderazgo mdiscutible. Zona B. Más alejada del centro de producción pnnclpal, donde la marca no Véase fichero en la dirección www.ugr.es/-tluque.
293
Técnicas de análisis de datos en investigación de mercados
-
tIene tanta implantación y en la que ocupa, como mucho, una posICión de liderazgo compartido. Zona C. Donde la empresa goza de una menor implantación y la marca es una marca más.
2.2.2.
Modelo e hipótesis
Si en lugar de una sola variable explicatIva contamos con más de una (supongamos dos, que es el caso más sencillo, two-way ANOVA), el modelo se expresa: Yij = /1 + a i + f3j + (a[3)ij + lOij
siendo ahora: Yé Valor de la vanable correspondiente a la modalidad i del factor A y a la J del B. /1: Media genera!. a i : Modalidad, del factor A. f3i Modalidad J del factor B. (a[3)ij: Interacción entre los lllveles i,) de los factores A y B, respectIvamente.
Los supuestos de partida (normalidad, homoscedasticidad, llldependencIa) se mantienen también ahora. Las hipótesIs a contrastar se amplían a una por cada factor más la de interacción (para tres factores habría tres lllteracClOnes de pnmer orden, la del factor A con B, A con C y B con C, y una lllteracción de segundo orden, la de A con B y con C, y así suceSIvamente para más factores). -
Respecto a! pnmer factor (A):
Ho' al = ~ =.,. = al =O. H I • No todas las ai son nulas. -
Respecto al segUndo factor (B): H o' f3¡ =/32 =... = f3¡ =O. H¡: No todas las f3i son nulas.
-
Hipótesis sobre mteracción: H o: (a[3)ij = O. H¡: No todas las (a[3)ij son nulas.
2.2.3.
Descomposición de la varianza
Para dos factores, los datos se pueden presentar en una tabla de doble entrada, en la cual las modalidades de un factor son las filas y las del otro las columnas. La descomposIción de la varIanza total da lugar a una parte debida al factor A, otra al factor B y otra a la lllteracción entre ambos y, por últImo, a la residual. Así, SCT = SCFA + SCFB + SCFAX B + SCR
294
© Ediciones Pirámide
Análisis de la varianza Como el desarrollo se hace enreveSado, y puesto que carece de Interés práctico la realización de los cálculos necesarios, dado que eXIsten muchos paquetes InformátIcos que nos facilitan todo el detalle de los resultados, pasamos directamente al cuadro resumen del análisIs, sabIendo que los grados de libertad para la suma de cuadrados totales es Igual a la suma de las diferentes partes en que se descompone la vanación total, esto es: gdl(SC1) = (I - 1) + (J - 1) + (I - I)(J - 1) + (n -lJ)
=n -
I
TABLA 7.5 ANOVA con dos factores 1
J
,
••
(
:'" (r-)) " TT
••
Int~rv~l() dé confianza al 95 %
Límite' Lhnite ,lnferi6r superIor
....
2 3 1 3 1 2
1,27 2,20 -1,27 0,93 -2,20 -0,93
0,30 0,30 0,30 0,30 0,30 0,30
0,00 0,00 0,00 0,01 0,00 0,01
0,54 1,48 -1,99 0,21 -2,92 -1,66
1,99 2,92 -0,54 1,66 -1,48 -0,21
2 3 1 3 1 2
1,27 2,20 -1,27 0,93 -2,20 -0,93
0,30 0,30 0,30 0,30 0,30 0,30
0,00 0,00 0,00 0,01 0,00 0,01
0,51 1,45 -2,02 0,18 -2,95 -1,69
2,02 2,95 -0,51 1,69 -1,45 -0,18
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0,27 0,27 0,27 0,27 0,27 0,27
0,00 0,00 0,00 0,00 0,00 0,00
0,55 1,85 -1,85 0,65 -3,15 -1,95
1,85 3,15 -0,55 1,95 -1,85 -0,65
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0,27 0,27 0,27 0,27 0,27 0,27
0,00 0,00 0,00 0,00 0,00 0,00
0,52 1,82 -1,88 0,62 -3,18 -1,98
1,88 3,18 -0,52 1,98 -1,82 -0,62
© EdicIOnes 1?irámide
AnálisIS de la varianza TABLA 7.33 (contznuación) i'
;;'!>
TI
« REGULARI
T
I
(1 ~1)
DHS de Tukey
1
3
Scheffé
1 2 3
DHS de Tukey
1 2 3
Scheffé
1 2 3
© EdicIOnes Pirámide
--
Error típiCO
I
2
CONFIANZ
J)ifereh~ía
NTRABAJA NTRABA.JA I (1) L de medias (1)
I
I I I
Sigo
Intet'Val() de confianzaill 95% LÍpliteJFmite
< inferior,
s~perior
2 3 1 3 1 2
-0.07 0,33 0,07 0.40 -0.33 -0.40
0,30 0,30 0,30 0,30 0.30 0.30
0,97 0,52 0,97 0,39 0,52 0,39
-0,39 -0,66 -0.32 -1,06 -1,12
0,66 1.06 0.79 1,12 0,39 0.32
2 3 1 3 1 2
-0,07 0,33 0,07 0,40 -0.33 -0.40
0,30 0.30 0.30 0,30 0,30 0,30
0,98 0.55 0.98 0.42 0,55 0.42
-0,82 -0.42 -0,69 -0.35 -1.09 -1,15
0,69 1,09 0.82 1,15 0.42 0.35
2 3 1 3 1 2
-0,17 -0,13 0,17 0,03 0,13 -0.03
0,27 0,27 0,27 0,27 0,27 0,27
0,81 0,88 0,81 0,99 0,88 0,99
-0,81 -0,78 -0.48 -0,61 -0,51 -0,68
0,48 0.51 0.81 0,68 0.78 0,61
2 3 1 3 1 2
-0,17 -0,13 0,17 0,03 0,13 -0.03
0,27 0,27 0.27 0,27 0,27 0,27
0,83 0,89 0,83 0,99 0,89 0,99
-0,84 -0,81 -0,51 -0,64 -0,54 -0,71
0,51 0,54 0,84 0,71 0,81 0,64
~0,79
333
Técnicas de análisis de datos en Investigación de mercados
!
4,50 4,45 4,40
00
1S
,,
,,
---------t---------- --;.-.. ~-+ :::-_::-:.:::::-..::-- ~_ . . .~--------, ~,
4,35
4,30 :: 4,25 00 4,20 " =§ 4,15 ~
4,10 4,0~
4,00 3,95
Figura 7.13.
---- ------r---- --- ---.,..!':---- -----{- --- ---- --- ------ ----f- ----------
__________ ~ I
""
~~~--------------J-------
I
&... : --------- ,.-- --- --------------- - ..,------ --,, ,
~
,, ,, , , .J____ _ ,, ,, ,,, , , -- --- -----,.---------- ------- ---.,-------- ---- ----- ---r---------,, ,, ,,1.. _________ } _ ,, ,, -o- REGULARl , ---------- .., --------------------- ...,----------------------,...---------, ,, ,, ,, - o - CONFIANZA G 1:1 G 3:3 _________ -lo
1-
Representación de medias. Efecto pnnc1pal: NTRABAJA. Rao R(4,160) = uO; p < 0,3577.
,,
1,
-------- --------1------
: -------------l---------,
, , 1--- ------ -~-----------------~------------- ------- ,-- ---- ---, , ,, ,, ,
~ S
5,0
"gj
4,5 I---------~-=--=--:.-~-:-~-~-------¡----------------------i----------
~
4,0
~
3.0 2,5
Figura 7.14.
_
~--------------
5,5 1---------
3,5
_
: --------- --r---- --- ----
--- ---- -- t, --- ------- --- --- ----- ~---------- - - -------f', --- ---- --,
6,0
334
,,
---------t---------------------.J----------------------~----------
,
,
,
:
---r;J---_
:
,,
,,
,,
I----------;---------------------¡--------':"-'='----""'-..::;-.:$---------
::::::::::~:~:~::::~::::~:~~~::~~:~:::::::~:~::~::~;~::::::::: , , , ¡
¡
i
ANTIGUED -o- G_J:1 -0-
ANTlGUED G_2:2 ANTIGUED G_3:3
Representación de medias. Two-way lllteractlOn. Rao R(8,160) = 0.29; p < 0.9684.
© Ediciones Pirámide
AnálisIs de la varianza
6
5.5 N
3
5
~
4,5
~
4
u
~
3,5 3
, , -----------,----------------------,---------, ,
, , ,, ,, ,, ---------~---------------------:----------------------:---------,, ,,, ,,, , ---------O-----------6.-••
....
I
,1 1 1 I
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 i 2 2 2 2 2 2 2 2
·;f.(.(.;. (.;.;•
.}.C-0;
-r(wI.iJ·.·.·· 0,513 0,382 0,078 0,841 0,765 0,273 0,358 0,748 0,240 0,439 0,467 0,775 0,150 0,751 0,412 0,410 0,169 0,449 0,449 0,099 0,353 0,464 0,565 0,517 0,653 0,574 0,13 0,862 0,456 0,603 0,842 0,701 0,526 0,719 0,073
..
Ce"~
I
0,935 0,999 1,000 0,995 0,996 1,000 0,999 0,996 0,747 0,909 0,999 0,996 0,567 0,976 0,897 0,999 0,614 0,913 0,913 1,000 0,862 0,919 0,998 0,936 0,998 0,950
F 0,994 0,999 0,998 0,995 0,970 0,999 0,997 1,000
'
.
Puntuación discriminante
"''''l'Wl'l'0r P(G/ll)
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1
I
0,065 0,001 0,000 0,005 0,004 0,000 0,001 0,004 0,253 0,091 0,001 0,004 0,433 0,024 0,103 0,001 0,386 0,087 0,087 0,000 0,138 0,081 0,002 0,064 0,002 0,050 0,486 0,006 0,001 0,002 0,005 0,030 0,001 0,003 0,000
-0,830 -2,358 -3,248 -1,685 -1,783 -2,580 -2,402 -1,805 -0,310 -0,709 -2,211 -1,769 -0,045 -1,167 -0,664 -2,307 -0,109 -0,726 -0,726 3,220 0,642 0,839 2,147 0,922 2,020 1,010 0,026 1,744 2,316 2,091 1,771 1,187 2,205 1,931 3,364
© Ediciones Pirámide
Análisis discriminante • Grupo. • Probabilidad más alta. Segunda probabilidad más alta de pertenencIa a un grupo: • Grupo. • Probabilidad. Resultados de la función discrmunante para cada uno de los casos. Los casos mal clasificados por medio de la función discnmmante aparecen sombreados en la tabla 9.12. Otra forma de clasificar los casos consIste en emplear las funcIOnes lineales de Fisher (tabla 9.13), de forma que se aSIgnaría cada mdividuo a aquel grupo para el que obtUVIera una puntuación supenor. Los resultados del proceso aparecen recogidos en la matnz de confusión o clasificación (tabla 9.14). La función discnmmante obtemda es capaz de clasificar un 94,3 % de los casos correctamente. ¿Son buenos los resultadOS? Para responder a la pregunta se puede utilizar el cnteno de la probabilidad máxzma o el criterio de la probabilidad proporcIOnal. En nuestro ejemplo, debido a la similitud de las proporciones de los dos grupos considerados (0,51 y 0,49) es prácticamente Igual emplear cualquiera de los dos métodos. Por ejemplo. para el criterio de la probabilidad proporcional. el valor es:
valor que se sitúa bastante por debajO del hit ratio obtenido (94,29%). TABLA 9.13
Funcíones discnmznantes lineales de Fisher
.. .•...•
-Resultacjos
~ajos
Medios
•
ti en el presupuesto de promoción con respecto al período
anlenor
42,269
43,142
ti en el presupuesto de publicidad con respecto al eJerCICIO
antenor Inversión en patroClTI1O 1996 Duración de la campaña de promoción Duración de la campaña de publicidad (Constante)
© Ediciones Piramide
-60,845 59,248 42,010 -40.472 -44,218 -42,790 -30.424 -29,802 -6.642,647 -6.986,949
413
Técnicas de análisIs de datos en investigación de mercados TABLA 9.14
Resultados de la clasificación
18 (100%)
0(0%)
2 (11,8%)
20
18
15 (88,2%)
17
15
35
En el caso de que se considere como buena una función cuando obtIene unos resultados mejores en un 25% que los obtenidos por azar, la presente función (con un 94,29%) lo es, ya que supera con creces esta cantidad (50 + 0,25 x 50 = 62,5%). Por otra parte, la Q de Press toma un valor de: Q
= [35 -
(33 x 2)f 35(2 -1)
= 27,457
que comparado con la ji-cuadrado, para un grado de libertad y un mve1 de significaCIón del 1% (6,63), se ha de conclUIr que la función es significativa para discnminar entre grupos. Según el criteno de Huberty, todos los resultados se muestran significatIvos (tabla 9.15) a un nivel de Significación del 5% (2 = 1,96). TABLA 9.15
1 2 Total
18 15 33
18
17 35
324 289
9,257 8,257 17.514
4.123 3.272 5.235
El Índice de Significación Práctica, que mide la magmtud en la que el resultado de aplicar el análiSIS discnmmante mejora a la clasificación por azar, para nuestro ejemplo es del 88,56%, como se desprende de la sigUIente expresión:
414
© EdicIOnes Pirámide
Análisis discriminante ISP = o/n - e/n .100 = 33/35 -17,514/35 .100 = 88,56% l-e/n 1-17,514/35
Es decIr, la función discrlmínante reduce el error que cometeríamos, SI clasificáramos al azar, en un 88,56%. Para la interpretación de la función discnmmante recummos a las correlaCIOnes que presenta con las vanables Independientes (tabla 9.16), de donde se desprende que las vanables más Influyentes en la función -y, por tanto, con mayor poder discnmmante- son la duración de la campaña de promoción y la duración de la campaña de publicidad. TABLA 9.16 Correlaciones zntragrupo entre las variables discriminantes y la función discriminante estandarizada
1
Duración de la campaña de promoción Duración de la campaña de pnblicidad Incremento en el presupuesto de promoción con respecto al período antenor Incremento en el presupuesto de publicidad con respecto al ejerCIcio antenor Inversión en patrocHuo 1996
0.757 0.535 0.280 0.255 0,105
Además, observando los coeficientes estandanzados de la función discnminante (tabla 9.8), se comprueba que a las empresas con resultados medios se las aSOCIa con realizar durante muchos días campañas publicitarIas y promocionales, nuentras que las de resultados baJos 10 están a Incrementos notables en la inversión en publicidad y promoción con respecto al período antenor, así como a hacer elevadas inversiones en patrOCInIO.
4.2.
EjemplO 2 mlSCRIMIN 2)*
Este ejemplo no es más que una ampliación del antenor. Ahora, en lugar de considerar dos resultados, se consideran tres, por 10 que se aplica el análisis discnminante múltIple, mediante el método de los pasos, para la obtención, de las dos funCIOnes discrinunantes. Además, se considera que las probabilidades a pnon de pertenencia de los Individuos (empresas) a los distIntos grupos no son idénticas. Se
* © Ediciones Pirámide
tii
Véase fichero en la dirección www.ugr.esl-Uuque.
415
Técnicas de análisis de datos en investigación de mercados admíte la muestra como representatIva de la población de la que procede, de forma que un mayor tamaño de la muestra de un grupo Indica mayor probabilidad a pnon de que un Individuo cualqUiera pertenezca a ese grupo. La partIculandad con respecto al ejemplo anteríor reside en la necesidad de desarrollar dos funCIOnes para discnminar entre los tres grupos: una para distinguir entre un grupo y los otros dos, y otra para discnminar entre estos dos últimos grupos. La tabla 9.17 informa acerca de las especificacíones del modelo elegido.
TABLA 9.17 EspecificaCIOnes del método empleado Selección de vanables por pasos Criteno de selección: mml1nizar la lambda de Wilks Máximo número de pasos Nivel de tolerancia mínimo F parcial mínima para entrar F parCial máxima para salir FunCIOnes canónicas discnmmantes: Máximo número de funCIOnes Mímmo porcentaje acumulado de la vananza Significación máXIma de la lambda de Wilks
10 0,001 3,84 2,71 2
100,00 1,0000
Probabilidades a priori: Grupo Probabilidad a pnon Nombre l 2 3
0,36735 0,34694 0,28571
BaJOS Medios Altos
Entre toda esta Información conviene resaltar lo Siguiente: En pnmer lugar, el criterío utilizado para obtener las funCIOnes discrimInantes en nuestro ejemplo será el de mimmlzar la lambda de Wilks. También se sumInistra Información relatIva al número de Iteracíones que se van a desarrollar para la estimación de las funcíones, en este caso 10 (el número máXimo de iteraciones que emplea el programa utilizado es el eqUivalente a multiplicar el número de variables Independientes por dos). Por otro lado, aparece el nivel de toleranCia mímmo de una vanable para tener opcíones a entrar en el modelo. También el mvel del estadístiCO mínimo para que una vanable entre en el modelo (F mímmo), así como el valor que,
416
© EdiCiones Pirámide
Análisis discnmmante en caso de no mantener una vanable que ya esté dentro, le hará salir del mIsmo (F máxlmo)15 Además, se especifica el número de funcIOnes discnminantes que vamos a . obtener, en este caso dos, número resultante de restar uno al número de grupos de la variable dependiente. Por último, muestra las probabilidades a pnon de pertenencIa de un IndivIduo cualqUIera a cada uno de los grupos (en este caso, se ha optado por detenninarlas en proporción al tamaño de los grupos en la muestra). El test de Box (tabla 9.18) pone de manifiesto la idoneidad de aplicar el análiSIS discrimInante. al cumplirse la asunción de Igualdad de matnces de covarIanzas entre los grupos (p = 0,6112).
TABLA 9.18 Logantmo de los determínantes Resultados obtenidos con la estrategia de
Logaritmo del determinante
comunicación
BaJOS Medios Altos Intragrupos combinada M de Box F aproxImado gl 1 gl2
Significación
2 2 2 2
3,466 5,528 3,071 3,480
4,791 0,747 6 38.515,880 0,611
La tabla 9.19 proporciona información relativa a todas las variables Independientes consideradas (nIvel de toleranCIa, la F para entrar y la lambda de Wilks) antes de inICIarse el proceso de determinación de las funCIOnes discrimInantes. Después de la primera iteración, la varIable publicld (duración en días de las actividades publicitarIas) que en la tabla 9.19 presenta un mayor nIvel de F entra en el modelo. A continuación se repiten los cálculos de las F del resto de las variables independientes, así como sus niveles de tolerancia (tabla 9.20), de tal forma que la variable que aún no esté dentro y presente un mayor nIvel de F (cumpliendo con el mínimo para poder entrar), y siempre que satisfaga la restricción de tolerancia, en15 Estos valores los utiliza el programa SPSS por defecto; no obstante, pueden ser cambiados por parte del USUarlO.
© Ediciones Pirámide
j
tt
417
Técnicas de análisIs de datos en investigación de mercados TABLA 9.19
, .'
., Y.
Variables no incluidas en el modelo después del paso O
l'
•••••••
,Tf)le~ªIl~aIg~~a
fp¡tra-_~nt",lr
1,00000 1,00000 1,00000 1,00000 1,00000
13,2141244 16,0575976 8,1784337 49,0726381 54,4175978
1,00000 1,00000 1,00000 1,00000 1,00000
lNC-PROM lNC-POOL PATROCIN PROMOCIO PUBLICID
,
Lambda d~Wilks 0,6351113 0,5888739 0,7376894 0,3191225 0,2970901
TABLA 9.20 Resultados del primer paso del análisis En el paso 1, la variable PUBLICID entra en el análiSIS: Lambda deWilks F equivalente Significación
0,29709 54,41760 0,0000
Variables en el análiSIS después del pnmer paso:
Var¡abl~ PUBLICID
Lambda d~ Wilks
.F para
1,0000000
54,4176
0,29709
Variables no mcluidas en el análisis después del pnmer paso: . Var¡abj~s INC]ROM INC]UBL PATROCIN PROMOCIO
..
Tolerait~ia-
0,8660302 0,7078760 0,9331250 0,9715093
.. 'l'';i~t~;;ci~irriíniJha 0,8660302 0,7078760 0,9331250 0,9715093
F para
~ntrar
0,3404781 0,1707533 0,7400567 12,5891289
Lambda de Wilks 0,2926614 0,2948524 0,2876295 0,1905015
trará en el modelo en el paso dos (tabla 9.21). Sólo la vanable promocio (duración en días de las actividades promoclOnales) cumple esta condición. Tras el paso dOS, en el que entra la variable promoclO, nmguna de las vanables mdependientes restantes cumple las especificaCIOnes para poder entrar en el modelo (tabla 9.21); por tanto, el proceso de detennmación de las funciones discnmmantes se detiene en este paso. Los coefiCIentes estandarizados de las dos funCIOnes discrimmantes resultantes se muestran en la tabla 9.22.
418
© Ediciones Pirámide
Análisis discriminante TABLA 9.21 En el paso 2, la vanable PROMOCIO entra en el análiSIs: Lambda de Wilks F equivalente Significación
0,19050 29,05057 0,0000
Variables en el análisIs después del segundo paso: Tol~rancia
PROMOCIO PUBLICID
0,9715093 0,9715093
12,5891 15,1914
0.2970901 0.3191225
Variables no Incluidas en el análisIs después del segundo paso: i '.
"i,,'"
INC]ROM INC_PUBL PATROCIN
0,7886299 0,6529398 0,7198115
F
'.
1,
0,7886299 0,6529398 0,7198115
~.
'.
0,1710210 1,1175567 3,1824109
T.
.
ne Wilks
0,1890319 0,1812921 0,1664269
TABLA 9.22
Coeficientes estandarizados de las fimciones diSCriminantes canónicas ,o • • •
,o,.
i
PROMOCIO PUBLICID
1
1
0,62889 0.67856
12
0,79613 -0,75424
El entena de la lambda de Wilks mforma sobre la sIgnificación de las funciones discriminantes tanto conjuntamente como cada una de ellas por separado (tabla 9.23). Lógicamente, las funcIOnes discnminantes obtenidas mtentan explicar la máxima vanación posible eXIstente en las vanables independientes entre los diferentes grupos, Así, la primera intenta explicar lo máximo posible de esta variación. La segunda, que es ortogonal a la primera, intenta explicar lo máXImo posible de lo que resta, Los resultados proporcIOnan un valor propIO (íl) para cada función discnmínan© Ediciones Pirámide
tri'
419
Técnicas de análisIs de datos en investigación de mercados TABLA 9.23 Significación de las funciones Función.
1 2
Valor propio
3,7812 0,0979
%.••·.;de.. .·, ICorl"~la,ció~l,_J.?ync~ó'n varianza canomca, . exclUIda
97,48 2,52
o
0,8893 0,2986
1
Lambda de Wilks
.
0,190501 0,910832
I 75,443 4.250
4 1
Sigo
0.0000 0,0393
te. El .valor propIO es el ratIO entre la suma de los cuadrados entre grupos (SCE) y la suma de los cuadrados mtragrupos (SC!). Igualmente se sumimstra la correlación canómca (17) de cada funCIón discnmlnante con la vanable categónca que define los grupos, y expresa la parte de la varianza total explicada por la función.
172
=~ ~
1 + A2
= .1
3,7812 1+3,7812
= 0,8893
0,0979
= 0,2986
V1 + 0,0979
La correlación canómca elevada al cuadrado es una medida de la fortaleza de la función. Aunque la correlación canómca al cuadrado varía entre cero y uno, no eXISte una regla de aceptación general que determine cuándo un valor es alto. El mvestlgador debe comparar tal valor con el obtenido por aplicaCIOnes SImilares y, por tanto, decidir SI ese valor es alto, baJO o medio. Los resultados confirman que la capacidad explicativa de la segunda función es muy limitada, sobre todo SI se compara con la pnmera. Prescmdir de esta función no afectaría SIgnificativamente a la clasificación final. Las dos funCIOnes resultantes del análiSIS conjuntamente consideradas «
View more...
Comments