Analiza Componentelor Principale - SAS
January 29, 2017 | Author: AlexandraCalin | Category: N/A
Short Description
model proiecte sas...
Description
Analiza Componentelor Principale - SAS ANALIZA COMPONENTELOR PRINCIPALE
ACADEMIA DE STUDII ECONOMICE,BUCURESTI 2012
Proiect Analiza Datelor
0.Descriere date Tema Proiectului: Tema proiectului are ca scop determinarea trasaturilor masinilor de lux de catre un agent de vanzari independent ,care determina cumparatorul. Sursa Datelor: Datele au fost luate de pe urmatoarele siteuri: http://www.autosaga.ro, http://www.123auto.ro/, http://www.autolatest.ro/,precum si de pe paginile oficiale ale producatorilor diferitelor marci de masini prezente in proiect.
Figura 1.0 este formata din 30 de linii ce contin 30 de modele de automobile si 10 coloane ce cuprind diverse trasaturi ale acestora care vor evidentia modelul cel mai compatibil pentru clientul agentului de vanzari. Cele 10 Trasaturi sunt prezentate in figura 1.0.
FIGURA 1.0
1
Volum Portbagaj (litri)
V1
2
Greutate(kg)
V2
3
Capacitate rezervor
V3
4
Viteza maxima (km/h)
V4
5
0-100 km/h(sec)
V5
6
Consum mediu)l/100km)
V6
7
Emisii (g CO2/km)
V7
8
Capacitate (cmc)
V8
9
Putere(CP)
V9
10
Pret fara taxe incluse (Euro)
V10
FIGURA 2.0- sunt prezentate cele 30 de modele de automobile precum si caracteristicile acestora.
Model\Trasat. Aston martin DB9 Audi R8 Bentely Continental FLYNG SPUR
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
175 100
1710 1560
85 75
300 301
4.9 4.6
17.8 14.6
421 5935 349 4163
420
475 520 125 634
90 70 69 68 72 95 105 73 90
312 250 250 320 235 311 330 250 250
5.2 5 4.7 3.9 8.5 4.1 3.7 7.1 5.8
17.1 10.4 14.9 14.7 7.4 18.3 17.9 11.6 13.1
410 243 354 350 270 420 490 282 298
5998 4395 4371 7008 2992 4308 5999 3664 5026
560 146000 407 95000 450 69000 512 74000 240 45000 490 165000 620 211000 295 50000 390 64000
450
125000 88500
Citroen C6 3.0HDI
488
Ferrari F430 Spider
220 320 452 410
2475 1805 1654 1418 1816 1595 1765 1938 2195
275 500 330 110 535 378
1794 1855 1828 1634 3175 2120
80 70 71 90 105 64
250 250 250 325 200 270
5.9 5.7 4.8 3.7 9.2 4.8
10.5 11.1 12.3 14.7 11.1 11.4
265 264 301 380 300 256
3696 5000 5000 5204 3628 4969
320 49000 385 58000 510 89000 560 148000 271 88500 423 62000
330 173
2730 2055
84 75
250 280
6.3 5.3
9.3 15.2
219 345
4969 4691
394 93000 440 113000
450
2065
90
285
5.1
15.7
370
4691
440 115000
450 335 500 415 580 135 701
1730 1540 2310 1675 2315 1500 2715
59 60 95 60 85 64 93
250 250 250 242 242 302 210
4.5 5.6 5 6.3 6.5 4.7 8.2
12 7.1 16.5 10.5 8.2 10.6 10.2
365 355 410 280 198 194 270
6208 3498 6208 1998 2995 3800 4461
450 306 375 295 333 385 286
61000 45000 89500 44000 70000 86000 68000
433 480 235
2315 2150 1740
85 70 70
240 250 244
6.5 6.5 7.2
8.2 12.1 12.2
310 290 320
2995 4414 3195
333 315 260
55000 43000 42000
BMW S5 2010 550 i CADILLAC- XLR-V Corvette 2008 Z06
Ferrari 590 Fiorano Honda Legend Infiniti FX Infiniti G Coupe 37s AT Jaguar XF V8 Jaguar XKR Lamborhini Gallardo Range Rover 3.6 TDV Lexus IS-F V8 Lexus LS-600H Executive Masserati Grancabrio Masserati Quattroporte Sport GT Mercedes C Coupe AMG 63 Mercedes SLK Mercedes ML Mitshubishi Lancer Porsche Cayenne Porsche 911 Carrera Toyota Land Cruiser Volswaken Toureg A8 Hybrid Volvo V8 Alfa Romeo Spider
I. Analiza componentelor principale Definitie1: Analiza componentelor principale este o metoda de analiza multidimensionala care are ca scop determinarea unor noi variabile, n u m i t e c o m p o n e n t e p r i n c i p a l e s i e x p r i m a t e s u b f o r m a c o m b i n a iilor liniare de variabilele originale a s t f e l î n c â t a c e s t e v a r i a b i l e n o i s a f i e caracterizate de o variabilitate maxima. Definitie2: Componentele principale sunt variabile vectoriale abstracte, d e f i n i t e s u b f o r m a u n o r c o m b i n a r i liniare de v a r i a b i l e l e o r i g i n a l e s i care au urmatoarele doua proprieti fundamentale: • s u n t n e c o r e l a t e doua c â t e d o u a s i s u m a p a t r a t e l o r c o e f i c i e n i l o r c a r e definesc combinatia liniara ce corespunde unei componente principale este egala cu unitatea; • p r i m a c o m p o n e n t p r i n c i p a l a e s t e o c o m b i n a ti e l i n i a r a n o r m a l i z a t a a car e i v a r i a n t e e s t e m a x i m a , c e a d e - a d o u a c o m p o n e n t a p r i n c i p a l e s t e o c o m b i n a i e l i n i a r a n e c o r e l a ta c u p r i m a c o m p o n e n t a p r i n c i p a l a s i c a r e a r e o v a r i a n t a cât m a i m a r e p o s i b i l , î n s a m a i m i c a d e c â t c e a a p r i m e i componente etc
1.0Statistici descriptive Figura 3-reda numarul de observatii studiate =30 si numarul de variabile(caracteristicile masinii dupa care se face studiul)=10 Observations Variables
30 10
Figura 4- In figura urmatoare sunt calculate,media,disperisia,variant,minimul,maximul si totalul pentru fiecare variabila.
The MEANS Procedure Variable Mean Std Dev Variance N Minimum Maximum Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ V1 375.4666667 161.8295684 26188.81 30 100.0000000 701.0000000 11264.00 V2 1972.57 413.9949761 171391.84 30 1418.00 3175.00 59177.00 V3 78.7333333 13.0962836 171.5126437 30 59.0000000 105.0000000 2362.00 V4 264.9666667 33.5738849 1127.21 30 200.0000000 330.0000000 7949.00 V5 5.6433333 1.3848150 1.9177126 30 3.7000000 9.2000000 169.3000000 V6 12.5566667 3.1941415 10.2025402 30 7.1000000 18.3000000 376.7000000 V7 319.3000000 70.8554381 5020.49 30 194.0000000 490.0000000 9579.00 V8 4515.97 1159.76 1345041.69 30 1998.00 7008.00 135479.00 V9 397.1666667 97.0812256 9424.76 30 240.0000000 620.0000000 11915.00 V10 85050.00 40919.04 1674368103 30 42000.00 211000.00 2551500.00 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
MEDIA Pentru media variabilelor avem urmatoarele valori: 1.Volumul portbagajului are in medie 375,5 litri; 2.O masina cantareste in medie 1972 de kilograme; 3.In medie,capacitatea rezervorului este de 78,73 de litri; 4.Viteza maxima medie a masinilor studiate este de aproximativ 265 km/ora; 5.Timpul mediu de atingere a 100km/h este de 5,64 secunde; 6.In medie ,consumul mediu a celor 30 de marci de masini este de 12,56 litri/100km; 7.Cele 30 de masini emana in atmosfera,in medie, emisii(g C02/km) 319 grame CO2 per kilometru; 8.Automobilele au in medie Cpacitatea motorului de 4515 centimetricubi; 9.Puterea medie a tuturor masinilor prezentate este de 397,16 CP; 10.Pretul mediu a automobilelor este de 85050 EURO.
ABATEREA STANDARD SI DISPERSIA A 3-a si a 4-a coloana prezinta abaterea standard(standard deviation) si dispersia(variance) caracteristiciilor elementelor.
MINIMUL SI MAXIMUL In a 6-a si a 7-a coloana sunt prezentate minimul si maximul fiecarei caracteristici.astfel pentru prima variabila(volumul portbagajului) avem un minim de 100 de litri si un maxim de 701 litri,pentru a 2-a variabila(greutate) avem un minim de 1418 kg si un maxim de 3175 kg,etc.
SUMA In ultima coloana este prezenta valoarea cumulata a fiecarei caracteristici a celor 30 de masini.Spre exemplu Pretul cumulat a masinilor este P(M1)+P(M2)+........+P(M30)= 2551500 EURO. Unde Mi=modelul de autombil,P(Mi)=pretul masinii i.Se procedeaza in mod analog pentru celelalte variabile.
1.1. Standardizarea datelor Deoarece datele au marimi si unitati de masura diferite se va realiza analiza componentelor principale pe date standardizate.
Definitie3: Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cuo noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile: s c __ Xti=Xti/Si=(Xti-Xi)/Si __ Unde Xi=media celei de a –i a varabila,iar Si =abaterea standard a variabilei Xi unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .
Figura 5 VALORI STANDARDIZATE V1s V2S Aston martin DB9 Audi R8 Bentely Continental FLYNG SPUR BMW S5 2010 550 i CADILLACXLR-V Corvette 2008 Z06 Citroen C6 3.0HDI Ferrari F430 Spider Ferrari 590 Fiorano Honda Legend Infiniti FX Infiniti G Coupe 37s AT Jaguar XF V8 Jaguar XKR Lamborhini Gallardo Range Rover 3.6 TDV Lexus IS-F V8 Lexus LS600H Executive Masserati Grancabrio Masserati Quattroporte Sport GT Mercedes C Coupe AMG 63 Mercedes SLK Mercedes
V3S
V4S
V5S
V6S
V7S
V8S
V9S
V10S
-1.23875 -1.7022
-0.63423 -0.99655
0.478507 -0.28507
1.04347 1.073255
-0.53677 -0.75341
1.641547 0.639713
1.435317 0.419163
1.223558 -0.30434
0.544218 0.235198
0.976318 0.084313
0.61505
1.213622
0.860295
1.40089
-0.32014
1.422396
1.280071
1.27788
1.67729
1.489527
0.893121
-0.40476
-0.66686
-0.44578
-0.46456
-0.67519
-1.07684
-0.1043
0.10129
0.243163
-1.54772
-0.76949
-0.74321
-0.44578
-0.6812
0.733635
0.48973
-0.125
0.544218
-0.39224
1.597565
-1.33955
-0.81957
1.639171
-1.25889
0.67102
0.433277
2.14875
1.182858
-0.27005
0.695382
-0.37818
-0.51414
-0.89256
2.062851
-1.61441
-0.69578
-1.31404
-1.61892
-0.97876
-0.96068
-0.91201
1.242083
1.371105
-1.11447
1.798084
1.421204
-0.17932
0.956244
1.953858
-0.34275
-0.50137
2.005658
1.937021
-1.40332
1.672854
2.409131
1.278742
2.295329
3.078029
0.472926 0.213393
-0.0835 0.537285
-0.43778 0.860295
-0.44578 -0.44578
1.051885 0.113132
-0.29951 0.170103
-0.52642 -0.30061
-0.73461 0.439775
-1.05238 -0.07382
-0.85657 -0.51443
-0.62082
-0.43133
0.09672
-0.44578
0.185344
-0.64389
-0.76635
-0.70701
-0.79487
-0.88101
0.769534 -0.28095
-0.28398 -0.3492
-0.66686 -0.5905
-0.44578 -0.44578
0.04092 -0.60899
-0.45604 -0.08036
-0.78046 -0.25827
0.417357 0.417357
-0.12532 1.162257
-0.66106 0.096532
-1.64041
-0.8178
0.860295
1.788096
-1.40332
0.67102
0.856674
0.593255
1.67729
1.538404
0.985811
2.904464
2.005658
-1.93504
2.568333
-0.45604
-0.27239
-0.76565
-1.2996
0.084313
0.015654
0.356123
-1.125
0.149918
-0.60899
-0.36212
-0.89337
0.390627
0.2661
-0.56331
-0.28095
1.829571
0.40215
-0.44578
0.474191
-1.01957
-1.41556
0.390627
-0.03262
0.194286
-1.25111
0.199117
-0.28507
0.447769
-0.24793
0.827557
0.36271
0.150922
0.441211
0.683056
0.460567
0.223272
0.860295
0.596694
-0.39235
0.984093
0.715541
0.150922
0.441211
0.731933
0.460567
-0.58592
-1.50679
-0.44578
-0.82562
-0.17428
0.644975
1.458952
0.544218
-0.58775
-0.25006 0.769534
-1.04486 0.815066
-1.43043 1.242083
-0.44578 -0.44578
-0.03129 -0.46456
-1.70834 1.234552
0.503843 1.280071
-0.87774 1.458952
-0.93908 -0.22833
-0.97876 0.108751
ML Mitshubishi Lancer Porsche Cayenne Porsche 911 Carrera Toyota Land Cruiser Volswaken Toureg A8 Hybrid Volvo V8 Alfa Romeo Spider
0.24429
-0.71877
-1.43043
-0.68406
0.474191
-0.64389
-0.55465
-2.17111
-1.05238
-1.0032
1.263881
0.827144
0.478507
-0.68406
0.618615
-1.36396
-1.71194
-1.31145
-0.66096
-0.3678
-1.48593
-1.14148
-1.125
1.10304
-0.6812
-0.61258
-1.76839
-0.61734
-0.12532
0.023217
2.011581
1.793339
1.089368
-1.63719
1.846215
-0.73781
-0.69578
-0.04739
-1.14509
-0.41668
0.355518 0.645947
0.827144 0.428588
0.478507 -0.66686
-0.74363 -0.44578
0.618615 0.618615
-1.36396 -0.14297
-0.13125 -0.41352
-1.31145 -0.08792
-0.66096 -0.84637
-0.73438 -1.02764
-0.86799
-0.56176
-0.66686
-0.62449
1.124097
-0.11166
0.009879
-1.139
-1.41291
-1.05208
1.2. Matricea de corelatie Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale Figura 6 -MATRICEA DE CORELATIE Correlation Matrix V1 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1.0000 0.4940 0.1118 -.4692 0.4597 -.3401 -.2560 0.0584 -.3104 -.3006
V2 0.4940 1.0000 0.5518 -.5275 0.6137 -.1884 -.2268 -.0425 -.2843 -.0301
V3 0.1118 0.5518 1.0000 0.1205 0.1052 0.4258 0.4014 0.2158 0.2354 0.6305
V4
V5
-.4692 -.5275 0.1205 1.0000 -.8036 0.6889 0.5586 0.5180 0.8064 0.7140
0.4597 0.6137 0.1052 -.8036 1.0000 -.6004 -.4879 -.5952 -.8427 -.5363
V6 -.3401 -.1884 0.4258 0.6889 -.6004 1.0000 0.7969 0.6404 0.7196 0.7350
V7 -.2560 -.2268 0.4014 0.5586 -.4879 0.7969 1.0000 0.5333 0.6039 0.6526
V8
V9
0.0584 -.0425 0.2158 0.5180 -.5952 0.6404 0.5333 1.0000 0.7297 0.4887
-.3104 -.2843 0.2354 0.8064 -.8427 0.7196 0.6039 0.7297 1.0000 0.7939
V10 -.3006 -.0301 0.6305 0.7140 -.5363 0.7350 0.6526 0.4887 0.7939 1.0000
Se identifica in matrice coeficientii de corelatie mari.Se observa ca intre V6(consum mediu ) si V4(viteza maxima) este o corelatie de 0,689 ,intre V10 (pret) si V4(viteza maxima) o corelatie de 0,714,etc. Figura 7 -Matricea de covarianta Covariance Matrix VARIABLE V1 V2 V3 V4 V5 V6 V7 V8 V9
V1 26189 33096 237 -2549 103 -176 -2935 10962 -4877
V2 33096 171392 2992 -7332 352 -249 -6654 -20385 -11424
V3 237 2992 172 53 2 18 372 3277 299
V4 -2549 -7332 53 1127 -37 74 1329 20171 2628
V5 103 352 2 -37 2 -3 -48 -956 -113
V10
-1990748
-510116
337876
980898
-30392
Covariance Matrix
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figura 8
V6
V7
V8
V9
V10
-176 -249 18 74 -3 10 180 2372 223 96068
-2935 -6654 372 1329 -48 180 5020 43821 4154 1892053
10962 -20385 3277 20171 -956 2372 43821 1345042 82155 23193329
-4877 -11424 299 2628 -113 223 4154 82155 9425 3153595
-1990748 -510116 337876 980898 -30392 96068 1892053 23193329 3153595 1674368103
-VARIANTA TOTALA 1675926481.9
Total Variance
1.3. Vectorii si valorile proprii Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma:
Pi=a1i
* v1 + a2 i * v2+…..+ani*Vn, unde
v1,v2,…..Vn sunt variabilele originale
si aji ponderile din tabelul de mai jos.
Figura 9 Vectorii proprii
Eigenvectors
V1 V2 V3 V4 V5 V6 V7
Prin1
Prin2
Prin3
Prin4
Prin5
-.193339 -.167738 0.132181 0.383043 -.363554 0.378145 0.337032
0.340503 0.573361 0.583524 -.148526 0.266949 0.138795 0.140834
0.637847 0.009506 -.320431 -.034305 -.199576 -.072807 -.101526
0.104735 -.261128 -.090853 -.224424 0.202087 0.341285 0.713608
0.608714 -.423936 0.157228 0.332794 0.037712 -.209042 0.100623
V8 V9 V10
0.304157 0.398117 0.361284
0.153882 0.011610 0.242032
0.588404 0.185598 -.230441
0.048361 -.324740 -.296438
-.431894 -.021208 0.268413
Eigenvectors
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Prin6
Prin7
Prin8
Prin9
Prin10
0.057286 -.059257 0.056050 0.514120 0.263369 0.541701 -.436598 0.126343 -.356954 -.170134
-.198037 0.067641 -.108210 0.456012 0.467798 -.540364 0.265173 0.375736 -.100248 0.064633
0.113331 0.382176 -.657934 0.101447 0.279873 0.275318 0.104482 -.320365 0.262744 0.247418
-.042080 -.463045 -.072024 -.430084 0.435079 0.097712 -.253458 0.275278 0.078428 0.498646
-.034808 -.162988 0.231216 0.037321 0.398314 0.038553 -.028526 -.114746 0.698831 -.504861
Prima componenta principala poate fi scrisa ca o combinatie liniara dintre variabilele originale: Prin 1= -.193339 *V1 +-.167738 *V2 + 0.132181 *V3 + 0.383043 *V4 + -.363554 *V5 + 0.378145 *V6 +-.436598 *V7 + 0.126343 *V8 + -.356954 *V9 + -.170134 *V10.
Se procedeaza in mod similar pentru celalte componente principale. Calculam valorile proprii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala: k
k
Var(Ck)=a unde Ck=componenta principal de ordin k iar a =valoarea proprie corespunzatoare acesteia
Figura 10 Valori proprii
Eigenvalues of the Correlation Matrix
1 2 3 4 5 6 7 8 9 10
Eigenvalue
Difference
Proportion
Cumulative
5.36659449 2.14613774 0.98430855 0.55186725 0.36808722 0.19271333 0.13179566 0.12891483 0.08545945 0.04412149
3.22045675 1.16182919 0.43244130 0.18378003 0.17537388 0.06091768 0.00288082 0.04345539 0.04133796
0.5367 0.2146 0.0984 0.0552 0.0368 0.0193 0.0132 0.0129 0.0085 0.0044
0.5367 0.7513 0.8497 0.9049 0.9417 0.9610 0.9742 0.9870 0.9956 1.0000
In figura 10 prima coloana reprezinta valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta diferenta dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulative al componente dinainte. Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem 2 componente principale care sintetizeaza din punct de vedere informational restul de 8 variabile originale. Astfel prin intermediul primei componente principale se asigura conservarea a 53,67% din varianta totala . Varianta celei de-a doua componente principale este egala cu valoarea proprie 2.14613774 si retine 21,46% din varianta totala iar cumulativ cu prima componenta retine 75,13% din varianta totala.
Corelatia Pearson: Numele complet al acestui coeficient este "coeficientul de corelaţie produs-moment Pearson". Acest coeficient poate fi calculat cu ajutorul relaţiei (A). Valoarea coeficientului de corelaţie Pearson poate varia între +1 şi -1. O valoare apropiată de +1 indică o corelaţie pozitivă
puternică; o valoare apropiată de -1 ne indică o corelaţie negativă puternică, iar o valoare apropiatăde zero ne indică faptul că între cele două variabile nu există nici o corelaţie.
rxy= [1/n*∑(xi-Mx)(yi-My)]/Sx*Sy
(A)
unde - n este mărimea eşantionului format din măsurători pereche (x,y); - xi reprezintă măsurătorile individuale ale variabilei x; - yi reprezintă măsurătorile individuale ale variabilei y; - Mx reprezintă media aritmetică a variabilelor x; - My reprezintă media aritmetică a variabilelor y; - Sx reprezintă deviaţia standard pentru valorile x; - Sy reprezintă deviaţia standard pentru valorile y. Numărătorul din relaţia (A) se numeşte covarianţă (notată cu Sxy) sau variabilitate pereche. Covarianţa este o măsură a gradului în care variaţia unei variabile se potriveşte cu variaţia celeilalte variabile. Figura 11 Coeficientul de corelaţie Pearson Pearson Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0
V1 V1
V1
V2
V3
V4
V5
1.00000
0.49400 0.0055
0.11181 0.5564
-0.46917 0.0089
0.45973 0.0106
V2 V2
0.49400 0.0055
1.00000
0.55177 0.0016
-0.52754 0.0027
0.61375 0.0003
V3 V3
0.11181 0.5564
0.55177 0.0016
1.00000
0.12052 0.5258
0.10523 0.5800
V4 V4
-0.46917 0.0089
-0.52754 0.0027
0.12052 0.5258
1.00000
-0.80356
View more...
Comments