Analiza Componentelor Principale - SAS

January 29, 2017 | Author: AlexandraCalin | Category: N/A
Share Embed Donate


Short Description

model proiecte sas...

Description

Analiza Componentelor Principale - SAS ANALIZA COMPONENTELOR PRINCIPALE

ACADEMIA DE STUDII ECONOMICE,BUCURESTI 2012

Proiect Analiza Datelor

0.Descriere date Tema Proiectului: Tema proiectului are ca scop determinarea trasaturilor masinilor de lux de catre un agent de vanzari independent ,care determina cumparatorul. Sursa Datelor: Datele au fost luate de pe urmatoarele siteuri: http://www.autosaga.ro, http://www.123auto.ro/, http://www.autolatest.ro/,precum si de pe paginile oficiale ale producatorilor diferitelor marci de masini prezente in proiect.

Figura 1.0 este formata din 30 de linii ce contin 30 de modele de automobile si 10 coloane ce cuprind diverse trasaturi ale acestora care vor evidentia modelul cel mai compatibil pentru clientul agentului de vanzari. Cele 10 Trasaturi sunt prezentate in figura 1.0.

FIGURA 1.0

1

Volum Portbagaj (litri)

V1

2

Greutate(kg)

V2

3

Capacitate rezervor

V3

4

Viteza maxima (km/h)

V4

5

0-100 km/h(sec)

V5

6

Consum mediu)l/100km)

V6

7

Emisii (g CO2/km)

V7

8

Capacitate (cmc)

V8

9

Putere(CP)

V9

10

Pret fara taxe incluse (Euro)

V10

FIGURA 2.0- sunt prezentate cele 30 de modele de automobile precum si caracteristicile acestora.

Model\Trasat. Aston martin DB9 Audi R8 Bentely Continental FLYNG SPUR

V1

V2

V3

V4

V5

V6

V7

V8

V9

V10

175 100

1710 1560

85 75

300 301

4.9 4.6

17.8 14.6

421 5935 349 4163

420

475 520 125 634

90 70 69 68 72 95 105 73 90

312 250 250 320 235 311 330 250 250

5.2 5 4.7 3.9 8.5 4.1 3.7 7.1 5.8

17.1 10.4 14.9 14.7 7.4 18.3 17.9 11.6 13.1

410 243 354 350 270 420 490 282 298

5998 4395 4371 7008 2992 4308 5999 3664 5026

560 146000 407 95000 450 69000 512 74000 240 45000 490 165000 620 211000 295 50000 390 64000

450

125000 88500

Citroen C6 3.0HDI

488

Ferrari F430 Spider

220 320 452 410

2475 1805 1654 1418 1816 1595 1765 1938 2195

275 500 330 110 535 378

1794 1855 1828 1634 3175 2120

80 70 71 90 105 64

250 250 250 325 200 270

5.9 5.7 4.8 3.7 9.2 4.8

10.5 11.1 12.3 14.7 11.1 11.4

265 264 301 380 300 256

3696 5000 5000 5204 3628 4969

320 49000 385 58000 510 89000 560 148000 271 88500 423 62000

330 173

2730 2055

84 75

250 280

6.3 5.3

9.3 15.2

219 345

4969 4691

394 93000 440 113000

450

2065

90

285

5.1

15.7

370

4691

440 115000

450 335 500 415 580 135 701

1730 1540 2310 1675 2315 1500 2715

59 60 95 60 85 64 93

250 250 250 242 242 302 210

4.5 5.6 5 6.3 6.5 4.7 8.2

12 7.1 16.5 10.5 8.2 10.6 10.2

365 355 410 280 198 194 270

6208 3498 6208 1998 2995 3800 4461

450 306 375 295 333 385 286

61000 45000 89500 44000 70000 86000 68000

433 480 235

2315 2150 1740

85 70 70

240 250 244

6.5 6.5 7.2

8.2 12.1 12.2

310 290 320

2995 4414 3195

333 315 260

55000 43000 42000

BMW S5 2010 550 i CADILLAC- XLR-V Corvette 2008 Z06

Ferrari 590 Fiorano Honda Legend Infiniti FX Infiniti G Coupe 37s AT Jaguar XF V8 Jaguar XKR Lamborhini Gallardo Range Rover 3.6 TDV Lexus IS-F V8 Lexus LS-600H Executive Masserati Grancabrio Masserati Quattroporte Sport GT Mercedes C Coupe AMG 63 Mercedes SLK Mercedes ML Mitshubishi Lancer Porsche Cayenne Porsche 911 Carrera Toyota Land Cruiser Volswaken Toureg A8 Hybrid Volvo V8 Alfa Romeo Spider

I. Analiza componentelor principale Definitie1: Analiza componentelor principale este o metoda de analiza multidimensionala care are ca scop determinarea unor noi variabile, n u m i t e c o m p o n e n t e p r i n c i p a l e s i e x p r i m a t e s u b f o r m a c o m b i n a iilor liniare de variabilele originale a s t f e l î n c â t a c e s t e v a r i a b i l e n o i s a f i e caracterizate de o variabilitate maxima. Definitie2: Componentele principale sunt variabile vectoriale abstracte, d e f i n i t e s u b f o r m a u n o r c o m b i n a r i liniare de v a r i a b i l e l e o r i g i n a l e s i care au urmatoarele doua proprieti fundamentale: • s u n t n e c o r e l a t e doua c â t e d o u a s i s u m a p a t r a t e l o r c o e f i c i e n i l o r c a r e definesc combinatia liniara ce corespunde unei componente principale este egala cu unitatea; • p r i m a c o m p o n e n t p r i n c i p a l a e s t e o c o m b i n a ti e l i n i a r a n o r m a l i z a t a a car e i v a r i a n t e e s t e m a x i m a , c e a d e - a d o u a c o m p o n e n t a p r i n c i p a l e s t e o c o m b i n a i e l i n i a r a n e c o r e l a ta c u p r i m a c o m p o n e n t a p r i n c i p a l a s i c a r e a r e o v a r i a n t a cât m a i m a r e p o s i b i l , î n s a m a i m i c a d e c â t c e a a p r i m e i componente etc

1.0Statistici descriptive Figura 3-reda numarul de observatii studiate =30 si numarul de variabile(caracteristicile masinii dupa care se face studiul)=10 Observations Variables

30 10

Figura 4- In figura urmatoare sunt calculate,media,disperisia,variant,minimul,maximul si totalul pentru fiecare variabila.

The MEANS Procedure Variable Mean Std Dev Variance N Minimum Maximum Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ V1 375.4666667 161.8295684 26188.81 30 100.0000000 701.0000000 11264.00 V2 1972.57 413.9949761 171391.84 30 1418.00 3175.00 59177.00 V3 78.7333333 13.0962836 171.5126437 30 59.0000000 105.0000000 2362.00 V4 264.9666667 33.5738849 1127.21 30 200.0000000 330.0000000 7949.00 V5 5.6433333 1.3848150 1.9177126 30 3.7000000 9.2000000 169.3000000 V6 12.5566667 3.1941415 10.2025402 30 7.1000000 18.3000000 376.7000000 V7 319.3000000 70.8554381 5020.49 30 194.0000000 490.0000000 9579.00 V8 4515.97 1159.76 1345041.69 30 1998.00 7008.00 135479.00 V9 397.1666667 97.0812256 9424.76 30 240.0000000 620.0000000 11915.00 V10 85050.00 40919.04 1674368103 30 42000.00 211000.00 2551500.00 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

MEDIA Pentru media variabilelor avem urmatoarele valori: 1.Volumul portbagajului are in medie 375,5 litri; 2.O masina cantareste in medie 1972 de kilograme; 3.In medie,capacitatea rezervorului este de 78,73 de litri; 4.Viteza maxima medie a masinilor studiate este de aproximativ 265 km/ora; 5.Timpul mediu de atingere a 100km/h este de 5,64 secunde; 6.In medie ,consumul mediu a celor 30 de marci de masini este de 12,56 litri/100km; 7.Cele 30 de masini emana in atmosfera,in medie, emisii(g C02/km) 319 grame CO2 per kilometru; 8.Automobilele au in medie Cpacitatea motorului de 4515 centimetricubi; 9.Puterea medie a tuturor masinilor prezentate este de 397,16 CP; 10.Pretul mediu a automobilelor este de 85050 EURO.

ABATEREA STANDARD SI DISPERSIA A 3-a si a 4-a coloana prezinta abaterea standard(standard deviation) si dispersia(variance) caracteristiciilor elementelor.

MINIMUL SI MAXIMUL In a 6-a si a 7-a coloana sunt prezentate minimul si maximul fiecarei caracteristici.astfel pentru prima variabila(volumul portbagajului) avem un minim de 100 de litri si un maxim de 701 litri,pentru a 2-a variabila(greutate) avem un minim de 1418 kg si un maxim de 3175 kg,etc.

SUMA In ultima coloana este prezenta valoarea cumulata a fiecarei caracteristici a celor 30 de masini.Spre exemplu Pretul cumulat a masinilor este P(M1)+P(M2)+........+P(M30)= 2551500 EURO. Unde Mi=modelul de autombil,P(Mi)=pretul masinii i.Se procedeaza in mod analog pentru celelalte variabile.

1.1. Standardizarea datelor Deoarece datele au marimi si unitati de masura diferite se va realiza analiza componentelor principale pe date standardizate.

Definitie3: Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cuo noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile: s c __ Xti=Xti/Si=(Xti-Xi)/Si __ Unde Xi=media celei de a –i a varabila,iar Si =abaterea standard a variabilei Xi unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .

Figura 5 VALORI STANDARDIZATE V1s V2S Aston martin DB9 Audi R8 Bentely Continental FLYNG SPUR BMW S5 2010 550 i CADILLACXLR-V Corvette 2008 Z06 Citroen C6 3.0HDI Ferrari F430 Spider Ferrari 590 Fiorano Honda Legend Infiniti FX Infiniti G Coupe 37s AT Jaguar XF V8 Jaguar XKR Lamborhini Gallardo Range Rover 3.6 TDV Lexus IS-F V8 Lexus LS600H Executive Masserati Grancabrio Masserati Quattroporte Sport GT Mercedes C Coupe AMG 63 Mercedes SLK Mercedes

V3S

V4S

V5S

V6S

V7S

V8S

V9S

V10S

-1.23875 -1.7022

-0.63423 -0.99655

0.478507 -0.28507

1.04347 1.073255

-0.53677 -0.75341

1.641547 0.639713

1.435317 0.419163

1.223558 -0.30434

0.544218 0.235198

0.976318 0.084313

0.61505

1.213622

0.860295

1.40089

-0.32014

1.422396

1.280071

1.27788

1.67729

1.489527

0.893121

-0.40476

-0.66686

-0.44578

-0.46456

-0.67519

-1.07684

-0.1043

0.10129

0.243163

-1.54772

-0.76949

-0.74321

-0.44578

-0.6812

0.733635

0.48973

-0.125

0.544218

-0.39224

1.597565

-1.33955

-0.81957

1.639171

-1.25889

0.67102

0.433277

2.14875

1.182858

-0.27005

0.695382

-0.37818

-0.51414

-0.89256

2.062851

-1.61441

-0.69578

-1.31404

-1.61892

-0.97876

-0.96068

-0.91201

1.242083

1.371105

-1.11447

1.798084

1.421204

-0.17932

0.956244

1.953858

-0.34275

-0.50137

2.005658

1.937021

-1.40332

1.672854

2.409131

1.278742

2.295329

3.078029

0.472926 0.213393

-0.0835 0.537285

-0.43778 0.860295

-0.44578 -0.44578

1.051885 0.113132

-0.29951 0.170103

-0.52642 -0.30061

-0.73461 0.439775

-1.05238 -0.07382

-0.85657 -0.51443

-0.62082

-0.43133

0.09672

-0.44578

0.185344

-0.64389

-0.76635

-0.70701

-0.79487

-0.88101

0.769534 -0.28095

-0.28398 -0.3492

-0.66686 -0.5905

-0.44578 -0.44578

0.04092 -0.60899

-0.45604 -0.08036

-0.78046 -0.25827

0.417357 0.417357

-0.12532 1.162257

-0.66106 0.096532

-1.64041

-0.8178

0.860295

1.788096

-1.40332

0.67102

0.856674

0.593255

1.67729

1.538404

0.985811

2.904464

2.005658

-1.93504

2.568333

-0.45604

-0.27239

-0.76565

-1.2996

0.084313

0.015654

0.356123

-1.125

0.149918

-0.60899

-0.36212

-0.89337

0.390627

0.2661

-0.56331

-0.28095

1.829571

0.40215

-0.44578

0.474191

-1.01957

-1.41556

0.390627

-0.03262

0.194286

-1.25111

0.199117

-0.28507

0.447769

-0.24793

0.827557

0.36271

0.150922

0.441211

0.683056

0.460567

0.223272

0.860295

0.596694

-0.39235

0.984093

0.715541

0.150922

0.441211

0.731933

0.460567

-0.58592

-1.50679

-0.44578

-0.82562

-0.17428

0.644975

1.458952

0.544218

-0.58775

-0.25006 0.769534

-1.04486 0.815066

-1.43043 1.242083

-0.44578 -0.44578

-0.03129 -0.46456

-1.70834 1.234552

0.503843 1.280071

-0.87774 1.458952

-0.93908 -0.22833

-0.97876 0.108751

ML Mitshubishi Lancer Porsche Cayenne Porsche 911 Carrera Toyota Land Cruiser Volswaken Toureg A8 Hybrid Volvo V8 Alfa Romeo Spider

0.24429

-0.71877

-1.43043

-0.68406

0.474191

-0.64389

-0.55465

-2.17111

-1.05238

-1.0032

1.263881

0.827144

0.478507

-0.68406

0.618615

-1.36396

-1.71194

-1.31145

-0.66096

-0.3678

-1.48593

-1.14148

-1.125

1.10304

-0.6812

-0.61258

-1.76839

-0.61734

-0.12532

0.023217

2.011581

1.793339

1.089368

-1.63719

1.846215

-0.73781

-0.69578

-0.04739

-1.14509

-0.41668

0.355518 0.645947

0.827144 0.428588

0.478507 -0.66686

-0.74363 -0.44578

0.618615 0.618615

-1.36396 -0.14297

-0.13125 -0.41352

-1.31145 -0.08792

-0.66096 -0.84637

-0.73438 -1.02764

-0.86799

-0.56176

-0.66686

-0.62449

1.124097

-0.11166

0.009879

-1.139

-1.41291

-1.05208

1.2. Matricea de corelatie Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale Figura 6 -MATRICEA DE CORELATIE Correlation Matrix V1 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

1.0000 0.4940 0.1118 -.4692 0.4597 -.3401 -.2560 0.0584 -.3104 -.3006

V2 0.4940 1.0000 0.5518 -.5275 0.6137 -.1884 -.2268 -.0425 -.2843 -.0301

V3 0.1118 0.5518 1.0000 0.1205 0.1052 0.4258 0.4014 0.2158 0.2354 0.6305

V4

V5

-.4692 -.5275 0.1205 1.0000 -.8036 0.6889 0.5586 0.5180 0.8064 0.7140

0.4597 0.6137 0.1052 -.8036 1.0000 -.6004 -.4879 -.5952 -.8427 -.5363

V6 -.3401 -.1884 0.4258 0.6889 -.6004 1.0000 0.7969 0.6404 0.7196 0.7350

V7 -.2560 -.2268 0.4014 0.5586 -.4879 0.7969 1.0000 0.5333 0.6039 0.6526

V8

V9

0.0584 -.0425 0.2158 0.5180 -.5952 0.6404 0.5333 1.0000 0.7297 0.4887

-.3104 -.2843 0.2354 0.8064 -.8427 0.7196 0.6039 0.7297 1.0000 0.7939

V10 -.3006 -.0301 0.6305 0.7140 -.5363 0.7350 0.6526 0.4887 0.7939 1.0000

Se identifica in matrice coeficientii de corelatie mari.Se observa ca intre V6(consum mediu ) si V4(viteza maxima) este o corelatie de 0,689 ,intre V10 (pret) si V4(viteza maxima) o corelatie de 0,714,etc. Figura 7 -Matricea de covarianta Covariance Matrix VARIABLE V1 V2 V3 V4 V5 V6 V7 V8 V9

V1 26189 33096 237 -2549 103 -176 -2935 10962 -4877

V2 33096 171392 2992 -7332 352 -249 -6654 -20385 -11424

V3 237 2992 172 53 2 18 372 3277 299

V4 -2549 -7332 53 1127 -37 74 1329 20171 2628

V5 103 352 2 -37 2 -3 -48 -956 -113

V10

-1990748

-510116

337876

980898

-30392

Covariance Matrix

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figura 8

V6

V7

V8

V9

V10

-176 -249 18 74 -3 10 180 2372 223 96068

-2935 -6654 372 1329 -48 180 5020 43821 4154 1892053

10962 -20385 3277 20171 -956 2372 43821 1345042 82155 23193329

-4877 -11424 299 2628 -113 223 4154 82155 9425 3153595

-1990748 -510116 337876 980898 -30392 96068 1892053 23193329 3153595 1674368103

-VARIANTA TOTALA 1675926481.9

Total Variance

1.3. Vectorii si valorile proprii Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma:

Pi=a1i

* v1 + a2 i * v2+…..+ani*Vn, unde

v1,v2,…..Vn sunt variabilele originale

si aji ponderile din tabelul de mai jos.

Figura 9 Vectorii proprii

Eigenvectors

V1 V2 V3 V4 V5 V6 V7

Prin1

Prin2

Prin3

Prin4

Prin5

-.193339 -.167738 0.132181 0.383043 -.363554 0.378145 0.337032

0.340503 0.573361 0.583524 -.148526 0.266949 0.138795 0.140834

0.637847 0.009506 -.320431 -.034305 -.199576 -.072807 -.101526

0.104735 -.261128 -.090853 -.224424 0.202087 0.341285 0.713608

0.608714 -.423936 0.157228 0.332794 0.037712 -.209042 0.100623

V8 V9 V10

0.304157 0.398117 0.361284

0.153882 0.011610 0.242032

0.588404 0.185598 -.230441

0.048361 -.324740 -.296438

-.431894 -.021208 0.268413

Eigenvectors

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Prin6

Prin7

Prin8

Prin9

Prin10

0.057286 -.059257 0.056050 0.514120 0.263369 0.541701 -.436598 0.126343 -.356954 -.170134

-.198037 0.067641 -.108210 0.456012 0.467798 -.540364 0.265173 0.375736 -.100248 0.064633

0.113331 0.382176 -.657934 0.101447 0.279873 0.275318 0.104482 -.320365 0.262744 0.247418

-.042080 -.463045 -.072024 -.430084 0.435079 0.097712 -.253458 0.275278 0.078428 0.498646

-.034808 -.162988 0.231216 0.037321 0.398314 0.038553 -.028526 -.114746 0.698831 -.504861

Prima componenta principala poate fi scrisa ca o combinatie liniara dintre variabilele originale: Prin 1= -.193339 *V1 +-.167738 *V2 + 0.132181 *V3 + 0.383043 *V4 + -.363554 *V5 + 0.378145 *V6 +-.436598 *V7 + 0.126343 *V8 + -.356954 *V9 + -.170134 *V10.

Se procedeaza in mod similar pentru celalte componente principale. Calculam valorile proprii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala: k



k

Var(Ck)=a unde Ck=componenta principal de ordin k iar a =valoarea proprie corespunzatoare acesteia

Figura 10 Valori proprii

Eigenvalues of the Correlation Matrix

1 2 3 4 5 6 7 8 9 10

Eigenvalue

Difference

Proportion

Cumulative

5.36659449 2.14613774 0.98430855 0.55186725 0.36808722 0.19271333 0.13179566 0.12891483 0.08545945 0.04412149

3.22045675 1.16182919 0.43244130 0.18378003 0.17537388 0.06091768 0.00288082 0.04345539 0.04133796

0.5367 0.2146 0.0984 0.0552 0.0368 0.0193 0.0132 0.0129 0.0085 0.0044

0.5367 0.7513 0.8497 0.9049 0.9417 0.9610 0.9742 0.9870 0.9956 1.0000

In figura 10  prima coloana reprezinta valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi.  A doua coloana reprezinta diferenta dintre 2 componente consecutive.  In a treia coloana a doua a tabelului este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa.  In a patra coloana este exprimat procentul cumulative al componente dinainte. Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem 2 componente principale care sintetizeaza din punct de vedere informational restul de 8 variabile originale. Astfel prin intermediul primei componente principale se asigura conservarea a 53,67% din varianta totala . Varianta celei de-a doua componente principale este egala cu valoarea proprie 2.14613774 si retine 21,46% din varianta totala iar cumulativ cu prima componenta retine 75,13% din varianta totala.

Corelatia Pearson: Numele complet al acestui coeficient este "coeficientul de corelaţie produs-moment Pearson". Acest coeficient poate fi calculat cu ajutorul relaţiei (A). Valoarea coeficientului de corelaţie Pearson poate varia între +1 şi -1. O valoare apropiată de +1 indică o corelaţie pozitivă

puternică; o valoare apropiată de -1 ne indică o corelaţie negativă puternică, iar o valoare apropiatăde zero ne indică faptul că între cele două variabile nu există nici o corelaţie.

rxy= [1/n*∑(xi-Mx)(yi-My)]/Sx*Sy

(A)

unde - n este mărimea eşantionului format din măsurători pereche (x,y); - xi reprezintă măsurătorile individuale ale variabilei x; - yi reprezintă măsurătorile individuale ale variabilei y; - Mx reprezintă media aritmetică a variabilelor x; - My reprezintă media aritmetică a variabilelor y; - Sx reprezintă deviaţia standard pentru valorile x; - Sy reprezintă deviaţia standard pentru valorile y. Numărătorul din relaţia (A) se numeşte covarianţă (notată cu Sxy) sau variabilitate pereche. Covarianţa este o măsură a gradului în care variaţia unei variabile se potriveşte cu variaţia celeilalte variabile. Figura 11 Coeficientul de corelaţie Pearson Pearson Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0

V1 V1

V1

V2

V3

V4

V5

1.00000

0.49400 0.0055

0.11181 0.5564

-0.46917 0.0089

0.45973 0.0106

V2 V2

0.49400 0.0055

1.00000

0.55177 0.0016

-0.52754 0.0027

0.61375 0.0003

V3 V3

0.11181 0.5564

0.55177 0.0016

1.00000

0.12052 0.5258

0.10523 0.5800

V4 V4

-0.46917 0.0089

-0.52754 0.0027

0.12052 0.5258

1.00000

-0.80356
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF