Ökonometria Jegyzet BME Mester 2013
December 8, 2017 | Author: János Bíró | Category: N/A
Short Description
a...
Description
BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM Gazdaság- és Társadalomtudományi Kar Üzleti Tudományok Intézet
Dr. Hajdu Ottó
Ökonometria oktatási segédanyag
Budapest, 2013
TARTALOM 1 A sokaság ....................................................................................................................................... 5 1.1 Az adatbázis ............................................................................................................................. 6 1.2 Műveletek sokaságokkal ........................................................................................................... 7 1.3 Centrális tendencia és variancia ................................................................................................ 8 1.4 A sokaság eloszlása ................................................................................................................ 10 1.4.1 Normális eloszlás ............................................................................................................ 11 1.4.2 Gamma-eloszlás .............................................................................................................. 12 1.4.3 Chi-négyzet eloszlás ........................................................................................................ 12 1.4.4 Exponenciális eloszlás ..................................................................................................... 12 1.4.5 Weibull eloszlás ............................................................................................................... 13 1.4.6 Béta-eloszlás.................................................................................................................... 13 1.4.7 Student-eloszlás............................................................................................................... 13 1.4.8 F-eloszlás ........................................................................................................................ 13 1.4.9 Binomiális eloszlás .......................................................................................................... 14 1.4.10 Poisson-eloszlás ............................................................................................................ 14 1.4.11 Probability plot.............................................................................................................. 14 2 Sokaság és minta ........................................................................................................................... 16 2.1 Statisztikai becslések .............................................................................................................. 16 2.1.1 Becslési kritériumok és módszerek .................................................................................. 16 2.1.2 Intervallumbecslés........................................................................................................... 18 2.2 Statisztikai hipotézisek tesztelése ............................................................................................ 19 3 Minta-likelihood-sokaság .............................................................................................................. 22 3.1 Likelihoodelméleti fogalmak .................................................................................................. 22 3.1.1 A maximum likelihood becslés ........................................................................................ 23 3.1.2 A „score” függvény tulajdonságai .................................................................................... 24 3.1.3 A Cramer-Rao egyenlőtlenség ......................................................................................... 24 3.1.4 A maximum likelihood normálegyenletek ........................................................................ 25 3.1.5 Maximált likelihood normalitás esetén ............................................................................. 27 3.2 Hipotézisek likelihood alapú tesztelése ................................................................................... 28 3.2.1 A likelihood-arány teszt ................................................................................................... 28 3.2.2 A Lagrange-multiplikátor elv ........................................................................................... 30 3.2.3 A Wald elv ...................................................................................................................... 30 3.3 Gyakorló feladatok................................................................................................................. 31 4 A szóródás többváltozós jellemzése .............................................................................................. 32 4.1 A variancia többváltozós általánosításai .................................................................................. 32 4.1.1 A kovariancia fogalma és tulajdonságai ............................................................................ 32 4.1.1.1 Kovariancia algebra .................................................................................................. 32 4.1.1.2 A várható érték konfidencia tartománya ................................................................... 34 4.1.1.3 Lineáris korreláció .................................................................................................... 36 4.1.2 Az általánosított variancia................................................................................................ 36 4.1.2.1 A spektrális felbontás ............................................................................................... 37 4.1.2.2 A szóródási mátrix.................................................................................................... 39 4.1.2.3 Többváltozós normalitás .......................................................................................... 39
2
5 Lineáris regressziószámítás ........................................................................................................... 41 5.1 Speciális magyarázó változók kezelése .................................................................................... 41 5.2 Paraméterbecslés.................................................................................................................... 42 5.3 A modell magyarázó ereje ...................................................................................................... 43 5.4 A háromváltozós modell kétváltozós blokkjai ........................................................................ 45 5.4.1 A parciális kovariancia ..................................................................................................... 45 5.4.2 Útelemzés ....................................................................................................................... 46 5.4.3 A parciális determináció .................................................................................................. 46 5.5 Valószínűségi következtetések................................................................................................ 49 5.5.1 Pont- és intervallumbecslések .......................................................................................... 49 5.5.2 Egymásba ágyazott modellek szelektálása ........................................................................ 51 5.5.3 Releváns magyarázó változó elhagyása ............................................................................ 51 5.6 A multikollinearitás ................................................................................................................ 51 5.6.1 A változók szelektálása .................................................................................................... 52 5.6.1.1 Stepwise algoritmusok .............................................................................................. 52 5.6.1.2 Részmodellek szelektálása......................................................................................... 52 5.7 Rangsorolás preferált párosok alapján .................................................................................... 53 5.7.1 Legkisebb négyzetek megoldás ........................................................................................ 54 5.7.2 Maximum likelihood megközelítés .................................................................................. 54 6 Főkomponens változók elemzése ................................................................................................. 58 6.1.1 Adatredukció és veszteség ............................................................................................... 61 6.1.2 Az egyszerű struktúra igénye ........................................................................................... 62 6.1.3 A kanonikus variancia ..................................................................................................... 64 6.1.4 Főkomponensregresszió.................................................................................................. 64 7 Klaszteranalízis ............................................................................................................................. 68 7.1 A megfigyelési egységek klaszterezése .................................................................................... 68 7.1.1 Agglomeratív klaszterformálás: láncmódszer ................................................................... 69 7.1.2 Ügyfélkör esettanulmány ................................................................................................. 74 7.1.3 Divizív jellegű módszerek................................................................................................ 75 7.2 K-középpontú klaszterezés .................................................................................................... 76 7.3 A változók klaszterezése ........................................................................................................ 79 8 Kanonikus korreláció .................................................................................................................... 81 8.1 Modellfogalmak ..................................................................................................................... 81 8.2 Szakágazati esettanulmány...................................................................................................... 84 9 Szóródás csoportosított sokaságban.............................................................................................. 86 9.1 A kovariancia csoportközi struktúrája .................................................................................... 86 9.2 Diszkriminancia változók ....................................................................................................... 87 9.2.1 A Mahalanobis távolság ................................................................................................... 89 9.2.2 Diszkrimináló dimenziók feltárása ................................................................................... 91 10 Bayes - klasszifikáció ................................................................................................................... 92 10.1 Normalitás alapú kvadratikus és lineáris klasszifikáció .......................................................... 93 10.2 Mintavételi vonatkozások ..................................................................................................... 98 10.2.1 Homogenitásvizsgálat .................................................................................................... 99 10.2.2 A diszkriminátor változók szelektálása........................................................................... 99 10.2.3 A külső szóródás tesztelése ........................................................................................... 99
3
10.2.4 Diszkrimináló dimenziók ............................................................................................ 100 10.2.5 Jackknife klasszifikáció ................................................................................................ 101 10.3 Tőzsdetag brókercégek kvadratikus és lineáris klasszifikálása.............................................. 106 10.3.1 Stepwise lineáris diszkriminancia analízis ..................................................................... 108 11 Logisztikus regresszió ............................................................................................................... 110 11.1 Dichotom logisztikus regresszió ......................................................................................... 110 11.1.1 Paraméterbecslés ......................................................................................................... 112 11.1.2 Nominális magyarázó változók és interakciók.............................................................. 112 11.1.3 Konfidencia intervallumok .......................................................................................... 113 11.1.4 Hipotézisek tesztelése.................................................................................................. 113 11.2 Polichotom logisztikus regresszió ....................................................................................... 117 11.2.1 Nominális kategóriák logitjai ....................................................................................... 117 11.2.2 Ordinális kategóriák kumulatív logitjai ......................................................................... 118 11.3 Az {1,0} csődmodell .......................................................................................................... 120 12 A diszkrét kiválasztási modell.................................................................................................... 122 12.1 A polichotom logit modell esete ......................................................................................... 122 12.2 A feltételes logit modell esete ............................................................................................. 124 12.3 A „vegyes” modell alkalmazása .......................................................................................... 126 12.3.1 A vegyes modell globális paraméterezése ..................................................................... 127 12.3.2 A Cox- regresszió: “proportional hazards” .................................................................. 128 12.3.3 Függetlenség az irreleváns alternatíváktól .................................................................... 130
4
1 A SOKASÁG A statisztika feladata a valóság jelenségeinek tömör, számértékekkel való jellemzése. Ennek során minél kevesebb adathordozóba sűrítjük a rendelkezésre álló információ minél nagyobb hányadát, hogy a vizsgált jelenség áttekinthetővé, kezelhetőbbé váljon. Ha az információ tömörítése csekély veszteséggel jár, akkor a jelenségben rejlő tendenciákra megbízhatóan tudunk következtetni. A tömörség, az egyértelműség és az összehasonlíthatóság alapját a számértékek teremtik meg. A statisztikai elemzés első mozzanata tehát a valóság számokra való leképezése, amit operacionalizálásnak nevezünk. A számszerű jellemzés kiindulópontja az információ megszerzése. Ezt megfigyelés és mérés útján érjük el, melyek két kérdést vetnek fel. Egyrészt, hogy kikre vonatkozik a vizsgálat, másrészt, hogy mely tulajdonságaik érdekesek számunkra. Azon egyedeket akikre megfigyelésünk irányul, megfigyelési egységeknek, azokat a vizsgálati szempontokat pedig, amelyek tekintetében a megfigyelési egységek más-más sajátossággal, változattal bírnak, változóknak, másképpen ismérveknek nevezzük. A megfigyelési egységek összessége statisztikai sokaságot alkot. A megfigyelés eredményeképpen derül ki, hogy egy kérdéses egyed az adott szempont szerint milyen konkrét sajátosságot mutat. Ezt a megfigyelés kimenetelének nevezzük. Az ismérv tehát azon lehetséges kimenetelek együttese, amelyek valamelyike (és csak egyike) a kérdéses szempont tekintetében adott egyedhez egyértelműen hozzárendelhető. Az ismérv lehetséges változatainak rendezett felsorolását az ismérv skálájának nevezzük. Ha az ismérvváltozatok egymásutániságának tárgyi tartalma van (pl. időbeli, vagy ordinális), akkor az ennek megfelelő elrendezésük kézenfekvő. A skála lehet adottság, de magunk is definiálhatunk skálákat. Statisztikai értelemben a mérés nem jelent mást, mint egy megfigyelési egységhez hozzárendelni a kérdéses ismérv skálájának a megfelelő elemét. Jelölje a továbbiakban x az érdeklődésünk homlokterében álló változót. Ekkor x tekintetében az “i” egyedre vonatkozó mérés eredményét xi azonosítja. Mennyiségi jellegű ismérv skáláját ismérvértékek, nem mennyiségi jellegű változó skáláját pedig kategóriák alkotják. Mennyiségi változók között megkülönböztetünk folytonos, és diszkrét változókat. A folytonos változók a számegyenes egy meghatározott intervallumán bármely értéket fölvehetnek, míg a diszkrét változók lehetséges kimenetelei fölsorolhatók. Természetesen folytonos mennyiségi változók kimenetelei szegmentálhatók, és diszkrét mennyiségi ismérvek változatai is definiálhatnak kategóriákat. A statisztikai ismérvek egy speciális esetét az ún. alternatív, binomiális ismérvek képezik, amelyeknek két, és csak két kimenetele lehetséges. Ilyen pl. a nem szerinti hovatartozás, mely szerint valaki vagy férfi, vagy nő. Az alternatív ismérv fogalmához nevezetes, a csak 0 és 1 értékekből álló mérési skála kötődik: ha ugyanis az alternatív ismérv egyik kimenetelét 0 azonosítja, akkor a másik kimenetelt az 1 egyértelműen meghatározza. A (0,1) értékű bináris változókat dummy, másképpen indikátor változóknak nevezzük. Attól függően, hogy egy mérési skála a sokaság milyen mélységű elemzését teszi lehetővé, a mérési skálák az alábbiak szerint osztályozhatók, hierarchizálhatók. • Nominális skála: nem mennyiségi kategóriákból álló skála, ahol a kategóriák egymáshoz való helyzetének a megváltoztatása nincs hatással a sokaság jellemzőire. A megyéket pl. bármilyen sorrendben felsorolhatjuk, ezért kézenfekvő a semleges, de a keresést meggyorsító betűrendi sorrend alkalmazása. • Ordinális skála: olyan mérési skála, amelynek lehetséges változatai a skálán fölsorolt sokaságot nem csupán tagolják, hanem az egyes részekhez való tartozástól függően rangsorolják is. Az ordinális skála változatainak a sorrendisége kötött. Egy futballmérkőzés lehetséges kimenetelei – vereség, döntetlen, győzelem - ordinális skálát alkotnak. • Intervallum skála: mennyiségi skála, amelynek a zéruspontja nem rögzített, és így csak az egyes ismérvértékek egymástól való távolsága informatív. Ilyenek pl. a hőmérséklet mérésére szolgáló skálák. • Arány skála: a legmagasabb szintű mennyiségi skála, amelynek már a zéruspontja rögzített, tehát az egyes ismérvértékek egymáshoz való arányának is információtartalma van. Arányskálán mérjük pl. a gazdasági vállalkozások értékesítésből származó nettó árbevételét, tárgyi eszközeik értékét, adófizetési kötelezettségüket, vagy a kifizetett osztalék mértékét. Annál magasabb szintű egy mérési skála a hierarchiában, minél több elemzési lehetőséget rejt magában. A magasabb szintű skálák tartalmazzák az alacsonyabb szintűek által nyújtott elemzési lehetőségeket. Így az intervallum és arányskála eleve ordinalitást hordoz magában, s így a sokaságot nem csupán tagolja, hanem egyben rangsorolja is. A mérési skála a sokaságot egymást át nem fedő, diszjunkt részekre bontja. E részsokaságok valamely számszerű jellemzőinek a skála mentén történő fölsorolása statisztikai sort alkot. A statisztikai sorok típusai a skála jellegéhez kötődnek. Beszélhetünk területi, időbeli, mennyiségi és egyéb nominális sorokól. A nominális sorok valamilyen kategóriához való tartozást fejeznek ki.
5
1.1 AZ ADATBÁZIS Az adatbázis a vizsgált jelenségről rendelkezésre álló információk, mérési eredmények összessége, adott formátumú felsorolása, azok elengedhetetlen azonosító, és megkülönböztető jegyeivel egyetemben. Az adatbázis alapvetően keresztmetszeti, vagy idősoros lehet. Valamely sokaság valamennyi megfigyelési egységét ugyanazon változók tekintetében jellemző, ugyanarra az időszakra (eszmei időpontra) vonatkozó mérési eredmények keresztmetszeti adatbázist alkotnak. Ezzel szemben az idősoros adatbázis egy kiragadott megfigyelési egység jellemzésére szolgáló változóknak, a vizsgált egyedet különböző időpontokban jellemző értékeinek az időrendi felsorolása. Az olyan adatállományt, mely mind keresztmetszeti, mind időrendi felsorolást tartalmaz, panel típusú, vagy longitudinális adatállománynak nevezzük. A többváltozós statisztikai módszerek tipikus adatállománya keresztmetszeti jellegű, melyre egy példát az alábbi tábla közöl. 1.1 tábla APEH vizsgálathoz kiválasztott 995 vállalkozás néhány, 200#. évi mérleg- és eredményadatai Cég
Nettó árbevétel
Adózott eredmény
Fizetett osztalék
Fizetett adó
Kiszabott bírság
C1 C2 C3 C4 C5
Tárgyi eszközök ezer forint 200600 23500 44020 862944 13582
3512894 198770 2983555 12540820 332100
-18276 -8022 32670 146885 3291
0 0 12000 50000 500
0 0 7171 32243 722
0 0 800 300 10
Alk. létszám fő 140 5 220 670 10
C991 C992 C993 C994 C995
776 14772 142500 22400 18400
564636 820240 376998 548600 712560
20100 -9613 15400 -32800 50312
10000 0 0 0 20000
4412 0 3380 0 11044
0 0 30 10 140
8 26 50 12 7
Nem mennyiségi jellegű változók is kifejezhetők számértékekkel, ún. dummy változók megfelelő rendszerének a segítségével, a következők szerint. A kategóriák egyikét ún. referencia csoportként rögzítjük, az összes többi kategóriát pedig olyan dummy változókként kezeljük, melyek megfigyelési egységenként attól függően veszik fel az 1 vagy 0 értéket, hogy az adott megfigyelési egység esetében az illető kategória bekövetkezett-e a mérés során, vagy nem. Például, ha gazdasági társaságok a működési formájuk szerint a betéti társaság (Bt), korlátolt felelősségű társaság (Kft) és részvénytársaság (Rt) formák valamelyikéhez tartoznak, miközben a „Bt” a referencia csoport, akkor két – nevezetesen a Kft és az Rt dummy változók 0 vagy 1 értékei egyértelműen meghatározzák a társasági formához való tartozást: 1.2 tábla Társasági formák kategóriái Társasági forma Betéti társaság Korlátolt felelősségű társaság Részvénytársaság
Kft 0 1 0
Rt 0 0 1
Az egyes kategóriák együttes bekövetkezésének gyakoriságát közlő adatbázist jelent a dummy változók egy speciális rendszere, az indikátor mátrix. Az indikátor mátrix sorait az egyes megfigyelési egységek, oszlopait pedig valamennyi változó valamennyi lehetséges kimenetelei alkotják. A mátrixban 1 jelzi, hogy az adott sor megfigyelési egysége adott változó melyik (és csak egy) változatához tartozik, egyébként a mátrix 0 elemeket tartalmaz. A mátrix sorösszegei tehát egyenlők egymással és a változók számával, oszlopösszegei pedig az egyes kategóriák előfordulási gyakoriságaival. A társasági forma mellett bevezetve a nyereséges (1) vagy veszteséges (0) megkülönböztetést is, az indikátor mátrix struktúrája az alábbi: 1.3 tábla Gazdasági társaságok indikátor mátrixa Cég C1 C2 C3 C4 C5
Bt 0 0 0 0 1
Kft 1 1 0 0 0
Rt 0 0 1 1 0
Nyereséges 0 0 1 1 1
Veszteséges 1 1 0 0 0
C991 C992 C993 C994 C995
0 1 0 0 0
1
0 0
1 0 1
0 1 0 1 0
6
1 0 1
1 0
1
Információ tömörítésre nyílik lehetőségünk, ha lemondunk a kategóriák cégekhez kötéséről, és csak a kategóriák együttes bekövetkezésének a gyakoriságát vizsgáljuk. Ezt az információt a gyakorisági, vagy másképpen kontingencia tábla tartalmazza. A gazdasági társaságok kontingencia táblája az következő: 1.4 tábla Gazdasági társaságok kontingencia táblája Eredméy Nyereséges Veszteséges Összesen
Társasági forma Bt Kft Rt 350 50 70 350 150 25 700 200 95
Összesen 470 525 995
Ha a kontingencia táblát valódi kategóriák alapján képezzük, akkor az információ tömörítése során föllépő veszteség forrása csupán a megfigyelési egységek anonimmá válása, hiszen ilyenkor az adott kategória minden vonatkozó egyede egyforma. Ha a kategóriák mennyiségi változók intervallumai, akkor azt az információt is elveszítjük, hogy intervallumon belül mennyire különböztek az egyedek. Nyilvánvaló, hogy az indikátor mátrix mindig tömöríthető kontingencia táblába, és a kontingencia tábla is indikátor mátrixszá formálható.
1.2 MŰVELETEK SOKASÁGOKKAL A sokaságot mindenekelőtt mérete jellemzi. A sokaság mérete alatt érthetjük egyrészt elemeinek N számosságát, másrészt az egyedeire összessített valamely mennyiségi jellemzőt.1 A sokaság méretének az ismeretében - további tulajdonságai feltárásában az alábbi műveletek segítenek. A megfigyelési egységek rangsorolása Egyetlen változó esetében a rangsorolás nem ütközik nehézségbe. Városok poros voltát összehasonlítandó, a szálló por fajlagos tartalma és az ülepedő por fajlagos tartalma tekintetében külön-külön rangsorolva azonban már különböznek a rangsorok. Ha tehát a városokat általában a portartalom szerint kívánjuk rangsorolni, akkor ez a feladat már nem egyértelmű. A rangsorolás végeredménye mindig egy speciális statisztikai sor, a rangsor. A sokaság csoportosítása Ha az x változó tekintetében heterogén sokaságon belül homogén csoportok, részsokaságok vannak, illetve sejthetők, akkor érdemes a sokaságon belül e részeket egymástól elkülöníteni. A csoportosítással szemben az alábbi követelményeket támasztjuk. • Átfedésmentesség: egy megfigyelési egység x tekintetében csak egyetlen csoporthoz tartozzon. • Teljesség, egyértelműség: a sokaságnak minden egyes eleme egyértelműen besorolható legyen az előre definiált csoportok valamelyikébe. • Homogenitás: a kialakult csoportok x tekintetében legyenek minél homogénebbek, a csoportok viszont minél markánsabban különbözzenek egymástól. A csoportosítás egyszerre szolgálja a sokaság struktúrájának a kirajzolódását, és adatredukciós igényünket. Minél homogénebbek ugyanis a csoportok, annál kisebb veszteséget szenvedünk el azáltal, hogy az egyedi adatok felsorolása helyett csupán az egyes csoportok jellegzetességeit, és a megfelelő csoporthoz tartozás tényét közöljük. Kategória változatok esetén adott kategória a saját szempontjából természetszerűleg homogén csoportokat definiál. Nem ez a helyzet akkor, ha a csoportosító ismérv folytonos mennyiségi, vagy nagyon sokféle kimenetellel bíró diszkrét mennyiségi változó. Ez esetben a csoportok definiálása ugyanis a skála megfelelő intervallumokra, osztályokra bontását jelenti, ami szubjektív. Rövid osztályok homogén, hosszú osztályok várhatóan heterogén csoportokat eredményeznek. A túl rövid intervallumok kialakítása a csoportok számát növeli, és így a sokaság áttekinthetővé tételét nem szolgálja. Osztályközök képzése esetén x kategóriáit az osztályközök jelentik. A csoportok mellett a számosságukat felsorolva gyakorisági sort hozunk létre. A sokaságot egyidejűleg kettő, vagy kettőnél több ismérv alapján csoportosítva, majd a különféle kategóriák együttes bekövetkezési gyakoriságait táblába foglalva jutunk el a gyakorisági (kontingencia) táblához, melyet a korábbiakban már tárgyaltunk. Sokaságok összehasonlítása. Sokaságok számszerű jellemzőinek az összehasonlítása abszolút és relatív módon történhet. Az A és B jellemzők abszolút jellegű összehasonlítása az A-B különbségük, relatív jellegű összevetésük pedig az A/B arányuk képzésén alapul, ha ezeknek van tárgyi értelme.2 A V=A/B hányadost viszonyszámnak nevezzük, amelyben A a viszonyítandó, B pedig a viszo1 2
Például a hazai benzinkutak teljes éves forgalma akár literben, akár forintban. A különbségképzés elengedhetetlen feltétele, hogy A és B azonos mértékegységű legyen.
7
nyítás alapjának a szerepét tölti be. A viszonyszámok között - az elemzési cél tekintetében - szokás megkülönböztetni a sokaság strukturáját leíró (a résznek az egészhez való viszonyát kifejező) megoszlási viszonyszámot, a sokaságok időbeli összehasonlítását szolgáló dinamikus viszonyszámot, és az intenzitási viszonyszámot. Ez utóbbi azt mutatja meg, hogy valamely sokaság egy egyedére egy másik sokaságból hány egyed jut. Mintavétel a sokaságból. Amennyiben a sokaság egészét nem tudjuk, vagy nem akarjuk megfigyelni, de az egészére szeretnénk valamilyen következtetést levonni, úgy kénytelenek vagyunk ezt a sokaságnak egy alkalmasan kiválasztott része, az ún. minta alapján megtenni. A mintavétel végrehajtása lehet véletlenszerű és nem véletlenszerű, visszatevéses, vagy visszatevés nélküli. A mintavételt akkor tekintjük véletlen jellegűnek, ha még a mintavételt megelőzően rögzítjük az egyes sokasági egyedek mintába kerülésének a valószínűségét. Visszatevéses mintavételkor valamely sokasági érték nem csak egyszer, hanem többször is kiválasztásra kerülhet, s így súlyozottan szerepelhet a mintában. A sokaság csonkolása, nyesése Ha a sokaság valamely egyedei a vizsgált változó(k) tekintetében extrém (kiugróan alacsony vagy magas) értékkel bírnak, úgy ezek az értékek a sokaság egészéről kialakított általános képet torzítják, így elhagyásuk az elemzésből kézenfekvő. Előrejelzés A sokaság egyedeinek az értékét - előrejelzési, vagy adatredukciós céllal - helyettesíthetjük is. Ha már ismert, realizálódott értéket cserélünk ki egy másikra, akkor “ex post” előrejelzésről, ha pedig még nem ismert értéket rendelünk egy egyedhez, akkor “ex ante” előrejelzésről, másképpen prognózisról beszélünk.
1.3 CENTRÁLIS TENDENCIA ÉS VARIANCIA Reprezentálja a sokaság “i” sorszámú (i=1,2,...,N) egyedét az x változóban realizálódott megfigyelés xi értéke. A sokaság egyedei a kérdéses ismérvben különböznek egymástól, másszóval szóródnak. Feladatunk a szóródásban rejlő tendenciák, és az azokat kiváltó okok feltárása. Kérdés, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínűségi (gyakorisági) eloszlás mentén szóródnak. A szóródás tényét az egyedeknek egymástól, vagy egy kitüntetett egyedtől mért távolságában, illetve hasonlóságában ragadhatjuk meg. A szóródás centrumát a centrális tendencia alakítja, miszerint az egyedek túlnyomó többsége egy tipikus egyed körül tömörül. A szóródás e centrumát centroidnak nevezzük, melyet valamely középérték definiál. Kétféle középértéket különböztetünk meg: helyzeti középértéket, és átlagot. Míg az előbbiek a rangsorolt sokaságon belül elfoglalt helyük alapján közepesek, addig az átlagok számított értéke az ismérv skáláján alkot középpontot. A helyzeti középértékek a medián, és a módusz. A mediánt azon egyed kimenetele reprezentálja az x ordinális változó tekintetében, amely két, közel egyenlő részarányú alsó és felső szegmensre bontja a sokaságot. Folytonos mennyiségi változó esetében ezt az értéket az x(0.5) rendű kvantilis közelíti. A módusz ezzel szemben az ismérv skáláján a leggyakrabban előforduló kimenetel. A módusz tehát nominális skálán is értelmezett, de nem mindig létezik, nem mindig egyértelmű, és inkább kategóriaként mintsem pontszerű értékként van statisztikai tartalma. Az x változó számtani átlaga az N elemű sokaságban az az x szám, amellyel a sokaság valamennyi egyedének az értékét helyettesítve, azok összege nem változik meg: 1 N x = ∑ xi . N i =1 A továbbiakban az átlagos megfigyelési egység reprezentálja a sokaság centroidját. A számtani átlagtól vett d i = xi − x eltéréseket képezve, azok algebrai összege zérus. Az átlagtól mért eltéréseket tartalmazó, és ezáltal zérus átlagúvá transzformált di változót centrált változónak nevezzük. Ha a és b megfigyelésről megfigyelésre nem szóródó konstansok, akkor az yi=a+bxi transzformált változó átlaga: y = a + bx . Az egyedi értékek r. hatványának a számtani átlaga az r-ed rendű (vagy r-edik) momentumot eredményezi: 1 N r ∑ xi = M r N i =1 ahol r=1,2,… Speciálisan, a másodrendű momentum jelölése:3 1 N 2 1 N qi = qx . ∑ xi = N ∑ N i =1 i =1
3
Megjegyezzük, hogy a másodrendű momentum pozitív gyöke az ún. négyzetes, vagy kvadratikus átlag.
8
Az átlag körüli szóródás alapvető, egyváltozós mértéke a variancia, mely a centrált változó másodrendű momentuma:4 1 N Var ( x) = σ2x = ∑ ( xi − x )2 . N i =1 Kihasználva, hogy a számtani átlagtól vett eltérések algebrai összege zéró, a variancia a másodrendű momentumnak, és a számtani átlag négyzetének a különbsége:5 1 N 1 N Var ( x) = ∑ ( xi − x )( xi − x ) = ∑ ( xi − x ) xi = N i =1 N i =1 N N 1 1 = ∑ xi2 − x ∑ x (1.1) N i =1 N i =1 = q − x2 . A (1.1) azonosság a variancia momentum felbontását eredményezi. E tételre a továbbiakban mint a VMD szabályra hivatkozunk.6 A variancia sohasem negatív, és csak akkor zérus, ha a sokaság minden egyede ugyanakkora értéket vesz fel az x változóban. A variancia invariáns az egyedi értékek ugyanazon konstanssal való növelésére (csökkentésére), viszont érzékeny azok konstanssal való szorzására. Tetszőleges a tengelymetszet és b meredekség mellett az yi=a+bxi megfigyelések varianciája: Var ( y ) = Var ( a + bx ) = b 2Var ( x ) . A variancia pozitív négyzetgyöke a szórás (az angol nyelvű terminológiában „standard deviation”):
σ x = Var ( x) . A zérus átlagúvá, és egységnyi varianciájúvá transzformált x−x x = σx változót standardizált változónak nevezzük.
(1.2)
Dummy változót illetően, ha az N elemű sokaságban K számú “1” és (N-K) számú “0” egyed van, akkor az “1” elemek részaránya P=K/N, és ez a dummy változó P⋅1+(1-P)⋅0=P átlaga, és a második momentum is egyben. A VMD szabály alapján tehát a dummy változó varianciája Var (0,1) = P − P 2 = P (1 − P ) . Nemzéró értékösszeg mellett a variancia akkor maximális, ha a sokaság egyetlen tagja birtokolja a teljes értékösszeget, miközben minden más egyed értéke zérus. A VMD szabály alapján a variancia általában: 1 σ 2x = x12 + x22 + ... + xN2 − x 2 = Nx 2 Z12 + Z 22 + ... + Z N2 − x 2 N N xi ahol x ≠ 0 , 0 ≤ Z i = ≤ 1 az i. egyed relatív részesedése a teljes értékösszegből, és ∑ i =1 Z i = 1 . Mivel e relatív részeNx sedések négyzetösszege legfeljebb 1 lehet, ezért a variancia feltételesen maximált értéke σ 2max = Nx 2 12 + 02 + ... + 0 2 − x 2 (1.3) hiszen ez konstans x átlag mellett csökkenne, ha az egységnyi értékösszegből való relatív részesedések között mind kisebb lenne, mint 1.7 Zéró átlagos érték mellett a variancia végtelen nagy lehet. Mértékegységtől független szóródási mutató a relatív szórás (coefficient of variation), mely a szórást a számtani átlag százalékában fejezi ki, ha az nem nulla. Ha a sokaságból n elemű mintát veszünk és a mintabeli szórás értékéből következtetni akarunk a sokaság egyébként ismeretlen szórására, akkor a torzítatlan következtetés érdekében ún. korrigált szórást számolunk, az alábbi módon:
σ x2 jelöléseket ekvivalens módon használjuk, megválasztásuk a formulák könnyebb áttekintését szolgálja.
4
A Var(x) és
5
Figyeljük meg, hogy
6
A Variancia Momentum Dekompozíciója. E megállapításnak a főkomponensek, és a faktorok forgatása, az egyszerű struktúra kialakítása során lesz jelentősége.
7
x ∑ i =1 ( xi − x ) = 0 . N
9
1 n (1.4) ∑ ( xi − x )2 n − 1 i =1 ahol s a korrigált szórás konvencionális jelölése.8 A nevezőbeni (n-1) korrekció csak kicsiny mintaelemszám mellett okoz jelentős számszaki eltérést. s=
1.4 A SOKASÁG ELOSZLÁSA A végtelen sokaság egyedei értelemszerűen nem sorolhatók fel teljeskörűen, ezért valamely x jellemzőjének kimenetelei megfigyelésről megfigyelésre bővülnek, véletlenszerűen alakulnak. Végtelen sok megfigyelést végezhetünk adott típusú izzó teljes élettartamát, vagy biztonsági övek be-, illetve be nem kapcsolt voltát vizsgálva. Az ilyen esetekben x véletlen változó, és valószínűségeloszlását annak megfelelően definiáljuk, hogy folytonos, vagy diszkrét jellegű.9 A folytonos véletlen változót az eloszlásfüggvényével definiáljuk, ami azon esemény valószínűségét mondja meg, hogy a változó realizálódott értéke kisebb lesz egy előre rögzített x0 értéknél: F(x0) = Pr(x3.591)=0.027. Mint látható, a három módszer eredményei összhangban vannak egymással.
F4,32 =
Bár a csoportok kovariancia mátrixainak azonosságát nem fogadjuk el, a lineáris klasszifikációs függvények működését az alábbiakban illusztráljuk. A vereség klasszifikációs függvényében a lineáris súlyok - a közös kovariancia mátrix becsléseként a "pooled" mátrixot használva: T
−1
7.5 24.1588 −1.924 0.087943 b0 = −1.924 = −2.7939 − 0.63047 0.1651 majd a tengelymetszet (-½bTx) felhasználásával T
1 0.087943 7.5 − = −1.2105 2 −2.7939 −0.63047 végül a konstans tag a prior valószínűség figyelembe vételével ln(0.3) − 1.2105 = −2.4145 . Analóg módon a döntetlen klasszifikációs függvényében a lineáris súlyok: T
−1
0.6 24.1588 −1.924 −0.17415 b1 = = 0.1651 −0.07745 −1.924 −2.4986 a konstans tag a prior valószínűség figyelembe vételével T
1 −0.17415 0.6 = −1.4308 . 2 −2.4986 −0.07745 Végül a győzelem klasszifikációs függvényének lineáris súlyvektora: ln(0.25) −
T
−1
−2.33333 24.1588 −1.924 −0.034577 b3 = −1.924 = 0.77858 0.19507 0.1651 a konstans tag pedig a prior valószínűséggel T
1 −0.034577 −2.33333 ln(0.45) − = −0.9148 . 2 0.77858 0.19507 Mindezek felhasználásával az 1. mérkőzés kimenetelének három klasszifikációs értéke: T
0.087943 −3 c0 = −2.4145 + = −3.3768 −2.7939 0.25 T
−0.17415 −3 c1 = −1.4308 + = −1.533 −2.4986 0.25 T
−0.034577 −3 c3 = −0.9148 + = −0.61641 . 0.77858 0.25 Ebből a három posterior valószínűség rendre: e −3.3768 P0|x = −3.3768 = 0.043 e + e −1.533 + e −0.61641 e −3.3768 P1|x = −3.3768 = 0.273 e + e −1.533 + e −0.61641
104
e −0.61641 = 0.684 . e + e −1.533 + e −0.61641 A korrekt, és inkorrekt besorolások klasszifikációs mátrixa most: P3|x =
−3.3768
10.8. táblázat. Klasszifikációs mátrix (lineáris eset) Csoportból Vereség (0) Döntetlen (1) Győzelem (3) Összesen
Csoportba sorolások száma vereség (0) döntetlen (1) 4 1 0 1 2 0 6 2
győzelem (3) 1 4 7 12
Korrekt besorolás (%) 66.7 20.0 77.8 60.0
mely a "jackknifed" klasszifikáció során az alábbiak szerint módosul: 10.9. táblázat. Jackknife klasszifikációs mátrix (lineáris eset) Csoportból Csoportba sorolások száma Korrekt vereség (0) döntetlen (1) győzelem (3) besorolás (%) Vereség (0) Döntetlen (1) Győzelem (3) Összesen
4 1 2 7
1 0 0 1
1 4 7 12
66.7 0.0 77.8 55.0
Látható, hogy a lineáris klasszifikációs függvényt alkalmazva romlott a korrekt besorolások aránya. Ez várható volt, hiszen nem teljesül a lineáris függvények alkalmazása mögött lévő feltevés. A csoportátlagok páronkénti különbözőségét tesztelő F-értékek is módosulnak: 10.10. táblázat. Páronkénti F-értékek (lineáris eset) Csoport "1" "3"
"0" 2.53 7.04
"1" 0.73
ahol a számláló szabadságfoka DFsz=2, a nevezőé pedig DFn=16. A vereség és a győzelem centroidjainak összehasonlítását tekintve: 20 − 3 − 2 + 1 6·9 F2,16 = 4.1501 = 7.04 . 2(20 − 3) 6 + 9 Végül a két változónak a modellbe történt beléptetése az alábbiak szerint alakult: első lépésben a PontK változó csökkentette leginkább a Wilks-lambda értékét, melynek eredményeképpen Λ=0.5323, végül a második lépésben a RangK beléptetésének hatására a Λ=0.5239 értéket kaptuk. A csökkenés szignifikáns voltának megítélését szolgáló F-statisztika értéke a PontK változó bevonására: 1 − 0.5323 20 − 3 − 0 F2,17 = = 7.4684 0.5323 3 −1 majd a RangK változóval való bővítésére: 0.5323 − 0.5239 20 − 3 − 1 F2,16 = = 0.12827 . 0.5239 3 −1 A futball mérkőzéseket tekintve a külső (nem korrigált, hanem a teljes elemszámmal osztott) kovariancia mátrix: 38.127 −3.1074 20.535 −1.6354 17.592 −1.472 C K = CT − C B = − = −3.1074 0.26363 −1.6354 0.14034 −1.472 0.12329 ahonnan −1
20.535 −1.6354 C CK = −1.6354 0.14034 melynek két pozitív sajátértéke: 0.88544 és 0.011614. egyetlen diszkrimináló dimenzióba sűríthető. −1 B
17.592 −1.472 0.29685 −0.023883 −1.472 0.12329 = −7.0295 0.6002 Látható, hogy a két magyarázó változó - szinte maradék nélkül -
105
10.3 TŐZSDETAG BRÓKERCÉGEK KVADRATIKUS ÉS LINEÁRIS KLASSZIFIKÁLÁSA Adott időpontban 76 BÉT tőzsdetag brókercég megoszlása működésük jellege szerint, miszerint: Problémamentesen működik: O.K.(57db), Kétes a jövője: NemO.K.(11db), Csődbement, felszámolták: Csod(8db), ahol a relatív gyakoriságok rendre: 0.750, 0.145, 0.105. Az alkalmazott magyarázó változók köre: 1. ROB=Aderedm/Bevetel. 2. Feszkar=Forgeszk/Eszkoz. 3. Stokear=Sajtoke/Jegytoke. 4. Adossag=Kotelez/Eszkoz. 5. Eszkfseb=Bevetel/Eszkoz. 6. Likvid=Forgeszk/Rlejkot. Feladat olyan prediktív, klasszifikációs modell kidolgozása, mellyel – a mygyarázó változók ismeretében – bármely céget, így a kéteseket is minősíthetünk a csődbejutás kockázata szempontjából. Ennek során első lépés tesztelni a csoportokat a myarázó változók különbözősége tekintetében. A számítások kétféle megközelítésben készültek. Egyfelől mindhárom csoportot szerepeltettük a klasszifikációs függvények kalkulálásakor, másfelől csak a Csod csődbementeket és az OK problémamenteseket.A számítási eredmények az alábbiak. 10.11. tábla Csoportjellemzők Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
OK -0.0459 0.8413 1.3338 0.5565 1.9404 4.1506
Csoportátlag NemOK -0.6348 0.8659 0.9145 0.5578 0.6685 1.9460
Csod -0.1199 0.7304 0.9772 0.5908 0.3119 1.4062
Eszkfseb
Likvid
Csoporton belüli szórás OK NemOK Csod 0.3710 1.3624 0.2211 0.1272 0.0791 0.2389 0.9275 0.3629 0.1313 0.2435 0.2067 0.2988 5.7151 0.3131 0.1466 9.0160 0.9008 0.4151
10.12 tábla Kovariancia mátrixok I Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
ROB 0.1376 -0.0053 0.1129 -0.0120 0.0720 -1.5030
Feszkar
GROUP OK Stokear Adossag
0.0162 -0.0380 0.0137 -0.2523 -0.1720
0.8603 -0.0525 -0.2979 -0.5947
0.0593 -0.3643 -0.9600
32.6618 -1.4418
81.2884
Feszkar
GROUP Csod Stokear Adossag
Eszkfseb
Likvid
0.0571 0.0093 0.0651 0.0074 -0.0503
0.0172 0.0167 0.0124 -0.0289
ROB 1.8562 0.0659 0.1595 0.1299 0.3153 -0.4092
Feszkar
GROUP NemOK Stokear Adossag
0.0062 0.0084 0.0077 0.0087 -0.0165
0.1317 0.0215 0.0680 -0.0450
0.0427 0.0020 -0.1639
Eszkfseb
Likvid
0.0980 -0.0023
0.8115
10.13 tábla Kovariancia mátrixok II Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
ROB 0.0489 0.0091 0.0216 0.0269 0.0180 -0.0695
0.0893 0.0097 -0.0985
0.0215 -0.0229
0.1723
GROUP OK, NemOK, Csod Feszkar Stokear Adossag Eszkfseb
Likvid
ROB 0.3975 0.0036 0.1373 0.0109 0.1867 -1.0285
TOTAL (OK,NemOK,Csod) Feszkar Stokear Adossag Eszkfseb
Likvid
0.0196 -0.0245 0.0170 -0.1748 -0.1158
0.6911 -0.0358 -0.1074 -0.2732
24.7947 -0.4100
61.9612
Feszkar
GROUP OK, Csod Stokear Adossag Eszkfseb
Likvid
0.0207 -0.0328 0.0194 -0.2234 -0.1585
0.7666 -0.0448 -0.2634 -0.5318
72.2755
0.0584 -0.2756 -0.7560
10.14 tábla Átlagos (pooled) kovariancia mátrixok Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
106
ROB 0.3645 0.0058 0.1105 0.0112 0.1002 -1.2157
0.0187 -0.0271 0.0178 -0.1916 -0.1390
0.6796 -0.0357 -0.2180 -0.4651
0.0599 -0.2782 -0.7684
25.0711 -1.1085
62.4859
ROB 0.1278 -0.0037 0.1027 -0.0077 0.0660 -1.3437
0.0626 -0.3227 -0.8643
29.0351 -1.2841
10.15 tábla Külső (between) kovariancia mátrixok Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
ROB 1.6004 -0.0755 1.1165 -0.0008 3.3448 5.8035
GROUP OK, NemOK, Csod Feszkar Stokear Adossag Eszkfseb 0.0500 0.0712 -0.0139 0.4408 0.7319
1.1091 -0.0376 3.9293 6.7297
0.0042 -0.1809 -0.3040
14.7026 25.0851
Likvid
42.8105
ROB 0.0384 0.0576 0.1851 -0.0178 0.8455 1.4249
Feszkar
GROUP OK, Csod Stokear Adossag Eszkfseb
Likvid
0.0863 0.2774 -0.0267 1.2670 2.1351
0.8921 -0.0858 4.0740 6.8655
52.8362
0.0082 -0.3917 -0.6601
18.6051 31.3532
10.16 tábla Csoportközi Mahalanobis távolságok és F-tesztek Csoport NemOK Csod
Mahalanobis távolság OK NemOK 1.5353 0 1.9857 2.7462
F-érték (DF1=6) OK NemOK 2.1806 0 2.1374 1.4964
OK 61 58
DF2 NemOK 15 12
TP-érték OK NemOK 0.057 1 0.062 0.260
A kétcsoportos Mahalanobis távolságok: (OK,Csod)=1.869, F_(OK,Csod)=2.0118, DF=(6, 58), TP=0.0786 10.17 tábla Homogenitásvizsgálat és varianciaanalízis Csoportok OK, NemOK, Csod OK, Csod
-2*RHO*LOG(LAMBDA) 275.85 (DF=42, TP=0) 115.05 (DF=21, TP=0)
WILKS-LAMBDA (U) 0.70613 (DF=6, 2, 73) 0.82773 (DF=6, 1, 63)
F-érték 2.15365 (DF=12, 136, TP=0.0173) 2.01183 (DF=6, 58, TP=0.0786)
10.18 tábla Koefficiensek (GROUP OK) QUADRATIC TERM ROB Feszkar Stokear Adossag Eszkfseb Likvid LINEAR TERM CONSTANT (0.750, 0.145, 0.105) CONSTANT (1/3, 1/3, 1/3) CONSTANT (0.5, 0.5) CONSTANT (0.877, 0.123)
Változó
ROB 5.8511 0.0172 -0.4601 3.2560 0.0257 0.1438 3.1818
Feszkar
Stokear
Adossag
Eszkfseb
Likvid
45.5735 1.7380 -6.5896 0.2960 0.0369 75.4350
0.7591 0.4442 0.0266 0.0064 5.6428
15.6412 0.1309 0.2366 9.6796
0.0194 0.0032 0.8139
0.0118 0.4396
Feszkar
Stokear
Adossag
Eszkfseb
Likvid
168.0265 1.9413 -61.5178 -3.7361 -10.6955 183.7811
15.7740 -39.0431 -24.7315 -4.7968 -68.7326
189.1753 75.7103 27.7170 260.5528
54.6432 8.7583 153.1015
4.9796 36.6695
Feszkar
Stokear
Adossag
Eszkfseb
Likvid
957.8019 352.0366 -1185.4606 -295.5442 -480.9903 -789.5709
227.7743 -457.8929 -134.7078 -196.3535 -183.5635
1492.3169 368.9827 616.2534 1018.5191
132.3053 150.1885 227.7375
265.8687 445.0808
-38.856 -39.667 -39.262 -38.699
10.19 tábla Koefficiensek (GROUP NemOK) QUADRATIC TERM ROB Feszkar Stokear Adossag Eszkfseb Likvid LINEAR TERM CONSTANT (0.750, 0.145, 0.105) CONSTANT (1/3, 1/3, 1/3)
Változó
ROB 2.4512 -3.5499 4.4527 -14.4549 -10.3939 -1.5384
-37.1257 -212.76 -211.93
10.20 tábla Koefficiensek (GROUP Csod) QUADRATIC TERM ROB Feszkar Stokear Adossag Eszkfseb Likvid LINEAR TERM CONSTANT (0.750, 0.145, 0.105) CONSTANT (1/3, 1/3, 1/3)
Változó
ROB 131.5334 -254.9623 -143.1721 340.1143 75.8339 159.0525 212.7068
-247.61 -246.45
107
CONSTANT (0.5,0.5) CONSTANT (0.877,0.123)
-246.05 -247.45
10.21 tábla Kvadratikus klasszifikációs mátrix Csoport
Elemszám
OK NemOK Csod TOTAL
57 11 8 76
Átsorolás (0.750, 0.145, 0.105) OK NemOK Csod 37 12 8 0 11 0 0 0 8 37 23 16
Átsorolás (1/3, 1/3, 1/3) OK NemOK Csod 35 13 9 0 10 1 0 0 8 35 23 18
Átsorolás (0.5,0.5) OK Csod 48 9 8 3 0 8 56 20
Átsorolás (0.877,0.123) OK Csod 49 8 9 2 0 8 58 18
10.22 tábla Téves klasszifikációk OK bróker INVE EURO KIRA MICR MEB KONZ FALC INGI RAIF WINT QUAN CASH ERST BUDC AMET ABNA BREW CAIB EMAB EAST
Posterior (0.750, 0.105) OK NemOK 0.005 0.000 0.000 0.015 0.003 0.202 0.005 0.000 0.005 0.995 0.001 0.090 0.000 1.000 0.020 0.980 0.135 0.865 0.022 0.978 0.019 0.981 0.039 0.958 0.013 0.156 0.006 0.994 0.001 0.007 0.245 0.030 0.154 0.846 0.459 0.541 0.035 0.965 0.252 0.748
0.145,
OK
Posterior (1/3, 1/3, 1/3)
OK
Csod 0.995 0.985 0.796 0.995 0.000 0.910 0.000 0.000 0.000 0.000 0.000 0.002 0.831 0.000 0.992 0.726 0.000 0.000 0.000 0.000
bróker INVE EURO KIRA MICR MEB KONZ FALC INGB INGI RAIF WINT QUAN CASH ERST BUDC AMET ABNA BREW CAIB EQIT EMAB EAST NemOK ELSM
OK 0.001 0.000 0.000 0.001 0.001 0.000 0.000 0.309 0.004 0.029 0.004 0.004 0.008 0.002 0.001 0.000 0.044 0.034 0.141 0.333 0.007 0.061
NemOK 0.000 0.011 0.155 0.000 0.999 0.067 1.000 0.691 0.996 0.971 0.996 0.996 0.989 0.119 0.999 0.005 0.028 0.966 0.859 0.051 0.993 0.939
Csod 0.999 0.989 0.845 0.999 0.000 0.933 0.000 0.000 0.000 0.000 0.000 0.000 0.003 0.879 0.000 0.995 0.929 0.000 0.000 0.616 0.000 0.000
bróker INVE EURO KIRA MICR KONZ ERST AMET ABNA EQIT
0.001
0.497
0.502
Posterior (0.5,0.5) OK 0.001 0.000 0.000 0.001 0.000 0.002 0.000 0.045 0.351
OK Csod 0.999 1.000 1.000 0.999 1.000 0.998 1.000 0.955 0.649
bróker INVE EURO KIRA MICR KONZ ERST AMET ABNA
Posterior (0.877,0.123) OK Csod 0.005 0.995 0.000 1.000 0.003 0.997 0.005 0.995 0.001 0.999 0.016 0.984 0.001 0.999 0.252 0.748
10.3.1 STEPWISE LINEÁRIS DISZKRIMINANCIA ANALÍZIS PRIOR PROBABILITIES: 0.75, 0.145, 0.105 F-MATRIX(6,68): F(OK,NemOK)=2.2, F(OK,Csod)=2.16, F(NemOK,Csod)=1.97 EIGENVALUES: 0.20606(54.188%), 0.17421, CANONICAL CORRELATIONS: 0.41335, 0.38518, AVERAGE SQUARED CANONICAL CORRELATION: 0.15961 10.23 tábla Klasszifikációs függvény és stepwise változószelektálás Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid CONSTANT
Klasszifikációs függvények OK NemOK Csod -2.08953 -3.83205 -2.02753 60.34815 62.05620 49.39209 5.06270 4.61428 4.11191 0.25320 -1.64894 2.18947 0.60322 0.54338 0.46516 0.21156 0.11839 0.15875 -30.19153 -31.95991 -23.25284
A változók beléptetésének jellemzői (summary table) Lépések F-to enter Wilks-L F-statisztika DF1 ROB 4.390 0.8926 4.390 2 Feszkar 2.757 0.8291 3.536 4 Likvid 1.641 0.7925 2.918 6 Stokear 1.535 0.7592 2.584 8 Eszkfseb 1.540 0.7268 2.388 10 Adossag 0.994 0.7061 2.154 12
10.24 tábla Klasszifikációs mátrixok
108
Csoportból
%
OK NemOK Csod TOTAL
94.7 9.1 25.0 75.0
Klasszifikálás a csoportba OK NemOK Csod 54 1 2 10 1 0 6 0 2 70 2 4
% 93.0 9.1 25.0 73.7
Jackknifed klasszifikálás OK NemOK Csod 53 1 3 10 1 0 6 0 2 69 2 5
DF2 73 144 142 140 138 136
10.25 tábla Téves besorolások (átsorolások) OK-ból
Átsorolás
INVE NemT EURO Kand KIRA MKB MICR MEB KONZ GENE GARM FALC IENe INGB Wood HORI INGI SWAP REAL RAIF WINT West TAKA TABL Rabo POST OTP NOMU PLAN QUAN QUAE PROC CENZ CASH ABMo ERST BUDC CITI CIB
Csod
NemOK
OK MahT 8.9 4.7 1.9 1.0 0.9 1.8 0.7 0.7 1.0 0.9 1.6 6.4 4.6 3.1 5.9 1.2 2.0 468.2 2.1 1.1 2.3 9.3 6.7 7.5 0.6 0.2 19.3 10.2 47.2 2.1 3.0 1.2 5.4 2.1 2.0 0.4 1.0 1.0 4.0
Post 0.227 0.895 0.886 0.764 0.868 0.905 0.841 0.799 0.867 0.895 0.802 0.361 0.883 0.906 0.901 0.866 0.718 1.000 0.781 0.877 0.801 0.923 0.923 0.866 0.833 0.872 0.975 0.871 0.854 0.724 0.855 0.900 0.546 0.730 0.928 0.878 0.802 0.877 0.838
NemOK MahT 10.8 6.0 3.4 1.9 2.4 3.3 2.5 0.9 2.2 2.4 1.5 2.1 5.6 5.8 7.6 2.1 1.5 484.5 2.5 2.4 2.1 11.1 8.6 8.3 1.3 1.8 24.0 11.1 59.1 2.0 3.8 3.0 8.3 4.0 4.3 1.8 1.0 2.3 4.1
Post 0.018 0.091 0.079 0.098 0.078 0.083 0.066 0.142 0.090 0.081 0.157 0.600 0.104 0.045 0.076 0.105 0.181 0.000 0.126 0.088 0.171 0.074 0.069 0.118 0.111 0.076 0.018 0.106 0.000 0.143 0.109 0.073 0.025 0.055 0.056 0.086 0.149 0.091 0.152
Csod MahT 2.6 9.1 4.4 0.5 2.5 6.6 1.1 2.0 3.0 4.2 3.6 6.9 9.0 5.0 9.3 4.1 2.0 482.8 2.4 3.5 5.1 17.5 12.3 11.5 2.0 1.9 25.2 13.4 46.8 1.5 5.4 4.3 1.9 0.6 6.2 2.9 2.6 3.7 8.9
OK-ból Post 0.755 0.014 0.035 0.138 0.054 0.012 0.093 0.059 0.043 0.024 0.041 0.039 0.014 0.049 0.023 0.029 0.101 0.000 0.093 0.036 0.028 0.002 0.008 0.017 0.056 0.052 0.007 0.024 0.146 0.132 0.036 0.027 0.429 0.215 0.015 0.036 0.049 0.032 0.010
CODE CONC BUDB BIZT ABNV AMET ABNA BNPD BREW BOND CAIB EQIT EMAB CSFI DUNA EAST EQIL DAEW NemOKból Hypo HANW REDE BEB Bank ACBr Duna PK ELSM Pake DIVE Csődből DIAN Lond PBEE WELL PANN GLOB Lasa Hofm
Átsorolás
Csod
Csod OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK
OK MahT 80.7 0.8 7.8 4.1 141.3 0.9 1.4 2.6 2.5 3.0 4.5 0.9 3.3 3.8 2.2 1.3 0.5 11.3 OK 1.4 3.8 247.2 2.9 0.4 2.2 3.8 1.7 0.8 2.5 2.1 OK 1.9 2.0 2.2 2.0 10.4 31.0 1.1 3.9
Post 0.910 0.897 0.311 0.681 0.762 0.814 0.872 0.794 0.682 0.738 0.937 0.867 0.577 0.905 0.831 0.907 0.880 0.326 0.936 0.516 0.000 0.797 0.862 0.646 0.842 0.848 0.889 0.748 0.667 0.871 0.910 0.695 0.897 0.381 0.130 0.772 0.591
NemOK MahT 89.5 2.4 8.2 4.7 140.4 1.4 3.5 2.3 2.1 6.1 7.1 2.1 3.3 5.2 4.5 3.3 2.1 9.1 NemOK 4.2 1.0 226.4 2.7 1.6 2.2 4.6 2.3 3.4 3.6 0.4 NemOK 3.6 3.9 2.6 3.5 9.8 32.7 2.1 2.4
Post 0.002 0.079 0.051 0.100 0.237 0.128 0.060 0.181 0.159 0.029 0.047 0.093 0.114 0.088 0.051 0.066 0.075 0.190 0.045 0.420 0.999 0.169 0.090 0.129 0.113 0.120 0.046 0.084 0.307 0.071 0.068 0.110 0.080 0.096 0.011 0.094 0.242
Csod MahT 81.5 4.1 2.5 2.5 153.8 2.3 2.6 5.7 1.5 1.3 8.7 3.1 0.7 9.7 2.2 4.4 2.5 6.6 Csod 5.3 4.1 240.3 5.3 2.2 0.4 5.8 4.3 2.1 1.6 4.7 Csod 3.3 5.5 0.8 5.3 5.8 23.3 0.7 2.5
Post 0.088 0.024 0.638 0.219 0.000 0.058 0.068 0.025 0.159 0.232 0.016 0.040 0.309 0.007 0.118 0.027 0.045 0.484 0.019 0.063 0.001 0.034 0.049 0.224 0.045 0.032 0.065 0.168 0.026 0.058 0.022 0.195 0.024 0.522 0.859 0.134 0.167
10.26 tábla Többváltozós variancia analízis tesztek Statisztika PILLAI'S TRACE = HOTELLING-LAWLEY TRACE= ROY'S MAXIMUM ROOT=
0.31922 0.38027 0.20606
F-érték 2.18412 2.15488 -
F-APPROXIMATION DF1 DF2 TP-VALUE 12 138 0.0156 12.97 68 0.0214 -
10.27 tábla Kanonikus változók Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid CONSTANT
Koefficiens CV1 CV2 0.92676 -1.11900 3.73168 7.52701 0.65021 0.28259 0.21584 -2.32430 0.09153 0.04431 0.07346 -0.02671 -4.30997 -5.44910
Változó ROB Feszkar Stokear Adossag Eszkfseb Likvid
Stand. koefficiens CV1 CV2 0.55955 -0.67562 0.51092 1.03055 0.53603 0.23297 0.05283 -0.56886 0.45831 0.22187 0.58065 -0.21112
GROUP OK NemOK Csod
Kanonikus változó az átlagpontban CV1 CV2 0.25675 -0.00692 -0.74803 0.71815 -0.80080 -0.93818
109
11 LOGISZTIKUS REGRESSZIÓ Az alábbiakban olyan módszereket ismertetünk, melyekkel előre definiált, egymást kölcsönösen kizáró csoportok valamelyikébe sorolunk be kérdéses egyedeket, mielőtt még tényleges tagságuk kiderülne. Az ilyen diszkrét, kategóriakimenetű eredményváltozó előrejelzését klasszifikációnak nevezzük. A klasszifikálás során a kérdéses egyed olyan jegyeire támaszkodunk, melyek korábbi empirikus megfigyelések alapján relevánsak a csoportok szóródását, diszkriminálását illetően. Az ilyen szeparáló szerepű változókat magyarázó változóknak nevezzük. A magyarázó változók mérési szintjei lehetnek mennyiségi jellegű folytonos, vagy diszkrét számértékek, de lehetnek nominális kategóriák is. A nominális kategóriák dummy változók rendszerével vonhatók be a döntési modellbe. A magyarázó változók szintjeinek egy rögzített kombinációja ún. kovariánst alkot. Az előrejelzés mindig adott kovariáns ismeretében történik. A klasszifikálás eredményeként adódik pl., hogy pénzügyi helyzete tükrében csődbe jutóként kezelünk egy gazdálkodó egységet vagy nem, életmódja mellett infarktust kap-e a páciens adott időszakban vagy elkerüli azt, nyereséges lesz-e egy költségigényes vállalkozás vagy veszteséges, visszafizeti az idős, nyugdíjas adós a neki nyújtott hitelt vagy sem, a hazai pályán játszó futball csapat nyer, döntetlent játszik vagy kikap, az autópályán elszenvedett sérülés kimenetele halálos, súlyos, vagy könnyű, stb. A vállalkozás csődbe jutásának a kockázatát várhatóan növeli, ha fizetési kötelezettségeihez nincs kellő likvid forrása, az infarktus kockázatát az elhízás fokozza, a tabella végén kullogó futball csapat ellen nagyobb a győzelmi esély, mint a listavezető ellen, és közúti baleset esetén a könnyű sérülés esélye a halálossal szemben nagyobb, ha a sérülés mérsékelt sebesség mellett lakott területen, mint ha száguldó gépjárműben autópályán történt volna. A klasszifikációs eljárások közül aszerint választunk, hogy milyen körülmények között alkalmazhatók. A dichotom (binomiális, vagy bináris) modell csak két kategória (csoport) közötti választást teszi lehetővé, míg a polichotom (multinomiális) modell nem korlátozza az eredményváltozó kategóriáinak a számát. A dichotom modell – tekintet nélkül a magyarázó változók eloszlására – mindig lehetővé teszi a feltételes, vagyis adott kovariáns ismeretében számított valószínűségek alapján történő döntést. A polichotom modell mindig visszavezethető dichotom modellek rendszerének az alkalmazására. Ha viszont ismert a magyarázó változók csoporton belüli valószínűségi eloszlása (például normális), akkor az adott kovariáns csoporton belüli bekövetkezésének likelihoodja is kalkulálható, és ennek ismerete finomíthatja a feltételes valószínűségek meghatározását. Azoknál a modelleknél, ahol a döntés feltételes valószínűségen alapul, a döntésbe a döntéshozó szubjektív ítélete is beépül. Végül, ha a változók valószínűségi eloszlására vonatkozó ismeretekre nem akarunk, vagy nem tudunk támaszkodni, de a magyarázó változók mérési szintje támogatja a távolságmérést a többdimenziós térben, akkor kézenfekvő a kérdéses egyedet a hozzá legközelebb álló csoportba besorolni.
11.1 DICHOTOM LOGISZTIKUS REGRESSZIÓ A logisztikus regresszió két, egymást kölcsönösen kizáró kategória bekövetkezési valószínűségeinek az egymáshoz való arányát, vagyis az odds mértékét modellezi magyarázó változók értékeinek az ismeretében. Adott kovariáns mellett kalkulálva az odds mértékét, azt a kategóriák bekövetkezési valószínűségévé konvertáljuk, majd e feltételes valószínűségek mérlegelésével a vizsgált egyedet a kategóriák valamelyikéhez hozzárendeljük. Az eredményváltozó valamely kategóriájának az előrejelzése e modellben a feltételes valószínűség mértékén alapul, tehát szubjektív elemet tartalmaz, a döntéshozó felelőssége. Ezért az előrejelzés egy, a feltételes valószínűség kritikus nagyságának a megítélését szolgáló döntési szabály rögzítését is igényli. Ha az eredményváltozónak két lehetséges kimenetele van, akkor dichotom, ha viszont kettőnél több kimenetele van, akkor polichotom logisztikus regresszióról beszélünk. Az alábbiakban a dichotom esetet tárgyaljuk A logisztikus regresszió során a „siker: 1” és a „kudarc: 0” bekövetkezési esélyeinek egymáshoz való aránya, az ún. "odds" vizsgálatából indulunk ki.32 Tegyük fel, hogy a siker bekövetkezésének feltételes valószínűsége a magyarázó változók x1,x2,...,xp rögzített kovariánsa mellett Px. Ekkor a sikernek a kudarchoz viszonyított esélye P oddsx = x . 1 − Px A logisztikus regresszió feltételezése szerint az odds logaritmusa - másképpen a siker valószínűségének a logitja - a magyarázó változók lineáris függvénye: ln(odds x ) = logit( Px ) = β0 + β1 x1 + ... + β p x p ahonnan β0 +β1x1 +...+β p x p
oddsx = e 32
A siker és kudarc terminológia a logit regresszió irodalmában megszokott.
110
= eβx .
A siker és a kudarc valószínűsége ezután a kétféle odds megoszlása: P / (1 − Px ) Px oddsx Px = = x = P P P P oddsx 1 − + 1 + / 1 − 1 + ( x) x x ( x)
1 . 1 + oddsx Így a ''siker'' valószínűsége az x kovariáns és a regressziós paraméterek függvényében β +β x + ...+β p x p e 0 11 eβx . (11.1) Px = = β +β x + ...+β p x p 1 + eβx 1+ e 0 1 1 Vegyük észre, ahogy Px tart zérustól 1-hez, az odds úgy tart végtelenhez. Mikor Px=0.5, az odds értéke 1. Ha 0g ahol g=2,...,m és P1 = 1-Py>1. Ha ezen a ponton azzal a feltevéssel élünk, hogy a magyarázó változó egységnyi abszolút változásának az odds-arányra gyakorolt hatása nem függ attól hogy mely g kategóriánál szeparáltuk el az alsó és a fölső szegmenst egymástól, nyerjük az ún. proporcionális modellt, ahol α +βx odds f :a = e g . Mint látható, ez a modell a Pg valószínűségek becsléséhez g osztópontonként külön tengelymetszet, viszont minden osztópontra közös meredekség becslését igényli. 11.2. Példa A nominális modellt alkalmazzuk a közúti balesetek kimenetelei valószínűségének a becslésére úgy, hogy a nem halálos kimenetelű baleseteket tovább bontjuk súlyos, és könnyű sérülésekre. A gyakoriságokat a 11.7. táblázat közli. 11.7. táblázat: A sérülések háromféle kimenete Kovariáns Sebesség Öv 0 1 30 1 45 1 55 1 65 1 75 1 85 1 95 1 120 1 0 0 30 0 45 0
118
Megfigyelt gyakoriság Halálos Súlyos Könnyű 0 5 100 32 387 1295 22 207 575 27 333 589 27 202 406 59 278 445 11 42 64 18 46 64 6 17 21 0 3 6 10 101 100 9 75 70
Becsült valószínűség Halálos Súlyos Könnyű 0.0052 0.1641 0.8307 0.0152 0.2330 0.7518 0.0255 0.2726 0.7020 0.0356 0.2998 0.6646 0.0494 0.3270 0.6236 0.0678 0.3529 0.5793 0.0919 0.3764 0.5317 0.1229 0.3959 0.4812 0.2357 0.4165 0.3478 0.0160 0.3267 0.6573 0.0424 0.4196 0.5380 0.0667 0.4612 0.4720
55 65 75 85 95 120
0 0 0 0 0 0
7 13 18 9 11 10
56 57 63 15 11 10
55 46 54 13 8 1
0.0891 0.1175 0.1526 0.1950 0.2449 0.3970
0.4843 0.5020 0.5129 0.5156 0.5092 0.4528
0.4266 0.3805 0.3345 0.2894 0.2459 0.1502
A becsült nominális modell jellemzőit - referencia csoportként a könnyű sérülést alkalmazva - a 11.8. táblázat tartalmazza. A táblában a szignifikánsnak bizonyult változók a modellbe való belépésük sorrendjében kerültek felsorolásra. 11.8. táblázat. A nominális modell eredményei Változó Tengelymetszet Sebesség Öv
b Halálos -3.713 0.3904 -1.361
Súlyos -0.6990 0.1502 -0.9229
b / se(b) Halálos Súlyos -16.5 -6.64 13.7 10.7 -9.43 -11.5
exp{b} Halálos Súlyos 0.024 0.50 1.5 1.2 0.26 0.40
loglikelihood lnL -4845.7 -4703.4 -4617.6
GF_CHI2 508.9 224.2 52.6
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 224.2 / 508.9 = 0.559 1 – 52.60 / 508.9 = 0.897 tehát az illeszkedés 89.7 százalékkal javult a null modellhez képest. A becsült koefficiensek felhasználásával például 120km/h sebesség és bekapcsolt biztonsági öv mellett az egyes sérülések odds-aránya a könnyű sérülés bázisában rendre oddshalálos:könnyű = e-3.713+0.3904·12-1.361·1 = 0.6776 oddssúlyos:könnyű = e-0.699+0.1502·12-0.9229·1 = 1.1978 oddskönnyű:könnyű = 1 és ebből a valószínűségek rendre 0.6776 Phalálos = = 0.23565 1 + 0.6776 + 1.1978 1.1978 Psúlyos = = 0.41657 1 + 0.6776 + 1.1978 Pkönnyű = 1-0.23565-0.41657 = 0.34778. Látható, hogy a halálos és a súlyos sérülés kockázatát fölül, a künnyű sérülését pedig alul becsültük. A feltételes értékekre támaszkodva kiszűrhetők, és az elemzésből elhagyhatók az extrém kovariánsok. A loglikelihood változása a teljes modell és a null (csak tengelymetszetet tartalmazó) modell viszonylatában, a CHI2 teszt tükrében LR_CHI2 = 2(4845.7 - 4617.6) = 456.2 csak a sebesség és a null modell viszonylatában pedig LR_CHI2 = 2(4845.7 - 4703.4) = 284.6. Mivel változónként 2 paraméterrel bővül a modell, ezért az előbbi esetben a modellválsztás CHI2 tesztjének szabadsági foka 4, az utóbbi esetben pedig 2. A szokásos szignifikancia szinteken tehát mindkét változó releváns a kimenetelek előrejelzését illetően. Végül a teljes modell illeszkedésének jóságát a GF_CHI2=52.6 teszt érték alapján ítéljük meg, melynek szabadsági foka (2·18-6)=30, mivel kovariánsonként két logitot modellezünk, a becsült paraméterek száma pedig 6. Vegyük észre, hogy az ''övhasználat'' változó modellbe való bevonásának hatására a GF_CHI2 statisztika értéke látványosan ''zuhant'', bár a hozzá tartozó TPV érték csak 0.007. A korrigált determinációs együttható értéke R2=152.6/508.9=0.8966, tehát 89.7 százalékkal javult az illeszkedés a null modellhez képest. 11.3. Példa A balesetek súlyosságának az előrejelzésére ordinális modell is alkalmazható, hiszen a kimenetelek súlyosság szerinti ordinalitása nyilvánvaló: a g=1,2,3 indexek reprezentálják a halálos, a súlyos és a könnyű sérülést. A kumulatív logitok modelljét használva, a becslés jellemzőit a 11.9. táblázat közli. 11.9. táblázat: A proporcionális modell eredményei Változó Tengelymetszet Sebesség Öv
b Halálos 3.309
Súlyos 0.7627 -0.199 0.9945
b / se(b) Halálos Súlyos 29.3 7.71 -15.0 13.5
exp(b) Halálos Súlyos 27.0 2.1 0.82 2.7
stepwise eredmény lnL GF_CHI2 -4845.7 508.9 -4719.2 255.8 -4630.2 77.8
Az illeszkedés javulásának menete a pszeudó R2 alapján: 1 – 255.8 / 508.9 = 0.497
119
1 –77.80 / 508.9 = 0.847 tehát az illeszkedés 84.7 százalékkal javult a null modellhez képest. Most a koefficiensek felhasználásával a 120km/h sebesség és bekapcsolt öv mellett -0.199·12+0.9945·1 = -1.3935 tehát a feltételes kumulált valószínűségek rendre: e3.309−1.3935 = 0.87164 Py >halálos = 1 + e3.309−1.3935 e0.7627−1.3935 = 0.34733 . Py > súlyos = 1 + e0.7627−1.3935 Innen pedig a feltételes valószínűségek: Phalálos = 1- Py>halálos = 1-0.87164 = 0.12836 Psúlyos = Py>halálos - Py>súlyos = 0.87164-0.34733 = 0.52431 Pkönnyű = Py>súlyos = 0.34733. Látható továbbá, hogy a nominális modell magasabb likelihoodja, és alacsonyabb GF_CHI2 mutatója jobb illeszkedést jelez, mint az ordinális: lnLnominális = -4617.6 > lnLproporcionális = -4630.2 GF_CHI2nominális = 52.6 < Gproporcionális = 77.8. Vegyük észre viszont, hogy most - az egymásba ágyazott modellek közötti választást illetően - a loglikelihood változásának szabadságfoka csak DF=1, ha egy változóval, és DF=2, ha egyidejűleg két változóval bővítjük a modellt, mivel most minden kategóriára közös az adott változó meredeksége. A proporcionális modell illeszkedését jellemzendő, a GF_CHI2 statisztika szabadságfoka most DF=(2·18-4), hiszen 36 logitot kell modelleznünk, két tengelymetszet, és két meredekség becslésével.
11.3 AZ {1,0} CSŐDMODELL Az alábbiakban 50 vállakozás nyereségessége és eladósodottsága alapján PD (probability of default) érték becslésére szolgáló logit modellt becslünk, ahol a PD érték az Odds és a Logit mennyiségekkel kifejezve: A feltételes valószínűség
PX PX / Q X odds X e a + b1 X 1 + b2 X 2 e logit X PX = = = = = PX + Q X 1 + PX / Q X 1 + odds X 1 + e a + b1 X 1 + b2 X 2 1 + e logit X A csődbement vállalkozásokat Y=1 azonosítja, miközben a mintában X1 és X2 tekintetében 10 különböző variáns figyelhető meg, és az egyes osztályok gyakoriságait a megfelelő f érték mutatja: b1 -0.63
b2 2.31
Const -5.73 ^Y
Nyereség Adósság X1 X2 -4 2 2 -3 0 -1 -1 2 2 2 3 3 2 5 7 1 7 2 1 8 Összesen
Csőd Y 1 1 1 0 0 1 0 0 0 0
Gyak f 1 2 1 5 20 3 10 6 1 1 50
Logitx 1.413 0.785 -5.098 -0.472 -2.356 -0.671 -4.241 -7.810 -5.497 -8.439
Oddsx Px Lx 4.108 0.8042 0.8042 2.192 0.6867 0.6867 0.006 0.0061 0.0061 0.624 0.3842 0.6158 0.095 0.0866 0.9134 0.511 0.3383 0.3383 0.014 0.0142 0.9858 0.000 0.0004 0.9996 0.004 0.0041 0.9959 0.000 0.0002 0.9998 Likelihood = -2*log(Likelihood) =
A becsült modell koefficiensei és szignifikanciája az alábbiak szerint alakul:
120
L x^f 0.8042 0.4716 0.0061 0.0885 0.1635 0.0387 0.8668 0.9976 0.9959 0.9998 0.00000111
27.42
Diszkrepancia
C=
C=
C=
C=
0.3 1 1 0 1 0 1 0 0 0 0
0.5 1 1 0 0 0 0 0 0 0 0
0.3
0.5 0 0 1 -1 0 0 0 0 0 0
0 0 1 0 0 1 0 0 0 0
Param.
Coeff.
S.Err.
Wald Chi2
DF
p
exp(b)
Const b1 b2
-5.73 -0.63 2.31
3.08 0.24 1.44
3.46 7.01 2.59
1 1 1
0.0627 0.0081 0.1079
0.53 10.11
0.95 CI L U
0.34 0.60
0.85 169.6
Inverz Információs Mátrix 9.468 0.281 -4.366
0.281 0.056 -0.148
-4.366 -0.148 2.070
A modell fokozatos bővítésének jellemzői: Goodness-of-Fit Chi2 Modell -2lnL DF p
DF
p
a a,b 1 a,b1,b2
49 48 47
0.801 0.977 0.990
40.50 30.51 27.42
9 8 7
0.00 0.00 0.00
Independence Chi2 DF 0 9.99 13.08
1 2
p
0.0016 0.0014
Improvement Chi2 DF
9.99 3.09
1 1
p
0.0016 0.0789
Pseudo 2 R= 0.000 0.247 0.323
Kritikus PD érték meghatározása a klasszifikációs mátrix és a veszteségfüggvény alapján: Maximum Likelihood normálegyenletek diff
a b1 b2
f*y f*y*X1 f*y*X2
Sum 7 -2 15
= = =
f*P f*P*X1 f*P*X2
Sum 7 -2 15
Klasszifikációs mátrixok Loss (+)coeff Obs Pred. Y | 0.3 Pred. Y | 0.5 Y 1 0 1 0 1 0 1 6 1 3 4 0 1 0 5 38 0 43 0.2 -0.2 Loss= -5.6 -4.6
121
12 A DISZKRÉT KIVÁLASZTÁSI MODELL A fejezet az MDC (multinomial discrete choice) kiválasztási modell paramétereinek a standard pontbecslési eljárásait tekinti át egyfelől az eredmények értelmezését illetően, másfelől a modell gyakorlati alkalmazását segítendő azon esetre, mikor közvetlenül működő standard MDC programcsomag nem áll rendelkezésre.33A probléma klasszikus megoldása az irodalomban a túlélési modellek egyik alapmódszerének, az ún. Cox-regressziónak a felhasználásával történik, amelynek rugalmas, kontrollálható alkalmazása akkor is előnyt nyújthat, ha egyébként standard MDC program is rendelkezésre áll. Az MDC modellben egy I individuum (a döntést hozó személy) g=1,2,...,mI számú lehetséges alternatíva halmazából egyet biztosan, és csak egyet kiválaszt. A választási alternatívák száma individuumonként nem szükségszerűen azonos. Nyilvánvaló, hogy a kiválasztás eredményét mind a döntéshozó individuális tulajdonságai, mind az alternatíva sajátosságai befolyásolják. A döntés kimenetét (eredményét) magyarázó változók tehát egyfelől lehetnek individuális jellegűek, másfelől alternatíva-specifikusak. Az előbbieket x, az utóbbiakat Z jelöli a tanulmányban. Bár a modell paramétereinek a becslése mindkét típus esetén a maximum likelihood (ML) elven alapul, jellegét tekintve különbözik x, vagy Z típusú magyarázó változók használata esetén. Előbb e két almodell becslésének a különbözősége kerül tárgyalásra. Ezt követően, mivel a reális döntési helyzet mind x, mind Z egyidejű figyelembe vételét („vegyes” modell alkalmazását) igényli, a becslési eljárást az általános, mindkét típust magában foglaló esetre is bemutatjuk. Az alternatíva-specifikus magyarázó változók kezelése, és így a „vegyes” modell becslése standard módon a statisztikai szoftverek többségében közvetlenül nem érhető el. Ennek okán a tanulmány – egy illusztratív példa számszerűsítésén át útmutatást ad arra vonatkozóan, hogy a „vegyes” modell adatállományát milyen struktúrában kell rögzíteni (a modellt hogyan kell paraméterezni) annak érdekében, hogy paramétereinek a becslése a standard Cox-regresszióval megoldhatóvá váljon.
12.1 A POLICHOTOM LOGIT MODELL ESETE A polichotom (multinomiális) logit modell (PL) akkor alkalmazandó, ha a döntés diszkrét kimenetét (a kiválasztás eredményét) magyarázó változó individuális jellegű, és az alternatívák köre mindenkire azonos: g=1,2,...,m. Jelölje xI a döntést hozó I individuum valamely jellemzőjét: példánkban az életkorát. Ekkor annak a valószínűsége, hogy a választható alternatívák közül éppen a C ∈ {1,2,..., m } alternatívát választja ki az I személy:
PCI =
PCI
=
m
∑P
gI
g =1
PCI / PmI m
∑P
gI
g =1
/ PmI
=
oddsI (C : m ) m
∑ odds
I
(g : m )
=
e αC +βC xI m ∑g =1e αg +βgxI
g =1
oddsI (C : m ) valószínűségarány annak az esélye, hogy az I személy a C alternatívát preferálja az m referencia alternatívával szemben ( odds (m : m ) = 1 ) és az ln(odds)=logit mennyiség a magyarázó változó lineáris függvénye az α m = βm = 0 megkötés mellett. ahol az
Ha a döntéshozó előtt csak két alternatíva áll, akkor m=2 mellett az ún. dichotom, vagy bináris logit modellt kapjuk. A modell szerint mind az
α g tengelymetszet, mind a βg parciális regressziós paraméter alternatíva-specifikus, miközben
adott individuum xI jellemzője ugyanaz bármely alternatíva esetén. Látható, hogy m számú alternatíva mellett a paraméterek m-1 számú körét definiáljuk. Ha az x változó értéke egységnyit emelkedik, akkor a C:m viszonylatú odds az ratio (OR) faktorral szorzódik. A regressziós paramétereket kézenfekvő a maximum likelihood (ML) módszerrel becsülni. Jelölje a minta I=1,2,…,n individuum megfigyelt, független döntéseit: függvénye:
e βC odds-
C 1,C 2,...,C n
C I ∈ {1,2,..., m } . A minta maximálandó likelihood
33 Például a Systat 11.0, vagy a SAS program szolgáltat közvetlenül hívható MDC modult, viszont például az SPSS programban az eljárás csak közvetetten oldható meg.
122
n
m
SgI
L = ∏∏(PgI )
→ max
I =1 g =1
ahol SgI=1, ha a g alternatívát az I személy kiválasztotta, egyébként SgI=0. A paraméterek referencia-függők, a valószínűségek viszont nem. A valószínűséget a
PCI =
1
∑
m
g =1
e
(α g −αC )+(βg −βC )xI
formában írva látszik, hogy a különféle alternatívák kiválasztási valószínűségei közötti különbség adott x mellett csak a paraméterek alternatíva-specifikus jellegéből származik. Illusztratív példánkban I=1,2,...,21 személynek az utazásuk módját illető választásait az életkorukkal magyarázzuk, tengelymetszet szerepeltetése mellett. A lehetséges három mód: autó(A), repülő(R) és vonat(V). A három mód közül egyet és csak egyet választ mindenki. A három mód mellett változónként rendre 2 koefficienst (két tengelymetszetet és két életkor-meredekséget) becslünk úgy, hogy a vonat(V) a referencia alternatíva. A koefficiensek ML becsléseit, az adatokat és az eredményeket pedig a következő két tábla közli. A táblában a „C” megnevezésű oszlop az illető választási döntését közli, az SA, SR és SV indikátor jellegű oszlopok pedig a döntés statusa szerint veszik fel az 1, illetve a 0 értéket. Például az I=1 egyén, aki egyébként 32 éves, a repülős utat választotta, ezért
odds (R /V | 32) = e 2.7212−0.05⋅32 = 3.068 majd a repülős út kiválasztásának a valószínűsége
PR1 =
3.068 = 0.492 . 2.168 + 3.068 + 1
Ez a valószínűség bárkit, aki 32 éves, egyöntetűen jellemez! Az így számított 21 darab PC valószínűség szorzata a táblában maximált, és az értéke L = 0.492 ⋅ 0.483 ⋅ ... ⋅ 0.421 . A megfelelő -2lnL „goodness-of-fit” statisztika értéke pedig 42.18.34 12.1. tábla ML becslés az életkor-koefficiensekre Változó
Koefficiens Autó
Tengelymetszet Életkor
Repülő
Vonat
3.0449
2.7212
0
-0.0710
-0.0500
0
12.2. tábla Utazási mód választása adott életkor (év) mellett
34
Megfigyelés(I)
Életkor
C
SA
SR
SV
oddsA
oddsR
oddsV
1
32
R
0
1
0
2.168
3.068
1
0.492
PC
2
13
A
1
0
0
8.351
7.934
1
0.483
3
41
V
0
0
1
1.145
1.956
1
0.244
4
41
V
0
0
1
1.145
1.956
1
0.244
5
47
A
1
0
0
0.748
1.449
1
0.234
6
24
R
0
1
0
3.826
4.577
1
0.487
7
27
A
1
0
0
3.092
3.940
1
0.385
8
21
R
0
1
0
4.733
5.318
1
0.481
9
23
A
1
0
0
4.107
4.812
1
0.414
10
30
R
0
1
0
2.499
3.391
1
0.492
11
58
R
0
1
0
0.343
0.836
1
0.384
12
36
V
0
0
1
1.633
2.512
1
0.194
13
43
A
1
0
0
0.993
1.770
1
0.264
A maximálást a paraméterek tekintetében a MS Office Excel-Solver moduljával végeztük el. Ezzel pontbecslést nyertünk a paraméterekre.
123
14
33
R
0
1
0
2.020
2.919
1
0.491
15
30
R
0
1
0
2.499
3.391
1
0.492
16
28
R
0
1
0
2.880
3.748
1
0.491
17
44
R
0
1
0
0.925
1.684
1
0.467
18
37
V
0
0
1
1.521
2.390
1
0.204
19
45
A
1
0
0
0.862
1.602
1
0.249
20
35
R
0
1
0
1.753
2.641
1
0.490
21
22
A
1
0
0
4.409
5.059
1
0.421
A fenti modell becslése statisztikai szoftverekben standard módon, közvetlenül elérhető úgy, hogy 21 megfigyelés (case) mellett az Életkor a kovariáns és C az eredményváltozó. Ha több, rendre x 1, x 2,..., x k magyarázó változót tartalmaz a modell, akkor a regressziós paraméterek köre is megfelelően bővül, de a modell lényegileg változatlan marad. Például három magyarázó változót használva (Életkor, Jövedelem, Nem) három alternatívához a két tengelymetszet mellett még 3*2=6 meredekséget is becsülnünk kell. Ha pedig olyan nominális magyarázó változóval bővítjük a modellt, melynek kettőnél több kimenete van (lakóhely szerint Budapest, Többi_város, Község), akkor az indikátor változók száma kettővel (B,Tv), a paraméterek száma pedig 2*2=4-gyel emelkedik. Mint látható, a PL modell nem takarékos a paraméterekkel, és a paraméterek értelmezése a mindenkori referencia alternatíva viszonylatát igényli.
12.2 A FELTÉTELES LOGIT MODELL ESETE A feltételes (conditional) logit modell (CL) akkor alkalmazandó, ha a döntés kimenetét magyarázó változó alternatívaspecifikus, annak valamely tulajdonságát írja le. Jelölje Z az alternatívák egy jellemzőjét: példánkban az utazás időigényét. Megfigyelésünk most nem az individuumra, hanem az összes előforduló ZgI (I=1,2,...,n; g=1,2,...,mI) utazási időre (órában mérve) irányul. A megfigyelt eseteket az individuumok n számú rétegre bontják, és adott rétegen belül egy alternatíva kiválasztásra kerül, a többi nem. A 21*3=63 megfigyelést (esetet) 21 rétegre bontva a következő tábla tartalmazza. Az egyes alternatívák időigényét adott individuum esetén az AI, RI és VI oszlopok azonosítják, de magyarázó változónk csak egy van, az utazás időigénye. Valamennyi esetet szemlélve a döntés kimenetét binárisan kódoljuk: SgI=1, ha a g alternatíva kiválasztásra került az I rétegben, és SgI=0, ha nem. Az eredményváltozó megfelelő rétegzett értéke tehát: SgI. A kiválasztás előrejelzése így egy rétegzett, dichotom logit modell alkalmazására vezetett. E modell paramétere alternatíva-független, globális, minden megfigyelésre egyformán érvényes. E paraméterek becslése a CL modell speciális alkalmazásával valósítható meg. A CL modell lényegét segít megvilágítani, ha előbb külön az I=1 individuumot (réteget) tekintjük, aki a repülőt választotta, tehát esetében a háromelemű bináris döntési szekvencia: dR=[0,1,0]. Ennek likelihoodja a dichotom logit modell alapján:
LRI
1 e α +θZRI 1 = α+θZRI α +θZ AI 1 +e 1 +e 1 + e α +θZVI
ahol α és θ globális paraméterek. A döntéshozó azonban választhatott volna másképpen is. Ragaszkodva ahhoz, hogy csak egy alternatívát választhat, a további lehetőségei rendre a dA=[1,0,0] és a dV=[0,0,1] szekvenciák, melyek likelihoodjai rendre:
LAI =
e α +θZAI 1 1 α +θZRI α+θZAI 1 +e 1 +e 1 + e α+θZVI
LVI =
1 1 e α+θZVI . 1 + e α+θZAI 1 + e α+θZRI 1 + e α +θZVI
Ezek birtokában a C ∈ {A, R,V } alternatíva kiválasztásának a feltételes valószínűsége az I egyén esetében a megfelelő likelihood statisztikai megoszlása a három likelihood összegében, általában pedig:
124
PCI =
LCI
∑
mI
L g =1 gI
e θZCI = m θZ ∑g =I1 e gI
=
1 mI
∑g =1 e
θ(Z gI −ZCI )
.
Vegyük észre, hogy a likelihoodok közös nevezője, és a globális tengelymetszet eliminálódik a valószínűségből, ezért szerepeltetésük fölösleges.35 A magyarázó változó egységnyi abszolút növekményének a kiválasztási valószínűségre gyakorolt hatása a magyarázó Z változó alternatívák közötti ingadozásától függ, és konstans. Végül a
θ paraméter tekintetében maximálandó likelihood a rétegen belüli kiválasztási valószínűségek szorzata: n
mI
SgI
L = ∏∏(PgI )
→ max .
I =1 g =1
θ paraméter ML becslése ˆθ = -0.26549 . Így az I=1 egyén esetén a repülős út
Az egyetlen változónkhoz tartozó kiválasztásának a valószínűsége:
PR1 = 0.303 / (0.07 + 0.303 + 0.062) = 0.697 . Az ily módon kalkulált 21 darab PC valószínűség L szorzata a táblában a fenti koefficiens mellett maximális, és a -2lnL statisztika értéke 33.629. 12.3. tábla Utazási mód választása az utazási idő (óra) függvényében
Ha több, rendre
Réteg(I)
AI
RI
VI
SA
SR
SV
e-0.265AI
e-0.265RI
e-0.265VI
PC
1
10
4.5
10.5
0
1
0
0.070
0.303
0.062
0.697
2
5.5
4
7.5
1
0
0
0.232
0.346
0.137
0.325
3
4.5
6
5.5
0
0
1
0.303
0.203
0.232
0.314
4
3.5
2
5
0
0
1
0.395
0.588
0.265
0.212
5
1.5
4.5
4
1
0
0
0.671
0.303
0.346
0.509
6
10.5
3
10.5
0
1
0
0.062
0.451
0.062
0.786
7
7
3
9
1
0
0
0.156
0.451
0.092
0.223
8
9
3.5
9
0
1
0
0.092
0.395
0.092
0.683
9
4
5
5.5
1
0
0
0.346
0.265
0.232
0.410
10
22
4.5
22.5
0
1
0
0.003
0.303
0.003
0.982
11
7.5
5.5
10
0
1
0
0.137
0.232
0.070
0.529
12
11.5
3.5
11.5
0
0
1
0.047
0.395
0.047
0.096
13
3.5
4.5
4.5
1
0
0
0.395
0.303
0.303
0.395
14
12
3
11
0
1
0
0.041
0.451
0.054
0.826
15
18
5.5
20
0
1
0
0.008
0.232
0.005
0.946
16
23
5.5
21.5
0
1
0
0.002
0.232
0.003
0.977
17
4
3
4.5
0
1
0
0.346
0.451
0.303
0.410
18
5
2.5
7
0
0
1
0.265
0.515
0.156
0.167
19
3.5
2
7
1
0
0
0.395
0.588
0.156
0.347
20
12.5
3.5
15.5
0
1
0
0.036
0.395
0.016
0.883
21
1.5
4
2
1
0
0
0.671
0.346
0.588
0.418
Z1, Z 2,..., Zq magyarázó változót tartalmaz a modell, akkor a regressziós paraméterek köre is megfe-
lelően bővül.
A feltételes logit PCI valószínűségének a nevezője azért tartalmaz annyi összeadandót, ahány alternatíva van, mert az individuum csak egy alternatívát választhat ki, így az egydarab 1 összes permutációinak a száma megegyezik az alternatívák számával. Ha háromnál több alternatíva közül egynél többet is választhatunk, például kettőt, akkor az összes olyan permutációk száma melyek a szekvenciában két helyen tartalmaznak 1 értéket, már megsokszorozódik. 35
125
12.3 A „VEGYES” MODELL ALKALMAZÁSA A valósághű alkalmazás mind a választó individuum, mind a választandó alternatíva jegyeit figyelembe veszi. Ekkor a C alternatíva I egyén által való kiválasztásának a valószínűsége:
PCI =
e αC +βC xI +θZCI m α +β x +θZ ∑g =1e g g I gI
| α m = βm = 0 .
A ML becsléssel nyert koefficienseket az alábbi tábla közli, melyekre a következő táblában foglalt 21 db PC valószínűség szorzata maximális: a -2lnL statisztika értéke 27.46433. 12.4. tábla A vegyes modell ML koefficiensei Változó
Koefficiens Globális
Tengelymetszet Életkor Uzazási idő
Autó
Repülő
Vonat
2.5007
-2.7792
0
-0.0783
0.0169
0
-0.6085
12.5. tábla Utazási mód választása az életkor (év) és az utazási idő (óra) függvényében I
AI
RI
VI
Kor
C
SA
SR
SV
-.608AI
-.608RI
-.608VI
2.5-.078Kor
-2.78+.017Kor
PC
1
10
4.5
10.5
32
R
0
1
0
-6.085
-2.738
-6.389
-0.004
-2.237
0.636
2
5.5
4
7.5
13
A
1
0
0
-3.347
-2.434
-4.564
1.483
-2.559
0.900
3
4.5
6
5.5
41
V
0
0
1
-2.738
-3.651
-3.347
-0.708
-2.084
0.501
4
3.5
2
5
41
V
0
0
1
-2.130
-1.217
-3.042
-0.708
-2.084
0.333
5
1.5
4.5
4
47
A
1
0
0
-0.913
-2.738
-2.434
-1.177
-1.983
0.561
6
10.5
3
10.5
24
R
0
1
0
-6.389
-1.825
-6.389
0.623
-2.372
0.757
7
7
3
9
27
A
1
0
0
-4.259
-1.825
-5.476
0.388
-2.322
0.510
8
9
3.5
9
21
R
0
1
0
-5.476
-2.130
-5.476
0.857
-2.423
0.428
9
4
5
5.5
23
A
1
0
0
-2.434
-3.042
-3.347
0.701
-2.389
0.817
10
22
4.5
22.5
30
R
0
1
0
-13.386
-2.738
-13.691
0.153
-2.271
0.999
11
7.5
5.5
10
58
R
0
1
0
-4.564
-3.347
-6.085
-2.038
-1.796
0.616
12
11.5
3.5
11.5
36
V
0
0
1
-6.997
-2.130
-6.997
-0.317
-2.169
0.060
13
3.5
4.5
4.5
43
A
1
0
0
-2.130
-2.738
-2.738
-0.864
-2.050
0.407
14
12
3
11
33
R
0
1
0
-7.302
-1.825
-6.693
-0.082
-2.220
0.904
15
18
5.5
20
30
R
0
1
0
-10.952
-3.347
-12.169
0.153
-2.271
0.993
16
23
5.5
21.5
28
R
0
1
0
-13.995
-3.347
-13.082
0.310
-2.305
0.999
17
4
3
4.5
44
R
0
1
0
-2.434
-1.825
-2.738
-0.943
-2.033
0.176
18
5
2.5
7
37
V
0
0
1
-3.042
-1.521
-4.259
-0.395
-2.152
0.197
19
3.5
2
7
45
A
1
0
0
-2.130
-1.217
-4.259
-1.021
-2.017
0.444
20
12.5
3.5
15.5
35
R
0
1
0
-7.606
-2.130
-9.431
-0.238
-2.186
0.966
21
1.5
4
2
22
A
1
0
0
-0.913
-2.434
-1.217
0.779
-2.406
0.742
A vegyes modellben annak a valószínűsége, hogy az I=1 személy a repülős utat választja:
PR1 =
e −6.085−0.004
e −2.738−2.237 = 0.636 . + e −2.738−2.237 + e −6.389+0
Mint látható, a vegyes modell individuális változójának paramétere alternatíva-specifikus, míg az alternatíva-specifikus változó paramétere globális. Ez nehézséget okoz akkor, ha szimultán becslésükre (az alkalmazott statisztikai szoftver adottsága miatt) a polichotom logit módszer, és a feltételes logit módszer csak szeparáltan hívható fel. Kézenfekvő megoldás az individuális változót is globalizálni.
126
12.3.1 A VEGYES MODELL GLOBÁLIS PARAMÉTEREZÉSE Tekintsük az i=1,2,...,nm egyedi választási (utazási) lehetőségeket, melyeket az individuumok n rétegbe sorolnak. Definiáljuk az X globális változó értékeit az Xi (i=1,2,...,nm) módon, ahol i egy (g,I) párosítást képvisel. Azonosítsa továbbá a Dg globális indikátor változó 1 értékkel a g alternatívát, értéke egyébként 0. Így, az indikátor változók felhasználásával X hatása a kiválasztásra a γ 0 + γ1Xi modell szerint alakul, ahol a γ globális paraméterek alternatívafüggők, az alábbiaknak megfelelően: m
m
γ 0 = ∑ α g Dg ,
γ1 = ∑ βg Dg
g =1
(α m = βm = 0) .
g =1
Így a globális X változó lineáris hatása: m
m
g =1
g =1
∑ αgDg + ∑ βg (Dg Xi ) . Alkossák most a Z változók körét egyfelől az eredetileg is Z jellegű változó, másfelől az alternatívát azonosító Dg változók, végül ezen indikátor változóknak az X változóval vett Dg*X=DgX interakciói. A C utazási mód kiválasztásának a valószínűsége az I individuum által (az életkort és az utazás idejét egyidejűleg figyelembe véve):
PCI =
e αC DC +βC (DC XCI )+θZCI m
∑g =1e
(αm = βm = 0)
α g Dg +βg (Dg X gI )+θZ gI
ahol a paraméterek becslése a feltételes likelihood maximálását igényli. A fenti módon definiált, példabeni adatainkat a következő tábla írja le. E struktúrában adott individuum választási halmaza egy önálló réteget (strata) alkot, melyen belül mindegyik alternatíva egy önálló megfigyelést (sort) igényel. Az adatállományban a sorok száma 21*3=63, a rétegek száma 21, és mindegyik réteg 3 alternatívát tartalmaz. Az S indikátor változó azt jelzi, hogy az alternatíva kiválasztásra került vagy sem. A DA és DR indikátor változók rendre az „autós” és a „repülős” utat azonosítják, miközben a „vonatutazás” a referencia alternatíva. (A „t” oszlop tartalma a következő fejezetben kerül definiálásra.) Ha a paraméterbecsléshez feltételes maximum likelihood program nem áll rendelkezésre, akkor a probléma túlélési modellként való megfogalmazása nyújt megfelelő eredményt. Ennek során minden kiválasztást mint bekövetkezett eseményt, a ki nem választásokat pedig mint később bekövetkezendő eseményeket kezeljük, majd az „eseményig” tartó időtartam alakulását modellezzük magyarázó változók ismerete mellett. Ennek egyik eszköze a Cox-regresszió, mely speciális körülmények között a CL modell megoldását nyújtja (Kuhfeld (2003)). 12.6. tábla Vegyes modell interakciókkal Individuum
Utazási mód
Utazási idő
Kor
S
t
DA
DR
DA*Kor
DR*Kor
1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6
A R V A R V A R V A R V A R V A
10.0 4.5 10.5 5.5 4.0 7.5 4.5 6.0 5.5 3.5 2.0 5.0 1.5 4.5 4.0 10.5
32 32 32 13 13 13 41 41 41 41 41 41 47 47 47 24
0 1 0 1 0 0 0 0 1 0 0 1 1 0 0 0
2 1 2 1 2 2 2 2 1 2 2 1 1 2 2 2
1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1
0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
32 0 0 13 0 0 41 0 0 41 0 0 47 0 0 24
0 32 0 0 13 0 0 41 0 0 41 0 0 47 0 0
127
6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21
R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V A R V
3.0 10.5 7.0 3.0 9.0 9.0 3.5 9.0 4.0 5.0 5.5 22.0 4.5 22.5 7.5 5.5 10.0 11.5 3.5 11.5 3.5 4.5 4.5 12.0 3.0 11.0 18.0 5.5 20.0 23.0 5.5 21.5 4.0 3.0 4.5 5.0 2.5 7.0 3.5 2.0 7.0 12.5 3.5 15.5 1.5 4.0 2.0
24 24 27 27 27 21 21 21 23 23 23 30 30 30 58 58 58 36 36 36 43 43 43 33 33 33 30 30 30 28 28 28 44 44 44 37 37 37 45 45 45 35 35 35 22 22 22
1 0 1 0 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 0 0 1 0 1 0 0
1 2 1 2 2 2 1 2 1 2 2 2 1 2 2 1 2 2 2 1 1 2 2 2 1 2 2 1 2 2 1 2 2 1 2 2 2 1 1 2 2 2 1 2 1 2 2
0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0
0 0 27 0 0 21 0 0 23 0 0 30 0 0 58 0 0 36 0 0 43 0 0 33 0 0 30 0 0 28 0 0 44 0 0 37 0 0 45 0 0 35 0 0 22 0 0
24 0 0 27 0 0 21 0 0 23 0 0 30 0 0 58 0 0 36 0 0 43 0 0 33 0 0 30 0 0 28 0 0 44 0 0 37 0 0 45 0 0 35 0 0 22 0
12.3.2 A COX- REGRESSZIÓ: “PROPORTIONAL HAZARDS” Jelölje t a vizsgált „esemény” bekövetkezéséig a megfigyelés (folyamat) kezdetétől eltelt idő hosszát: „event time”. E periódus változó időtartamát a modell szerint a X1, X 2 ,...Xq magyarázó változók szintjei indokolják, és tj a megfigyelt időtartamok növekvő rangsorában a j-edik, miközben fj annak a gyakorisága, hogy tj eltelt idő mellett a vizsgált eseményt hányszor észleltük:
t1( f1) < t2( f2 ) < ... < t j (f ) < ... < tk (fk ) . j
Ha egy individuum – akinél a folyamat már elindult, de valami ok folytán kikerül a megfigyelési körből az esemény bekövetkezése nélkül, akkor az illető megfigyelést cenzorált (censored) esetként kezeljük. Jelölje továbbá Rj mindazon indexek által alkotott kockázati csoportot, akik közvetlen a tj időt megelőzőleg ki vannak téve az esemény kockázatának. E kockázati körben az „event time” legalább tj, és a tj mellett cenzorált esetek tagjai e kockázati csoportnak. Ezek ismeretében:
•
128
a túlélési “Survival” függvény (t,T: idő):
S (t ) = Pr (T ≥ t ) = 1 − F (t ) , •
a “hazard rate” függvény:
Pr (t ≤ T ≤ t + ∆t | T ≥ t ) f (t ) = , ∆t →0 ∆t S (t )
h (t ) = lim •
speciálisan a Cox-“proportional hazards” a magyarázó változók függvényében:
h (t | X1, X 2 ,...Xq ) =
f (t | X1, X 2 ,...Xq ) S (t | X1, X 2 ,...Xq )
= h0 (t )e
β1X1 +β2X 2 +...+βq Xq
,
ahol h0(t) a „base-line hazard”. Rétegzett minta esetén a base-line hazard nem csak időfüggő, hanem rétegspecifikus is. Ekkor annak feltételes valószínűsége, hogy valamely individuum megéli a tj időt, de utána az esemény rögtön bekövetkezik, nem más, mint a „hazard-ratio” megoszlása:
PX =
e
β1X1 +β2 X2 +...+βq Xq
∑e
β1X1l +β2X 2l +...+βq Xql
.
l ∈Rj
E valószínűségek szorzata valamennyi t időre (súlyozottan felírva) a Breslow-féle likelihood függvényt adja: k
L (β) = ∏ j =1
e
β1X1+ +β2X2+ +...+βq Xq+ f
j e β1X1l +β2X2l +...+βq Xql ∑ l ∈Rj
→ max
+
ahol X j a megfelelő magyarázó változó összegzését jelöli mindazokra, akiknél az esemény a tj időpontban bekövetkezett. (A súlyozatlan eset, mikor fj=1 minden j-re, speciálisan a Cox-féle parciális likelihood függvényt eredményezi.) Ha a minta I=1,2,…,n rétegre van bontva, akkor a Breslow-likelihood egyszerűen a rétegen belüli likelihoodok szorzata: n
L (β) = ∏ LI (β) . I =1
Ahhoz, hogy a Breslow-likelihood a feltételes logit likelihoodjával ekvivalens legyen, az alábbiak szükségesek: 1.
A megfigyeléseket az individuumok szerinti rétegekre (strata) bontjuk,
2.
a kiválasztott C alternatívához a status változóban S=1 (event) értéket, a ki nem választott alternatívákhoz pedig az S=0 (censored) értéket rendeljük,
3.
a kiválasztott C alternatívához mindig t=1 „event time”, a ki nem választott alternatívákhoz pedig egy nagyobb (későbbi), de egyöntetűen t=2 „censored time” értéket rendelünk,
4.
mivel a diszkrét kiválasztási modellben a „t” változó adott értéke szükségszerűen többször fordul elő, ezért ha e kötések (ties) kezelésére az alkalmazott szoftverben opcionálisan más típus is választható (lásd SAS), akkor kifejezetten a Breslow-likelihood választandó.
A vegyes model fenti adataira a Cox-regressziót alkalmazva visszakapjuk a korábban már megismert (Excel-Solver) megoldásokat, az alábbiak szerint: 1.
rétegképző „strata” változó: „Individuum”,
2.
a „status” változó: S,
3.
az „event time” változó: t,
4.
a kovariánsok: Utazási idő, DA, DR, DA*Kor, DR*Kor.
129
A (B) pontbecslések mellett aszimptotikus standard hibákat (SE), parciális Wald-statisztikákat, szignifikancia-értékeket, Exp(B) „hazard-ratio” értékeket és 95%-os konfidencia intervallumokat is nyerünk. Az SPSS programmal kapott eredmények az alábbiak. 12.7. tábla A vegyes modell paraméterbecslése a Cox-regresszióból Változó
B
SE
Wald
df
p-value
Exp(B)
Lower
Upper
Utazási idő
-.608
.271
5.031
1
.025
.544
.320
.926
DA
2.501
2.396
1.089
1
.297
12.191
.111
1334.724
DR
-2.779
3.529
.620
1
.431
.062
.000
62.686
DA*Kor
-.078
.063
1.527
1
.217
.925
.817
1.047
DR*Kor
.017
.074
.052
1
.820
1.017
.879
1.177
Eszerint 5 százalékos szignifikancia szinten csak az utazás időtartama hat szignifikánsan a választásra. Továbbmenve, ha az utazás 1 órával tovább tart, akkor a kérdéses utazási mód kiválasztásának az esélye 100(1-0.544) = 45.6 százalékkal csökken. A többi paraméter tesztelése és az Exp(B) „hazard-ratio” értelmezése analóg. Az előzőekben modellenként rendre közöltük a Likelihood Ratio típusú goodness-of-fit statisztikák -2lnL értékeit. A háromféle modell úgy ítélendő meg, hogy a tökéletesen illeszkedő szaturált modell esetén -2lnL=0, míg a kovariánst nem tartalmazó „intercept only” ún. null-modell esetén -2lnL=46.142. E határok között az egyes változók lépésenkénti szelektálására is lehetőség nyílik, melynek eredményeit az alábbiak. 12.8. tábla A likelihood-arány javulása változóról változóra Bevont változó
-2lnL
Chi2
df
p-value
Chi2_változás
df
p-value
1.: Uzazási idő
33.629
11.988
1
.001
12.513
1
0.000
2.: DR
30.284
13.522
2
.001
3.345
1
0.067
3.: DR*Kor
29.266
13.940
3
.003
1.018
1
0.313
4.: DA*Kor
28.739
13.966
4
.007
0.527
1
0.468
5.: DA
27.464
15.361
5
.009
1.274
1
0.259
Első lépésben csak az Utazási idő, az utolsó lépésben pedig mind az öt magyarázó változó a modellben szerepel. A nullmodelltől való eltávolodást mérő Chi2 statisztika még a legbővebb modellt is szignifikánsnak ítéli 1%-os szinten, bár a df szabadsági fok a modell komplexitásának növekedésével gyorsabban nőtt, mint ahogy a -2lnL célfüggvény csökkent. A Chi2 lépésenkénti változását tesztelve látszik, hogy az utolsó három lépésben bevont tényező modellből való kihagyása megfontolandó.
12.3.3 FÜGGETLENSÉG AZ IRRELEVÁNS ALTERNATÍVÁKTÓL Az eddigi modellek mindegyike azon a feltevésen alapult, hogy az alternatívák választása független egymástól: „Independence from Irrelevant Alternatives” (IIA). Ez alatt az értendő, hogy adott megfigyelésre bármely két alternatíva kiválasztási valószínűségének az egymáshoz való OR (odds-ratio) aránya független bármely más alternatívától. E feltevés lehet helytálló, lehet irreális, viszont fenntartása vagy elvetése statisztikai tesztet igényel. Esetünkben az utazási módok és az utazási idők kölcsönhatásai (interakciói) valamint az utazási módok egymás közti kapcsolatainak az utazási időre gyakorolt hatása vizsgálható. Az alternatívák és időigényeik interakcióit megfogalmazó modell m −1
m
∑α D g
g =1
g
+ ∑ θg Dg Z g =1
melyet tovább bővítve alternatívaközi interakciók hozzáadásával m −1
m
g =1
g =1
m
∑ αg Dg + ∑ θg DgZ + ∑ δg DgZ g−1 + δ1D1Zm
130
g =2
adódik. Láthatóan az alternatívák közötti kapcsolatok tesztelését most a szomszédos alternatívák vizsgálatára egyszerűsítettük. A két egymásba ágyazott modell közötti választás a paraméterek egy csoportjára vonatkozó hipotézis tesztelését igényli:
δ1 = δ2 = ... = δm = 0 . Az újonnan bevezetett magyarázó változókat – a korábban definiált változókkal együtt – a következő tábla tartalmazza. Például DR*AI a repülős alternatíva indikátor változójának és az autóval való utazási időnek a szorzata (repülőn utazva tart addig az út, mint egyébként autón). Az eredményeket a tágabb, meg nem szorított modellre és a szűkített modellre a további két tábla tartalmazza. A két modell különbsége a -2lnL statisztika tekintetében 27.153-24.781=2.372, mely df=3 szabadsági fok mellett nem szignifikáns (a két modell 3 paraméterben különbözik). A három alternatívaközi hatással történő bővítés tehát nem javítja jelentősen a likelihood kritériumot, így az egyéb alternatíváktól való függetlenség hipotézise jelen minta esetén fenntartható. Felhívjuk a figyelmet végül, hogy a Cox-regresszió (Breslow-likelihood) alkalmazása a kiválasztónak megengedi, hogy választási halmazából egyidejűleg ne csak egy, hanem több alternatívát is kiválasszon: adott individuum mellett ennek megfelelően jelenik meg többször a status változó S=1 értékkel, t=1 „event time” érték mellett. 12.9. tábla Irreleváns alternatívák függetlenségvizsgálata I 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15
Mód Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó
UI 10.0 4.5 10.5 5.5 4.0 7.5 4.5 6.0 5.5 3.5 2.0 5.0 1.5 4.5 4.0 10.5 3.0 10.5 7.0 3.0 9.0 9.0 3.5 9.0 4.0 5.0 5.5 22.0 4.5 22.5 7.5 5.5 10.0 11.5 3.5 11.5 3.5 4.5 4.5 12.0 3.0 11.0 18.0
S Nem Igen Nem Igen Nem Nem Nem Nem Igen Nem Nem Igen Igen Nem Nem Nem Igen Nem Igen Nem Nem Nem Igen Nem Igen Nem Nem Nem Igen Nem Nem Igen Nem Nem Nem Igen Igen Nem Nem Nem Igen Nem Nem
t 2 1 2 1 2 2 2 2 1 2 2 1 1 2 2 2 1 2 1 2 2 2 1 2 1 2 2 2 1 2 2 1 2 2 2 1 1 2 2 2 1 2 2
DA 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1
DR 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
DV 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0
DA*UI 10.0 .0 .0 5.5 .0 .0 4.5 .0 .0 3.5 .0 .0 1.5 .0 .0 10.5 .0 .0 7.0 .0 .0 9.0 .0 .0 4.0 .0 .0 22.0 .0 .0 7.5 .0 .0 11.5 .0 .0 3.5 .0 .0 12.0 .0 .0 18.0
DRUI .0 4.5 .0 .0 4.0 .0 .0 6.0 .0 .0 2.0 .0 .0 4.5 .0 .0 3.0 .0 .0 3.0 .0 .0 3.5 .0 .0 5.0 .0 .0 4.5 .0 .0 5.5 .0 .0 3.5 .0 .0 4.5 .0 .0 3.0 .0 .0
DV*UI .0 .0 10.5 .0 .0 7.5 .0 .0 5.5 .0 .0 5.0 .0 .0 4.0 .0 .0 10.5 .0 .0 9.0 .0 .0 9.0 .0 .0 5.5 .0 .0 22.5 .0 .0 10.0 .0 .0 11.5 .0 .0 4.5 .0 .0 11.0 .0
DR*AI .0 10.0 .0 .0 5.5 .0 .0 4.5 .0 .0 3.5 .0 .0 1.5 .0 .0 10.5 .0 .0 7.0 .0 .0 9.0 .0 .0 4.0 .0 .0 22.0 .0 .0 7.5 .0 .0 11.5 .0 .0 3.5 .0 .0 12.0 .0 .0
DV*RI .0 .0 4.5 .0 .0 4.0 .0 .0 6.0 .0 .0 2.0 .0 .0 4.5 .0 .0 3.0 .0 .0 3.0 .0 .0 3.5 .0 .0 5.0 .0 .0 4.5 .0 .0 5.5 .0 .0 3.5 .0 .0 4.5 .0 .0 3.0 .0
DAVI 10.5 .0 .0 7.5 .0 .0 5.5 .0 .0 5.0 .0 .0 4.0 .0 .0 10.5 .0 .0 9.0 .0 .0 9.0 .0 .0 5.5 .0 .0 22.5 .0 .0 10.0 .0 .0 11.5 .0 .0 4.5 .0 .0 11.0 .0 .0 20.0
131
15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21
Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat Autó Repülő Vonat
5.5 20.0 23.0 5.5 21.5 4.0 3.0 4.5 5.0 2.5 7.0 3.5 2.0 7.0 12.5 3.5 15.5 1.5 4.0 2.0
Igen Nem Nem Igen Nem Nem Igen Nem Nem Nem Igen Igen Nem Nem Nem Igen Nem Igen Nem Nem
1 2 2 1 2 2 1 2 2 2 1 1 2 2 2 1 2 1 2 2
0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0
0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1
.0 .0 23.0 .0 .0 4.0 .0 .0 5.0 .0 .0 3.5 .0 .0 12.5 .0 .0 1.5 .0 .0
5.5 .0 .0 5.5 .0 .0 3.0 .0 .0 2.5 .0 .0 2.0 .0 .0 3.5 .0 .0 4.0 .0
.0 20.0 .0 .0 21.5 .0 .0 4.5 .0 .0 7.0 .0 .0 7.0 .0 .0 15.5 .0 .0 2.0
18.0 .0 .0 23.0 .0 .0 4.0 .0 .0 5.0 .0 .0 3.5 .0 .0 12.5 .0 .0 1.5 .0
.0 5.5 .0 .0 5.5 .0 .0 3.0 .0 .0 2.5 .0 .0 2.0 .0 .0 3.5 .0 .0 4.0
.0 .0 21.5 .0 .0 4.5 .0 .0 7.0 .0 .0 7.0 .0 .0 15.5 .0 .0 2.0 .0 .0
12.10. tábla Az alternatívák kereszthatásai Változó
B
SE
Wald
df
p-value
Exp(B)
DA
-0.738
3.059
.058
1
0.809
0.478
DR
-3.624
3.480
1.084
1
0.298
0.027
DA*UI
-2.234
1.899
1.384
1
0.239
0.107
DR*UI
-0.101
0.686
0.022
1
0.883
0.904
DV*UI
0.098
0.701
0.019
1
0.889
1.103
DR*AI
0.445
0.686
0.421
1
0.517
1.560
DV*RI
-0.532
0.635
0.703
1
0.402
0.587
DA*VI
1.663
1.512
1.210
1
0.271
5.275
-2 Log Likelihood=24.781 12.11. tábla Redukált modell alternatíva-közi interakciók nélkül Változó
B
SE
Wald
df
p-value
Exp(B)
DA
1.716
1.805
0.904
1
0.342
5.561
DR
-3.601
3.306
1.187
1
0.276
0.027
DA*UI
-0.795
0.363
4.795
1
0.029
0.451
DR*UI
0.122
0.590
0.043
1
0.837
1.129
DV*UI
-0.422
0.257
2.687
1
0.101
0.656
-2 Log Likelihood=27.153
Irodalom Hajdu Ottó (2003) Többváltozós statisztikai számítások. KSH, Budapest. Hunyadi László (2001): Statisztikai következtetéselmélet közgazdászoknak. Központi Statisztikai Hivatal, Budapest. HUNYADI LÁSZLÓ – VITA LÁSZLÓ (2002): Statisztika közgazdászoknak. AULA, Budapest. Ramu Ramanathan (2002) Bevezetés az ökonometriába. Panem, Budapest.
132
View more...
Comments