STATISTIKA_U_DRU_TVENIM_NAUKAMA_FPN_BG_2009___2010.pdf

January 29, 2017 | Author: konislav2 | Category: N/A
Share Embed Donate


Short Description

Download STATISTIKA_U_DRU_TVENIM_NAUKAMA_FPN_BG_2009___2010.pdf...

Description

STATISTIKA U DRUŠTVENIM NAUKAMA Nije dosadno, nije strašno. Može biti korisno

SVRHA STATISTIKE • Statistika u društvenim naukama se koristi u kvantitativnim istraživanjima. • Kvantitativna istraživanja spadaju u onaj tip istraživanja koja su pozitivističkog tipa i koji se društvenim i političkim fenomenima bave na način da kvantitativno (brojčano) operacionalizuju indikatore. • Osnovni zadatak statistike u društvenim naukama jeste da ’meri’ društvene fenomene, i sa ovog stanovišta pozitivizam kao paradigma kojom je kvantitativan pristup inspirisan počiva na pretpostavci da društveni fenomeni jesu ’merljivi’. • Da bi se obezbedila merljivost društvenih fenomena, važno je naći njihove kvantitativne dimenzije. • Na taj način kvantitativni pristup u procesu operacionalizacije svaki fenomen ’vidi’ posredstvom većeg ili manjeg broja varijabli koje predstavljaju kvantitativne aspekte ispitivanog fenomena. • Svaki od ovih aspekata jeste u osnovi jedna od kvantitativniih dimenzija fenomena o kome je reč.

Univarijantna statistika • Pod univaraijantnom statistikom se podrazumeva primena onih statističkih procedura posredstvom kojih se opisuje jedna varijabla. • Deskriptivna statistika koristi numeričke i grafičke metode u cilju opisa i otkrivanja obrazaca nekog seta podataka, sumarizacije podataka i njihovog predstavljanja u prikladnoj formi. • Najosnovniji vid deskriptivne statistike jeste koričćenje tzv. tabela frekvencije. • Tabele frekvencije u osnovi predstavljaju distribuciju vrednosti u numeričkom ili procentualnom obliku.

Poverenje u institucije: Skupština

Grafički prikaz: Poverenje u Skupštinu - % N - 1357 imam veliko povjerenje uglavnom imam povjerenja niti im vjerujem niti im ne vjerujem imam veoma malo povjerenja nemam nimalo povjerenja

3,1 11,6 24,1 21,7 39,5

Normalna distribucija • • • • • • • •

Jedno od ključnih pitanja koje se tiče frekvencije jeste pitanje distribucije vrednosti. Sa ovog stanovišta, statistika polazi od jedne pretpostavke, a to je ideja o normalnoj (simetričnoj) distribuciji. Normalna distribucija znači da su vrednosti ravnomerno rasporeñene na način da se poštuje tzv. gausova kriva (ova distribucija se naziva i zvono). Ovakav vid distribucije znači da su srednje vrednosti najfrekventnije a kako se krećemo ka ‘krajevima’ manja je frekventnost vrednosti na marginama. Drugim rečima, normalna distribucija ima karakteristike da aritmetička sredine nalazi na ‘vrhu’ i da podjednako deli ostale vrednosti. Normalna distribucija igra veoma važnu ulogu u statistici. Veliki broj fenomena (varijabli) imaju verovatnoću distribucije koja ima karakteristike normalne distribucije (npr. krvni pritisak). Takoñe, gotovo sve statističke metode polaze ili podrazumevaju normalnu distribuciju.

Distribucija

rasprostranjenost

Centar

Grafikon 1

Primer normalne distribucije Histogram

6

5

Frequency

4

3

2

1 Mean = 5,00 Std. Dev. = 1,7581 N = 23

0 2,00

4,00

6,00

VAR00002

8,00

Skupština - poverenje

Asimetrična distribucija • Nasuprot normalnoj distribuciji razlikujemo tzv. asimetričnu distribuciju • Ovakav oblik distribucije podrazumeva raspodelu vrednosti na način da su krajnje vrednosti frekventnije od srednjih vrednosti (takozvana U - kriva suprotna Gausovoj krivi). • U ovim slučajevima mere centralne tendencije imaju malu vrednost obzirom da je standardna devijacija velika.

Primer asimetrične distribucije –

NAPOMENA: Asimetrična distribucija je jedan od ključniih problema kada se koriste statističke procedure kako univarijantne tako i multivarijantne.

Distribicije sa jednim i dva vrha (pika) Vrh 2

Vrh 1

Vrh 1

Mere centralne tendencije • Mere centralne tendencije predstavljaju statističke vrednosti sumarnog tima koji imaju za cilj da veliki broj vrednosti na jednoj varijabli sumarno iskažu zajedničkom kvantitativnom odrednicom. • Sve mere centralne tendencije imaju dve karakteristike: – prvo, centralnu tendenciju tj. centriranu vrednost koja numerički i sumarno daje podatak o jednoj varijabli – drugo, varijabilnost tj. rasprostranenost vrednosti oko centralne tendencije.

• Tipične mere centralne tendencije su aritmetička sredina, medijana i modus.

Aritmetička sredina • Aritemetička sredina predstavlja jednu od najčešćih mera centralne tendencije koja se koristi za statistiku zaključivanja ili služi kao osnov za primenu sofisticiranijih statističkih metoda. • Aritemtička sredina predstavlja sumu vrednosti konstinuiranog niza podeljenog sa ukupnim bojem vrednosti. • Formula za izračunavanje aritmetičke sredine je:

Kalkulacija za Aritmetičku sredinu n ∑ xi x = i = 1 n Za niz brojeva 5,3,8,5,6 aritmetička sredina je: n

x

∑ =

i =1

5

xi =

5+3+8+5+ 6 5

=

27 5

= 5.4

Medijana • Medijana predstavlja srednji broj kontinuiranog niza brojeva kada su vrednosti poreñane od najniže do najviše ili od najviše do najniže. • Ukoliko je niz brojeva neparan, onda je medijana broj u sredini. • Ukoliko je broj paran, onda je medijana srednja vrednost srednja dva broja.

Medijana primer • Npr. Ako se varijabla sastoji od 7 brojeva 5,7,4,5,20,6 i 2 onda se medijana izračunava: • 2,4,5,5, 6,7,20 M = 5 (broj u sredini posmatrano s krajeva • Ukoliko je pak varijabla sa parnim brojem brojeva (n=6) , npr. varijabla 4,5,5,6,7,20 onda se medijana izračunava: • 4,5,5,6,7,20 M = (5+6)/2 = 5.5

Distribucija 1

Aritmetička sredina

Medijana

Grafikon 3

Distribucija 2

Medijana

Aritmetička sredina

Grafikon 4

Distribucija 3

Aritmetička sredina

Medijana

Grafikon 5

Modus • Modus najčešća vrednost koja se pojavljuje u jednom setu brojeva. Npr. ako je set brojeva: 3,4,6,1,8,8,9,3,4,6,8,2,3,8,8,0,9,8,4,5,6,8,3 ,3,4,7,8,9,8,0,8,5,8, • Onda je modus = 8, dakle, broj koji se najviše puta pojavio u nizu.

Deskriptivna statiskitka – poverenje u Skupštinu

Skor na kolokvijumu distribucija Descriptives SUM

Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Lower Bound Upper Bound

Statistic 13.43 12.25

Std. Error .594

14.60 13.57 15.00 52.287 7.231 0 26 26 11 -.484 -.781

.199 .396

Moguće distribucije sa istom aritmetičkom sredinom

Grafikon 2

Varijabilnost • Obzirom da je varijabilnost veoma važna karakteristika svake distribucije, u statistici postoje numeričke mere varijabilnosti. • Prema tome, mere centralne tendencije samo parcijalno opisuju podatke, te su prema tome mere varijablinosti nužne za potpuni opis neke varijable. • Drugim rečima, centralna tendencija uz mere varijabilnosti nam pomaže da vizualizujemo oblik jedne distribucije.

Opseg (Range) • Opseg (Range) je najjednostavnija mera varijabilnosti i on odgovara razilici izmeñu najveće i najmanje vrednosti u nizu. Npr, ako je niz brojeva 2,3,5,8,20,40, onda je Opseg = 40 – 2 = 38

Varijansa i Standardna devijacija • Standardna devijacija je jedna od ključnih mera varijabilnosti koja ukazuje u kojoj su meri vrednosti udaljene od aritmetičke sredine. • Da bi izračunali standardu devijaciju nužno je prvo izračunati varijansu • Varijansa pretpostavlja da je n brojeva u datom uzorku jednak sumi kvadrata distance od aritmetičke sredine podeljeno sa ukupnim brojem vrednosi minus 1 ( n-1). Varijansa se izračunava po sledećoj formuli:

Kalkulacija za varijansu i SD n

s

2

∑ =

( xi − x)2

i =1

n −1

Npr. ako je niz brojeva 1,2,3,4,5, aritmetička sredina je 3 i onda je varijansa:

=

s

2

4 +1+ 0 +1+ 4 (1−3)2 +(2−3)2 +(3−3)2 +(4−3)2 +(5−3)2 = 2.5 = 4 5−1

Na osnovu varijanse se izračunava standardna devijacija, a ona predstavlja pozitivni kvadratni koren varijanse. Evo formule:

s = Prema tome u našem primeru SD je:

2

s s=

2 .5 = 1.58

Empirijsko pravilo za interpretaciju standardne devijacije • Ukoliko je distribucija normalna: – Oko 68% vrednosti će biti obuhvaćene +/- 1S – Oko 95% vrednosti će biti obuhvaćene +/- 2S – Oko 99,7% vrednosti će biti obuhvaćene +/- 3S

Upotrebljivost • Ako su prosečna primanja u Srbiji 300 EUR sa standardnom devijacijom 130 EUR. To znači da oko 68%populacije ima primanja izmeñu 170 i 430 EUR i oko 95% populacije ima platu od 40 do 560 EUR (da li je ovo sluča i ako nije šta iz toga sledi?) • Ako prosečan gradjanin provede 3 sata pored televizora dnevno sa standardnom devijacijom od 1 sat, to znači da oko 68% populacije provodi pored TV-a izmeñu 2 i 4 sata i 95% populacije gleda TV izmeñu 1 i 5 sati • Ako je prosečna ocena na skali od 1-5 za X političara 3.0 sa standardnom devijacijom 1.5, to znači da ovog političara 68% populacije ocenjuje ocenom od 1.5 do 4.5

Grafikon 1

Grafikon 2

34,15% 34,15% 95,45% 2,3%

2,3% 16%

16% -1σ

+1σ

-2σ

+2σ

Grafikon 3

99,73% 0,135%

0,135%

-3σ

+3σ

DVA KLJUČNA STANDARDA KOJA ĆE KASNIJE UNIVERZALNO VAŽITI ZA ODREðIVANJE STATISTIČKE ZNAČAJNOSTI (TZV. p vrednost (α) )

Grafikon 4

Grafikon 5

99%

95% 2,5%

2,5% 0,5%

-1,96σ

+1,96σ

-2,58

0,5%

+2,58σ

Kriterijum za intervale poverenja • Grafikoni pokazuju koji procenat opservacija je obuhvaćen aritmetičkom sredinom i bilo koje druge vrednosti kada je kriterijum za merenje distance standardna devijacija • Radi testiranja hipoteza, a ovo će biti predmet na sledećem predavanju, u statistici se koriste dva standarda, 95% i 99% i ovo su prema tome dva uobičajena intervala poverenja u okviru kojih interpretiramo rezultate • Na grafikonima uočiti i zapamtiti da je 95% interval poverenja +/- 1,96 standardne devijacije, a 99% interval poverenja +/- 2,58 standardne devijacije

Procena poverenja u dobijenu vrednost aritmetičke sredine • Aritmetička sredina je ključna mera centralne tendencije zato što veliki broj statističkih metoda kojima se testiraju hipoteze operiše sa ovim parametrom • No obzirom da je ovaj podatak proizvod procene koji se bazira na uzorku, postavlja se pitanje njegove preciznosti, ili drugim rečima, uzorak po sebi sadrži grešku merenja, jer znamo da je: − µ približno jednako x • S toga, ključna stvar jeste da na neki validan način procenimo poverenje koje možemo imati u dobijeni podatak.

DIjalog •

• • • • • • •

• •

Istraživač: Ja sam obavio istraživanje na bazi slučajnog uzorka i na osnovu rezultata sam dobio podatak da je aritmetička sredina ukupnog broja završenih godina školovanja u Srbiji 11,87. Budući da sam očekivao da je ta srednja vrednost manja, mora da je neki problem sa uzorkom Statističar: Zašto bi problem bio sa uzorkom, je li uzorak bio slučajan ili nije? Istraživač: Da, bio je slučajan i ukupno je bilo 1000 ispitanika Statističar: A kolika je standardna devijacija? Istraživač: 3.083 Statističar: (nekoliko minuta provodi za računarom i zaključuje)...Ne, ne, sve je u redu, podatak koji si dobio je sasvim OK, u čemu je problem? Istraživač: Pa problem je u tome što ja mislim da je rezultat mog istraživanja proizvod ‘loše sreće’ u pogledu izbora ispitanika i mislim da kada bi ponovio istraživanje ja ne bih dobio istu vrednost. Statističar: Vidi, imaš sreće, ja slučajno imam podatke sa popisa o celokupnoj populaciji koji uključuju podatke o broju završenih godina školovanja. Ako želiš mogu da izvučem jedan uzorak od isto tako 1000 ispitanika da proverimo. Istraživač: Sjajno! Uradi to što pre... Statističar: Evo odmah, to nije nikakav problem imamo bazu podataka u računaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog uzorka prosečan broj godina školovanja 11,79, dakle, sve je uredu sa tvojim istraživanjem.

• Istraživač: Pa, prosek koji si ti dobio jeste ipak malo manji od onog koji sam ja dobio, biće ipak da sam ja bio loše sreće... Iako je i taj podatak daleko iznad mog očekivanja • Statističar: Ne, ne slažem se da si bio loše sreće evo, napravićemo dvadeset uzoraka pa da proverimo: • • • • • • •

Uzorak 2: 11,88 Uzorak 5: 11,92 Uzorak 8: 12,04 Uzorak 11:11,71 Uzorak 14:12,00 Uzorak 17:11,83 Uzorak 20:11,85

Uzorak 3: 12,01 Uzorak 6: 11,69 Uzorak 9: 11,77 Uzorak 12:11,95 Uzorak 15:11,90 Uzorak 18:11,59

Uzorak 4: 12,06 Uzorak 7: 11,71 Uzorak 10: 11,99 Uzorak 13: 12,05 Uzorak 16: 12,04 Uzorak 19: 12,01

• •

• • • • • • • •

Istraživač: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da je sve u redu sa računarom? Statističar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija si ti bazirao svoja očekivanja, ali koliko vidim od 20 uzoraka, samo jedna vrednost koju sam dobio u uzorku br 18, tačnije da je prosek 11,59, je izvan intervala poverenja koji sam mogao da izračunam na osnovu tvog proseka, dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%. Istraživač: O kakvim to intervalima govoriš? Statističar: Govorim o intervalu povrenja od 95%, naime to je klasičan standard koji validira dobijene podatke, naročito kada je reč o aritmetičkoj sredini Istraživač: I kako si to izračunao moliću lepo? Statističar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak bio slučajan sa ukupnim brojem od 1000 ispitanika i da je standardna devijacija 3,083 Istraživač: Tačno tako, i šta s tim? Statističar: Dakle, po tvojim podacima možemo reći da je verovatnoća da je aritmetička sredina koju si dobio rezultat ‘loše sreće’ jednaka verovatnoći 1: 20 Istraživač: Kako to? Statističar: Jednostavno, svaka aritmetička sredina po prirodi stvari budući da je rezultat uzorka a ne čitave populacije sadrži standardnu grešku merenja. Ova greška se izračunava tako što se standardna devijacija (3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:

• •

• •

• •

• •

Statističar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greška aritmetičke sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se prosek ukupnog broja školovanja u Crnoj Gori kreće: 11,87± 1.96*0.098 Statističar: Ili tačnije, sa 95% poverenja znam da je tvoja aritmetička sredina izmeñu 11,68 i 12,06. Ukoliko pogledaš aritmetičke sredine koje smo dobili na osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetička sredina 11,59) ima aritmetičku sredinu koja nije u okviru ovog intervala, što je potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tačno iznosi 5% verovatnoće. Istraživač: Sad sam zbunjen, šta tačno hoćeš da kažeš? Statističar: Hoću da kažem da ukoliko biramo 100 uzoraka u 95 od njih naći ćemo da se aritmetička sredina broja završenih godina školovanja kreće u rasponu od 11,68 do 12,06, a u 5 od tih uzoraka možemo naći da to nije tako. Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kažemo da možemo prilično (sa 95% sigurnosti) biti uvereni u podatak. Istraživač: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj interval, tačnije, jasno mi je kako si izračunao standardnu grešku aritmetičke sredine, ali nikako mi nije jasno zašto si tu grešku množio sa 1,96??? Statističar: Jednostavno zato što tako preporučuje centralna granična teorema, naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5% polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% površine znači da standardnu grešku aritmetičke sredine moramo množiti sa 1.96, a onda dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane Istraživač: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam dobio sasvim dobar Statističar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja, ni više ni manje od toga......

Aritmetičke sredine na većem broju uzoraka iste populacije

Primer iz dijaloga N-1000

(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098) 95% CI= od 11,68 do 12,06

99%CI

(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098) 99% CI= od 11,62 do 12,12 Mean

11,87

95% Confidence Interval for Mean

Lower Bound

99% Confidence Interval for Mean

Lower Bound

Upper Bound

Upper Bound

11,68 12,06 11,62 12,12

Još nekoliko statistika Descriptives Ukupan broj zavrsenih godina skolovanja

Mean 95% Confidence Interval for Mean

Statistic 11,87 11,68

Lower Bound Upper Bound

Std. Error ,098

Extreme Values Ukupan broj zavrsenihHighest 1 godina skolovanja 2 3 4 5 Lowest 1 2 3 4 5

12,06

5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

12,08 12,00 9,504 3,083 0 22 22 2 -1,198 3,743

Huber's a M-Estimator 12,05

a. The weighting constant is 1,339. Percentiles

5 Weighted Average(Definition 1) Tukey's Hinges

Ukupan broj zavrsenih godina skolovanja Ukupan broj zavrsenih godina skolovanja

8,00

10 8,00

25

Value 22 21 20 20 20 0 0 0 0 0a

a. Only a partial list of cases with the value 0 are shown in the table of lower extremes.

,078 ,156

M-Estimators

Ukupan broj zavrsenih godina skolovanja

Case Number 727 83 398 616 857 1004 956 836 813 776

Percentiles 50

75

90

95

16,00

16,00

11,00

12,00

13,00

11,00

12,00

13,00

A.S. i S.D. – Poverenje u Institucije Descriptive Statistics N Poverenje u institucije: Skup{tina Poverenje u institucije: Predsednik Poverenje u institucije: Vlada Poverenje u institucije: Policija Poverenje u institucije: Sudstvo Poverenje u institucije: Vojska Poverenje u institucije: Politi~ke partije Poverenje u institucije: Srpsku pravoslavnu crkvu Valid N (listwise)

Minimum

Maximum

1357

1

5

2,17

1,163

1386

1

5

2,81

1,367

1393

1

5

2,38

1,233

1405

1

5

2,58

1,296

1386

1

5

2,29

1,219

1368

1

5

3,11

1,384

1322

1

5

1,87

1,052

1392

1

5

3,88

1,311

1131

Mean

Std. Deviation

T-test • Jedno od najčešćih pitanja koje se postavlja kada je statistika u pitanju jeste, da li postoje statistički značajne razlike izmeñu vrednosti na dvema varijablama • Npr. u slučaju našeg kolokvijuma, da li su statistički značajne razlike izmeñu srednje vrednosti sudenata i studentkinja • Ovo konkretno pitanje bi ukazivako na to da ukoliko su ove razlike statistički značajne, onda je test za jednu od ove dve grupe bio teži • Tačnije za onu grupu kod koje merimo manju aritmetičku sredinu. • Za ovu svrhu se koristi T-test. • On predstavlja jednostavan način da se izračuna statistička značajnost razila izmeñu aritmetičkih sredina. • Obzirom da se različite aritmetičke sreine mogu koristiti kao osnov za merenje mi razlikujemo nekoliko vrsti Ttestova.

Čemu T-test • Upareni T-test testira nultu hipotezu koja glasi:‘ne postoje statistički snačajne razlike izmeñu jednog para aritmetičkih sredina’. • Ukoliko je statistička značajnost (p vrednost) veća od 0.05, onda je nulta hipoteza potvrñena. • Meñutim, ako je p vrednost manja od 0.05, onda je nulta hipoteza opovrgnuta, ili tačnije u tom slučaju tvrdimo: ‘ne može se reći da ne postoje statistički značajne razlike izmeñu jednog para varijabli’.

Studentova distribucija Grafikon 1

normalna t (df = 12) t (df = 5)

Stepeni slobode • • • • • • • • • • •

Na grafikonu 1 se može videti poreñenje izmeñu dve verzije t distribucije Iz prikaza se može videti da što je veći broj stepeni slobode (degrees of freedom - df), to se i t distribucija približava ‘normalnoj’ distribuciji Broj stepena slobode (df) je prema tome je prema tome važna i konstitutivna karakteristika same disribucije Prema tome, distribucija zavisi od broja stepena slobode i u svakom pojedinom slučaju mi moramo statističku značajnost da računamo u odnosu na distribuciju koja je rezultat odreñenog broja stepena slobode Broj stepena slobode direktno zavisi od broja opserviranih vrednosti od kojih zavisi standardna greška merenja. Kada je reč o standardnoj greški aritmetičke sredine onda: df = n-1 Dakle, broj stepeni slobode kada je testirani statistik aritmetička sredina je broj opservacija minus 1 (napomena: za druge statistike ovaj princip ne važi) DF je prema tome deskriptivni alat, i on usnovi prikazuje koliko iznosi broj opservacija u setu podataka koji su slobodni da variraju kada kalkulišemo željeni statistik. Drugim relima, kada merimo standardnu devijaciju, mi oduzimamo aritmetičku sredinu od svake vrednosti n. U ovom postupku, kada oduzmemo pretposlednju vrednost, automatski znamo vrednost finalne devijacije budući da suma svih devijacija mora biti jednaka 0 Prema tome, poslednja devijacija nema slobodu varijacije, samo n-1 može da varira.

Statistička značajnost t testa FORMULA ZA IZRAČUNAVANJE t TESTA

• • • • • • •

x−x t= sx

Dakle, denominator u formuli izračunavanja t statistika je i sam statistik, što znači da je njegova vredsnost podložna fluktuacijama koje su rezultat uzorkovanja. Obzorom da t distribucija počiva na pretpostavci manjeg broja opservacija, sasvim je razumno očekivati spljošteniju distribuciju sa dužim ‘krajevima’. Dok je u slučaju normalne distribucije 95% površine unutar +/- 1,96 standardne devijacije, a 99% unutar +/- 2,58 standardne devijacije aritmetičke sredine, ovo nije slučaj kada je reč o t distribuciji. Budući da je t distribucija ‘spljoštenija’ sa dužim ‘krajevima’ više od 5% područja biće iza +/- 1,96 standardne devijacije i više od 1% će biti iza +/- 2,58 standardne devijacije Koliko više, zavisi od konkretne distribucije broja stepeni slobode (df) Što je manji broj stepana slobode, distribucija će biti spljoštenija i ‘krajevi’ će biti duži Proističe, da što je manji df mi ćemo morati da idemo dalje od +/- 1,96 standardne devijacije aritmetičke sredine kako bi obuhvatili 95% distribucije i jednako moramo ići dalje od +/- 2,58 standardne devijacije aritmetičke sredine kako bi obuhvatili 99% distribucije

Odreñivanje statističke značajnosti testa • Isto kao i u slučaju z statistika, i t test koristi tabelu u kojoj za odreñenu vrednost t testa za dati broj stepena slobode mi možemo odrediti statističku značajnost • Šta se zapravo meri? Isto kao i u slučaju z statistika, mi merimo verovatnoću da je neka distribucija rezultat ‘greške’ uzorkovanja, dakle, logika je i oba slučaja identična, samo su kriterijumi u odnosu na različitu distribuciju drugačiji • Konkretno, na osnovu tabele se može videti da je za pokrivanje 95% područja distribucije za df =11 potrebna vredsnost t = +/-2,04; dok je za 99% potrebno t= +/-3,11 • Meñutim, ako je df = 30, onda je za 95% potrebno t=2,04 a za 99% je potrebno t=2,75, što je vrlo blizu z statistik-u (1,96 za 05% i 2,58 za 99%)

Korišćenje t testa za testiranje hipoteza • Matematički, kada testiramo hipoteze u koristi se isti postupak kao kada je reč o z statistiku, s tom razlikom što se kod t testa statistička značajnost izračunava u odnosu na dati broj stepena slobode. Prema tome formula je:

PRIMER 1 • Recimo da smo utvrdili da je prosek na skali religioznosti u meñu učenicima čestvrtog razreda srednje škole 20 indexnih poena • Pretostavimo da nas interesuje da li je religioznost veća ili manja kod jednog odreñenog odeljenja u odnosu na čitavu školu • Budući da smo koristili uzorak iz datog odeljenja koje je predmet našeg naše analize, mi imamo samo deset opservacija iz ovog odeljenja. Dakle, t test je jedino rešenje obzirom da se radi o malom broju opservacija. • Na uzorku ovog odeljenja od 10 studenata aritmetička sedina je 21,2 a standardna devijacija s=3,4

PREMA TOME... •

a znamo da je

21.2 − 20.0 Sledi: t= = 1.11 1.08

df =9

• Za df=9, ako pogledamo tabelu, potrebno je da t bude jednako ili veće od 2,26 kako bi postigli p 0.05

t

df .633

147

Sig. (2-tailed) .528

T test poredjenje pitanja 1 i 2 Paired Samples Statistics

Pair 1

P1 P2

Mean 3.47 2.32

N 148 148

Std. Deviation 1.680 1.638

Std. Error Mean .138 .135

Paired Samples Test Paired Differences

Pair 1

P1 - P2

Mean 1.149

Std. Deviation 1.430

Std. Error Mean .118

95% Confidence Interval of the Difference Lower Upper .916 1.381

t = 0,63; df, 147 p < 0.01

t 9.770

df 147

Sig. (2-tailed) .000

Nezavisni T-test • Nezavisni T-test, ima istu svrhu i logiku kao i upareni s tim što se on upotrebljava u situaciji kada želimo da izmerimo da li postoje statistički značajne razlike jedne iste varijable (aritmetičke sredine) kod dve različite grupe (klase). • Npr, uporeñujemo aritmetičke sredine ukupnog skora kod muškaraca i žena

Nezavisni T-test – Sudstvo: Žene i Muškarci Group Statistics Pol mu{ki `enski

Poverenje u institucije: Sudstvo

N

Mean 2,26 2,32

673 709

Std. Deviation 1,197 1,239

Std. Error Mean ,046 ,047

Independent Samples Test Levene's Test for Equality of Variances

F Poverenje u institucije: Sudstvo

Equal variances assumed Equal variances not assumed

1,880

Sig. ,171

t-test for Equality of Means

t

df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the Difference Lower Upper

-,920

1380

,358

-,060

,066

-,189

,068

-,921

1379,207

,357

-,060

,066

-,189

,068

t= -0.92 df, 1380 p > 0.05,

Nezavisni T-test – primer: Osnovno i srednje obrazovanje Group Statistics

Poverenje u institucije: Sudstvo

Obrazovanje Osnovno obrazovanje Srednje i više obrazovanje

423

Mean 2,54

Std. Deviation 1,257

Std. Error Mean ,061

701

2,14

1,172

,044

N

Independent Samples Test Levene's Test for Equality of Variances

F Poverenje u institucije: Sudstvo

Equal variances assumed Equal variances not assumed

8,963

Sig. ,003

t-test for Equality of Means

t

df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the Difference Lower Upper

5,406

1122

,000

,401

,074

,256

,547

5,312

839,939

,000

,401

,075

,253

,549

t= 5.41 df, 1122 p < 0.01

T test poredjenje izmedju studenata i studentkinja Group Statistics

SUM

ROD muski zenski

N 33 114

Mean 14.91 13.11

Std. Error Mean 1.256 .668

Std. Deviation 7.217 7.137

Independent Samples Test Levene's Test for Equality of Variances

F SUM

Equal variances assumed Equal variances not assumed

.000

Sig.

t-test for Equality of Means

t

.991

df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the Difference Lower Upper

1.269

145

.206

1.795

1.414

-1.000

4.590

1.261

51.512

.213

1.795

1.423

-1.061

4.651

t= 1.27 df, 145 p > 0.05,

Ispitivanja veza izmeñu varijabli • Uobičajen zadatak u statistici jeste ispitivanje odnosa izmeñu sve varijable. • Odnos izmeñu dve varijable može ići od potpune nepovezanosti, do slučajne povezanosti, preko odreñene veze koja može postojati do uzročno-posledične povezanosti. • Ispitivanje ovih veza je veoma važno iz praktičnih razloga, npr. od kojih faktora zavisi glasanje za neku partiju, ili da li od mesta boravka (selo-grad) zavisi apstinencija na izborima, ili od kojih faktora zavisi opredeljenje političku partiju itd. • Postoji čitav niz statističkih metoda koji se bavi upravo ovim pitanjima povezanosti izmeñu varijabli. Najjednostavnija metoda je tzv. unakrsna tabela (krostabulacija). • Evo jednog primera sa našeg kolokvijuma:

Unakrsna tabela Pol * Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation

Pol

mu{ki `enski

Total

Count % within Pol Count % within Pol Count % within Pol

x2

Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO Nemam odredjeno DA NE mi{ljenje 261 339 112 36,7% 47,6% 15,7% 185 307 283 23,9% 39,6% 36,5% 446 646 395 30,0% 43,4% 26,6%

= 86,01; df = 2, p = 0,01

Total 712 100,0% 775 100,0% 1487 100,0%

Obrazovanje – NATO Obrazovanje * Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation

Obrazovanje

Bez obrazovanja Osnovno obrazovanje Srednje i više obrazovanje Visoko obrazovanje

Total

x

Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje

Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO Nemam odredjeno mi{ljenje DA NE 20 33 46 20,2% 33,3% 46,5% 141 183 133 30,9% 40,0% 29,1% 221 365 166 29,4% 48,5% 22,1% 51 50 28 39,5% 38,8% 21,7% 433 631 373 30,1% 43,9% 26,0%

2 = 38,8; df = 6, p < 0,01

Total 99 100,0% 457 100,0% 752 100,0% 129 100,0% 1437 100,0%

Godine - HAG godine * Da li, po Vašem mišljenju Srbija treba u potpunosti da saradjuju sa Haškim Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Crosstabulation

godine

18-34 35-54 55+

Total

Count % within godine Count % within godine Count % within godine Count % within godine

x

Da li, po Vašem mišljenju Srbija treba u potpunosti da saradjuju sa Haškim Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Nemam odredjeno DA NE mi{ljenje 112 213 94 26,7% 50,8% 22,4% 177 277 95 32,2% 50,5% 17,3% 117 279 129 22,3% 53,1% 24,6% 406 769 318 27,2% 51,5% 21,3%

2 = 17,26; df = 4, p < 0,01

Total 419 100,0% 549 100,0% 525 100,0% 1493 100,0%

Krostab - pojašnjenje • Analize distribucije ukazuje da razlike koje primećujemo nisu statistički značajne i za ovu svrhu se koristi - test (Pearson Chi-Square). • Ovaj test ispituje hipotezu da li je distribucija vrednosti po redovima i kolonama nezavisna. Ako je statistička značajnost mala (p0.05 onda možemo reći da ne postoji veza izmeñu varijabli, što je naš slučaj, ili drugim rečima, u našem slučaju ne postoje statistički značajne razlike izmeñu studenata istudentkinja kada su rezultati kolokvijuma u pitanju. • Test ispituje utvrñenu distribuciju u odnosu na normalnu distribuciju a formula je:

Hi-kvadrat - formula

2

x =



svecelije

(utvrdjena − ocekivana ) ocekivana

2

Korelacije Korelacije izmeñu dve varijable je daleko značajniji parametar koji nam ukazuje na moguću povezanost izmeñu njih. Ovde je važno imati u vidu da se radi o statističkoj povezanosti, pri čemu nije nužno da se radi o realnoj povezanosti, naime slučajne korelacije su često dešavaju i u tome treba biti oprezan. Najjednostavniji način da se shvati korelacija jeste ideja ‘preklapanja varijanse’, pri čemu podrazumevamo da izmeñu dve klase pojava postoji interferentno polje (tzv. Venovi dijagrami). Ovo interferentno polje pokazuje korelaciju izmeñu varijabli ili onaj deo koijm jedna varijabla objašnjava drugu varijablu. Ukoliko je interferentno polje veći je i stepen korelacije, ukoliko je ono manje manja je i korelacija. Takoñe, treba obratiti pažnju da na ovom dijagramu krugovi nisu iste veličine, što znači da nije jednaka varijansa za ove dve varijable.

x

y

Formula za korelacije i interpretacija

rxy

=

objasnjena var ijansaY ukupna var ijansomY

Ukoliko postoji reciprocitet u smislu da sve vrednosti na jednoj varijabli odgovaraju vrednostima na drugoj varijabli korelacija je jednaka jedan (r = 1). Kriterijumi za vrednosti pearsonove korelacije su: r < 0,30 – niska korelacija r > 0,30 a < 0,45 – srednja korelacija x r > 0,45 – visoka korelacija

z z ∑ r= n −1

y

Koeficijenti korelacije – dijapazon grafički Maksimalna negativna korelacija

-1

Maksimalna pozitivna korelacija

Nema korelacije

-0.5

Povećava se stepen negativne korelacije

0

+0.5

Povećava se stepen pozitivne korelacije

+1

Korelaciona matrica - kolokvijum Correlations P1 P1

P2

P3

P4

P5

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

1 148 .629** .000 148 .630** .000 148 .506** .000 148 .472** .000 148

P2 .629** .000 148 1 148 .611** .000 148 .682** .000 148 .645** .000 148

**. Correlation is significant at the 0.01 level (2-tailed).

P3 .630** .000 148 .611** .000 148 1 148 .495** .000 148 .614** .000 148

P4 .506** .000 148 .682** .000 148 .495** .000 148 1 148 .627** .000 148

P5 .472** .000 148 .645** .000 148 .614** .000 148 .627** .000 148 1 148

POVERENJE U INSTITUCIJE Correlations

Poverenje u institucije: Skup{tina Poverenje u institucije: Predsednik Poverenje u institucije: Vlada

Poverenje u Poverenje u institucije: Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u institucije: Srpsku institucije: institucije: institucije: institucije: institucije: institucije: Politi~ke pravoslavnu Skup{tina Predsednik Vlada Policija Sudstvo Vojska partije crkvu Pearson Correlation 1 .641** .765** .555** .589** .410** .558** .244** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1322 1313 1314 1312 1267 1277 1278 1250 Pearson Correlation .641** 1 .744** .586** .531** .478** .379** .182** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1313 1402 1348 1378 1316 1331 1313 1313 Pearson Correlation .765** .744** 1 .595** .619** .433** .573** .192** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1314 1348 1359 1350 1307 1311 1311 1282

Poverenje u institucije: Policija

Pearson Correlation Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Sudstvo Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Vojska Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Politi~ke partije Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Srpsku pravoslavnu crkvu Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed).

.555** .000 1312 .589** .000 1267 .410** .000 1277 .558** .000 1278 .244** .000 1250

.586** .000 1378 .531** .000 1316 .478** .000 1331 .379** .000 1313 .182** .000 1313

.595** .000 1350 .619** .000 1307 .433** .000 1311 .573** .000 1311 .192** .000 1282

1 1403 .592** .000 1324 .577** .000 1339 .389** .000 1319 .269** .000 1322

.592** .000 1324 1 1334 .498** .000 1298 .493** .000 1285 .301** .000 1261

.577** .000 1339 .498** .000 1298 1 1354 .286** .000 1289 .393** .000 1285

.389** .000 1319 .493** .000 1285 .286** .000 1289 1 1328 .217** .000 1267

.269** .000 1322 .301** .000 1261 .393** .000 1285 .217** .000 1267 1 1353

Korelaciona matrica – primer 1 Correlations

Boris Tadic

Tomislav Nikolic

Aleksandar Vucic

Vojislav Kostunica

Vojislav Seselj

Cedomir Jovanovic

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Boris Tadic 1 1382 .070* .014 1233 .097** .001 1234 .149** .000 1201 -.049 .105 1106 .377** .000 1160

*. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed).

Tomislav Nikolic .070* .014 1233 1

Aleksandar Vojislav Vucic Kostunica .097** .149** .001 .000 1234 1201 .879** .429** .000 .000 1258 1234 1167 .879** 1 .477** .000 .000 1234 1257 1182 .429** .477** 1 .000 .000 1167 1182 1215 .380** .389** .404** .000 .000 .000 1089 1098 1101 -.020 .034 -.007 .515 .263 .827 1104 1111 1098

Vojislav Cedomir Seselj Jovanovic -.049 .377** .105 .000 1106 1160 .380** -.020 .000 .515 1089 1104 .389** .034 .000 .263 1098 1111 .404** -.007 .000 .827 1101 1098 1 -.003 .919 1120 1036 -.003 1 .919 1036 1180

Regresiona linija 40

30

R O20 K S

10

0

0,0

5,0

10,0

15,0

ECTB

20,0

25,0

Regresiona linija Primer 40

30

R O20 K S

10

0

0

1

2

3

I pitanje

4

5

Linearna regresija

B

Y= Bo+B1x1+.... BnXn+ ei

LINEARNA REGRERSIJA

Y =B0 +B1x1 +B2x2 +......Bnxn +Ei

Linearna regresija - predikcija rezultata na kolokvijuma Coefficientsa

Model 1

(Constant) P1 P5

Unstandardized Coefficients B Std. Error .406 .492 2.189 .143 2.407 .138

Standardized Coefficients Beta .509 .581

t .825 15.290 17.462

Sig. .411 .000 .000

a. Dependent Variable: SUM Model Summary Model 1

R .936a

R Square .875

Adjusted R Square .874

Std. Error of the Estimate 2.571

a. Predictors: (Constant), P5, P1

x1 Y

x2

SKOR = 0,41 + (2,19x 3) + (2,41x2) = 11.8 (student dobio 12)

Logisticka regresija

Verovatnoca(dogadjanja) log( = B0 + B1 x1 + B2 x2 + ......Bn xn Verovatnoca(nedogadjanja)

Logistička Regresija – Prediktori za referendumsko DA B

S.E.

df

Sig.

Exp(B)

95,0% C.I.for EXP(B) Lower

Srbin

Upper

-2,366

,412

1

,000

,094

,042

,211

Crnogorac

1,347

,370

1

,000

3,844

1,863

7,934

Bosnjak_Musliman

1,847

,415

1

,000

6,342

2,812

14,302

Albanac

3,147

,602

1

,000

23,265

7,156

75,636

,055

,025

1

,030

1,056

1,005

1,110

sever

-,327

,224

1

,144

,721

,465

1,119

centar

,037

,197

1

,852

1,037

,705

1,528

-,166

,145

1

,250

,847

,638

1,124

,009

,005

1

,056

1,009

1,000

1,018

-1,354

,609

1

,026

,258

Obrazovanje

Pol Starost Constant

Logistička regresija – standardizovani regresioni koeficijenti

GRAFIČKI – REGRESIONI KOEFICIJENTI 3,147

1,847 1,347

Srbin Crnogorac Bosnjak_Musliman 0,055

0,009

Albanac Obrazovanje Starost

-2,366

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF