Statisticko zakljucivanje i modelovanje.pdf

February 8, 2017 | Author: Silvester Kolic | Category: N/A

Share Embed Donate

Report this link

Short Description

Download Statisticko zakljucivanje i modelovanje.pdf...

Description

Statistika u istraživačkom procesu – statističko zaključivanje i statističko modelovanje

Goran Trajković januar, 2011. godine

Statističko Statisti čko zaključivanje Donošenje zaključka o populaciji na osnovu opservacija iz uzorka. Zaključak je probabilističke prirode, jer se donosi na osnovu uzoračkih podataka, i praćen je izvesnim stepnom nesigurnosti Ciljna populacija Uzoračka populacija Uzorak Analiza Uzoračka statistika (uzorački statistik)

Statistički zaključak o populaciji sa određenim stepenom nesigurnosti

Parametri osnovnog skupa i uzoračke statistike 1. Parametar – statistička mera date varijable u populaciji 2. Uzoračka statistika – statistička mera date varijable u uzorku Statistička mera

Parametri osnovnog skupa

Uzoračke statistike

Aritmetička sredina



x

Varijansa

2

sd2

Standardna devijacija



sd

Proporcija



p

Dva Dv a tipa statističkog zaključivanja

 Ocena vrednosti parametra u populaciji (npr. aritmetička sredina ili proporcija)  Testiranje hipoteza – testiranje pretpostavke o vrednosti parametra

Ocena parametra (ocenjivanje) Proces korišćenja informacija iz uzorka u cilju donošenja zaključka o vrednosti populacionog parametra. Ocena može biti data u obliku jedne vrednosti (tačkasta ocena) ili u obliku intervala poverenja. Interval poverenja – interval unutar kojeg se sa definisanom verovatnoćom (nivo poverenja, koeficijent poverenja) nalazi nepoznati parametar. Npr. za koeficijent poverenja of 95% može se očekivati da će se nepozanti parametar sa verovatnoćom od 0.95 nalaziti u datom intervalu poverenja, odnosno da će u ponovljenom uzorkovanju 95% intervala sadržati parametar. Definisana verovatnoća se odnosi na interval poverenja, a ne na sam parametar. Granice inervala poverenja nazivaju granicama poverenja.

Hipoteza •Pretpostavka o svetu oko nas •Pretpostavka koju je moguće testirati i odbaciti •Prepostavka koja je unapred navedena kao verovatna istina, a koju istraživač ima nameru da testira na osnovu podataka Istraživačka hipoteza može imati fomu očekivanja, verovanja, dedukcije ili sumnje. Pokretač je istraživanja i zahteva aktuelno dokazivanje. Istraživačku hipotezu prevodimo u statističke hipoteze kako bi mogle biti testirane statističkim tehnikama.

Statistička hipoteza •Statistička hipoteza je pretpostavka ili tvrđenje o jednoj ili više populacija (pretpostavka o vrednostima parametara u populaciji). Uvek se formulišu dve hipoteze - nulta i alternativna: •Nulta hipoteza (H0) je tvrđenje o tačnoj vrednosti parametra u populaciji •Alternativna hipoteza (HA ili H1) ili istraživačka hipoteza je tvrđenje da je vrednost parametra u populaciji različita od tvrđenja u nultoj hipotezi

Testiranje hipoteza – komplementarnost nulte i alternativne hipoteze •Nulta i alternativna hipoteza su komplementarne. Samo jedna je tačna. •U postupku testiranja hipoteza testira se samo nulta hipoteza. •Moguće odluke na osnovu statističke analize uzoračkih podataka su: (1) prihvatanje H0 i odbacivanje H1, ili (2) odbacivanje H0 i prihvatanje H1

Dvosmeno i jednosmerno testiranje hipoteza Dvosmerni test – test u kojem je alternativna hipoteza dvosmerna (nije direktivna) odnosno ima oblik tvrđenja da je jedan populacioni parametar ili veći ili manji od drugog: H0: μ1 = μ2

H1: μ1 ≠ μ2

Jednosmerni test – test u kojem je alternativna hipoteza jednosmerna (direktivna je) odnosno ima oblik tvrđenja da je jedan populacioni parametar veći ili manji od drugog: H0: μ1  μ2

H1: μ1 > μ2

H0: μ1  μ2

H1: μ1 < μ2

Testiranje hipoteza – matrica statističkog odlučivanja

Naš zaključak Prihvatamo nultu hipotezu Odbacujemo nultu hipotezu

U prirodi Nulta hipoteza Nulta hipoteza tačna pogrešna 1- 

 greška greška drugog tipa

 greška greška prvog tipa

1- 

Greške u testiranju hipoteza Greška prvog tipa – odbacivanje tačne nulte hipoteze. Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze. Istovremeno se može napraviti samo jedan tip greške. Greška prvog tipa se neposedno kontroliše izborom nivoa

značajnostii. Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto. Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka. Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina (kada se testira razlika aritmetičkih sredina). Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.

Nivo značajnosti i p-vrednost  ( nivo, nivo značajnosti) - maksimalno dozvoljena greška prvog tipa. U procesu testiranja hipoteza običajeno se bira nivo značajnosti od 0.05. p-vrednost (opservirani nivo značajnosti, verovatnoća značajnosti) – verovatnoća da se, pod pretpostavkom tačne nulte hipoteze, na osnovu slučajnosti opserviraju rezultati koji su jednaki ili ekstremniji od aktuelno opserviranih. Ako je p-vrednost manja od nivoa značajnosti (p0.05), odbacuje se nulta hipoteza i dobijeni rezultati označava se statistički značajnim.

Koraci u testiranju hipoteza 1. Formulisati H0 i H1 2. Odabrati nivo značajnosti ( nivo) 3. Odabrati dvosmerno ili jednosmerno testiranje zavisno od formulacije alternativne hipoteze 4. Odabrati statistički test i izračunati statistiku testa (empirijska vrednost). 5. Odrediti oblast odbacivanja – teorijska (granična, kritična) vrednost. 6. Uporediti empirijsku i teorijsku vrednost test statistike. Odbaciti H0 i prihvatiti H1 ako je statistika testa u regionu odbacivanja (p  ). Prihvatiti H0 ako statistika testa nije u regionu odbacivanja (p > ).

Primer: Formiran je uzorak od 90 ispitanika iz opšte populacije. Za svakog ispitanika dobijen je podatak o statusu pušenja (pušač ili nepušač), i podatak da li je ispitanik bolovao od akutne respiratorne infekcije u toku poslednje zime. Postavljena je nulta hipoteza da su status pušenja i oboljevanja od akutne respiratorne infekcije nezavisne varijable, odnosno da nema asocijacije između njih.

Akutna respiratorna infekcija

Pušenje

Da

Ne

Svega

Da

22

17

39

Ne

16

35

51

Ukupno

38

52

90

Pušenje i oboljevanja od akutne respiratorne infekcije u zimskom periodu nisu nezavisne variajble. Između njih postoji statistički značajna asocijacija (hikvadrat=4.70, DF=1, p=0.030, koeficijent kontingencije=0.22).

Primer: Dve grupe lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) je: prva grupa: 15, 17, 20, 14, 19, 17, 18, 19 druga grupa: 16, 14, 17, 15, 18, 17, 16 Da li je razlika značajna? Testirati na nivou značajnosti 0.05.



x1

x1 2

x2

x2 2

15

225

16

256

17

289

14

196

20

400

17

289

14

196

15

225

19

361

18

324

17

289

17

289

18

324

16

256

19

361

139

2445

113

1835

x1

x  

1

n1

139   17.38 mm/h 8

x  n x 2

sd1 

sd 2  t

2

n 1

2 2 x  n  x 

n 1

x2



x  

2

n2

113   16.14 mm/h 7

2445  8  17.38  2.07 8 1 2

1835  7  16.142   1.35 7 1

17.38  16.14

=1.35,

 (8  1)  2.07 2  (7  1)  1.352   1 1      872   8 7  DF=8  7  2  13 Kritična vrednost u tablici t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika nije statistički značajna (t=1.35, DF=13, p>0.05)

Model • Model je uprošćeno predstavljanje realne pojave • Modelom su reprodukovani samo neki aspekti realne pojave • Dobar model bi trebalo da objašnjava pojavu što je moguće vernije, ali ne bi trebalo da bude previše komplikovan, time što bi se pokušala reproodukcija svakog detalja, jer to može da ometa razumevanje • Model nam pomaže u razumevanju realne pojave na uprošćen, brži i jeftiniji način

Statistički model • Statističkim modelom predstavljamo pojave koje sadrže slučajnosti • Statistički modeli su statističke formulacije ili analize, u uslovima moguće primene sa datim podacima, koji se koriste za proveru pretpostavki i parametara u analizi. Primeri statističkih modela su npr. linearni model i binomni model • Statistički model počinje pretpostavkom o odnosu dve varijable u ispitivanoj populaciji i ocenom populacionih parametara na osnovu uzoračkih podataka. Bez pretpostavljenog modela analiza nije moguća. • Modelom se opisuje struktura podataka na takav način da omogući razumevanje pretpostavljenog procesa koji je generisao podatke • Izbor modela je od presudnog značaja za analizu. Planiranje istraživanja obuhvata i pretpostavke o modelu koji je moguće primeniti što može biti promenjeno posle eksploracije podataka

Varijable u statističkom modelu • Statistički modeli se koriste da opišu ponašanje jedne ili više varijabli, pri čemu se neke od njih posmatraju kao varijable eksplanatori (nezavisne varijable), a neke kao rezultujuće varijable (zavisne varijable). Modelom se opisuje kako ponašanje rezultujuće varijable zavisi od varijable eksplanatora • Eksplanatorna varijabla može biti npr. tretman u studijama intervencije ili faktor povezan sa pojavom neke bolesti u etiološkim studijama • Statistički model omogućava predikciju rezultujuće varijable na osnovu ponavanja vrednosti eksplanatorne varijable • U statistički model je, zbog stohastičkog odnosa varijabli, uvek uključena i greška modela • Statistički model je moguće unaprediti sa ciljem boljeg razumevanja procesa i bolje predikcije

Izbor modela Izbor modela zavisi od: • Naučnog razumevanja, npr. proverene teorije na osnovu koje se mogu predvideti očekivanja • Prethodnog iskustva sa sličnim podacima • Eksploracije podataka • Dijagnostičkih informacija o aktuelno izabranom modelu

Pretpostavke modela Najčešće preptostavke statističkih modela: 1. Normalnost raspodele ili normalnost raspodele grešaka. Važnija je kod malih uzoraka jer sa porastom veličine uzorka raspodela aritmetičkih sredina teži normalnoj raspodeli bez obzira na raspodelu u populaciji (Centralna granična teorema) 2. Nezavisnost – opservacije su nezavisne ako se na osnovu vrednosti jedne ne može prevideti vrednost druge opservacije. Ova pretpostavka je narušena ako postoje klasteri podataka. Unutar klastera postoji povezanost/korelacija podataka. Klasterovanje se može sprečiti randomizacijom u ekeperimentu ili slučajnim uzorkovanjem u opservacionim istraživanjima 3. Homogenost varijansi – varijansa rezultujuće varijable je jednaka za sve vrednosti varijable eksplanatora

Valjanost modela 1. 2.

3.

Provera o ispunjenosti pretpostavki modela Provera u kojoj meri ocene modela mogu biti pod uticajem malog broja uticajnih opservacija kao što su npr. ekstremne vrednosti Provera odnosa broja varijabli eksplanatora i broja opservacija. Uopšteno, broj opservacija mora biti najmanje deset puta veći od broja varijabli eksplanatora. Za svaku kvalitativnu varijablu broj kategorija umanjen za jedan uzima se kao broj varijabli eksplanatora

Formulacija statističkog modela Mnogi modeli imaju oblik: Y = μ + ε gde je Y - Opservirana vrednost, μ - Predikcija modela. ε - Statistička greška (rezidual)

Razlika opservirane vrednosti i predikcije jeste rezidual.

Primer: Za dvanaest ispitanica ženskog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina. Starost

Sistolna TA

1

39

125

2

59

165

3

71

170

4

75

150

5

73

185

6

55

155

7

51

180

8

70

160

9

41

145

10

45

140

11

63

135

12

35

130

Dijagram rasturanja starosti i sistolne tenzije 200 Sistolna TA (mmHg)

ID

180 160 140 120 100 80 30

40

50

60

Starost (godine)

70

80

Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:

y  a  bx  106.93  0.823  77  170.3

Sistolna TA (mmHg)

200 180 160 140 120 100 80 30

40

50

60

Starost (godine)

70

80

Statisticko zakljucivanje i modelovanje.pdf

Short Description

Description

Comments

We need your help!