Statisticko zakljucivanje i modelovanje.pdf
February 8, 2017 | Author: Silvester Kolic | Category: N/A
Short Description
Download Statisticko zakljucivanje i modelovanje.pdf...
Description
Statistika u istraživačkom procesu – statističko zaključivanje i statističko modelovanje
Goran Trajković januar, 2011. godine
Statističko Statisti čko zaključivanje Donošenje zaključka o populaciji na osnovu opservacija iz uzorka. Zaključak je probabilističke prirode, jer se donosi na osnovu uzoračkih podataka, i praćen je izvesnim stepnom nesigurnosti Ciljna populacija Uzoračka populacija Uzorak Analiza Uzoračka statistika (uzorački statistik)
Statistički zaključak o populaciji sa određenim stepenom nesigurnosti
Parametri osnovnog skupa i uzoračke statistike 1. Parametar – statistička mera date varijable u populaciji 2. Uzoračka statistika – statistička mera date varijable u uzorku Statistička mera
Parametri osnovnog skupa
Uzoračke statistike
Aritmetička sredina
x
Varijansa
2
sd2
Standardna devijacija
sd
Proporcija
p
Dva Dv a tipa statističkog zaključivanja
Ocena vrednosti parametra u populaciji (npr. aritmetička sredina ili proporcija) Testiranje hipoteza – testiranje pretpostavke o vrednosti parametra
Ocena parametra (ocenjivanje) Proces korišćenja informacija iz uzorka u cilju donošenja zaključka o vrednosti populacionog parametra. Ocena može biti data u obliku jedne vrednosti (tačkasta ocena) ili u obliku intervala poverenja. Interval poverenja – interval unutar kojeg se sa definisanom verovatnoćom (nivo poverenja, koeficijent poverenja) nalazi nepoznati parametar. Npr. za koeficijent poverenja of 95% može se očekivati da će se nepozanti parametar sa verovatnoćom od 0.95 nalaziti u datom intervalu poverenja, odnosno da će u ponovljenom uzorkovanju 95% intervala sadržati parametar. Definisana verovatnoća se odnosi na interval poverenja, a ne na sam parametar. Granice inervala poverenja nazivaju granicama poverenja.
Hipoteza •Pretpostavka o svetu oko nas •Pretpostavka koju je moguće testirati i odbaciti •Prepostavka koja je unapred navedena kao verovatna istina, a koju istraživač ima nameru da testira na osnovu podataka Istraživačka hipoteza može imati fomu očekivanja, verovanja, dedukcije ili sumnje. Pokretač je istraživanja i zahteva aktuelno dokazivanje. Istraživačku hipotezu prevodimo u statističke hipoteze kako bi mogle biti testirane statističkim tehnikama.
Statistička hipoteza •Statistička hipoteza je pretpostavka ili tvrđenje o jednoj ili više populacija (pretpostavka o vrednostima parametara u populaciji). Uvek se formulišu dve hipoteze - nulta i alternativna: •Nulta hipoteza (H0) je tvrđenje o tačnoj vrednosti parametra u populaciji •Alternativna hipoteza (HA ili H1) ili istraživačka hipoteza je tvrđenje da je vrednost parametra u populaciji različita od tvrđenja u nultoj hipotezi
Testiranje hipoteza – komplementarnost nulte i alternativne hipoteze •Nulta i alternativna hipoteza su komplementarne. Samo jedna je tačna. •U postupku testiranja hipoteza testira se samo nulta hipoteza. •Moguće odluke na osnovu statističke analize uzoračkih podataka su: (1) prihvatanje H0 i odbacivanje H1, ili (2) odbacivanje H0 i prihvatanje H1
Dvosmeno i jednosmerno testiranje hipoteza Dvosmerni test – test u kojem je alternativna hipoteza dvosmerna (nije direktivna) odnosno ima oblik tvrđenja da je jedan populacioni parametar ili veći ili manji od drugog: H0: μ1 = μ2
H1: μ1 ≠ μ2
Jednosmerni test – test u kojem je alternativna hipoteza jednosmerna (direktivna je) odnosno ima oblik tvrđenja da je jedan populacioni parametar veći ili manji od drugog: H0: μ1 μ2
H1: μ1 > μ2
H0: μ1 μ2
H1: μ1 < μ2
Testiranje hipoteza – matrica statističkog odlučivanja
Naš zaključak Prihvatamo nultu hipotezu Odbacujemo nultu hipotezu
U prirodi Nulta hipoteza Nulta hipoteza tačna pogrešna 1-
greška greška drugog tipa
greška greška prvog tipa
1-
Greške u testiranju hipoteza Greška prvog tipa – odbacivanje tačne nulte hipoteze. Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze. Istovremeno se može napraviti samo jedan tip greške. Greška prvog tipa se neposedno kontroliše izborom nivoa
značajnostii. Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto. Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka. Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina (kada se testira razlika aritmetičkih sredina). Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.
Nivo značajnosti i p-vrednost ( nivo, nivo značajnosti) - maksimalno dozvoljena greška prvog tipa. U procesu testiranja hipoteza običajeno se bira nivo značajnosti od 0.05. p-vrednost (opservirani nivo značajnosti, verovatnoća značajnosti) – verovatnoća da se, pod pretpostavkom tačne nulte hipoteze, na osnovu slučajnosti opserviraju rezultati koji su jednaki ili ekstremniji od aktuelno opserviranih. Ako je p-vrednost manja od nivoa značajnosti (p0.05), odbacuje se nulta hipoteza i dobijeni rezultati označava se statistički značajnim.
Koraci u testiranju hipoteza 1. Formulisati H0 i H1 2. Odabrati nivo značajnosti ( nivo) 3. Odabrati dvosmerno ili jednosmerno testiranje zavisno od formulacije alternativne hipoteze 4. Odabrati statistički test i izračunati statistiku testa (empirijska vrednost). 5. Odrediti oblast odbacivanja – teorijska (granična, kritična) vrednost. 6. Uporediti empirijsku i teorijsku vrednost test statistike. Odbaciti H0 i prihvatiti H1 ako je statistika testa u regionu odbacivanja (p ). Prihvatiti H0 ako statistika testa nije u regionu odbacivanja (p > ).
Primer: Formiran je uzorak od 90 ispitanika iz opšte populacije. Za svakog ispitanika dobijen je podatak o statusu pušenja (pušač ili nepušač), i podatak da li je ispitanik bolovao od akutne respiratorne infekcije u toku poslednje zime. Postavljena je nulta hipoteza da su status pušenja i oboljevanja od akutne respiratorne infekcije nezavisne varijable, odnosno da nema asocijacije između njih.
Akutna respiratorna infekcija
Pušenje
Da
Ne
Svega
Da
22
17
39
Ne
16
35
51
Ukupno
38
52
90
Pušenje i oboljevanja od akutne respiratorne infekcije u zimskom periodu nisu nezavisne variajble. Između njih postoji statistički značajna asocijacija (hikvadrat=4.70, DF=1, p=0.030, koeficijent kontingencije=0.22).
Primer: Dve grupe lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) je: prva grupa: 15, 17, 20, 14, 19, 17, 18, 19 druga grupa: 16, 14, 17, 15, 18, 17, 16 Da li je razlika značajna? Testirati na nivou značajnosti 0.05.
x1
x1 2
x2
x2 2
15
225
16
256
17
289
14
196
20
400
17
289
14
196
15
225
19
361
18
324
17
289
17
289
18
324
16
256
19
361
139
2445
113
1835
x1
x
1
n1
139 17.38 mm/h 8
x n x 2
sd1
sd 2 t
2
n 1
2 2 x n x
n 1
x2
x
2
n2
113 16.14 mm/h 7
2445 8 17.38 2.07 8 1 2
1835 7 16.142 1.35 7 1
17.38 16.14
=1.35,
(8 1) 2.07 2 (7 1) 1.352 1 1 872 8 7 DF=8 7 2 13 Kritična vrednost u tablici t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika nije statistički značajna (t=1.35, DF=13, p>0.05)
Model • Model je uprošćeno predstavljanje realne pojave • Modelom su reprodukovani samo neki aspekti realne pojave • Dobar model bi trebalo da objašnjava pojavu što je moguće vernije, ali ne bi trebalo da bude previše komplikovan, time što bi se pokušala reproodukcija svakog detalja, jer to može da ometa razumevanje • Model nam pomaže u razumevanju realne pojave na uprošćen, brži i jeftiniji način
Statistički model • Statističkim modelom predstavljamo pojave koje sadrže slučajnosti • Statistički modeli su statističke formulacije ili analize, u uslovima moguće primene sa datim podacima, koji se koriste za proveru pretpostavki i parametara u analizi. Primeri statističkih modela su npr. linearni model i binomni model • Statistički model počinje pretpostavkom o odnosu dve varijable u ispitivanoj populaciji i ocenom populacionih parametara na osnovu uzoračkih podataka. Bez pretpostavljenog modela analiza nije moguća. • Modelom se opisuje struktura podataka na takav način da omogući razumevanje pretpostavljenog procesa koji je generisao podatke • Izbor modela je od presudnog značaja za analizu. Planiranje istraživanja obuhvata i pretpostavke o modelu koji je moguće primeniti što može biti promenjeno posle eksploracije podataka
Varijable u statističkom modelu • Statistički modeli se koriste da opišu ponašanje jedne ili više varijabli, pri čemu se neke od njih posmatraju kao varijable eksplanatori (nezavisne varijable), a neke kao rezultujuće varijable (zavisne varijable). Modelom se opisuje kako ponašanje rezultujuće varijable zavisi od varijable eksplanatora • Eksplanatorna varijabla može biti npr. tretman u studijama intervencije ili faktor povezan sa pojavom neke bolesti u etiološkim studijama • Statistički model omogućava predikciju rezultujuće varijable na osnovu ponavanja vrednosti eksplanatorne varijable • U statistički model je, zbog stohastičkog odnosa varijabli, uvek uključena i greška modela • Statistički model je moguće unaprediti sa ciljem boljeg razumevanja procesa i bolje predikcije
Izbor modela Izbor modela zavisi od: • Naučnog razumevanja, npr. proverene teorije na osnovu koje se mogu predvideti očekivanja • Prethodnog iskustva sa sličnim podacima • Eksploracije podataka • Dijagnostičkih informacija o aktuelno izabranom modelu
Pretpostavke modela Najčešće preptostavke statističkih modela: 1. Normalnost raspodele ili normalnost raspodele grešaka. Važnija je kod malih uzoraka jer sa porastom veličine uzorka raspodela aritmetičkih sredina teži normalnoj raspodeli bez obzira na raspodelu u populaciji (Centralna granična teorema) 2. Nezavisnost – opservacije su nezavisne ako se na osnovu vrednosti jedne ne može prevideti vrednost druge opservacije. Ova pretpostavka je narušena ako postoje klasteri podataka. Unutar klastera postoji povezanost/korelacija podataka. Klasterovanje se može sprečiti randomizacijom u ekeperimentu ili slučajnim uzorkovanjem u opservacionim istraživanjima 3. Homogenost varijansi – varijansa rezultujuće varijable je jednaka za sve vrednosti varijable eksplanatora
Valjanost modela 1. 2.
3.
Provera o ispunjenosti pretpostavki modela Provera u kojoj meri ocene modela mogu biti pod uticajem malog broja uticajnih opservacija kao što su npr. ekstremne vrednosti Provera odnosa broja varijabli eksplanatora i broja opservacija. Uopšteno, broj opservacija mora biti najmanje deset puta veći od broja varijabli eksplanatora. Za svaku kvalitativnu varijablu broj kategorija umanjen za jedan uzima se kao broj varijabli eksplanatora
Formulacija statističkog modela Mnogi modeli imaju oblik: Y = μ + ε gde je Y - Opservirana vrednost, μ - Predikcija modela. ε - Statistička greška (rezidual)
Razlika opservirane vrednosti i predikcije jeste rezidual.
Primer: Za dvanaest ispitanica ženskog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina. Starost
Sistolna TA
1
39
125
2
59
165
3
71
170
4
75
150
5
73
185
6
55
155
7
51
180
8
70
160
9
41
145
10
45
140
11
63
135
12
35
130
Dijagram rasturanja starosti i sistolne tenzije 200 Sistolna TA (mmHg)
ID
180 160 140 120 100 80 30
40
50
60
Starost (godine)
70
80
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
y a bx 106.93 0.823 77 170.3
Sistolna TA (mmHg)
200 180 160 140 120 100 80 30
40
50
60
Starost (godine)
70
80
View more...
Comments