Excel

April 29, 2017 | Author: Niksa Zekic | Category: N/A

Share Embed Donate

Report this link

Short Description

Download Excel...

Description

Sadržaj 1. Uvod u Excel ..............................................................................................................................1 1.1. Startovanje Excela...............................................................................................................2 1.2. Radno okruženje.................................................................................................................2 1.3. Radni papir i ćelija..............................................................................................................2 1.4. Upisivanje i kretanje po ćelijama .....................................................................................4 1.5. Formatiranje ćelija ..............................................................................................................5 1.6. Formatiranje decimalnih brojeva .....................................................................................5 1.7 Menjanje boje pozadine i teksta ćelije..............................................................................6 1.8 Podešavanje širine i visine ćelija. Ubacivanje i izbacivanje redova i kolona ..............6 1.9 Spajanje ćelija .......................................................................................................................7 1.10 Uokvirivanje ćelija.............................................................................................................7 1.11 Premeštanje i kopiranje ćelija ..........................................................................................8 1.12 Snimanje i zatvaranje dokumenta...................................................................................9 1.13 Otvaranje novog i postojećeg dokumenta .....................................................................9 1.14 Rad sa formulama .............................................................................................................9 1.15 Grafikoni...........................................................................................................................25 2. Funkcije raspodele u Excelu ..................................................................................................28 2.1. Binomna raspodela...........................................................................................................29 2.2. Poasonova raspodela .......................................................................................................34 3. Empirijska raspodela u Excelu ..............................................................................................47 3.1. Osnovni pojmovi .........................................................................................................48 3.2 Empirijska raspodela ..................................................................................................50 4. Intervalne ocene parametara .................................................................................................60 4.1 Ocena srednje vrednosti normalne raspodele sa poznatom disperzijom ..............61 4.2 Ocena srednje vrednosti normalne raspodele nepoznate disperzije ........................66 5. Analiza korelacije ....................................................................................................................72 5.1 Uzorački koeficijent korelacije.........................................................................................75 5.2 Regresione prave ...............................................................................................................78 5.3 Provera značajnosti korelacije .........................................................................................81 5.4 Interpretacija koeficijenata korelacije .............................................................................83 6. Regresiona analiza...................................................................................................................85 6.1 Metod najmanjih kvadrata...............................................................................................88 6.2 Srednje kvadratno odstupanje empirijske formule ......................................................90 6.3 Koeficijent determinacije ..................................................................................................90 6.4 Određivanje pravolinijske zavisnosti .............................................................................91 6.5 Intervali poverenja odsečka i nagiba ..............................................................................99 6.6 Testiranje hipoteza u vezi sa odsečkom i nagibom ...................................................102 6.7 Linearizovane dvoparametarske empirijske formule...............................................103 Literatura ....................................................................................................................................113

1. Uvod u Excel

1

1.1. Startovanje Excela Microsoft Excel je program za tabelarna proračunavanja. Osnovna osobina vršenja takvih proračuna na računaru je da se izmenama određenih podataka menjaju i vrednosti koje su zasnovane na njima. Startovanje Excel-a se vrši preko ikone na desktopu. Dupli klik mišem na ikonu Microsoft Excel i program je pokrenut. Ukoliko ikone programa nema na desktopu tada je Excel potrebno pokrenuti prko Start menija, menija Programs, a zatim kliknuti na Microsoft Excel.

1.2. Radno okruženje Radno okruženje Excel-a čine : Naslovna linija (Title Bar) – se nalazi na samom vrhu ekrana i tu se nalazi ispisano ime dokumenta s kojim se trenutno radi i ime programa. Traka sa menijima (Menu Bar) – se nalazi odmah ipod naslovne linije i u njoj se nalaze meniji u kojima su grupisani razni alati. Paleta standard (Standard Toolbar) ili paleta sa standardnim alatkama se nalazi ispod trake sa menijima i sadrži najčešće korištene alate iz menija (novi dokument, otvaranje, snimanje dokumenta, štampanje dokumenta i slično). Paleta Format (Formatting Toolbar) ili paleta za formatiranje sadrži alate koji se koriste za formatiranje teksta, određivanje vrste, veličine i boje slova, poravnavanja teksta ... Traka za formulu (Formula Bar) je traka gde se unosi formula za ćeliju sa kojom radimo. Statusna linija (Status Bar) opisuje u svom levom uglu stanje u kom se nalazi programReady (spreman za rad), Enter (unos u ćeliju), itd. Pord toga u statusnoj liniji možemo videti da li je uključeno prekucavane, kucanje velikih slova itd. Klizači omogućavaju pomeranje papira kako bi se videle sve ćelije.

1.3. Radni papir i ćelija Radni papir (eng. Worksheet) i ćelija (eng. Cell) su osnovni elementi rada u Excelu. Svaki dokument sa kojim se radiu Excelu naziva se naziva se sveska ili knjiga (eng. Book). Da bi se odvoile značajne celine u okviru jendog dokumenta koriste se radni papiri, koji čine knjigu. Dakle, jedan radni papir može da se koristi za proračun, jedan za grafike itd.

2

Slika 1.1. Sam radni papir sastavljen je od ćelija. Svaka ćelija može sadržati tekst ili brojeve, i za svaku od njih može se definisati tip (tekst, broj, valuta, procenti, datum). Ćelije se u Excel-u mogu povezivati tako da jedna zavise od druge i na taj način formirati formule po kojima se računaju vrednosti. Ubacivanje novog radnog papira- vrši se preko padajućeg menija Insert, opcije Worksheet. Ili, ako se pritisne desni taster miša na bilo koju od kartica postojećih radnih papira, koje se nalaze iznad statusne linije. Otvara se novi meni u kome se odabira opcija Insert, u novootvorenom prozoru dovoljno je kliknuti OK. Uklanjanje radnog papira – vrši se pritiskom desnog tastera miša na karticu radnog papira koji treba obrisati, i u novootvorenom meniju bira se opcija Delete. Otvara se novi prozor u kome se sa OK potvrđuje brisanje, dok se sa Cancel prekida.

3

Menjanje imena radnog papira – koristi se isti meni kao i prethodne dve operacije. Pritisne se desni taster miša na karticu radnog papira čije se ime menja, a zatim u novootvorenom meniju klikne na Rename. Nakon tog upisuje se novo ime i pritisne taster Enter. Premeštanje i kopiranje radnog papira- ponekad je potrebno promeniti redosled radnih papira. Za to se koristi opcija Move or Copy. Otvara se prozor kao sa slike. Otvara se prozor kao sa slike. Polje To Book govori u koju knjigu (dokument) se premešta radni papir. Polje Before Sheet ukazuje na to pre kog radnog papira želimo da postavimo odabrani radni papir. Opcije move to end papir šalje na kraj knjige (dokumenta). Ukoliko je otkačeno polje Create a copy biće napravljena kopija radnog papira. Na kraju se sa OK potvrđuju odabrane opcije. Sekektovanje radnih papira – kada je potrebno obrisati više radnih papira ili se nad njima vrše neke izmene, potrebno ih je prvo označiti – selektovati. Selektovanje se vrši pritiskom na levi taster miša na kartice radnih papira koje se nalaze iznad statusne linije, držeći taster Control – za pojedinačno selektovanje, ili taster Shift- za selektovanje susednih radnih papira.

1.4. Upisivanje i kretanje po ćelijama Da bi se podatak u određenu ćeliju potrebno je da se levim tasterom miša klikne na nju. Ćelija postaje uokvirena crnim pravougaonikom, kao na slici gore. Pritiskom na bilo koji taster sa tastature počinje unos podataka u selektovanu ćeliju. Nakon ukucavanja teksta dovoljno je pritisnuti Enter ili strelicama pomeriti kursor na neku drugu ćeliju. Excel sam rapspoznaje određene tipove podataka. Brisanje teksta iz ćelije se vrši ozmačavanjem ćelije koja se briše a zatim se pritisne taster Delete. Moguće je obrisati i više ćelija odjednom tako što se prvo sve selektuju, a zatim se pritisne taster Delete. Pomeranje kurora na određenu ćeliju najlakše je izvršiti klikom levog miša na tu ćeliju. Međutim u kompleksnijim tabelama koje prelaze jednu stranu radnog papira lakše je nekad direktno otići na željenu ćeliju. Za to se koristi padjući meni Edit i opciju Go To. U novom prozoru u polju Go To dovoljno je ukucati poziciju ćelije, recimo A70 u pritisnuti OK i kursor će se naći na navedenom mestu.

4

1.5. Formatiranje ćelija Formatiranje ćelija podrazumeva podešavanje tipa ćelije (broj, tekst, datum ili valuta), nameštanje poravnanja, vrste slova i veličine, kao i nekoliko drugih opcija. Podešavanje tipa ćelije- većina gore navedenih podešavanja vrši preko padajućeg menija Format opcije Cells. Nakon pokretanja ove opcije otvara se prozor kao sa slike. U polju Category pojavljuje se lista mogućih tipova podataka u ćeliji. U polju Sample vidi se kako će izgledati podatak nakon promene tipa. Nekoliko bitnih tipova su : Numberpredstavlja broj, i u ovoj opciji moguće je birati zapis broj kao i broj decimalnih mesta; Date – predstavlja datum, bira se zapis datuma, kod nas je na primer dd-mm-yyyy (danmesec-godina); Time predstavlja vreme i bira se načina zapisa vremena, kod nas hh:mm::ss (sati, minute, sekunde), koristi se i Custom koji predstavlja korisnički tip. Poravnjanje teksta u ćeliji – poravnanje teksta se vrši kako horizontalno tako i vertikalno. Horizontalno poravnanje moguće je izvršiti iz Palete Format koristeći koji redom centriraju tekst levo, u sredinu i desno, poslednje dugme služi za spajanje ćelija u jednu i centriranje teksta koji se nalazi u njima u sredinu. Vertikalno poravnanje kao i horizontalno vrši se preko opcije Format Cells iz padajućeg manija Format. Odabirom kartice Alignment pojavljuje se prozor kao na slici. Polje horizontal predstavlja horizontalno poravnanje, preko polja indent moguće je postaviti koliko će tekst biti omeren od leve ivice ćelije. Polje Orientation nudi mogućnost da se tekst okreće u ćeliji pod određenim uglom. Veoma bitne su stavke pod poljem Text Control. Ako je otkačeno Wrap Text tadaće tekst ukoliko ne može da stane u ćeliju biti prelomljen u dva ili više redova. Ukoliko je otkačeno polje Shrink to fit tada će veličina slova biti smanjena tako da tekst staje u ćeliju. Merge Cells služi za spajanje ćelija. Podešavanje slova u ćeliji – veličina i tip slova može se desiti preko Palete Format za promenu tipa slova i za promenu veličine slova. koristeći Tekst je moguće iskoristiti i za podebljanje, zakrivljenje ili podvlačenje teksta. Za to se koriste ikone

.

1.6. Formatiranje decimalnih brojeva Kod unosa brojeva može se unapred odrediti željeni broj decimala. To se radi na sledeći način: 1. Označi se ćelija ili ćelije kojima se određuje broj decimala. 2. U padajućem meniju Format odabere se opcija Format Cells.

5

3. U kartici Number u polju Category, odabere se Number, tada se pojavljuju opcije kao na slici. 4. U polju Decimal places bira se broj decimala, ako se otkaći polje Use 1000 separator koristiće se razdvajanje preko 1000 sa zarezom a u polju Negative number bira se izgled negativnog broja. Decimale se mogu nameštati i preko ikonica iz palete Format. Brojevima u označenim ćelijama pritiskom na prvu ikonicu povećava se broj decimala, a na drugu smanjuje.

1.7 Menjanje boje pozadine i teksta ćelije Boja pozadine ćelija menja se na sledeći način: 1. Označi se ćelija čija se boja pozadine menja. 2. Levim tasterom miša pritisne se crna sterlica pored ikone kantice u Paleti Format, pojavljuje se prozor kao na slici. 3. Odabira se boja za popunjavanje pozadine selektovanih ćelija, i time je bojenje pozadine završeno. Boja teksta u ćelijama menja se na sledeći način: 1. Označi se ćlija čija se boja teksta menja. 2. Levim tasterom miša pritisne se na crnu strelicu pored ikone . 3. U prozoru kao na slici odabere se nova boja teksta u ćelijama

1.8 Podešavanje širine i visine ćelija. Ubacivanje i izbacivanje

redova i kolona Širina kolone se podešava tako što : 1. Kursor miša postavlja se na ivicu polja sa imenom kolone označene slovom iznad ćelija. Kursor miša postaje crna uspravna linija sa strelicama u levo i desno. 2. Držeći pritisnut levi taster miša pomera se širina kolone B koliko je potrebno. 3. Na kraju se pusti levi taster miša. Visina reda menja se na sličan način: 1. Kursor miša postavlja se na ivicu polja sa brojem reda levo od ćelija. Kursor miša postaje vertikalna crna crtica sa strelicama na gore i dole.

6

2. Držeći pritisnut levi taster miša, miš se povlači na gore il na dole smanjujući ili povećavajući tako visinu reda. 3. Nakon nameštanja pušta se levi taser miša. Kolona se dodaje tako što: 1. Kursor se pozicionira u ćeliju koja pripada koloni ispred koje se ubacuje nova kolona. 2. U padajućem maniju Insert odabere se opcija Columns. Red se dodaje tako što: 1. Kursor se pozicionira u ćeliju koja pripada redu iznad kojeg se ubacuje novi red. 2. U padajućem meniju Insert odabere se opcija Rows. Brisanje kolone ili reda vrši se tako što: 1. Desnim tasterom miša klikne se na ime kolone ili broj reda. 2. U novotvorenom meniju odabere se opcija Delete. Nakon toga ako je obrisana kolona, sve kolone desno od nje premeštaju se ulevo za jedno mesto, a u slučaju brisanja reda za jedno mesto se premeštaju redovi ispod obrisanog reda.

1.9 Spajanje ćelija Spajanje ćlija podrazumeva spajanje više ćelija u jednu ćeliju. Primer spojenih ćelija, u prikazanoj tabeli , bila bi polja jedan, dva i tri. Spajanje se vrši: 1. Selektuju se ćelije koje treba spojiti. 2. U padajućem meniju Format odabere se Format Cells, a zatim se u kartici alignment otkači polje Merge Cells. 3. Odabir se potvrđuje sa OK. Ponekad se pogrešno spoje ćelija pa je potrebno spojene ćelije vratiti u stanje gde je svaka za sebe, to se radi tako što se označi ćelija nastala spajanjem, a zatim u padajućem meniju Format, u Format Cells u kartici Alignment isključi se otkačeno polje Merge Cells.

1.10 Uokvirivanje ćelija Iako je radni papir podeljen na ćelije i između njih postoje linije, te tanke linije pri štampanju neće biti vidljive. Da bi se linije tabele naglasiel potrebno je selektovati ćelije čiji okvir se menja i preko padajućeg menija Format Cells, bira se kartica Border, nakon

7

čega se otvara prozor kao na slici. U polju Line bira se vrsta linije kojom se iscrtavaju okviri, i boja linije. U polju Presets bira se None da bi ćelije bile bez okvira a Outline da bi se uokvirile spoljne ivice. Polje Border koristi se i kada nisu potrebne samo spoljne ivice uokvirene, već možda i iscrtane unutrašnje ili dijagonalne linije. Klikom na dugme koje prikazuje pravac linije uključuje ili isključuje iscrtavanje linija tog pravca.

1.11 Premeštanje i kopiranje ćelija Premeštanje ćelija se vrši tako što se: 1. Selektuju ćelije koje treba premestiti. 2. Kursor miša se pomeri na ivicu selekcije, negde oko crne tamne linije, i tada bi kursor trebalo da se pretvori u belu strelicu. 3. Držeći pristisnut levi taster miša pomeraju se selektovane ćelije na mesto na koje se trebaju premestiti. 4. Pusti se levi taster miša Na ovaj način podaci se više ne nalaze u ćelijama u kojima su bili već samo u onima u koje su premešteni. Ako podaci treba da ostanu i da se pojave u novim ćelijama tada se koristi kopiranje ćelija. Ćelije se kopiraju na sledeći načn: 1. Selektuju se ćelije koje treba kopirati. 2. Pritisne se dugme Copy iz Palete Standard, čime su selektovane ćelije zapamćene u memoriji računara, a oko zapamćenih ćelija se pojavljuje trepćući okvir, nakon toga 3. Levim tasterom miša klikne se na ćeliju gde treba da se nađu kopirane ćelije. 4. Pritisne se dugme Paste iz Palete Standard, i ćelije se pojavljuju na papiru. Koristeći opciju Cut iz Palete Standard umesto Copy ćelije bi bile premeštene, ali bi mogle više puta sa opcijom Paste da se „ispuštaju“ u dokument. Ćelije je moguće iskopirati i koristeći mali crni kvadrat u donjem desnom uglu selekcije. Ako se kursor miša postavina taj mali crni kvadrat on se pretvara crnu strelicu. Pritiskom levog tastera miša, ne puštajući ga može se razvući selektovani deo. Nakon puštanja levog tastera ceo označeni deo biće popunjen prethodno selektovanim delom.

8

1.12 Snimanje i zatvaranje dokumenta Ako dokument treba sačuvati da bi se kasnije koristio trebalo bi ga snimiti na hard disk. Snimanje dokumenta se vrši tako što se iz padajućeg menija File izabere Save. Ako je to prvi put da se snima taj dokument u kojem se traži da se unese ime tog dokumenta, odnosno pod kojim imenom da se snimi na hard disk (ili diksketu). U polju Save in može se izabrati folder u koji treba smestiti dokument, a može se napraviti i novi folder za ovaj dokument klikom na ikonu Create New Folder. U polju File name treba upisati ime dokumenta i potom kliknuti na dugme Save. Ovim je operacija snimanja dokumenta završena. Ako je dokument koji se snima već ranije snimljen pod tim imenom onda se snimanje obavlja automatski, samo odabirom opcije Save iz File menija. Zatvaranje dokumenta Dokument u Excelu se može zatvoriti na više načina, a najčešće se to vrši klikom na u gornjem desnom uglu prozora. Drugi način za zatvaranje aktivnog dokumenta je da se izabere operacija Close iz padajućeg menija File.

1.13 Otvaranje novog i postojećeg dokumenta Prilikom svakog startovanja Excel-a otvara se i nova prazna sveska u kojoj se može započeti rad. Ako je potrebno otvoriti novi prazan dokument, koristi se ikona New Blank Document iz Palete Standard, ili opciju New iz padajućeg menija File. Ako treba otvoriti već postojeći dokument, koji se nalazi na disku računara koristi se ikona

Open iz palete Standard, ili opcija Open iz padajućeg menija File.

1.14 Rad sa formulama Excel - rad sa formulama Unos formula Formula se u neku ćeliju unosi tako što prvo unesemo karakter = što će Excel-u nagovestiti da sada sledi unos formule. Šta je formula?. Formula je kombinacija konstanti promenljivih, operatora i funkcija koja koja daje rezultat. Šta znači ovo što je rečeno? Evo nekih primera unešenih formula 9

= 2.8+C2+C3^3 = C2/C3-1.45E-5*(A1+LN(A2)) U prethodnim numeričkim formulama (daju numeričku vrednost kao rezultat) konstante (brojevi) su 2.8,3,1.45E-5,5. Realni brojevi se unose sa fiksnom decimalnom tačkom ili u eksponencijalnom obliku (1.45E-5 znači 1.45·10-5). Promenljive su reference na ćelije (C2,C3,A1,A2) u kojim se nalazi (u ovom slučaju) numerička vrednost. Operatori se dele na unarne ili binarne. Unarni imaju jedan operand a binarni dva (sa leve i desne strane). Excel podražava standardne aritmetičke operatore: sabiranje +, oduzimanje -, deljenje /, množenje *, stepenovanje. Pri tome je prioritet operatora isti kao i u matematici. Promena prioriteta se vrši samo malim zagradama ( ). Funkcije imaju svoje ime i u zagradama argumente razdvojene zarezima. Kada unesemo potrebne argumente funkcija vraća rezultat. U prethodnim primerima smo koristili funkciju LN(A2). Ona zahteva jedan argument (numerički) i vraća kao prirodni logaritam datog argumenta. Operatori i funkcije slično "rade" tj. daju rezultat. Prethodna dva primera ćemo uneti u Excel radni list i uneti date funkcije baš kao što su navedene. Funkcije ćemo uneti u ćelije A4 i B4. Rezultat je sledeći

Obratite pažnju da je po unosu formule i pritiskom na ENTER u ćeliji prikazan rezultat a u liniji za editovanje ono što smo uneli tj. pravi sadržaj ćelije - formula. Jednostavno je unositi proste formule, ali ako je formula komplikovana vrlo lako se možemo izgubiti i pogrešiti. Excel vam nudi pomoć tako što pri unosu formule možete umesto da kucate npr. C2 da se referencirate na tu ćeliju i ona će se pojaviti u formuli. Evo kako smo, korak po korak uneli sledeću formulu Prvo smo uneli znak = , znači sledi formula

Onda smo levim tasterom miša (ili kursorskim strelicama) označili ćeliju C2 (primetite "talasiće" oko ćelije)

10

Sada nam treba operator, unećemo ga

Sada se pozicioniramo na drugu ćeliju

Nastavljamo sa unosom

A1 je već unešeno na prethodno opisan način. Veoma je bitno da u toku unosa ne pritisnete ENTER. Sada nam treba funkcija. Možemo je uneti ali ako ne znamo ime funkcije ili smo zaboravili, možemo je izabrati iz menija Insert, Function ili izabrati iz palete alata. Dobićemo dijalog prozor za izbor funkcije

11

Nakon OK ova funkcija očekuje jedan argument (broj) pa se pozicioniramo na A2

Sada nam preostaje da kliknemo na OK. Dobićemo sledeću poruku

12

Ona nam kaže da formula nije završena (nedostaje desna zagrada). Excel je to popravio i pita nas da li da završavamo sa unosom (Yes) ili ćemo da nastavimo dalje (No). Kako je formula završena možemo da kliknemo na Yes, ali ako želimo da nastavimo kliknimo na No. Excel će nam još jednom potvrditi da formula nije korektna. Unesimo i poslednju potrebnu desnu zagradu i, što je najbitnije, tek sad pritisnimo ENTER jer je formula formirana.

Dobili smo rezultat. Unos komplikovanih formula je podložan greškama jer se sve unosi u jednom redu. Često se može pogrešiti oko zagrada. Pri samom unosu obratite pažnju da nam Excel pomaže tako što pri unosi desne zagrade ")" na trenutak "podeblja" odgovarajuću levu zagradu "(". U korektno unešenoj formuli broj levih zagrada je isti kao i broj desnih zagrada. Za operatore koje Excel podržava konsultovati Help sistem. Što se funkcija tiče Excel ima veoma veliki izbor funkcija za različite namene. Pri tome argumanti datih funkcija mogu biti konstante, pojedinačne ćelije ili blokovi ćelija. Rezultat takođe može biti smešten u jednoj ćeliji ili bloku ćelija Blok ćelija je pravougaoni deo radnog lista koji je definisan gornjom levom i donjom desnom ćelijom izmedju kojih je dvotačka. Na primer

Ovaj blok se referencira kao B2:D5. U prethodnom primeru smo spomenuli funkciju koja ima jednu ćeliju kao argument i daje rezultat u jednoj ćeliji. Sada ćemo spomenuti možda najčešće korištenu funkciju SUM koja kao argumente može imati blokove ćelija a kao rezultat daje sumu numeričkih vrednosti u datom bloku. Unesimo u dati blok B3:C5 neke vrednosti i u ćeliju B6 unesimo =SUM( 13

Posle =SUM( ne pritisnuti ENTER. Sada možemo nastaviti sa formulom i uneti dati blok ali ćemo se poslužiti već spomenutim označavanjem i obeležićiti ceo blok.

Nedostaje desna zagrada. Unećemo je i tek tada aktivirati ENTER. Dobija se rezultat

Relativno kopiranje formula Počećemo objašnjavanje rada sa formulama u Excel-u na trivijalnom primeru zbira dva broja. Unećemo dva proizvoljna broja i potom ih sabrati

U ćelije B3 i C3 su unete dve numeričke vrednosti a u ćeliju D3 je uneta formula. Prvi karakter formule je znak =. U opštem slučaju u formuli figurišu konstante, reference na ćelije (blokove), operatori i funkcije. U ćeliju D3 je prikazan rezultat izračunavanja date

14

formule. Ovo je normalan rad u Excel-u tj. u liniji za editovanje vidimo šta je unešeno (=B3+C3) a u samoj ćeliji vidimo rezultat (7.01). Ako bi smo u koloni B i koloni C imali više brojeva i želeli bi smo da odgovarajuće vrednosti u kolonama saberemo, možemo ponoviti čitav postupak. Unos brojnih vrednosti je relativno jednostavan postupak, ali unos formule je podložan greškama pogotovo ako je formula komplikovana. Pored toga, ako je formula komplikovana, ponavljanje unosa je dugotrajan i besmislen posao koji treba izbegavati kad je god to moguće. Čisto primera radi, unećemo još nekoliko brojeva u kolone B i C

Sada ćemo da upotrebimo "magiju". Postavićemo pokazivač miša u crni kvadratić ćelije u kojoj se nalazi formula. Pokazivač se menja u crni krstić

Povlačimo levim tasterom miša nadole sve do ćelije D6.

Šta se sad desilo? (Zanemarite pojavu i nastavite sa radom). Ovim smo jednostavno kopirali ćeliju D3 u blok susedenih ćelija u istoj koloni (D4:D6). Međutim u ćeliji D3 se nalazi formula. Kako se to iskopiralo?. Možemo da pogledamo sadržaje ćelija ili jednostavno da prikažemo formule u tabeli umesto rezultata. To ćemo uraditi selektovanjem iz glavnog menija Tools, Options, View, Windows options, Formulas. Tada ćemo u tabeli umesto rezultata videti formule

15

Kao da nas je Excel shvatio šta hoćemo, tj. sam je pri kopiranju promenio formule. Pri kopiranju formule, reference na ćelije se u kopiranim ćelijama menjaju relativno u odnosu na poziciju (referencu) formule. Formula u D3 kaže da u njoj figurišu dve ćelije i u odnosu na D3 su ćelije pozicionirane relativno tj, druga levo (B3) i prva levo (C3). Takođe će u kopiranim ćelijama formule da se promene (pogledajte sliku). U svim formulama figurišu takođe ćelije druga levo i prva levo. Na primer u D6 figurišu druga levo (B6) i prva levo (C6). Pogledajmo šta bi se desilo kada bi smo kopirali formulu iz D3 u ćeliju E3

Opet relativno kopiranje. U E3 figurišu druga levo (C3) i prva levo (D3). Gde god kopirali formulu iz D3 u kopiji će figurisati ista formula (zbir dve ćelije) ali će dve ćelije u kopiranim formulama uvek biti druga levo i prva levo. Kopiranje se zove relativno jer se reference na ćelije pri kopiranju formula uzimaju relativno u odnosu na poziciju formule. Da bi smo to još jednom utvrdili i razjasnili, pogledajmo sledeći trivijalan primer

U formuli koja je unešena u D6 figurišu ćeljie B5 (pozicija - dve ćelije u levo, jedna ćelija gore) B4 (pozicija - dve ćelije u levo, dve ćelije gore) i C5 (pozicija - jedna ćelija u levo, jedna ćelija gore). Ako ovu formulu iskopiramo u drugu ćeliju reference će se relativno promeniti tj.

16

Uporedite sa prethodnom slikom. Nadam se da smo uspeli da razjasnimo šta znači relativno kopiranje formule. Apsolutno kopiranje formula Ako nam je zadat jednostavan problem da pomoću jednačine idealnog gasnog stanja R ⋅T p= v izračunamo pritisak p za zadate vrednosti R, T, v to bi u radni list Excel-a mogli uneti na sledeći način

pri tome su u svakoj ćeliji bloka ćelija B3:E3 uneti tekstualni podaci, u bloku B4:C4 su uneti numerički podaci a u ćeliji E4 je uneta formula. Pogledajte u liniju za unos kako je formula unešena. U formuli figurišu reference na ćelije sa numeričkim vrednostima i operatori množenje (*) i deljenje (/). U samoj ćeliji E4 se prikazuje rezultat. Ovo je uobičajen način rada sa formulama u Excel-u. Ovaj problem i nije tako komplikovan pa bi se čak mogao uraditi i pomoću kalkulatora. Međutim, ako bi bilo potrebno izračunati pritisak za opseg temperatura od 273.15 do 293.15, sa korakom 1, to bi za kalkulator bilo previše. Kako bi smo to uradili u Excel-u?. Kao prvo, treba uneti temperature. Unos pojedinačnih temperatura bi bilo besmisleno i dugotrajno. Koristićemo Excel-ovu "pamet". Unećemo u ćeliju C5 drugu temperaturu po redu, a to je 274.15 i obeležiti obe ćelije u kojoj je prva i druga vrednost temperature. Zatim ćemo postaviti pokazivač miša u donji desni ugao ove dve ćelije tj,

17

povlačenjem levim tasterom na dole Excel će "shvatiti" da želimo unos sledećih ćelija sa određenim korakom (druga - prva). Tako ćemo povlačiti dok ne dobijemo krajnju vrednost a to je 293.15, odnosno

Ako bi smo, bez razmišljanja, takođe formulu iz E3 iskopirali u susedne ćelije u istoj koloni dobili bi smo sledeće, tj Excel bi prijavio grešku #DIV/0 što znači deljenje sa nulom. Kako to?.

18

Prikažimo formule koje figurišu u kopiranim ćelijama

Nadam se da vidite problem. Formula je kopirana relativno (figurišu tri ćelije levo). Ćelija D11 je prazna (nulta vrednost) i otud deljenje s nulom. Kako ćemo "naterati" Excel da pri kopiranju ne menja relativno reference. To se u formuli naznači tako što se ćelije apsolutno referenciraju. To znači da možemo da "fiksiramo" red i/ili kolonu u nekoj formuli. Pri kopiranju se fiksiran red ili kolona neće menjati. Apsolutno referenciranje se ostvaruje znakom $ ispred kolone (fiksirana kolona, npr. $B4) ili ispred reda (fiksiran red, npr. B$4) ili fikirani i kolona i red ($B$4). Ako se formula u kojoj ima apsolutnih referenci ($ ispred kolona, redova) kopira u druge ćelije onda se ovo kopiranje naziva apsolutno kopiranje. Ako pogledamo prethodan primer, potrebno je da promenimo formulu u E4 koja će da bude =B$4*C4/D$4. Zašto? Zato što ne želimo da se ove vrednosti redova ispred kojih je $ promene. Ako to uradimo i iskopiramo datu formulu dobićemo sledeće

19

Radi!. Vidite da se vrednost redova u formulama od E5:E24 ispred kog je $ nije promenio, ostao je 4 kao i u formuli u E4. Ovo je apsolutno adresiranje gde je apsolutan (fiksiran red) u formuli koja se kopira (E4) u druge ćelije (E5:E24). Naravno, možemo da promenimo prikaz i prikažemo vrednosti u ćelijama u kojima su formule.

20

Može se postaviti pitanje, da li je ispravno uneti u E4 formulu =$B$4*C4/$D$4. Može, fiksirali smo još i kolone B i D, mada je suvišno. Ako pogledate sliku sa formulama vidite da se kolone B i D ionako nisu promenile. Zašto? Jednostavno, pri kopiranju jedne ćelije u blok ostali smo u istoj koloni E pa se nijedna referenca na kolone nije promenila. Prikazaćemo ovaj isti problem ali ćemo drugačije da unesemo podatke. Pri tome je uneta samo jedna formula u B4 =$B1*B3/$B1 i iskopirana udesno

Da li možete da objasnite zašto sada stoje $ ispred kolone B i šta bi bilo u ćeliji D4 da kolone nisu fiksirane (Odgovor D4 = D1*D3/D2). Takođe ista priča važi, pri kopiranju nismo promenili red pa $ ispre bilo kog reda nema smisla jer smo ionako kopirali formulu u susedne ćelije ali ostali u istom redu. Da bi smo još više zapetljali stvar, ovaj isti problem ćemo rešiti unosom jedne formule i kopiranjem u druge ćelije koje se nalaze u različitim redovima i kolonama

Ovu ćemo ćeliju iskopirati udesno do kolone F

a onda ovaj blok zatim još 4 reda nadole (jer još toliko ima redova sa temperaturama)

21

Uporedite rezultate sa prethodnim primerom. Obratite pažnju da je samo jednom unešena formula u B8 = $B$1*B3/$B$2 i da je ova formula iskopirana u blok B8:F12. Ovde su reference $B$1 i $B$2 apsolutne (fiksiran i red i kolona) i ostaju iste u svim formulama. Sada moramo staviti $ ispred reda i ispred kolone jer se jedna ćelija kopira u različite redove i kolone. Jedina relativna ćelija u B8 je B3 ona ima relativnu poziciju (5 ćelija gore) i npr. u D11 će se uzeti D6 jer je ona isto 5 ćelija gore.

Kao poslednje razmatranje ovog primera uzećemo da se traži izračunavanja za različite temperature T i različite molske zapremine v. Pri tome ćemo napraviti tabelu tako da su temperature zadate u koloni a zapremine u vrsti.

22

Postavlja se pitanje, kako da unesemo jednu formulu u B5 koja izračunava pritisak na osnovu odgovarajuće zapremine u vrsti 4 i odgovarajuće temperature u koloni A sa vrednosti R u B1 i da rezultujući pritisak bude u odgovarajućoj ćeliji u bloku B5:F10. Pa u samom pitanju se krije i odgovor. Ćelija B1 mora biti apsolutno fiksirana. Takođe treba fiksirati samo vrstu 4 tj B$4 (zapremina) i kolonu A tj $A5 (temperatura) tako da je formula u ćeliji B5 = $B$1*$A5/B$4, odnosno posle kopiranja dobijamo

Imenovanje ćelija i blokova ćelija Kako formule postaju komplikovanije tako je i baratanje sa njima otežano, pogotovo ako postoje apsolutne reference na ćelije. Zato je pogodna osobina Excel-a da imenuje neku ćeliju ili blok. Lakše je pratiti formulu u kojoj umesto besmislenih referenci figurišu neka imena kao na primer: temperatura, zapremina, obim, cena itd. Pravila za imena ćelija i blokova su - sastoje se od slova i cifara - prvi karakter mora biti slovo - ne razlikuju se mala i velika slova tj. IME, ime, Ime se ne razlikuju - nisu dozvoljena prazna mesta - ne smeju imati ista imena kao imena kolona, reference na ćelije - mogu imati tačku (.) ili donju crtu (_) Najsigurnije da ime počne sa najmanje tri slova a ostalo mgu biti slova i cifre. Pri tome je najkorisnije imenovati blokove sa apsolutnim referencama.

23

Tako ćemo u prethodnom primeru imenovati ćeliju B1 i nazvati je gask, blok B4:F4 imenovati kao Zapremina i blok A5:A10 imenovati kao Temperatura. Prvo ćemo se pozicionirati na ćeliju B1 i u tzv. Name Box uneti gask

i pritisnuti ENTER. Na isti način ćemo selektovati određene blokove i definisati imena

Ako kliknemo na strelicu pored Name Box-a možemo videti naša definisana imena i izborom na jedno od njih videti šta imenuje

24

Kakva korist od toga?. To ćemo primetiti ako sada "primenimo" imena u tabelu. Šta to znači? To znači da se umesto referenci koriste odgovarajuća imena. To činimo izborom Insert, Name, Apply. Dobijamo listu imena

Obeležimo sva imena i kliknimo na OK Tada ćemo u našoj tabeli umesto referenci imati imena tj.

Ovako se tabela može učiniti preglednijom, jasnijom i manje podložnom greškama.

1.15 Grafikoni Za grafičko predstavljanje tabela urađenih u Excel-u koriste se grafikoni. Oni na jednostavan i jasan način prikazuju rast ili pad vrednosti i odnose među njima. Postupak predstavljanja grafikon na radu stranu Excel-a sastoji se iz više koraka. Podrazumeva se da je potrebna tabela na osnovu koje se crta grafik. Izrada grafika u može se pokrenuti preko padajućeg menije Insert, opcije Chart ili preko dugmeta paleti Standard. Otvara se prozor kao naslici. Ovo je prvi od četiri koraka koji se sprovode pri ubacivanju graika u radni list. U prvom koraku bira se vrsta grafika. Klikom na bilo koji član liste polja Chart Type u polju Chart sub-type prikazuju se podtipovi ovog tipa. Klikom na

25

jedan od podtipova bira se izgled grafika. Za prelazaka na sledećei korak treba kliknuti na Next.

U novom prozoru pojavaljuju se dve kartice. Data range označava mesto na kome se podaci nalaze. Druga stavka je Series, pomoću koje se određuju serije na grafiku, tj. koliko će serija biti, kao i šta se nalazi na x, a šta na y osi. Klikom na Next prelazi se na sledeći prozor.

U novom prozoru prva kartica Title služi za podešavanje ili ubacivanje naziva grafika – polje Chart Title, naziva osa – polja Value(X) axes i Value(Y) axes. Kartica Axes omogućava da se uključi/isključi prikazivanje osa. Kartica Gridlines omogućava da se uključi/isključi mrežu ose, i ako je uključeno omogućava da se bira gustina, odnostno da li da se prikazuju i male (Minor gridlines) i veće (Major gridlines). Kartica Legend podešava legendu. Ukoliko je onačeno polje Show Legend tada se u poljima ispod bira pozicija legende (Bottom, Corner, Top, Left, Right). 26

Kartica Data Labels omogućava da uključi prikazivanje vrednosti na samom grafiku. Kartica Data Table omogućava prikazivanje dodatne tabele sa poacima koji se nalaze na grafiku, ako je označeno polje Show Table. Nakon podešavanja svi ovih opcija da bi se prešlo na poslednji prozor za unos grafika treba kliknuti na Next.

Poslednji prozor nudi samo dve mogućnosti. Jedna je da se ovako napravljeni grafik ubaci kao objekat u određeni radni list ili da se grafikon ubaci u novi radni list. Na svaki od prethodnih prozora može se vraćati na klikom na dugme Back. Ako je sve podešeno treba kliknuti na Finish i grafikon je na radnom listu.

Grafik se može pomerati tako što se kursor dovede na deo ekrana koji on zauzima i pritisne se levi taster miša, ne puštajući ga vuče se miš i grafik do mesta na kome treba da stoji. Crni kvadrati na krajevima grafika služe za menjanje veličine grafika. Ako je u nekom od koraka za izradu grafika došlo do greške ili jednostavno treba promeniti neku stavku, tada se koristi padajući meni Chart. Opcija Chart Type vraća na izbor tipa grafika, Chart Options na prozor sa opcijama grafika itd. 284 283 282 281 280 279 Series1 278 277 276 275 274 273 0

2

4

6

8

10

12

27

2. Funkcije raspodele u Excelu

28

2.1. Binomna raspodela Ova diskretna raspodela ima veliku primenu u kontroli kvaliteta proizvoda Posmatrajmo niz nezavisnih eksperimenata (u literaturi poznat kao Bernulijeva šema) tj. za svaki od njih važi da je njegov ishod nezavisan od ishoda ostalih opita. Neka je za svaki od eksperimenata vezan događaj A i neka je verovatnoća njegovog nastupanja jednaka p, P(A) = p. Binomni zakon daje verovatnoću da će se u n eksperimenata ili proba posmatrani događaj A dogoditi x puta. Dakle, broj nastupanja događaja A u n proba je slučajna veličina X, koja ima binomnu raspodelu verovatnoće. Možemo sada da izvedemo binomni zakon. Tražimo verovatnoću, b(x,n,p) da u n opita posmatrani događaj A nastupi x puta. Verovatnoća svakog od događaja u kome je A u n proba nastupio x puta je: p x qn - x a ukupan broj takvih, međusobno isključivih događaja jednak je broju kombinacija klase x od n elemenata. Tako je,

 n b( x, n, p) =   p x q n − x ,  x  

x = 0,1,2,..., n

(2.37)

U Excel-u se za ovu vrstu raspodele koristi funkcija BINOMDIST. Rezultat funkcije verovatnoća binomne raspodele da će slučajna promenljiva X imati zadatu vrednost. Sintaksa

je

BINOMDIST(number_s, trials, probability_s, cumulative)

Number_s – broj nastupanja nekog događaja u n proba (slučajna promenljiva X) Trial_s – broj nezavisnih proba, n Probability_s – verovatnoća nastupanja događaja u svakoj probi

29

Cumulative – logička vrednost koja određuje oblik funkcije, ako je Cumulative=TRUE, BINOMDIST daje kumulativnu raspodelu funkcije, ukoliko je Cumulative= FALSE, rezultat je verovatnoća da će događaj nastupiti X puta. Primer 2.1. Neka mašina proizvodi 1000 komponenata/h i svakih 30 minuta je uzimano po 10 uzoraka radi kontrole, tokom dužeg perioda. Tako je konstatovano da je procenat škarta 20%. Kolika je verovatnoća da u slučajnom uzorku od 6 komponenata a) bude 4 defektna b) ne bude više od 3 defektna c) ne bude nijedan defektan

Rešenje Prepoznaje se binomni model. Događaj A je dobijanje defektne komponente, a njegova verovatnoća, dobijena empirijski, je

p=

20 4 = 1 / 5, q = 1 − p = 100 5

Broj opita, n = 6. Dati su tabela i poligon raspodele.

Tabela se dobija tako što se u red 1 unose podaci za xi, dok se pi izračunava pomoću funkcije BINOMDIST. Dakle, ukoliko je tabela napisana na isti način kao na slici, klikne se na ćeliju J2, a zatim se iz padajućeg menija Insert, odabere opcija Function, kada se otvori novi prozor funkcija BINOMDIST se traži u statističkim funkcijama (Statistical), odabere se BINOMDIST i otvara se novi prozor (kao na slici)

30

Unose se odgovarajući argumenti: Number_s - unosi se vrednost iz ćelije J1, odnosno samo se klikne na ćeliju J1. Trials - upisuje se 6, jer je to broj proizvoda u slučajnom uzorku. Probability_s - upisuje se 0.2, verovatnoća od 20%. Cumulative - upisuje se logička vrednost FALSE, jer je potrebna vrednost za samo jedan događaj, a ne zbir događaja. Potvrđuje se sa OK, i kao rezultat dobija se vrednost za binomnu raspodelu, da bi se popunio ostatak tabele, funkcija se kopira na prethodno objašnjen način. Zatim se na osnovu tabele nacrta grafik. a) Ovde treba izračunati verovatnoću da su u slučajnom uzorku od 6 proizvoda 4 budu defektna. Problem se rešava korišćenjem funkcije BINOMDIST, kao kod popunjavanja tabele.

b) U pitanju je zbir događaja, jer se traži da ne budu više od 3 defektna proizvoda, problem se takođe rešava korišćenjem funkcije BINOMDIST, ali sa nešto drugačijim argumentima.

31

Number_s - upisuje se 3 Trials - upise se 6 Probabilitiy_s – upisuje se 0.2 Cumulative – upisuje se TRUE jer se radi o zbiru događaja, a ne o pojedinačnom događaju. c) Ovde se traži da nijedan od proizvoda ne bude defektan, znači da je x = 0 pa imamo

Primer 2.2. Detaljnom proverom kvaliteta ampula punjenih tečnošću utvrđeno je da je na 100 ampula 75 ispravnih. a) Odrediti zakon raspodele verovatnoće slučajne promenljive: broj ispravnih ampula u slučajnom uzorku od 6 ampula b) Odrediti očekivanu vrednost i disperziju slučajne promenljive. c) Koji broj ispravnih ampula u uzorku od 6 komada je nejverovatniji?

32

Rešenje

3 a) U pitanju je binomni zakon: b( x,6, ) , 4 x 3  6  3  1 p ( x) = b( x,6, ) =    ⋅ 6 − x , x = 0,1,2,...,6 4  x  4  4 Slede tabelarni i grafički prikaz zakona raspodele:

Tabela se formira na isti način kao i u 1. zadatku, a nakon toga se na poznati način crta grafik. b) µx = np = 4.5, D(X) = npq = 1.125 se izračunavaju upisivanjem formula.

c) Najverovatniji broj ampula u uzorku je 5.

33

2.2. Poasonova raspodela Poasonov (Poisson) zakon raspodele se može dobiti kao granični slučaj binomnog modela, kada obim uzorka n teži beskonačnosti uz uslov da pri tom proizvod obima uzorka i verovatnoće posmatranog događaja, µ = np ostane ograničen. Tako se Poasonov model koristi za opisivanje verovatnoće retkih (p je malo), međusobno nezavisnih (uslov za binomni zakon) događaja kao što su: • radioaktivni raspad nekih izotopa, tj. emitovanje radioaktivnih čestica • incidenti u dobro regulisanom saobraćaju • smetnje u telefonskom saobraćaju i prenosu podataka • greške u računarskim sistemima Slučajna promenljiva je broj realizacija retkog događaja u vremenskom intervalu date dužine.Dakle, slučajna promenljiva X ima Poasonovu raspodelu ako je

µ x −µ p ( x) = e , x = 0,1,2,... x! gde je µ neki pozitivan broj.

Srednja vrednost i disperzija Očekivana vrednost i disperzija za Poasonovu raspodelu mogu se dobiti kao granične vrednosti tih parametara za binomnu raspodelu, kada n → ∞, p → 0, (µ = const):

µ x = np = µ , σ 2x = lim np (1 − p ) = np = µ n →∞ p →0 np = const

Dakle, srednja vrednost i disperzija slučajne promenljive X raspodeljene po Poasonovom zakonu su:

µ x = σ 2x = µ

Aproksimacija binomne raspodele Poasonovom Računanje verovatnoća je znatno obimnije kod binomne nego kod Poasonove raspodele. Za dovoljno veliko n i malo p binomna raspodela se može aproksimirati Poasonovom. Praktični kriterijum za primenljivost takve aproksimacije je [Chatfield C., 1983.]: n > 20, µ = np < 5

Poasonova raspodel u Excelu može se dobiti korišćenjem funkcija POISSON.

34

Sintaksa : POISSON (X, Mean, Cumulative) X – broj događaja Mean – očekivana vrednost Cumulative - logička vrednost koja definiše funkciju raspodele verovatnoće. Ako je taj argument TRUE, rezultat funkcije je kumulativna Poasonova funkcija raspodele verovatnoća da će broj slučajnih događaja biti između 0 i X (uključujući i te vrednosti); ako je FALSE, rezultat je Poasonova funkcija verovatnoće da će broj događaja biti tačno X. Zadatak 2.3. Procenat škarta pri proizvodnji komponenata u nekoj fabrici je 2%. Odrediti verovatnoću da je u uzorku od 60 komponenata defektno: a) 3 komada b) ne više od 3 c) bar dva Rešenje U pitanju je binomni zakon. Pošto je n = 60 > 20 i µ = np = 60⋅0.02 = 1.2 < 5 ispunjen je uslov n > 20, µ = np < 5 i rešavanje problema se može znatno uprostiti zamenjujući binomni zakon Poasonovim ( iako to u Excelu ne predstavlja problem). a) Dakle, pošto je ustanovljeno da ja aproskimacija Poasonovom raspodelom moguća, verovatnoća da je u uzorku od 60 komponenata defektno 3 komada, izračunava se na sledeći način.

35

( 2.42 )

P( X = 3) =

(µ)3 − µ (1.2)3 −1.2 e = e ≈ 0.0867 3! 3!

Ukoliko su podaci unešeni na isti način kao na slici, klikne se na ćeliju B11, zatim se iz padajućeg menija Insert odabere opcija Function, i nakon toga iz statističkih funkcija odabere POISSON,

kada se potvrdi sa OK otvara se sledeći prozor

36

Ovde se unose odgovarajući argumenti, za X se upisuje 3, za Mean se klikne na ćeliju B8 jer je u toj ćeliji izračunata očekivana vrednost, i u polje Cumulative se upisuje FALSE jer se traži vrednost verovatnoće Poasonove raspodele za X=3. b) Kako je ovde potrebno odrediti verovatnoću da su ne više od 3 komada defektna, problem se rešava slično kao pod a), osim što se u polje Cumulative upisuje TRUE, pa se kao rezultat dobija kumulativna Poasonova funkcija.

P( X ≤ 3) = p(0) + p(1) + p(2) + p (3) = (1 + µ +

µ 2 µ3 − µ + )e ≈ 0.9662 2 6

c) Kada je potrebno odrediti verovatnoću da su bar 2 komada defektna, što ustvari znači 2 i više, izračunava se Poasonova kumulativna funkcija za vrednost 1 (uključuje vrednosti verovatnoće za 0 i 1) i onda oduzme od 1.

[

]

P( X ≥ 2 ) = 1 − P( X < 2) = 1 − [ p(0) + p (1)] = 1 − e − µ + µe − µ ≈ 0.3374

37

Zadatak 2.4. Automat daje 4% defektnih proizvoda. Proizvodi se pakuju u kutije po 10 komada. U kom procentu kutija će se naći najviše jedan defektan proizvod.? Rešenje Traženu relativnu frekvencu ω se, u skladu sa statističkom definicijom verovatnoće (ω ≈ p), nalazi kao verovatnoća da se u slučajnom uzorku od 10 komada nađe najviše jedan defektan proizvod. U pitanju je slučajna promenljiva sa binomnom raspodelom b(x, 10, 0.04), pa je: ω = P(X ≤1) = p(0) + p(1) = b(0, n, p) + b(1, n, p)

ω = q10 + 10 ⋅ p ⋅ q 9 = 0.9610 + 10 ⋅ 0.04 ⋅ 0.969 = 0.9418 = 94.2% Odnosno, u Excelu se ovaj problem rešava funkcijom BINOMDIST.

Problem se može približno rešiti aproksimacijom binomnog zakona Poasonovim, mada prvi od uslova n > 20, µ = np < 5 nije ispunjen:

ω = p(0) + p(1) = [1 + µ]e − µ = [1 + 0.4]e −0.4 = 0.9384 = 93.8%

Sada se koristi funkcija POISSON

Dobija se pak dobra procena, koja se od tačne vrednosti razlikuje manje od 1%.

38

2.3. Normalna raspodela Ovo je najvažnija raspodela za primene u statističkoj obradi eksperimentalnih podataka u društvenim, prirodnim i tehničkim naukama. Za neprekidnu slučajnu promenljivu X kažemo da ima normalnu ili Gausovu raspodelu sa parametrima µ i σ, što se kratko označava sa X : N(µ,σ) ako je njena gustina: 1  x −µ   σ 

−  1 f ( x) = e 2 σ 2π

2

,

µ, σ > 0

U Excel-u se za normalnu raspodelu koristi funkcija NORMDIST.

Sintaksa: NORMDIST (x, mean, standard_dev, cumulative) x – vrednost za koju se izračunava funkcija Mean – aritmetička sredina raspodele Standard_dev – standardna devijacija raspodele Cumulative – logička vrednost koja definiše vrstu funkcije, TRUE – kumulativna vrednost raspodele, FALSE – funkcija gustine verovatnoće. Pored funkcije NORMDIST, postoji i inverzna funkcija NORMINV. Rezultat ove funkcije je vrednost promenljiveza koju normalna kumulativna funkcija raspodele ima datu verovatnoću.

39

Sintaksa : NORMINV (probability, mean, standard_dev) Probability – verovatnoća za koju se izračunava vrednost promenljive. Mean – aritmetička sredina raspodele Standard_dev – standardna devijacija raspodele

Standardizovana normalna raspodela Ako je X slučajna promenljiva sa normalnom raspodelom N(µ,σ2), slučajna promenljiva, dobijena linearnom transformacijom,

Y = aX + b, a ≠ 0 ima takođe normalnu raspodelu. Dakle, standardizovana normalno raspodeljena slučajna promenljiva,

X0 =

X −µ σ

koja ima nultu srednju vrednost i jediničnu disperziju, µ x0 = 0, σ x0 = 1 , ima takođe normalnu raspodelu, koja se zove standardizovana normalna raspodela, N(0,1) sa gustinom: x2

1 −2 f 0 ( x) = e 2π i funkcijom raspodele,

1 F0 ( x) = P( X 0 < x) = 2π

x

∫e

−

t2 2

dt

−∞

40

Za određivanje standardne normalne kumulativne funkcije raspodele koristi se funkcija NORMSDIST.

Sintaksa: NORMSDIST(z) Z – vrednost za koju se izračunava funkcija. Takođe postoji i inverzna funkcija NORMSINV.

Sintaksa: NORMSINV(probability) Probability – verovatnoća za koju se izračunava vrednost promenljive Zadatak 2.5. Odstupanje, ∆ debljine proizvedene glazirane keramičke pločice, δ od nominalne vrednosti µ, ∆ = δ - µ se može aproksimirati slučajnom veličinom sa normalnom raspodelom, ∆ : N(0, 0.3). Odrediti:

41

a) Očekivani škart u 1000 proizvedenih komada, ako se kao ispravne prihvataju pločice čija debljina odstupa od nominalne najviše 0.5 mm. b) Očekivani broj pločica u 1000 komada čije su debljine: δ ≤ µ - 0.2 ili δ ≥ µ + 0.5 c) Očekivani broj pločica u 1000 komada čije su debljine u intervalu: µ - 0.3 ≤ δ ≤ µ + 0.4

Rešenje

a) Verovatnoća da odstupanje ∆ bude veće od 0.5 dobiće se preko verovatnoće suprotnog događaja. Tj. verovatnoće da odstupanje bude manje od 0.5, međutim, treba uzeti u obzir da je 0.5 apsolutna vrednost, i da se mora izračunati verovatnoća za x ≤0.5 i x ≤ - 0.5, a zatim oduzeti manju od veće verovatnoće.

Koristi se funkcija NORMDIST.

Do funkcije se dolazi na isti način kao i u prethodnim primerima . U polje x upisuje se -0.5, ili ukoliko su podaci uneseni na ista mesta kao na slici klikne se na ćeliju A12, u polje Mean upisuje

42

se 0, u polje Standard_dev 0.3, a u polje Cumulative upisuje se logička vrednost TRUE. Potvrđuje se sa OK. Dalje se klikne na ćeliju u koju se izračunava druga funkcija ( u konkretnom primeru to je ćelija B13) i postupak se ponavlja, samo što se umesto vrednosti -0.5 u polje x upisuje vrednost 0.5 (ili se klikne na ćeliju A13). Pošto su izračunate ove dve vrednosti, njihovu razliku izračunatu na već poznat način treba oduzeti od 1.

Ako postoji verovatnoća događaja - pojava defektne pločice, p = 0.096, onda je u skladu sa binomnim zakonom (ili u skladu sa statističkom definicijom verovatnoće) očekivani broj defektnih pločica m, u slučajnom uzorku od 1000 komada jednak: m = pn = 1000⋅0.096 = 96 b)

P (δ ≤ µ − 0.2 ∨ δ ≥ µ + 0.5) = P(δ ≤ µ − 0.2) + P (δ ≥ µ + 0.5)

Ovde se prvo izračunava kumultaivna funkcija normalne raspodele za vrednost -0.2, a zatim za 0.5,

pa se dobijena vrednost za 0.5 oduzima od 1.

43

Sabiranjem vrednosti u ćelijama B22 i C 23 dobija se tražena verovatnoća, koja se dalje množi sa 1000 i dobija se broj pločica čije su debljine δ ≤ µ - 0.2 ili δ ≥ µ + 0.5

c) P ( µ − 0.3 ≤ δ ≤ µ + 0.4) Slično se rešava i ovaj problem, računaju se kumulativne funkcije normalne raspodele za vrednosti -0.3 i 0.4

Verovatnoća za vrednost -0.3 se oduzima od one za 0.4, i dobijeni rezultat se množi sa 1000.

Zadatak 2.6. Vek trajanja elektronske lampe, h u časovima ima normalnu raspodelu N(100,5) a) Naći verovatnoću da nova elektronska lampa istog tipa traje najmanje 105 časova. b) Ako je jedna elektronska lampa već izdržala 90 časova, kolika je verovatnoća da će izdržati još 15? Rešenje a) Tražena verovatnoća se izračunava iz verovatnoće suprotnog događaja, koristi se funkcija NORMDIST, na već opisan način.

44

b) Traži se uslovna verovatnoća: verovatnoća da će nastupiti događaj, X > 105 pošto je nastupio događaj, X > 90 i računa se pomoću formule :

P ( X > 105 / X > 90) =

P[( X > 105)( X > 90)] P( X > 105) = P( X > 90) P ( X > 90)

Dakle, pomoću funkcije NORMDIST dobija se verovatnoća za 90h, a zatim se podeli sa verovatnoćom za 105h. Kao što se moglo očekivati, dobijena je nešto veća verovatnoća nego u a) Zadaci za vežbu 2.1.Događaj A nastupa u nekom eksperimentu sa verovatnoćom p = 0.3. Neka je X broj nastupanja događaja A u nizu od 5 opita. a) Kako glasi zakon verovatnoće za X, b) Izračunati P(X ≤ 3), c) izračunati srednju vrednost i disperziju. 2.2 Odrediti, a) Verovatnoću da se u 8 bacanja kocke šestica pojavi 3 puta b) Očekivani broj šestica u 180 bacanja kocke? 2.3 Verovatnoća pogotka cilja u jednom gađanju je p = 0.2. Koliko gađanja treba izvesti da bi sa verovatnoćom ne manjom od 0.9 cilj bio pogođen bar jednom? Događaj A nastupa u nekom eksperimentu sa verovatnoćom p = 0.3. Neka je X broj nastupanja događaja A u nizu od 5 opita. a) Kako glasi zakon verovatnoće za X, b) Izračunati P(X ≤ 3), c) izračunati srednju vrednost i disperziju.

45

2.4 Odrediti, a) Verovatnoću da se u 8 bacanja kocke šestica pojavi 3 puta b) Očekivani broj šestica u 180 bacanja kocke? 2.5 Verovatnoća pogotka cilja u jednom gađanju je p = 0.2. Koliko gađanja treba izvesti da bi sa verovatnoćom ne manjom od 0.9 cilj bio pogođen bar jednom? 2.6 Automat daje 4% defektnih proizvoda. Proizvodi se pakuju u kutije po 50 komada. a) U koliko će se posto kutija nalaziti najviše jedan defektan komad? b) Postiže li se Poasonovom raspodelom zadovoljavajuća aproksimacija, ako se dozvoljava maksimalna greška rezultata od 1.5%? 2.7. Jedna velika serija sadrži 4% defektnih proizvoda. Proizvodi se bez prethodne kontrole i izdvajanja loših pakuju u kutije od 50 komada. a) Koliko će defektnih proizvoda sadržavati najveći broj kutija? b) Koliki je procenat takvih kutija? 2.8 Slučajne greške merenja imaju normalnu raspodelu sa µ = 0, σ = 8mm. Naći verovatnoću da od tri greške međusobno nezavisnih merenja a) bar jedna ne bude veća od 4mm, b) bar jedna, po apsolutnoj vrednosti, ne bude veća od 4mm. 2.9

Slučajna

promenljiva

i P ( X > 9 / X > 5)

ima

normalnu

raspodelu

N(3,4).

Izračunati

P( X > 9)

2.10 Neki proizvođač deterdženta ima mašinu za pakovanje po 500g deterdženta u jednu kutiju. Dužom kontrolom proizvoda utvrđeno je da je srednja masa deterženta u kutiji 506g, sa standardnim odstupanjem 12g. Uz pretpostavku da mase deterdženta u kutijama imaju normalnu raspodelu, a) izračunati procenat kutija koje sadrže više od propisane količine deterdženta., b) izračunati onu srednju vrednost i standardno odstupanje raspodele masa deterdženta, koji bi prepolovili procenat prepunjenih kutija i u isto vreme obezbedili da najviše 1% kutija sadrži manje od 497g. c) kolika bi se prosečna ušteda u deterdžentu (%) postigla? 2.11. Otpor električnih otpornika ima normalnu raspodelu N(5Ω, 0.2Ω). Slučajnim izborom uzmemo dva takva otpornika i vežemo ih na red. Kolika je verovatnoća da taj spoj ima otpor između 9.5 i 10.5Ω ?

46

3. Empirijska raspodela u Excelu

47

3.1. Osnovni pojmovi Statistika, kao naučna disciplina, izučava masovne pojave u društvu, prirodi i tehnici. Za masovne pojave je karakteristično da pojedinačni slučajevi manje ili više odstupaju od onog što se može smatrati njenom karakteristikom. Na primer, prosečni životni vek stanovništva neke države predstavlja važnu karakteristiku od koje, manje ili više, odstupaju dužine života pojedinih građana. Drugi primer su rezultati merenja neke fizičke veličine, koja sama, za razliku od životnog veka, nije slučajna veličina (na primer gustina gasa na datoj temperaturi i pritisku). Rezultati ponovljenih merenja se međutim razlikuju među sobom, kao i od tražene tačne vrednosti merene veličine, zbog slučajne greške merenja. Statističko obeležje i populacija Ono što se u teoriji verovatnoće naziva slučajna promenljiva, statističari nazivaju statističko obeležje. Tako je životni vek građanina neke države primer statističkog obeležja. Statističko obeležje je vezano za jasno definisan elemenat (entitet) koga nazivamo statistička jedinica. U poslednjem primeru to je osoba - građanin neke države. Skup svih elemenata - statističkih jedinica naziva se populacija ili generalni skup ili osnovni skup. Osnovni skup po pravilu ima veliki broj elemenata - statističkih jedinica (masovnost) koji može biti i beskonačan. Na primer, u posmatranom primeru, populaciju čine svi stanovnici jedne države. U slučaju bacanja dve kocke za igru, statistička jedinica je definisana kao svaka od mogućih položaja dve bačene kocke, statističko obeležje je posmatrani rezultat (recimo suma dobijena dva broja), a osnovni skup je beskonačan jer se može zamisliti beskonačan broj bacanja kocke. Slično, pri kontroli neke procesne veličine (pritisak, temperatura, koncentracija, itd.) može se zamisliti beskonačan broj merenja. U slučaju kontrole kvaliteta proizvoda, svaki test je statistička jedinica. Ako kontrolišemo, recimo, debljine proizvedenih keramičkih pločica, onda je populacija ograničena - broj elemenata jednak je broju proizvedenih pločica u nekom periodu vremena. U slučaju pak praćenja sadržaja sumpora u proizvedenoj gumi, populacija se smatra beskonačnom, odnosno neophodna je izvesna apstrakcija koja kao rezultat ima hipotetičnu beskonačnu populaciju. Zamišljamo naime, beskonačno velik komad gume i beskonačan niz analiza pod istim uslovima. Statistički uzorak Osnovni zadatak statistike je definisanje raspodele frekvenci posmatranog obeležja, tj. raspodele verovatnoće. Pri tome je retko moguće izmeriti obeležja svih statističkih jedinica osnovnog skupa. To je svakako nemoguće u slučaju beskonačnog osnovnog skupa, ali i u slučaju konačnih populacija, to retko dolazi u obzir jer je ili neekonomično ili praktično neizvodljivo. Primeri su demografska ispitivanja i testova kvaliteta proizvoda, koji su destruktivni (proizvod u toku testa biva oštećen). Zato se iz populacije izdvaja jedan konačan podskup statističkih jedinica koji se naziva (statistički) uzorak. Uzorak se ispituje radi donošenja zaključaka o raspodeli slučajne promenljive - obeležja u osnovnom skupu, koja se naziva i teorijska raspodela. Umesto izraza: uzorak iz osnovnog skupa sa pretpostavljenom raspodelom (recimo normalnom) često se koristi kraći termin: uzorak iz pretpostavljene raspodele (npr. normalne).

48

Jasno je da se ne može očekivati potpuno tačno opisivanje ili reprezentacija populacije na osnovu analize uzorka. Jedno od najvećih ograničenja pri tome je svakako obim uzorka pod kojim se podrazumeva broj elemenata populacije izdvojenih u uzorak. Međutim, veličina uzorka nije jedini faktor koji ograničava tačnost zaključaka - čak i veliki uzorak može da dovede do pogrešnog modela. Teorija uzoraka kao deo statistike, bavi se problemom izbora takvog uzorka koji će obezbediti dovoljnu pouzdanost zaključaka o populaciji. Takav uzorak, čija se struktura u odnosu na posmatrano obeležje ne razlikuje značajno od strukture osnovnog skupa, naziva se reprezentativan uzorak. Da bi uzorak bio reprezentativan, mora biti tako formiran da svaki element populacije ima jednaku šansu da, nezavisno od ostalih, uđe u uzorak. Za takav uzorak kažemo da je slučajan uzorak. Formiranje slučajnog uzorka iz ograničene populacije (recimo stanovništvo), vrši se uz pomoć tablice slučajnih brojeva koji se mogu naći u priručnicima iz statistike, ili se mogu kompjuterski generisati pomoću odgovarajuće funkcije. Tablica slučajnih brojeva formira se iz dugačkog niza cifara, 0 - 9, koji se “iseče” na brojeve sa istim odabranim brojem cifara (tablice iz literature najčešće sadrže četvorocifrene brojeve). Svaka od cifara 0 - 9 se u polaznom nizu brojeva približno pojavljuje jednak broj puta (dakle, sa relativnom frekvencom 0.1). Najjednostavniji postupak za formiranje slučajnog uzorka je sledeći. Svi elementi populacije se numerišu. Ako recimo osnovni skup ima manje od 100 elemenata, potreban je niz slučajnih dvocifrenih brojeva (ili se svaki četvorocifren broj iz tablice interpretira kao dva dvocifrena). Počev od nasumce odabranog broja u tablici, uzimaju se redom slučajni dvocifreni brojevi i u uzorak uključuju elementi označeni tim brojevima. Ako takav element ne postoji, taj broj iz tablice jednostavno ispuštamo i nastavljamo postupak.

Statistička analiza Zadatak statističke analize je, kao što smo već naveli, da na osnovu informacija iz uzorka izvede neke zaključke o osnovnom skupu. U postupku statističke analize mogu se izdvojiti sledeće faze: • statističko posmatranje • sređivanje podataka • obrada i naučna analiza rezultata Statističko posmatranje se sastoji u planskom prikupljanju podataka o statističkim jedinicama putem anketa, posmatranja, merenja itd. Tako na primer, iz slučajnog uzorka obima n dobijamo niz od n vrednosti (xi, i = 1,...,n) Sređivanje podataka se sastoji u njihovom tabelarnom i grafičkom prikazivanju, da bi smo dobili neku predstavu o raspodeli posmatrane slučajne veličine. Prvi korak pri tom je uređivanje po veličini dobijenog niza od n brojeva, a rezultat je uređen niz koji se u statistici zove varijacioni niz:

x1 , x2 ,

, xn

Obrada i analiza rezultata obuhvata matematičku obradu sređenih podataka i njihovu interpretaciju.

49

3.2 Empirijska raspodela Polazeći od varijacionog niza x1 , x2 ,

, xn za svaku od vrednosti u nizu može se odrediti

(apsolutna) frekvenca pojavljivanja, mi. Dobijeni rezultat je empirijska raspodela frekvenci, koja predstavlja niz parova:

(x , m ), (x , m ), , (x , m ), * 1

* 2

1

* k

2

k≤n

k

za koji se takođe kaže da predstavlja grupisane podatke. Primetimo da je:

x1∗ = x1 , xk∗ = xn ,

k

∑m i =1

i

=n

Ako se za grupisane podatke izračunaju relativne frekvence ωi = mi/n, dobija se empirijska raspodela relativnih frekvenci u obliku niza parova:

( x1* , ω1 ),( x2* , ω2 ),…, ( xk* , ωk ), k ≤ n Jasno je da pri tome važi, k

∑ mi = n , i =1

k

∑ω i =1

i

=1

Ako su u pitanju vrednosti neke diskretne slučajne promenljive X, tada empirijska raspodela relativnih frekvenci predstavlja aproksimaciju zakona raspodele verovatnoće slučajne promenljive X tj. teorijske raspodele i može se prikazati tabelarno, u vidu trakastog dijagrama ili poligona raspodele Što se tiče rešavanja problema vezanih za empirijsku raspodelu, oni će se u Excelu svesti na formiranje odgovarajućih tabela i crtanje dijagrama.. Primer 3.1. U grupi od 25 studenata II godine studija su anketiranjem dobijeni podaci o starosti u godinama: 22, 21, 20, 23, 22, 24, 25, 21, 22, 23, 21, 22, 21, 23, 22, 22, 21, 25, 21, 26, 23, 21, 22, 21, 21 Treba formirati empirijsku raspodelu starosti studenata u apsolutnim i relativnim iznosima. Rešenje Prvo treba formirati varijacioni niz na sledeći način: U kolonu C se upisuju se podaci o starosti u godinama, oni se mogu prepisati redom iz zadataka, nakon toga sortirati. Sortiranje podatak u tabeli se vrši tako što se obeleže podaci i klikne na ikonicu Sort Ascending

50

i kao rezultat dobija se kolona C koja izgleda kao na slici (desno). Nakon toga korišćenjem funkcije COUNT prebrojavaju se podaci. Funkcija se dobija iz padajućeg menija Insert, opcije Function, i iz statističkih funkcija odabere COUNT.

Argumente funkcije predstavljaju članovi varijacionog niza. U sledećem koraku formira se nova tabela, ona sadrži grupisane podatke o broju godina.

Vrednosti za m se dobijaju opet korišćenjem funkcije COUNT, i to prebrojavanjem podataka za određenu vrednost x*, na primer :

I na kraju se izračunavaju vrednosti ω, i to kao odnos m i n, za odgovarajuću grupu podataka. Ovde se pri kopiranju formula na ostatak reda mora voditi računa o tome da je n konstanta, i da njen položaj mora biti fiksiran, tj. da se ispred oznake reda i kolone mora staviti znak $.

Pošto je tabela konačno formirana crta se grafik. Iako je crtanje grafika već prethodno objašnjeno, ovde će još jednom biti prikazano na konkretnom primeru. Crtanje se započinje ili odabirom Chart iz padajućeg menija Insert, ili klikom na ikonicu Chart Wizard. Tada se otvara novi prozor, u kome se bira tip grafika (Chart type), i odabere se XY (Scatter).

51

Klikne se na Next, i u sledećem prozoru odabere kartica Series, gde će se obeležiti podaci na osnovu kojih se crta grafik. Na x osi treba da budu vrednosti za x*, a na y osi za m i ω. Serije podataka se dodaju klikom na „dugme“ Add, a zatim se u poljima X values i Y values upisuju odgovarajuće vrednosti.

Klikne se na Next, i u sledećem prozoru urade ostala podešavanja grafika, kao što su oznake za x i y osu, naziv grafika i slično. Nakon toga se ponovo klikne na Next i u sledećem prozoru na Finish, čime se crtanje grafika završava, a dodatna podešavanja se rade na grafiku, kada se desnim tasterom miša klikne na grafik i odabere opcija format.

52

Pošto bi ovde trebalo prikazati zavisnost ω od x* na sekundarnoj osi, desnim tasterom se klikne na seriju ω, Format Data Series, kada se otvori novi prozor klikne se na karticu Axis i odabere opcija Plot Series on – Secondary axis, potvrđuje se sa OK.

Kao rezultat dobija se grafik sa primarnom i sekundarnom osom, tj. poligon raspodele starosti studenata u apsolutnim i relativnim i znosima.

53

Intervalno sređivanje podataka

Ako je obim uzorka veliki i ako niz (4.1) sadrži veliki broj međusobno različitih vrednosti obeležja X, vrši se tzv. intervalno sređivanje podataka. Intervalno sređivanje se inače praktikuje kada su u pitanju podaci o neprekidnoj slučajnoj promenljivoj. Interval [a, b) kome pripadaju sve vrednosti X za uzorak, deli se na k podintervala: [a, u1), [ u 1, u 2), [ u 2, u 3), . . ., [ u k-1, b) koji se nazivaju klase. Obično se uzima da su klase jednake širine. Sredine klasa ćemo označiti sa xi* :

xi* =

ui −1 + ui 2

, i = 1,..., k

Frekvence mi, i = 1,...,k sada predstavljaju broj vrednosti obeležja X koje pripadaju prvoj, drugoj, …, k-toj klasi. Za broj klasa ne postoji striktno pravilo. Preporučuje se da ono bude od 5 – 21, zavisno od obima uzorka [Vukadinovic S., 1990.], a u literaturi se sreću i empirijske formule za izbor k, [Ahnazarova S., Kafarov V., 1985.]. Tabelarni prikaz intervalno sređenih podataka dat je u Tab. 4.1. Poslednje tri kolone daju empirijsku raspodelu apsolutnih i empirijsku raspodelu relativnih frekvenci. Tabela 4.1 Intervalno sređeni podaci klase

sredine klasa

frekvence

relativne frekvence

1

[a, u1)

x1*

m1

ω1

2

[ u 1, u 2)

x2*

m2

ω2

k

[ u k-1, b)

xk*

mk

ωk

n

1

∑

Pored poligona raspodele, kao grafički prikaz intervalno sređenih podataka koristi se histogram empirijske raspodele. To je niz pravougaonika čije su osnove intervali [ui-1, ui), a visine odabrane tako da su im površine jednake relativnim frekvencama. Primer 3.2. Mereno je vreme izvođenja neke radne operacije u sekundama: 24 28 22 26 24 27 26 25 26 23 30 26 29 25 27 24 26 25 24 27 Formirati tabelu intervalno sređenih podataka u 5 klasa i histogram.

54

Rešenje U pitanju je neprekidna slučajna promenljiva. Naravno, podaci iz uzorka su uvek diskretni, ali samo obeležje može biti diskretno ili kontinualno (kao što je ovde slučaj). Najmanji interval u kome leže svi podaci, a njegova širina je deljiva sa 5, je interval [22, 32), pa ćemo usvojiti klase širine, d = (32 - 22)/5 = 2. Kao i u prethodnom primeru formira se varijacioni niz (kolona D na slici),

na osnovu koga se formira nova tabela. Prva kolona nove tabele sadrži nazive klasa, druga sredine klasa, treća frekvence, četvrta relativne frekvence, a peta visinu pravougaonika u histogramu, tj. odnos ω/d.

U prvu kolonu se samo upišu podaci. Da bi se izračunale sredine klasa koristi se funkcija AVERAGE. Ona se kao i ostale funkcija poziva iz menija Insert, opcije Function, a nalazi se u statističim funkcijama. Argument predstavlja skup vrednosti čija se srednja vrednost traži.

55

Treća kolona se popunjava kao i prethodnom primeru pomoću funkcije COUNT, četvrta kao odnos broja m i n, a peta kao odnos ω i d, u ova dva slučaja mora se voditi računa o tome kako se zapisuju n i d, jer se radi o konstantama. Dalje se pomoću Chart Wizard-a crta histogram. U prvom koraku (Chart Type) bira se Column. Dalje se na Series – Add ubacuju podaci na osnovu koji se crta histogram, u polju Values se označavaju vrednosti ω/d, u polju Category (X) axis labels klase, u konkretnom slučaju obeleži se ćelije od E2 do E6.

U trećem koraku izvrše se podešavanja oko naslova, osa i legende, u četvrtom se završava crtanje grafika.

Kao rezultat dobija se sledeći histogram.

56

Empirijska funkcija raspodele Pretpostavimo da smo grupisanjem podataka iz varijacionog niza xi, i =1,...,n (4.1), dobili empirijsku raspodelu frekvenci: ( xi* , mi ), i = 1,..., k pri čemu, u slučaju intervalno sređenih podataka, vrednosti xi* predstavljaju sredine klasa (vidi tabelu 4.2). Neka je x bilo koja vrednost na x-osi. Ukupan broj tačaka xi , koje leže levo od odabrane tačke x, zove se kumulativna frekvenca N(x) i dobija se kao suma:

N ( x) =

∑m

i

x i* < x

Deljenjem kumulativne frekvence za tačku x ukupnim brojem podataka n, dobijamo relativnu kumulativnu frekvencu, Fn* ( x) ,

Fn* ( x) =

N ( x) = ∑ ωi n x i* < x

(*)

Jednačina (*) predstavlja definiciju empirijske funkcije raspodele. Grafik empirijske funkcije raspodele Fn* ( x) , potpuno je analogan grafiku funkcije raspodele F(x) za diskretnu slučajnu promenljivu (Sl. 2.3). Empirijska funkcija raspodele predstavlja aproksimacije funkcije raspodele populacije (teorijska funkcija raspodele) i ukoliko je obim uzorka, n veći, aproksimacija će biti bolja (teorema Glivenka). Primer 3.3 Za uzorak iz primera 3.1 nacrtati grafik empirijske funkcije raspodele. Rešenje Prvo se formira varijacioni niz, kao i u primeru 3.1, odredi broj elemenata pomoću funkcije COUNT, i na osnovu toga formira tabela. Prve tri kolone (x*, m i ω ili w) dobijaju se na već poznat način. Četvrta kolona dobija se pomoću funkcije SUM i to za svaku ćeliju posebno.

57

Poslednja kolona F(x*+0) dobija se kao N(x*+0)/n, kao što se vidi na slici. Opet se mora uzeti u obzir da je n konstanta i na odgovarajući način je obeležiti u formuli. Formula za prvi red u koloni može se kopirati na preostale redove.

Pošto je formirana tabela crta se histogram za F(x*+0) pomoću Chart Wizard-a. 1 0.9 0.8

F(x*+0)

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20

21

22

23

24

25

26

Primer 3.4 U tabeli je dat je uzorak sa grupisanim podacima. Proceniti a) srednju vrednost i disperziju osnovnog skupa. b) standardnu grešku srednje vrednosti uzorka Tabela uz Primer 3.4 Klase 1. 2. 3. 4. 5. 6. 7.

1.45 - 1.95 1.95 - 2.45 2.45 - 2.95 2.95 - 3.45 3.45 - 3.95 3.95 - 4.45 4.45 - 4.95

Sredina klasa x* 1.7 2.2 2.7 3.2 3.7 4.2 4.7

Frekvence m 2 1 4 15 10 5 3

58

Rešenje Prvo se formira nova tabela:

a) Na osnovu tabele pomoću formula prikazanih na slici izračanuavaju se srednja vrednost i disperzija.

b) Na sličan način se po odgovarajućim formulama se izračunava standardna greška

59

4. Intervalne ocene parametara raspodele

60

Interval poverenja Ocene parametra θ, u vidu intervala, zovu se intervalne ocene. Intervalna ocena se zove i interval poverenja ili pouzdanosti. Interval θ1* , θ*2 je interval pouzdanosti ili interval poverenja za parametar θ, sa nivoom pouzdanosti ili poverenja γ, ako sa unapred zadatom verovatnoćom, γ možemo da tvrdimo da sadrži tačnu vrednost parametra, odnosno ako važi:

(

)

P (θ1* < θ < θ*2 ) = γ = 1 − α Jasno je da je:

P (θ ≤ θ1* ∨ θ ≥ θ*2 ) = α pa se verovatnoća α = 1 - γ naziva i rizik, jer predstavlja verovatnoću da tačna vrednost parametra bude izvan procenjenog intervala. Granice intervala pouzdanosti θ1* , θ*2 se nazivaju granice pouzdanosti ili poverenja, a širina intervala θ*2 − θ1* predstavlja meru preciznosti intervalne ocene parametra (što je širina intervala manja, preciznost intervalne ocene je veća). Za interval poverenja kažemo da je simetričan, ako važi:

P (θ < θ1* ) = P (θ > θ*2 ) = α / 2

4.1 Ocena srednje vrednosti normalne raspodele sa poznatom disperzijom Pretpostavimo da je slučajni uzorak obima n uzet iz populacije sa normalnom raspodelom N (µ,σ), čija je disperzija σ2 poznata. Uzoračka srednja vrednost X tada ima raspodelu ,

X : N (µ, σ x ),

σx =

σ n

Odredimo sada, za zadatu verovatnoću, γ granicu apsolutnog odstupanja aritmetičke sredine X od njene srednje vrednosti µ, sa njenim standardnim odstupanjem σ x = σ

n kao jedinicom

mere (koliko standardnih odstupanja σ x , iznosi ta granica?). Odredimo dakle faktor zα, takav da važi:

(

)

P X − µ < zα σ x = γ = 1 − α

(4.1)

ε  i primeniti je na posmatrani problem. σ

gde je γ zadato. Uzećemo jednačinu P ( ∆X < ε) = 2Φ Znači da treba u jednačini,

61

•

apsolutno odstupanje ∆X zameniti sa X − µ ,

•

za granicu odstupanja ε uzeti zα σ x ,

•

σ zameniti sa σ x

Rezultat je:

(

)

P X − µ < zα σ x = 2Φ( zα ) = γ Dakle, traženi faktor zα se dobija kao rešenje jednačine:

Φ ( zα ) =

1− α 2

odnosno predstavlja onu vrednost standardizovane slučajne promenljive sa normalnom

raspodelom za koju Laplasova funkcija dobija vrednost (1 − α ) 2 . Relaciji

X − µ < zα σ x su

ekvivalentne sledeće relacije

µ − zα σ x < X < µ + zα σ x

(4.2a)

X − zα σ x < µ < X + zα σ x

(4.2b)

pa se jedn. (4.1) može interpretirati na dva različita načina: •

Relacija (4.2a) predstavlja događaj da uzoračka srednja vrednost, kao slučajna promenljiva, upadne u interval sa fiksnim granicama (zα, σ x i µ su konstante), koga možemo zvati verovatan interval za uzoračku srednju vrednost, X . Jednačina (4.1), tako definiše granice verovatnog intervala za X , pod uslovom da je poznata srednja vrednost µ

•

Događaj (4.2b) uz zadatu verovatniću γ, po definiciji P (θ1* < θ < θ*2 ) = γ = 1 − α predstavlja interval poverenja za nepoznatu srednju vrednost µ, izračunat iz datog uzorka.

Zaključujemo da, pri poznatoj disperziji osnovnog skupa, interval pouzdanosti sa nivoom pouzdanosti γ = 1 - α, za srednju vrednost osnovnog skupa µ, glasi:

(x − z σ / α

)

n , x + zα σ / n , ili µ = x ± zα σ / n

gde je zα definisano jednačinom Φ ( zα ) =

(4.3)

1− α i zvaćemo ga koeficijent pouzdanosti (J.O.Bird). 2

Ekvivalentna definicija koeficijenta pouzdanosti je (vidi sliku 4.1): ona standardizovane slučajne promenljive sa normalnom raspodelom za koju važi,

P ( X 0 ≥ zα ) = α

vrednost

(4.3a)

Zaista,

62

(6.5 )   X −µ α = P X − µ ≥ zα σ x = P ≥ zα  = P( X 0 ≥ zα )   σx

(

)

f 0 (x ) =

2

1 − x2 e 2π

Slika 6.1. Ilustracija jednačine 4.3a U Tab. 4.1. date su vrednosti koeficijenta pouzdanosti za tri nivoa pouzdanosti γ, koje se najčešće koriste u praksi. Tabela 4.1 - koeficijenti pozdanosti, zα γ

α

zα

0.90 0.95 0.99

0.10 0.05 0.01

1.64 1.96 2.58

Treba zapaziti da su granice intervala poverenja (4.3) slučajne vrednosti ( X je slučajna veličina). Dakle interval poverenja predstavlja jedan slučajan interval, koji sa zadatom verovatnoćom γ obuhvata nepoznatu ali fiksnu vrednost µ. Tako, ako bi postupak uzimanja uzorka i određivanja intervala poverenja ponavljali, svaki put bi dobili drugačiji interval poverenja, ali bi mogli očekivati da će u (γ⋅100) % (recimo 95%) svih slučajeva izračunati interval pouzdanosti obuhvatiti parametar µ. Jasno je sada zašto se za verovatnoću γ kaže da predstavlja nivo pouzdanosti intervalne ocene. Aritmetička sredina četiri izmerene temperature peći optičkim pirometrom je 22500C. Ako je greška merne metode, σ = 100C, a) Naći sa pouzdanošću od 95% interval u kome leži prava vrednost temperature. b) Koliko je ponovljenih merenja temperature neophodno, da bi preciznost procene odstupanja tačne temperature od izmerene (sa datim nivoom pouzdanosti) bila 50C?

Rešenje

a) Za γ = 0.95, iz tablice :

z1−α 2 = z0.975 = 1.96 , pa je, interval poverenja srednje

vrednosti merenih temperatura peći:

63

odnosno, sa pouzdanošću od 95%, prava temperatura peći, t leži u intervalu 2240.2 < t 0.9

vrlo jaka korelacija

Primer 5.1 Primećeno je da je visok sadržaj supstance A u sirovini, obično praćen i visokim sadržajem supstance B. Radi utvrđivanja eventualne linearne korelacije između sadržaja dve komponente izvršeno je merenje sadržaja A i B u 10 slučajnih uzoraka sirovine. Rezultati su dati u prve dve kolone Tabele 5.1. Tabela uz Primer 5.1 x (% A)

y (% B)

x2

y2

xy

67 54 72 64 39 22 58 43 46 34

24 15 23 19 16 11 20 16 17 13

4489 2916 5184 4096 1521 484 3364 1849 2116 1156

576 225 529 361 256 121 400 256 289 169

1608 810 1656 1216 624 242 1160 688 782 442

∑ 499

174

27175

3182

9228

Rešenje Tačke (xi, yi) treba ucrtati u dijagram rasipanja. Očigledan je pozitivan linearan trend: porast sadržaja jedne suspstance, praćen je porastom sadržaja druge. Kao meru jačine linearne veze između sadržaja supstanci A i B, mže se izračunati po jedn. (5.6) uzorački koeficijent korelacije. Pomoćni proračuni su dati u tabeli.

rxy =

10 ⋅ 9228 − 499 ⋅174 10 ⋅ 27115 − 499 2 10 ⋅ 3182 − 174 2

= 0.933

76

30 25

y(%B)

20 15 10 5 0 0

10

20

30

40

50

60

70

80

x(%A)

Dakle uzorački koeficijent se može izračunati po formuli, ali postoji i znatno jednostavniji način za njegovo izračunvanje, gde nisu potrebni pomoćni proračuni. Uzorački koeficijent korelacije može se izračunati i korišćenjem funkcije PEARSON. Funkcija PEARSON nalazi se u statističkim funkcijama, rezultat je Pearson-ov koeficijent korelacije r koji pokazuje linearnu korelaciju dva skupa podataka. Sintaksa: PEARSON(Array1, Array2) Array1 – je skup nezavisnih podataka. Array2 – je skup zavisnih podataka.

77

Prema empirijskom kriterijumu (Tab.5.1), u pitanju je vrlo jaka linearna veza.

5.2 Regresione prave Ako smo na osnovu veličine uzoračkog koeficijenta korelacije rxy, zaključili da posmatrane slučajne promenljive nisu nezavisne, korisno je izračunati koeficijente u pravolinijskim zavisnostima jedne od druge promenljive, koje predstavljaju ocene iz datog uzoraka (5.1), linearnih regresionih funkcija:

µ y / x = µ y + ρ xy µ x / y = µ x + ρ xy

σy

(x − µx )

(3.35b)

σx (y −µy) σy

(3.36b)

σx

Dobijene pravolinijske zavisnosti zvaćemo regresione prave (regression lines) i iz njih možemo da procenimo ili predvidimo (predict) vrednost jedne slučajne promenljive na osnovu vrednosti druge. Regresionu pravu y(x), kao ocenu regresione funkcije (3.35b) ćemo, logično, tražiti u obliku:

y = y + rxy

sy sx

( x − x ) = b0 + b1 x

odakle slede formule za izračunavanje nagiba b1 i odsečka b0:

78

n

b1 = rxy

sy sx

=

s xy s

2 x

=

n

n

n∑ xi yi − (∑ xi )(∑ yi ) i =1

i =1

i =1 2

  n∑ xi2 −  ∑ xi  i =1  i =1  n

n

b0 = y − b1 x

(5.7a)

(5.7b)

Slično, regresionu pravu x(y), dobijamo kao ocenu regresione funkcije (3.36b): x = x + rxy

sx ( y − y ) = c0 + c1 y sy

i formule za nagib c1 i odsečak c0 su: n

c1 = rxy

s x s xy = = s y s y2

n

n

n∑ xi yi − (∑ xi )(∑ yi ) i =1

i =1

i =1 2

  n∑ yi2 −  ∑ yi  i =1  i =1  n

c0 = x − c1 y

n

(5.5a)

(5.8b)

Primer 5.2 Iz podataka datih u prethodnom primeru, potrebno je a) proceniti sadržaj komponente B u sirovini, ako ona sadrži 55% supstance A b) proceniti sadržaj komponente A u sirovini, ako ona sadrži 20% supstance B Rešenje a) Traženu procena dobija se iz regresione prave y(x). Dakle prvo je potrebno izračunati parametre ove prave. Parameti se mogu izračunati korišćenjem statističkih funkcija SLOPE i INTERCEPT.

Za x = 55, računa se y iz regresione prave, odnosno procenu sadržaja supstance B:

79

Rezultat funkcije SLOPE je nagib linearne regresije. Sintaksa: SLOPE(Known_y's, Known_x's) Known_y's - je matrica ili skup ćelija zavisnih numeričkih pojedinačnih podatak. Known_x's – je skup nezavisnih pojedinačnih podataka.

Rezultat funkcije INTERCEPT je tačka preseka linearne regresije sa y osom. Sintaksa: INTERCEPT(Known_y's, Known_x's) Known_y's - je matrica ili skup ćelija zavisnih numeričkih pojedinačnih podatak. Known_x's – je skup nezavisnih pojedinačnih podataka.

b) Procena sadržaja x supstance A za dati sadržaj y supstance B, ne računa se iz prethodno dobijene prave (rešavajući njenu jednačinu po x), već iz prave, koja predstavlja ocenu regresije x po y i čiji su parametri:

80

Za sadržaj komponente B, y = 20, procenjeni sadržaj x druge komponente biće:

x = b0 + a1 y = −11.6 + 3.53 ⋅ 20 = 59% što se veoma dobro slaže sa eksperimentalnom vrednošću (58%). To se moglo očekivati, s obzirom na jaku korelaciju (rxy > 0.9), tj. približavanje linearne stohastičke zavisnosti, funkcionalnoj.

5.3 Provera značajnosti korelacije Ako je dobijena vrednost uzoračkog koeficijenta korelacije (5.6) mala po apsolutnoj vrednosti, postavlja se pitanje da li ona ukazuje na postojanje linearne korelacije između slučajnih promenljivih X i Y , ili je samo rezultat slučajnih varijacija vrednosti statistike Rxy, definisane formulom (5.6), oko nule kao njene srednje vrednosti. Zato proveravamo statističku značajnost izračunatog uzoračkog koeficijenta korelacije ili, drugim rečima hipotezu:

H 0 : ρ xy = 0

(5.9)

Teorijska osnova za formulisanje testa je sledeći stav (teorema): Ako slučajna promenljiva (X,Y) ima dvodimenzionalnu normalnu raspodelu, sa nultom vrednošću koeficijenta korelacije ρxy (X i Y su nezavisne), tada slučajna promenljiva: T=

Rxy n − 2 1 − Rxy

2

(9.9)

gde su: n - obim uzorka (5.1)

81

Rxy - uzorački koeficijent korelacije (5.6) ima t - raspodelu sa d = n - 2 stepena slobode. Odatle slede kriterijumi značajnosti uzoračkog koeficijenta korelacije, odnosno odbacivanja hipoteze (5.9) i dati su u Tab.5.2 Tabela 5.2 - Testiranje hipoteze H0: ρ = 0

Statistika:

Alternativna hipoteza, H1 ρ≠0

T=

ρ>0

Kriterijum odbacivanja hipoteze: t > t n − 2 ,α

Rxy n − 2 1 − Rxy

2

t > t n − 2, 2 α

vrednost za Rxy se računa iz

ρ t n − 2, 2 α

Primer 5.3 Izmerene vrednosti sadržaja kalaja u leguri (x, %) i odgovarajuće izmerene tačke topljenja (y, 0C) date su u prve dve kolone tabele: x, % y, 0C

44.1 513

44.9 512

44.4 511

44.7 510

45.1 513

45.0 514

44.7 521

44.6 514

46.3 526

x, % y, 0C

44.9 525

45.1 522

44.5 521

45.1 513

43.0 537

44.8 513

44.2 519

45.2 512

45.5 514

Proceniti koeficijent korelacije između sadržaja kalaja i tačke topljenja i testirati njegovu značajnost sa α=0.05. Rešenje Pomoću funkcije PEARSON izračunava se koeficijent korelacije r

Testira se hipoteza: H0: ρ = 0 Pošto je poznato da povećanje sadržaja kalaja u leguri po praviliu snižava temperaturu topljenja legure (negativna korelacija) to se, u cilju smanjenja rizika prihvatanja pogrešne nulte hipoteze, bira jednostrani test, tj. alternativna hipoteza: H1: ρ < 0

82

Vrednost T - statistike izračunava se pomoću funkcije TINV, a zatim se po formuli računa kritična vrednost:

t=

r n−2 1− r 2

=

− 0.302 16

1 − 0.302 2

= −1.27, t16, 0.1 = 1.75

Pošto je 1.27 < 1.75, izvodimo zaključak da rezultati merenja ne ukazuju na značajnu korelaciju između sadržaja kalaja i tačke topljenja legure.

5.4 Interpretacija koeficijenata korelacije S obzirom na smisao teoretskog koeficijenta korelacije ρxy, njegovu procenu rxy, ima smisla računati samo kada ima indikacija (teoretska znanja, dijagram rasipanja) da je veza između posmatranih promenljivih linearna ili približno linearna. Ako je veza nelinearna, uzorački koeficijent korelacije r xy nije merilo jačine korelacije i može biti i blizak nuli, uprkos jakoj vezi. Takođe je važno imati u vidu da statistički značajna vrednost koeficijenta korelacije nije dokaz da između posmatranih promenljivih postoji kauzalna (suštinska) veza. Tako, visoka vrednost rxy može biti rezultat delovanja treće promenljive, koja se menja u toku eksperimenata, a koja je prouzrokovala istovremene promene posmatranih promenljivih i privid njihove međuzavisnosti. Instruktivan i duhovit primer daju Boks i sar. [Box G., Hunter W i Hunter S, 1978]. U periodu od 7 godina, na kraju svake godine, je određivan broj stanovnika Oldenburga i broj roda i zapažena je jaka linearna korelacija između te dve veličine. Da li iz toga treba zaključiti da je porast nataliteta prouzrokovan porastom broja roda (rode donose decu?)? U ovom primeru, treća promenljiva, sa kojom su rasle posmatrane dve jeste vreme. U laboratorijskim i pogonskim merenjima, primer "treće" ili "nekontrolisane" promenljive je temperatura, koja deluje na veliki broj fizičko-hemijskih parametara i ako se ne kontroliše (drži konstantnom) u toku praćenja neke dve veličine, može stvoriti privid kauzalne veze izmedju njih. Tako, da bi se utvrdila suštinska povezanost između dve promenljive, neophodno je dobro poznavati njihovu fizičko-hemijsku prirodu s jedne strane, i vrlo pažljivo kontrolisati eksperimente, s druge strane.

83

ZADACI 5.1 Radi provere Njutnovog zakona hlađenja, prema kome temperatura hlađenog medijuma, y približno linearno opada sa vremenom, x izvršena su merenja i dobijeni rezultati: Vreme, min Temper. 0C

4 46

8 34

10 30

12 26

16 24

22 20

Izračunati na tri decimale koeficijent korelacije i na osnovu njegove vrednosti oceniti jačinu korelacije i njen znak. 5.2 Radi provere Hukovog zakona (linearna veza između jačine sile i deformacije) dobijeni su sledeći rezultati merenja: Sila, N Istezanje, mm

2 2

5 23

8 62

11 119

15 223

Izračunati na tri decimale koeficijent korelacije i na osnovu njegove vrednosti oceniti jačinu korelacije i njen znak. 5.3 Dati su eksperimentalni podaci: x: y: a) b) c) d) e)

6 8

5 7

8 7

8 10

7 5

6 8

10 10

4 6

9 8

7 6

Nacrtati dijagram rasipanja i na osnovu njega proceniti jačinu i znak korelacije Izračunati koeficijent korelacije na tri decimale Izračunati koeficijente regresionih pravih y(x) i x(y), sa tačnošću od 3 decimale Izračunati, sa jednom decimalom, y za x = 6 i x za y = 9 Testirati značajnost koeficijenta korelacije sa nivoom značajnosti α = 0.05

5.4 Praćen je prinos (y, %) neke supstance u procesu, na različitim temperaturama (x, 0C): x, 0C y, % x, 0C y, % 1100 8.5 11.6 1175 37.5 40 42.3 1125 19.0 28.2 21.8 1200 50.5 50.0 1150 29.5 30.6 1225 57.2 60.3 62.7 a) Nacrtati dijagram rasipanja i na osnovu njega proceniti jačinu i znak korelacije b) Izračunati koeficijent korelacije (sa tri decimale) i proveriti njegovu značajnost sa nivoom α = 0.01 c) Izračunati odsečak regresione prave y(x) sa jednom decimalom i nagib sa 4 decimale. d) Izračunati prinos na temperaturi 1160 0C

84

6. Regresiona analiza

85

Često, od dve slučajne promenljive, jednu promenljivu (X) smatramo nezavisno-, a drugu (Y) zavisno-promenljivom. Tako je u Primeru 8.3, logično sadržaj kalaja u leguri smatrati nezavisno-, a temperaturu topljenja legure zavisno-promenljivom. Budući da daje srednju vrednost promenljive Y za zadatu vrednost X, najbolja funkcija za predskazivanje vrednosti Y za dato X je regresiona funkcija:

µ y x = ϕ1 ( x) Tako je u mnogim praktičnim problemima u nauci i tehnici od interesa naći približnu regresionu funkciju i predmet regresione analize je formulisanje približnih regresionih funkcija, koje se nazivaju regresione jednačine ili empirijske formule (jednačine), na osnovu uzorka (8.1). Zadatak regresione analize obuhvata: •

Izbor oblika regresione funkcije,

µ y x = ϕ( x, β0 , β1 ,..., β k )

(6.1)

gde su βj, j = 0,1,...,k parametri ili koeficijenti, koji figurišu u funkciji (6.1) i zovu se pravi ili teorijski regresioni koeficijenti. •

Ocenjivanje regresionih koeficijenata βj, j = 0,1,...,k, tj. određivanje njihovih približnih vrednosti: b j, j = 0,1,...,k, tako da regresiona jednačina,

y ( x) = ϕ( x, b0 , b1 ,..., bk )

(6.2)

predstavlja što bolju aproksimaciju regresione funkcije (6.1). Koeficijenti bj se empirijski regresioni koeficijenti ili parametri u empirijskoj formuli. •

zovu

Statističku analizu dobijene jednačine: preciznost predskazivanja, intervali poverenja teorijskih regresionih koeficijenata itd.

Izbor oblika regresione jednačine (empirijske formule)

Iz definicije regresione funkcije, sledi da izbor oblika regresione jednačine (6.1) zahteva poznavanje raspodele verovatnoće dvodimenzionalne slučajne promenljive (X,Y). Tako, ako je ona normalna, izveli smo (Pogl. 3.6) pravolinijsku zavisnost:

µy/x = µy + ρ

σy σx

( x − µ x ) = µ y − β1µ x + β1 x β0

sa teorijskim koeficijentima regresije:

β1 = ρ

σy σx

, β0 = µ y − β1µ x

Regresiona jednačina ili empirijska formula tada glasi:

y ( x) = b0 + b1 x

86

čiji parametri b0 i b1 predstavljaju ocene teorijskih koeficijenata β0 , β1 i intuitivno smo ih izveli u Pogl. 8.2 (Jedn. 8.7a,b). Može se pokazati da te formule daju najverodostojnije ocene teorijskih regresionih koeficijenata, dakle one koje bi dobili primenom metode maksimalne verodostojnosti (Pogl. 4.4). Kako u opštem slučaju, dvodimenzionalna raspodela nije poznata, problem izbora oblika regresione jednačine ili empirijske formule se rešava približno na osnovu: • teoretskih znanja i iskustva u vezi sa uticajem neke fizičke veličine X na drugu fizičku veličinu Y • dijagrama rasipanja eksperimentalnih tačaka ( xi , yi ), i = 1,2,..., n Na primer, poznato je da temperatura ima jak uticaj na brzinu hemijske reakcije. U hemijskoj kinetici se izraz za brzinu r nepovratne hemijske reakcije, najčešće traži u obliku:

 mol  r (c1 , c2 ,..., T ) = k (T ) f (c1 , c2 ,...)  3   s⋅m  gde su c1,c2,..., molske koncentracije reaktanata, a k(T) se zove konstanta brzine hemijske reakcije, mada zavisi od temperature. Tako se pri ispitivanju uticaja temperature na brzinu neke reakcije, meri temperatura T(K) i eksperimentalno određuju odgovarajuće vrednosti konstante brzine hemijske reakcije k. Na osnovu poznavanja osnovnih zakonitosti u hemijskoj kinetici, empirijsku jednačinu k(T) tražimo u obliku poznate Arenijusove (Arrenius) formule:

k (T ) = k0 e − E / RT = b0 e − b1 / T Zbog svoje jednostavnosti i osobine da mogu dobro da aproksimiraju različite funkcije, kao empirijske formule se često koriste polinomi drugog i višeg stepena:

y ( x) = b0 + b1 x + b2 x 2 +

bk x k (k ≥ 2)

(6.3)

Ako odabrana empirijska formula,

y ( x) = f ( x, b0 , b1 ,..., bk )

(6.4)

nema kao osnovu regresionu funkciju (3.31a), već ima čisto empirijski karakter, tada se naravno ne može govoriti o parametrima bj, j = 0,1,...,k kao ocenama teorijskih regresionih koeficijenata.

Statistička analiza regresione jednačine

Ovo je veoma složen problem, jer zahteva poznavanje raspodela empirijskih regresionih koeficijenata, bj, j = 0,1,...,k , kao funkcija uzorka. Tako je on, u opštem slučaju rešiv samo uz pretpostavku da nezavisna promenljiva nije slučajna, već determinisana (kontrolisana) promenljiva. Drugim rečima, eksperimentalne vrednosti xi, i = 1,2,..,n u uzorku (8.1) su unapred odabrane ili fiksirane. Praktično, ovaj uslov će biti zadovoljen ako su slučajne varijacije (greške merenja) u vrednostima slučajne promenljive Y mnogo veće od onih u vrednostima X ( σ 2y >> σ 2x ). Na primer, pri određivanju koeficijenata u Arenijusovoj zavisnosti konstante brzine

87

hem. reakcije od temperature, slučajne greške merenja temperature su daleko manje od slučajnih grešaka pri određivanju konstanti brzine reakcije (posredna merenja).

6.1 Metod najmanjih kvadrata Princip najmanjih kvadrata je formulisao Ležandr (Legendre): najverovatnija vrednost bilo koje veličine, koju određujemo na bazi ponovljenih merenja, je ona za koju je suma kvadrata odstupanja merenja od te vrednosti najmanja. Uzmimo na primer da je radi procenjivanja tačne vrednosti r neke fizičke veličine, izvedeno n ponovljenih merenja, sa rezultatima: xi, i = 1,2,...,n i pretpostavimo da merenja imaju normalnu raspodelu i da ne sadrže sistematske i grube greške. Prema principu najmanjih kvadrata, kao najverovatniju vrednost za r uzimamo onu za koju suma kvadrata odstupanja: n

S (r ) = ∑ (xi − r )

2

i =1

ima minimum. Dobijamo je iz uslova minimuma funkcije S(r): n dS = −2∑ ( xi − r ) = 0 dr i =1

kao:

r=

1 n ∑ xi = x n i =1

Prepoznajemo aritmetičku sredinu, za koju smo u Pogl. 4.5 pokazali, da predstavlja najverodostojniju ocenu srednje vrednosti rezultata merenja kao slučajne veličine, koja je, pod uslovom da merenje ne sadrže sistematske i grube greške, upravo jednaka tačnoj vrednosti merene veličine (Pogl.2.3). Određivanje parametara u empirijskoj formuli Neka raspolažemo eksperimentalnim tačkama (xi,yi), i = 1,2,...,n. Pretpostavimo, za početak, da su svih n vrednosti nezavisno promenljive u uzorku različite tj. da nema ponovljenih merenja zavisno promenljive za jednu vrednost nezavisne. Neka smo odabrali oblik empirijske formule (6.4), pri čemu je neophodno da broj parametara (k+1) u formuli, bude manji od broja eksperimentalnih tačaka: k+1 k + 1)

(6.6)

bude najmanja. Geometrijski interpretirano, biraju se tako vrednosti parametara, da se kriva (6.4) "provlači" što bliže eksperimentalnim tačkama (Sl.6.1), pri čemu je mera odstupanja krive od eksperimentalnih tačaka, suma kvadrata odstupanja (6.6).

Slika 6.1 - Provlačenje krive između eksperimentalnih tačkaka Primetimo da je suma kvadrata odstupanja S, funkcija samo nepoznatih parametara, jer su vrednosti (xi , yi ), i = 1,2,..., n poznate, a računske vrednosti yirac , i = 1,2,..., n su, prema (6.5), funkcije parametara. Problem izračunavanja parametara bj, j = 0,1,...,k se tako svodi na problem određivanja minimuma funkcije više promenljivih (6.6). Oni se dobijaju rešavanjem sistema jednačina, koji predstavljaju potreban uslov minimuma funkcije (6.6) i kojih ima tačno onoliko koliki je broj traženih parametara:

∂S (b0 , b1 ,..., bk ) = 0, j = 0,1,..., k ∂b j

(6.7)

Jednačine (6.7) su u literaturi poznate pod nazivom normalne jednačine. Neka u uzorku, (xi , yi ), i = 1,2,..., n ima ponovljenih merenja zavisno promenljive Y pri jednoj vrednosti za x, što znači da među vrednostima xi, i = 1,2,...,n ima jednakih. Tada, uz uslov da je broj različitih vrednosti nezavisno promenljive m (tj. broj njenih vrednosti u grupisanom uzorku) veći od broja parametara (k+1) u empirijskoj formuli: m > k+1 važe sva prethodna razmatranja.

89

6.2 Srednje kvadratno odstupanje empirijske formule Neka smo metodom najmanjih kvadrata odredili parametre bj, j = 0,1,...,k u odabranoj empirijskoj formuli (6.4):

y ( x) = f ( x, b0 , b1 ,..., bk ) Nekada smo međutim suočeni sa problemom da od više empirijskih jednačina, koje mogu da sadrže različit broj paramatara, odaberemo najbolju, tj. onu koja najbolje opisuje ili "fituje" (od glagola to fit) date eksperimentalne podatke, odnosno najmanje u određenom smislu odstupa od njih. Za rešavanje tog problema, potrebna nam je neka mera odstupanja empirijske formule, čiji su parametri izračunati metodom najmanjih kvadrata, od eksperimentalnih podataka. U skladu sa principom najmanjih kvadrata, kao tražena mera, koristi se srednje kvadratno odstupanje empirijske formule ili regresione jednačine (6.4), definisano kao: n

s2 =

∑ ( yi − yirac ) 2 i =1

n − (k + 1)

n

=

∑(y i =1

i

− f ( xi , b0 , b1 ,..., bk )) 2 n − (k + 1)

(6.8)

Kao što vidimo, suma kvadrata odstupanja eksperimentalnih od računskih vrednosti iz dobijene empirijske formule, deli se razlikom ukupnog broja eksperimentalnih tačaka i ukupnog broja parametara u formuli. Tako se mogu porediti regresione jednačine sa različitim brojem parametara, pri čemu je pri jednakim sumama kvadrata odstupanja za dve formule, bolja ona koja sadrži manji broj parametara. Srednje kvadratno odstupanje (6.8) se u regresionoj analizi koristi za: • poređenje kvaliteta više regresionih jednačina, • analizu adekvatnosti neke regresione jednačine Ako se neka regresiona jednačina oceni kao adekvatna (adekvatno opisuje zavisnost srednje vrednosti slučajne promenljive Y od kontrolisane promenljive x), onda njeno srednje kvadratno odstupanje s2: • daje nepristrasnu ocenu disperzije slučajne promenljive Y • predstavlja meru jačine stohastičke zavisnosti Y od x (ukoliko je s2 veće, veza je slabija)

6.3 Koeficijent determinacije Kao mera jačine linearne stohastičke veze između promenljivih služi koeficijent korelacije (Glava 5). Da bi smo definisali opštu meru jačine veze (linearne ili nelinearne) između slučajne promenljive Y i kontrolisane promenljive x, razmotrićemo značenje dve sume kvadrata odstupanja izračunate iz uzorka (xi, yi) i = 1,2,...,n. Suma: n

SST = ∑ ( yi − y ) 2 i =1

predstavlja meru ukupne varijacije u eksperimentalnim vrednostima, yi. Suma,

90

n

n

i =1

i =1

SSF = ∑ ( yirac − y ) 2 = ∑ ( f ( x, b0 , b1 ,..., bk ) − y ) 2 meri varijacije računskih vrednosti koje daje regresiona jednačina, oko aritmetičke sredine y kao odabrane referentne vrednosti. Može se reći da SSF predstavlja objašnjenu (empirijskom formulom) varijaciju oko y . U slučaju da Y ne zavisi od x, odnosno da je:

µy/x = µy empirijska jednačina, koja daje ocene srednje vrednosti za Y, će kao procene dati

yirac ≈ y , i = 1,2,..., n što kao rezultat ima vrednost SSF blisku nuli, odnosno količnik dve sume blizak nuli:

SSF ≈0 SST Drugi granični slučaj je funkcionalna veza između dve promenjive što znači da ni Y nije slučajna promenljiva. Tada će, pod pretpostavkom da je forma regresione jednačine tačna, ona tačno reprodukovati eksperimentalne tačke :

yirac = yi , i = 1,2,..., n pa će količnik dve sume biti jednak jedinici:

SSF =1 SST Dakle, kao pogodna mera jačine veze između x i Y nameće se količnik dve sume: n

R2 =

∑(y i =1 n

rac i

∑(y i =1

− y)2

, i

− y)

0 ≤ R2 ≤ 1

(6.6)

2

koji se zove koeficijent determinacije. Za koeficijent determinacije važi: 0 ≤ R2 ≤ 1 pa se on može interpretirati kao deo ukupne varijacije koji je objašnjen empirijskom formulom. S obzirom na ovu osobinu, koeficijent determinacije je pogodnija mera jačine veze između Y i x nego srednje kvadratno odstupanje s2 (6.8).

6.4 Određivanje pravolinijske zavisnosti Pretpostavimo da srednja vrednost slučajne promenljive Y linearno zavisi od kontrolisane promenljive x:

µ y x = β0 + β1 x

(6.10)

91

Drugim rečima, zavisno promenljivu Y možemo da prikažemo u obliku zbira njene srednje vrednosti (6.10) i slučajnog odstupanja (greške) E :

Y = βo + β1 x + E,

M (E ) = 0

(6.11)

Iz uzorka (xi , yi ), i = 1,2,..., n procenjujemo vrednosti teorijskih regresionih koeficijenata β0 , β1 , ili drugim rečima, izračunavamo parametre b0, b1 (odsečak prave i njen nagib) u empirijskoj formuli:

y = b0 + b1 x

(6.12)

Metodom najmanjih kvadrata, uzoračke regresione koeficijente b0, b1 dobijamo iz uslova minimuma sume kvadrata odstupanja eksperimentalnih od računskih vrednosti (6.6), koja u slučaju formule (6.12) izgleda: n

S (b0 , b1 ) = ∑ ( yi − yirac ) 2 = i =1

n

∑[ y

i

− (b0 + b1 xi )]2

i =1

Primenjujući pravilo da je prvi izvod sume jednak sumi prvih izvoda, za uslove minimuma dobijamo:

∂S = ∂b0 ∂S = ∂b1

n

∑ 2[ y i =1

n

∑ 2[ y i =1

i

i

− (b0 + b1 xi )](−1) = 0 − (b0 + b1 xi )](− xi ) = 0

odnosno, nakon deljenja jednačina sa (-2) i sređivanja: n

n

i =1

i =1

∑ yi − nb0 − b1 ∑ xi = 0 n

n

n

i =1

i =1

i =1

∑ xi yi − b0 ∑ xi − b1 ∑ xi2 = 0 Konačno, nakon prebacivanja poznatih vrednosti na drugu stranu jednačina, dobijamo sistem od dve linearne jednačine po traženim parametrima: n  n  nb0 +  ∑ xi b1 = ∑ yi i =1  i =1 

(6.13a)

n  n   n   ∑ xi b0 +  ∑ xi2 b1 = ∑ xi yi i =1  i =1   i =1 

(6.13b)

koje predstavljaju normalne jednačine (6.7) za slučaj pravolinijske regresije. Rešenja dobijenog sistema jednačina se mogu prikazati u obliku identičnom formulama (5.7a,b):

92

n

n

n

n∑ xi yi − (∑ xi )(∑ yi )

b1 =

i =1

i =1

i =1 2

  n∑ xi2 −  ∑ xi  i =1  i =1  n

n

b0 = y − b1 x

(6.14a)

(6.14b)

Tako, pri sledećim pretpostavkama: • •

važi linearan model (6.11) za merenja Yi, i = 1,2,...,n disperzija slučajnih varijacija zavisno promenljive Y je konstantna:

D(E ) = σ 2y = const. •

merenja Yi, i = 1,2,...,n su nezavisna i imaju normalnu raspodelu

metod najmanjih kvadrata daje saglasne i nepristrasne ocene regresionih koeficijenata:

M (B j ) = β j , j = 0,1

(6.15)

identične onima koje daje metod maksimalne verodostojnosti. U Jedn. 6.12, Bj su statistike čije se vrednosti računaju formulama (6.11a,b). Uz to, pokazuje se da srednjekvadratno odstupanje računskih vrednosti (6.8),

s2 =

1 n ( yi − b0 − b1 xi )2 ∑ n − 2 i =1

(6.16)

S2 =

1 n (Yi − b0 − b1 xi )2 ∑ n − 2 i =1

(6.17)

kao vrednost statistike:

predstavlja nepristrasnu ocenu disperzije zavisno promenljive:

( )

M S 2 = σ 2y Formuli (6.16) ekvivalentna je sledeća:

s2 =

n −1 2 ( s y − b12 s x2 ) n−2

(6.18)

gde su s x2 i s y2 srednji kvadrati odstupanja:

s

2 x

∑x =

2 i

− (∑ xi ) 2 / n

n −1

,

s

2 y

∑y =

2 i

− ( ∑ yi ) 2 / n

n −1

(6.19)

−

Primer 6.1 Zbog zajedničkog jona Cl rastvorljivost BaCl2, y(%) u vodi, pri konstantnoj temperaturi približno linearno opada sa porastom koncentracije CaCl2, x(%) u vodi. a) Formulisati empirijsku jednačinu za procenjivanje rastvorljivosti BaCl2 pri različitim sadržajima CaCl2 u vodi, na bazi podataka datih u prve tri kolone tabele

93

b) Proceniti rastvorljivost BaCl2 pri koncentraciji CaCl2 od 13%. Tabela uz Primer 6.1 N0

x

y

x2

xy

1 2 3 4 5 6 ∑=

0 5 8 10 15 20 58

32 25 20 17 11 5 110

0 25 64 100 225 400 814

1024 625 400 289 121 25 720

Rešenje a) Nagib i odsečak u traženoj empirijskoj pravolinijskoj zavisnosti mogu se dobiti pomoću funkcija SLOPE i INTERCEPT. Iako funkcije SLOPE i INTERCEPT ne izračunavaju nagib i odsečak po metodi najmanjeg kvadrata, nego se traže parametri koji daju najbolje slaganje sa eksperimentalnim podacima, rezultat će svakako biti dobar pa njihovo korišćenje ne predstavlja grešku.

pa je empirijska prava:

y = 31.43 − 1.355 x U dijagram su ucrtane eksperimentalne tačke i dobijena prava.

94

35 30 25 Series1

15

Linear (Series1)

y

20

10 5 0 0

5

10

15 x

20

25 y = -1.3553x + 31.434

Slika uz Primer 6.1 Prvo se nacrta dijagram na osnovu eksperimentalnih podataka, a zatim se dodaje prava (trendline). To se radi na sledeći način: Pošto je nacrtan dijagram desnim tasterom klikne se na neku od tačaka i odabere opcija Add Trendline.

Nakon toga otvara se novi prozor u kome se bira tip linije, (odabere se Linear), zatim se klikne na karticu Options

95

Gde se vrše ostala podešavanja vezana za pravu, između ostalog može se na dijagramu prikazati i jednačina ove prave, ukoliko se označi polje Display equation on chart. Potvrđuje se sa OK, i linija je na dijagramu. b) Smenom zadate rastvorljivosti CaCl2, x = 13 u dobijenu empirijsku jednačinu, dobijamo procenu odgovarajuće rastvorljivosti BaCl2:

y = 31.43 − 1.355 ⋅13 = 13.8% Primer 6.2 Merene su električne otpornosti R metalnog provodnika na različitim temperaturama t: t, 0C R, Ω

30 86.67

35 92.01

40 93.92

45 96.60

50 97.77

55 99.77

60 101.82

Potrebno je iz podataka, a) izračunati temperaturni koeficijent otpornosti metala α, koji je definisan jednačinom temperaturne zavisnosti otpora:

R (t ) = R0 (1 + αt ) b) proceniti standardnu grešku primenjene metode merenja otpornosti. Rešenje a) Pošto su u datoj pravolinijskoj zavisnosti otpora od temperature:

R(t ) = R0 (1 + αt ) = R0 + R0 αt = b0 + b1t odsečak i nagib jednaki: b0 = R0

b1 = R0α

traženi temperaturni koeficijent α se dobija iz njih kao:

α=

b1 b1 = R0 b0

Uz x = t, y = R, računa se nagib i odsečak pomoću funkcija INTERCEPT i SLOPE:

96

i iz njih koeficijent α:

α=

b1 = 0.0062 b0

Dijagram rasipanja eksperimentalnih tačaka i regresiona prava su dati na slici uz primer. 104 y = 0.463x + 74.674

102 100 98 96

Series1

94

Linear (Series1)

92 90 88 86 84 30

40

50

60

70

Slika uz Primer 6.2 b) Kao ocenu standardne greške merne metode σR, može se uz pretpostavke navedene u prethodnom tekstu, da uzmemo srednje kvadratno odstupanje (6.16):

sR =

1 n ( yi − b0 − b1 xi )2 = 7.125 = 1.43Ω ∑ n − 2 i =1 5

Koje se takođe može izračunati kvadriranjem rezultata dobijenog korišćenjem funkcije STEYX. Funkcija se nalazi u statističkim funkcijama, a njen rezultat je standardna greška predviđene vrednosti y za svako x u regresiji. Sintaksa: STEYX(Known_y's, Known_x's) Known_y's – niz ili skup zavisnih pojedinačnih podataka. Known_x's - niz ili skup nezvavisnih pojedinačnih podataka

97

Koeficijent determinacije i koeficijent korelacije

Koeficijent determinacije, kao opšta mera jačine veze između Y i x, u slučaju pravolinijske zavisnosti dobija oblik: n

R = 2

∑(y i =1 n

rac i

∑(y i =1

i

n

− y)2

− y)

= 2

∑ (b

0

i =1

+ b1 xi − y ) 2

n

∑(y i =1

i

− y)

n

( 9.14 b )

=

2

∑b i =1 n

2 1

( xi − x ) 2

∑(y i =1

i

− y)

2

s x2 =b 2 sy 2 1

(6.20)

gde su s x2 , s y2 srednji kvadrati odstupanja (6.19). Ako parametar b1 izrazimo preko koeficijenta korelacije rxy, pomoću Jedn. (8.7a):

b1 = rxy

sy sx

dobijamo da je koeficijent determinacije jednak kvadratu koeficijenta korelacije:

R 2 = rxy2

ili R = R 2 = rxy

što smo, s obzirom na značenje tih koeficijenata mogli da očekujemo. U slučaju linearne zavisnosti Y od x, R 2 dakle daje jačinu linearne veze, ali pošto je uvek pozitivan, ne daje (za razliku od rxy) informaciju o tome da li Y opada ili raste sa x.

98

6.5 Intervali poverenja odsečka i nagiba Određivanje intervala poverenja odsečka β0 i nagiba β1 u pravolinijskoj regresionoj funkciji (6.10), zahteva poznavanje raspodela njihovih ocena, tj. statistika Bj, j = 0,1. Sa pretpostavkama navedenim u prethodnom poglavlju, može se pokazati da uzorački regresioni koeficijenti imaju normalne raspodele: Bj: N (β j , σb j ), j = 0,1

(6.21)

sa disperzijama:

σb21 =

σ 2y (n − 1) s n

σb20 =

2 x

= c1σ 2y

∑x i =1

2 i

n(n − 1) s

2 x

(6.21a)

σ 2y = c0 σ 2y

(6.21b)

gde je s x2 srednji kvadrat odstupanja (6.16), a c0 i c1 koeficijenti, definisani samim jednačinama (6.21a-b). Formule (6.14a,b) pokazuju da su statistike Bj, j = 0,1 linearne kombinacije slučajnih promenljivih Yi, i =1,2,..,n, koje prema pretpostavkama imaju raspodele: Yi: N (β0 + β1 xi , σ y ), i = 1,2,..., n i tako relacije (6.21, 6.21a-b) slede iz osobine linearnosti normalne raspodele, tj. iz jednačina (2.57) i (2.58). Ocene disperzija uzoračkih regresionih koeficijenata sb2j , j = 0,1 dobijamo kada u Jedn. (6.21a-b) umesto disperzije σ 2y zavisno promenljive, zamenimo njenu ocenu s2:

sb2j = c j s 2 , j = 0,1

(6.22)

koja se računa formulom (6.16) ili (6.18): Iz izloženog sledi, da standardizovana slučajna veličina:

Z=

B j − M (B j )

σb j

=

Bj − β j cj σy

, j = 0,1

(6.23)

gde su koeficijenti cj, j = 0,1 definisani jednačinama (6.21a,b) ima raspodelu N (0,1). Kao što smo se u Pogl. 6.2 upoznali, to dalje znači da bezdimenziona statistika:

T=

B j − M (B j ) Sb j

=

Bj − β j cj S

, j = 0,1

(6.24)

gde je statistika S definisana jednačinom (6.17), ima t - raspodelu sa d=n-2

99

stepeni slobode. Sada imamo sve što je neophodno, da bi mogli da definišemo intervale poverenja teorijskih regresionih koeficijenata, sa nivoom poverenja γ = 1-α:

− t n − 2,α s c j + b j < β j < b j + t n − 2,α s c j , j = 0,1

(6.25)

Primer 6.3 Za uzorak od 12 studenata dati su u tabeli brojevi poena osvojeni u testu inteligencije (x) i brojevi poena osvojeni na ispitu iz hemije (y): x: y:

50 74

50 76

55 76

55 85

55 81

55 74

65 85

65 90

65 94

70 87

70 98

70 91

a) Izračunati nagib i odsečak u empirijskoj pravolinijskoj zavisnosti

y = b0 + b1 x

b) Proceniti jačinu linearne veze c) Dati intervalne ocene za prave regresione koeficijente β0 i β1 sa nivoom pouzdanosti

95%.

Rešenje a) Nagi i odsečak se izračunaju pomoću funkcija SLOPE i INTERCEPT.

100 95

y

90 85 80 75 70 45

50

55

60

65

70

75

x

100

b) Izračunaju se srednji kvadrati odstupanja pomoću funkcije STDEV :

a onda pomoću funkcije RSQ se izračunava koeficijent determinacije:

Rezultat funkcije RSQ je kvadrat Pirsonovog koeficijenta korelacije, odnosno koeficijent determinacije Sintaksa: RSQ(Known_y's, Known_x's) Known_y's – niz ili skup zavisnih pojedinačnih podataka. Known_x's - niz ili skup nezvavisnih pojedinačnih podataka

Koeficijent korelacije, kao mera jačine linearne veze može se izračunati kao koren koeficijenta determinacije ili pomoću funkcije PEARSON:

(jaka linearna veza, prema Tab.8.1) Na osnovu vrednosti koeficijenta determinacije, možemo da konstatujemo da je 74.4% ukupne varijacije u bodovima ostvarenim na ispitu iz hemije objašnjeno varijacijama u broju bodova osvojenih u testu inteligencije (varijacija objašnjena regresionom jednačinom). Ostatak od 25.6% ukupne varijacije u bodovima ostvarenim na ispitu je neobjašnjen.

101

c) Za izračunavanje itervala poverenja (6.25), potrebna je ocena standardnog odstupanja vrednosti Y, koja se dobija kao koren srednjeg kvadrata odstupanja dobijene empirijske jednačine od eksperimentalnih tačaka (6.18), odnosno pomoću funkcije STEYX

Dalje, treba izračunati koeficijenti c0 i c1, n

c0 =

∑x i =1

2 i

n(n − 1) s

2 x

=

44470 = 5.508, 12 ⋅11⋅ 61.174

c1 =

1 = 1.486 ⋅10 −3 2 (n − 1) s x

Za date podatke pomoću funkcije TINV izračunava se t vrednost:

i poluširine intervala poverenja regresionih koeficijenata su:

t10,0.05 s c0 = 2.228 ⋅ 4.319 ⋅ 5.508 = 22.605 t10,0.05 s c1 = 2.228 ⋅ 4.319 ⋅ 1.486 ⋅10 −3 = 0.371

Konačno, traženi intervali poverenja su:

7.44 < β0 < 52.65,

0.526 < β1 < 1.268

6.6 Testiranje hipoteza u vezi sa odsečkom i nagibom Proveravamo hipoteze:

H 0 : β j = β0j ,

j = 0,1

(6.26)

H1 : β j ≠ β0j ,

j = 0,1

(6.27)

nasuprot hipoteza: Imajući u vidu (Pogl. 7.5) da interval poverenja regresionog koeficijenta (6.25) sa nivoom poverenja γ = 1 - α, uključujući i njegove granice,

102

b j − β j ≤ t n −2,α s c j , j = 0,1 predstavlja oblast prihvatanja nulte hipoteze (6.26), oblast odbacivanja te hipoteze uz rizik prve vrste α, biće,

b j − β j > t n − 2,α s c j , j = 0,1 ili, što je ekvivalentno:

tj =

bj − β j s cj

> t n − 2,α , j = 0,1

(6.28)

Relacija (6.28) daje kriterijume odbacivanja hipoteza (6.26)

6.7 Linearizovane dvoparametarske empirijske formule Može se pokazati da su normalne jednačine (6.7) za izračunavanje parametara u nekoj dvoparametarskoj empirijskoj formuli, linearne, samo ako je formula linearna po parametrima, a to znači da ima oblik:

y = b0 ϕ0 ( x) + b1ϕ1 ( x)

(6.29)

gde su ϕ0(x) i ϕ1(x) bilo kakve funkcije, u kojima ne figurišu nepoznati parametri. Na primer kod pravolinijske regresije, funkcije ϕ0(x) i ϕ1(x) su:

ϕ0 ( x) = 1, ϕ1 ( x) = x Ako dvoparametarska empirijska formula:

y = f ( x, b0 , b1 )

(6.30)

nema oblik (6.29), normalne jednačine su nelinearne i njihovo rešavanje nije jednostavno. Da bi se računski problemi olakšali pristupa se, kad god je to moguće, “ispravljanju” ili linearizaciji jednačine, pogodnom smenom promenjivih. Na primer, formula:

y = ax b

(6.31)

gde su a i b parametri, se može linearizovati logaritmovanjem:

log y = log a + b log x i smenom promenljivih: z = log y,

v = log x,

što kao rezultat daje linearnu formulu po novim promenljivima v i z:

z = A + Bv,

A = log a,

B=b

(6.33)

Pošto izračunamo odsečak A i nagib B iz vrednosti novih promenljivih, zi = log yi, vi = log xi, i = 1,2,...,n

103

originalne parametre a i b, prema (6.33), dobijamo kao: b = B, a = 10A U Tab.6.1 date su smene promenljivih za linearizaciju nekih dvoparametarskih neliearnih formula, a na Sl.6.2 grafici datih nelinearnih funkcija. Na žalost, rigorozna statistička analiza linearizovane formule je nemoguća ili vrlo otežana, jer neophodne pretpostavke, koje važe za originalnu zavisno promenljivu (Pogl.6.4) zbog izvedene transformacije, ne važe za novu zavisnu promenljivu.. Tabela 6.1 - Linearizacija dvoparametarskih formula formula 1. y =

1 a + bx

2. y = a + 3. y =

smena promenljivih

b x

x a + bx

linearizovana formula

z=

1 y

z = a + bx

v=

1 x

y = a + bv

z=

x y

z = a + bx

4. y = a ⋅ x b

v = ln x, z = ln y

z = A + bv gde je A = lna

5. y = a ⋅ b x

z = ln y

z = A + Bx gde je A = lna, B = lnb

Primer 6.5 Odabrati formu dvoparametarske empirijske jednačine koja opisuje zavisnost y od x, prema eksperimentalnim vrednostima datim u tabeli (prve od dve kolone). Izračunati parametre u odabranoj zavisnosti i koeficijent determinacije. x 1 2 3 4 5 6 7

y 62.1 87.2 109.5 127.3 134.7 136.2 134.9

x/y 0.01610 0.02294 0.02740 0.03142 0.03712 0.04405 0.05189

Rešenje Na slici 1. uz primer, ucrtane su eksperimentalne tačke (xi, yi), i = 1,2,...,7. Zamišljena linija, koja bi približno povezivala tačke, liči na sledeće krive na Sl.6.2:

104

•

linije 2 i 4 familije krivih sa jednačinom:

•

liniju 2 familije krivih sa jednačinom:

x a + bx y = ax b

y=

Zato u uži izbor formula ulaze navedene dve.

x a + bx

a) jednačina y =

Smena koja linearizuje jednačinu je: v = x, z = x/y U 3. koloni tabele uz primer, upisane su izračunate vrednosti za z = x/y, a na slici 2 uz primer ucrtane su tačke (xi, zi), i = 1,2,...,7. 12

10

1: a = -0.1 2: a = 0.1 3: a = -0.5 4: a = 0.5

2 1 3

0

8

4

y

y

5

3 2

2

1

0

-10 0

2

4

6 x

8

10

0

12

3.0

1: a = -0.1 2: a = 2 3: a = -0.4 4: a = 4

8

8

10

12

b = 1.04

b = 1.3

b = 1.2

2.0

y

1

4

6

2.5

3

6

4

y = a + b/x, b = 0.3

12 10

2

x

1 y= , b = 0 .3 a + bx

y

4

6 4

3

-5

1: a = -0.1 2: a = 2 3: a = 4 4: a = 6

10

1.5

b = 0.95

1.0

2

2

b = 0.2 b = 0.3

0.5

4

0

b = 0.8

0.0 0

2

4

6 x

x , y= a + bx

8

10

12

0

2

4

6

8

10

12

x

b = 0 .3

x

y = ab , a = 2

105

14

1: b = 0.5 2: b = 0.3 3: b = -0.3 4: b = -0.5

12 10

1

2

y

8 6 4

3

2

4

0 0

2

4

6 x

8

10

12

b

y = ax , a = 4 Slika 6.2 - Grafici nelinearnih funkcija iz Tab. 6.1 160 140 120

y

100 80 60 40 20 0 0

1

2

3

4

5

6

7

8

x

Slika 1 uz Primer 6.5 - Eksperimentalne tačke 0.06000 0.05000

x/y

0.04000 0.03000 0.02000 0.01000 0.00000 0

2

4

6

8

x

Slika 2 uz Primer 6.5 - Tačke u koordinatama x - z

106

U dijagramu sa transformisanim koordinatama tačke približno leže na pravoj liniji. b) jednačina y = ax b Nove promenljive su: v = lnx; z = lny. Tačke, ucrtane u korrdinatama v - z, ne leže duž neke prave i ova jednačina se odbacuje

5

z=lny

4.9 4.8 4.7 4.6 4.5

Series1

4.4 4.3 4.2 4.1 4 0

0.5

1

1.5

2

2.5

v=lnx

Slika 3 uz Primer 6.5 - Eksperimentalne tačke u koordinatama lnx-lny Parmetri u prihvaćenoj formuli se dobijaju iz parametara linearizovane jednačine:

z = b0 + b1v,

z = x / y, v = x

kao: a = b0 ,

b = b1

Pomoću funkcija SLOPE i INTERCEPT dobija se

a = 0.010229, b = 0.0056899 i eksperimentalni podaci su približno opisani jednačinom:

y=

x 0.010229 + 0.0056899 x

107

U tabeli su data odstupanja eksperimentalnih od računskih vrednosti, ei:

160 140 120

y

100 80 60 40 20 0 0

1

2

3

4

5

6

7

8

x

Slika 4 uz Primer 6.5 - Eksperimentalne tačke i dobijena kriva Koeficijent determinacije (6.9) računa se pomoću funkcije RSQ

Dakle, dobijena empirijska formula objašnjava 90% od ukupnih promena u vrednostima zavisno promenljive. Primer 6.6 Date su eksperimentalne vrednosti specifične električne provodljivosti stakla (y) u funkciji od temperature, (x, 0C). Odabrati empirijsku formulu i odrediti parametre u njoj. x y lny

14.5 0 -

30.0 0.004 -5.52

64.5 0.018 -4.02

74.5 0.029 -3.54

86.7 0.051 -2.98

94.5 0.073 -2.62

98.9 0.090 -2.41

108

Rešenje Poređenjem izgleda zamišljene linije koja bi spajala eksperimentalne tačke na Sl. 1 uz primer, sa graficima dvoparametarskih emirijskih formula zapaža se da bi moguć adekvatan oblik formule bio:

y = ab x Smenom z = lny dobija se linearna jednačina: z = lna + lnbx Smena nije primenljiva na prvu eksperimentalnu tačku jer je: ln(0) = ∞. Pošto eksperimentalne tačke u transformisanim koordinatama (Sl.2 uz primer) približno leže duž neke prave, formula se prihvata.

0.1 0.09 0.08 0.07

y

0.06 0.05 0.04 0.03 0.02 0.01 0 0

20

40

60

80

100

120

x

Slika 1. uz Primer 6.6 - Eksperimentalne tačke

109

0.00 0

20

40

60

80

100

120

-1.00

y

-2.00 -3.00

Series1

-4.00 -5.00 -6.00 x

Slika 2. uz Primer 6.6 - Eksperimentalne tačke u transformisanim koordinatama

A = -6.897,

B = 0.4518

i parametre u polaznoj, nelinearnoj formuli:

a = eA = 0.001011,

b = eB = 1.046

Dobija se empirijska jednačina:

y = 1.011⋅10 −3 ⋅1.046 x

110

ZADACI

6.1 Meren je stepen konverzije reaktanta u reaktoru (y, %) na raznim temperaturama (x, 0C): x, 0C y, %

207.1 92.30

210.3 92.58

200.4 91.56

201.1 91.63

203.4 91.83

a) Uveriti se na osnovu dijagrama rasipanja da se može pretpostaviti linearna zavisnost stepena konverzije od temperature b) Izračunati sa 4 decimale odsečak i sa 3 decimale nagib regresione prave y(x) c) Izračunati srednji kvadrat odstupanja regresione prave od eksp. podataka d) Izračunati koeficijente determinacije i korelacije i dati interpretaciju e) Izračunati intervalne ocene odsečka i nagiba, sa nivoom poverenja 0.95. 6.2 Proveriti statističku značajnost nagiba regresione prave y(x) (da li je izračunati nagib značajno različit od nule), sa α = 0.05: a) u problemu 8.3, b) u problemu 9.1 Povezati rezultate sa značajnošću izračunatih koeficijenata korelacije. 6.3 Merene su gustine ρ (g/ l) neke supstance na različitim temperaturama t: a) 20 30 40 50 60 t, 0C 640 652 668 680 684 ρ, (kg/ l)

70 692

Odrediti odsečak sa jednom i nagib sa tri decimale u pravolinijskoj zavisnosti gustine od temperature. b) Proceniti gustinu na temperaturi 74 0C c) Dati intervalnu ocenu, sa nivoom poverenja 0.95, temperaturnog koeficijenta gustine (promena gustine, pri povećanju temperature za 1 0C). 6.4 Koje smene promenljivih "ispravljaju" sledeće krivolinijske dvoparametarske zavisnosti:

a 1 a) y = ax + b , b) y = + b , c) = a ( x + 3) + b x y 2

2

d) y = e

a x +b

b  e) y =  ax +  x 

−1

6.5 a) Ucrtavajući eksperimentalne tačke u odgovarajući koordinatni sistem, uveriti se da podaci o temperaturama (t, 0C) i odgovarajućim masenim protocima (m, g/s) navode na zaključak da maseni protok varira linearno sa korenom temperature:

m = a t +b t, 0C m, g/s

10 14.76

20 20.14

40 27.73

80 38.47

100 42.82

b) Dati intervalne ocene odsečka i nagiba sa nivoom pouzdanosti 0.95. 6.6 Date su eksperimentalne vrednosti: x y

1.0 0.279

2.0 0.194

3.0 0.168

5.0 0.120

10.0 0.083

111

. Izračunati, sa tri decimale, parametre a i b u empirijskoj jednačini:

y=

1 a x +b

6.7 Pretpostavlja se da za neki gas približno važi sledeća jednačina stanja:

pv m = c gde su: p - pritisak, v -molska zapremina, m i c -parametri. Za date podatke: v, cm3/mol p, bar

50.5 64.7

61.0 51.3

71.5 40.5

81.2 25.9

105 7.8

a) Proveriti pretpostavku, pomoću dijagrama rasipanja b) Izračunati parametre m i c i srednje kvadratno odstupanje empirijske formule. 6.8 Radi kalibracije higrometra, variran je sadržaj vode u gasu (x, %) i očitavana vrednost na skali higrometra (y). Rezultati su dati u tabeli: x y

5 0.011

20 0.044

40 0.083

60 0.126

80 0.170

a)

Na

osnovu

dijagrama

rasipanja odabrati dvoparametarsku empirijsku zavisnosti y(x) b) Izračunati parametre u odabranoj formuli. 6.9 Dati su viskoziteti vode, η na različitim temperaturama T (K): a) Izračunati parametre u formuli: T 283 293 303 313 323 1.308 1.005 0.801 0.656 0.549 η

η = ae

333 0.469

343 0.406

b T

b) Proceniti viskozitet vode na 300K

112

Literatura Paunović R.; Omorjan R.; Osnovi inženjerske statistike, autorska skripta Božić D.; Kompjuter za početnike; Primatron; Novi Sad; 2003. maranGraphics Inc.; Excel 2000 Simplified; IDG Books Worldwide, Inc., Foster City, CA; 1999.

113

Excel

Short Description

Description

Comments

We need your help!