Statystyka w

Share Embed Donate


Short Description

Download Statystyka w...

Description

Statystyka- wykład I Podręczniki: 1. Amir Amir D. Aczel, Aczel, Staty Statysty styka ka w zarzą zarządza dzaniu, niu, PWN PWN 2000 2000 2. Maria Pociecha Pociecha,, Metody Metody statystyc statystyczne zne w zarzą zarządzaniu dzaniu turystyką, turystyką, ALBIS ALBIS 2002 3. Stat Statystyka ystyka ogólna, ogólna, pod red. Michała Michała Woźniak Woźniaka, a, AE w Krakowie Krakowie 1994

25.02.2007

Statystyka- jest to nauka o ilościowych metodach badania prawidłowości dotyczących zjawisk masowych. Właściwości prawidłowości występujących w otaczającej nas rzeczywistości są kształtowane i przejawiają się tylko w procesie masowym. Każde zjawisko jest kształtowane przez dwojakiego rodzaju przyczyny: • Główne ( podstawowe, typowe, systematyczne) • Uboczne ( przypadkowe) My zajmujemy się tylko przyczynami głównymi. Opisując liczbowo zjawiska masowe należy określić 2 składniki: o Systematyczny- jako wyraz oddziaływania przyczyn głównych o Przypadkowy- odzwierciedlający wpływ czynnika losowego Zastosowanie do analizy odpowiednich metod statystycznych pozwala nam na:  Porządkowanie i klasyfikacja danych  Dokładniejszy opis danego zjawiska  Badanie różnego rodzaju powiązań  Formułowanie uogólnień  Prognozowanie analizowanych wielkości Opracowanie statystyczne składa się z 4 etapów: • Formułowanie hipotezy merytorycznej • Gromadzenie danych liczbowych i ich klasyfikacja • Opracowania statystycznego wg wybranych metod • Weryfikacji hipotezy merytorycznej

Zbiorowością statystyczną  nazywamy zbiór obiektów ( osób, przedmiotów, zdarzeń) posiadających cechy wspólne. Poszczególne elementy składowe zbiorowości statystycznej noszą nazwę  jednostek statystycznych . Rozróżnia się dwa rodzaje zbiorowości statystycznych:  Zbiorowość generalną ( populacja)  Zbiorowość próbną ( próba, próbka) Zbiorowość generalna tworzą wszystkie obiekty będące przedmiotem badania. Musi być ona jednorodna i jednoznacznie określona. Zbiorowość próbna ( próbka) jest podzbiorem zbiorowości generalnej. Próba powinna być reprezentatywna tzn. taka aby z przyjęta dokładnością opisywała strukturę zbiorowości generalnej. Reprezentatywność próby zapewnia nam jej losowy wybór. Losowo tzn. tak, że każdy element populacji ma jednakowa szansę (prawdopodobieństwo) znalezienia się w  próbie. Próba wybierana jest na drodze losowania. Metoda reprezentacyjna- zajmuje się różnymi sposobami………………………………………..

Relacje między populacją a próbą 

Populacja Rachunek   prawdopodobieństwa

Próba I etap: statystyka opisowa (opis próby) II etap: statystyka matematyczna (wnioskowanie na temat populacji na podstawie próby) Właściwości jakimi odznaczają się jednostki tworzące badana zbiorowość nazywamy cechami statystycznymi . Cechy można podzielić na: • Jakościowe (niemierzalne) np. płeć • Ilościowe (mierzalne) np. przeciętny dochód , wyrażane w zł, kg, cm. Cecha mierzalna z punktu widzenia matematycznego jest zmienną . Wyróżnia się zmienne mierzalne:  Skokowe (przyjmują wartości ze zbioru skończonego lub przeliczalnego)  Ciągłe (przyjmują wartości z określonego przedziału liczb li czb rzeczywistych) Obiekt nr Cecha x 1 x1 2 x2 ….. ….. i xi ….. ….. n xn Jeżeli cecha x- zmienna jednowymiarowa Jeżeli cecha x, y- zmienna dwuwymiarowa Jeżeli cecha x, y, z- zmienna trójwymiarowa

Cecha y y1 y2 ….. yi ….. yn

Szereg statystyczny jest to uporządkowany zbiór (ciąg) wartości zmiennej. • Szczegółowe • Strukturalne • Kumulacyjne • Geograficzne • Dynamiczne Charakterystyki liczbowe rozkładu badanej cechy Czym różnią się badane zbiorowości

Cecha z z1 z2 ….. zi ….. zn

Krzywa Gaosa La Plaza

Inna zmienność w obrębie

Asymetria  prawostronna

Asymetria lewostronna

 Najczęściej do opisu struktury badanej zbiorowości wykorzystuje się: • Miary położenia • Miary zmienności ( rozproszenia, dyspersji) • Miary asymetrii • Miary spłaszczenia i koncentracji

MIARY POŁOŻENIA Średnie klasyczne: Średnia arytmetyczna- jest równa sumie wartości zmiennej podzielonej przez ich liczbę n

 x =

 x1 +  x2 +  +  xn

∑ xi =

i =1

n n xi- wartość zmiennej n- liczba jednostek statystycznych badanej zbiorowości Średnia ważona (dla szeregu rozdzielczego) k 

 x n +  x2 n2 +  +  xk nk   x = 1 1 = n x’i- wartość zmiennej ni- liczebność n-tej klasy k- liczba klas

∑ x n i

i

i =1

n

Średnia geometryczna- pierwiastek n-tego stopnia z iloczynu wartości pomiaru n

 xG = n  x1 × x2 ×  × xn = n

∏x

i

i =1

xi- wartość zmiennej n- ogólna liczebność Gdy wartości zmiennej podane są w formie przyrostów (zwłaszcza w %)

Średnia harmoniczna- jest odwrotnością średniej arytmetycznej z odwrotności wartości pomiarów. Stosujemy  ją tam gdzie pomiar wyrażony jest w przeliczeniu na inne jednostki (km/h, os/km2, itp.) n n = n  x H  = n 1 ∑ mi ∑ x i =1 i =1 i xi- wartość zmiennej n- ogólna liczebność

Średnia kwadratowa- stosujemy ja kiedy chcemy określić przeciętne zróżnicowanie obiektów  K  = = n

1

n

∑ xi n

2

i =1

Xi- wartość zmiennej n- ogólna liczebność

Przeciętne pozycyjne oraz kwartyle Modalna (wartość najczęstsza, typowa, dominanta) –jest to wartość zmiennej która występuje największą liczbę razy w zbiorowości statystycznej Przykład:

-2,2,2,2,3,4,4,4,4,5,7,7,10,12,12 Modalna wynosi 4. Oznacza to, że najczęściej w biurach podróży zatrudniane są 4 osoby. Modalna dla szeregu rozdzielczego n s − n s −1 M o =  x s + h (n s − n s −1 ) + (n s − n s +1 ) s- numer przedziału najliczniejszego xs- dolna granica s-tego przedziału ns- liczebność w przedziale modalnej ns-1- liczebność w przedziale poprzednim ns+1- liczebność w przedziale następnym h- rozpiętość (interwał) przedziału

11.03.2007 Statystyka-wykład II Przeciętne pozycyjne: Modalna: Dla szeregu rozdzielczego: n s − n s −1 M o =  x s + h (n s − n s −1 ) + (n s − n s +1 ) Gdzie: s- nr przedziału najliczniejszego xs- dolna granica s-tego przedziału ns- liczebność w przedziale modalnej ns-1- liczebność w przedziale poprzednim ns+1- liczebność w przedziale następnym h- rozpiętość (interwał) przedziału Modalna przedział najliczniejszy

Może się zdarzyć że przedział może mieć 2 modalne.

Mediana- (wartość środkowa)Mediana jest tą wartością cechy która dzieli szereg statystyczny na 2 równe części ze względu na liczbę jednostek. Połowa obiektów posiada wartość cech nie większą, a pozostałe 50% nie mniejszą od mediany. Mediana dla nieparzystej liczby obiektów : M e = x n +1 2

Biura podróży wg liczby zatrudnionych osób w pewnej miejscowości (dane umowne): 2,2,2,3,4,4,4,4,4,5,7,7,10,12,12, Me= 4 osoby Połowa spośród badanych biur podróży zatrudnia nie więcej niż 4 pracowników.

Mediana dla parzystej liczby obiektów :

M e

  1   =  x n + x n +1     2   2 2  

Biura podróży wg zatrudnionych osób w pewnej miejscowości (dane umowne): 2,2,2,3,4,4,4,4,4,5,7,7,10,12,12,13,13,14,14,16, Me=6 osób Połowa spośród badanych biur zatrudnia nie więcej niż 6 pracowników.

Mediana dla szeregu rozdzielczego:

h n e−1 M e =  xe + ( − ∑ ni ) ne 2 i=1 Gdzie: e- nr przedziału mediany xe- dolna granica przedziału mediany h- rozpiętość (interwał) przedziału ne- liczebność przedziału mediany Σ ni- suma liczebności przedziałów od pierwszego do przedziału poprzedzającego przedział mediany

Kwartyle (wartości ćwiartkowe)- podają wartości zmiennej jakiego nie przekracza określona część zbiorowości. Kwartyl pierwszy i trzeci: q −1 h 1 ( n − ∑ ni Q1 =  xq + nq 4 i =1 q −1 h 3 ( n − ∑ni ) Q3 =  x q + nq 4 i =1 Analogicznie do przedziału mediany

MIARY ZMIENNOŚCI Dwie zbiorowości o różnym poziomie zmienności.

 Na rysunku pokazano dwa diagramy częstości (1) i (2).

Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. •

Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy.



Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy.

Podstawowe miary zmienności (rozproszenia, dyspersji):  Rozstęp  Wariancja  Odchylenie standardowe  Współczynnik zmienności Rozstęp- jest to różnica między największą a najmniejszą wartością zmiennej w danej zbiorowości. Rozstęp określa obszar zmienności analizowanej cechy.  R = xmax − xmin Wariancja- jest średnią arytmetyczną z kwadratów różnic poszczególnych wartości zmiennej od ich średniej arytmetycznej. Wariancja –szereg szczegółowy n

∑ ( xi −  x )  s 2 =

2

i =1

n

Gdzie: xi- wartość zmiennej x- średnia arytmetyczna n- ogólna liczebność

Wariancja szereg rozdzielczy:

 s

2

1

=



∑ ni



2

 x ) * n *∑ ( xi − i "

1 n=

1 n= Gdzie: xi’- środek przedziału x- średnia arytmetyczna ni- liczebność w klasach

Odchylenie standardowe- określa, o ile średnio jednostki zbiorowości różnią się od średniej arytmetycznej. k 

∑ ( x

i

 s =

−  x ) ni 2

i =1

n

=  s 2

Współczynnik zmienności- jest względną miarą rozproszenia V 

==

 s  x

*100

Gdzie: s-odchylenie standardowe

x- średnia arytmetyczna

MIARY ASYMETRII Współczynnik asymetrii Rozkład symetryczny- jest wtedy gdy średnia arytmetyczna jest równa medianie i modalnej.

As=0

X= Me= Mo Współczynnik asymetrii:  As =

 x − Mo  s

Gdzie: x-średnia arytmetyczna Mo- modalna s- odchylenie standardowe Asymetria prawostronna: As>0

Mo x Asymetria lewostronna As 3/6

(4,5> 4/6

(5,6> 5/6

(6,+∞) 1

Parametry rozkładu Wartość oczekiwana ( nadzieja matematyczna) Wartością oczekiwaną E(X) (nadzieją matematyczną) nazywamy sumę iloczynów wartości zmiennej i odpowiadających im prawdopodobieństw. n

 E ( X ) = ∑ xi  p i i =1

Dla naszego rozkładu: n

 E ( X ) = ∑ xi pi = 1 * i =1

1 1 1 1 1 1 + 2 * + 3 * + 4 * + 5 * + 6 * = 3,5 6 6 6 6 6 6

Wariancja Wariancją   D 2 ( X  ) nazywamy liczbę zdefiniowaną:

n

 D ( X ) = ∑ ( xi −  E ( X )) 2 * pi 2

i =1

Dla naszego przykładu: n

 D ( X ) = ∑ ( xi − E ( X )) 2 * pi = (1 − 3,5) 2 * 2

i =1

(4 − 3,5) 2 *

1 6

+ (5 − 3,5) 2 *

1 6

+ (6 − 3,5) 2 *

Stąd odchylenie standardowe wynosi:  D ( X  )

=

2,9166

1 6

1 6

2

+ (2 − 3,5) *

1 6

2

+ (3 − 3,5) *

1 6

+

= 2,9166

1,7

=

 Na egzaminie może być: Definicja prawdopodobieństwa Jak dzielą się zmienne: skokowe, ciągłe Dla zmiennej skokowej podstawowe charakterystyki to rozkład i dystrybuanta Parametry dla określenia zmiennej (nadzieja matematyczna, wariancja)

Statystyka-wykład V

29.04.2007

1. Zmienna losowa typu ciągłego. Rozkład normalny Wartość oczekiwana i wariancja zmiennej losowej x przekształconej następująco: U  =

 X  − E ( x )  D( x )

Gdzie: E(x)- wartość oczekiwana zmiennej losowej x D(x)- odchylenie standardowe zmiennej losowej x Przekształcenie to nosi nazwę STANDARYZACJI.

Wartość oczekiwana i wariancja dla zmiennej standaryzowanej: U  =

 X  − E ( x )  D( x )

D2(U)=1

Wynosi: E(U)=0

Zmienna losowa typu ciągłego:  Zmienną losową x przyjmującą wszystkie wartości z pewnego przedziału, dla której istnieje nieujemna funkcja f taka, że dystrybuanta F(x) wyraża się wzorem:  x



∫ 

 F ( x ) =   f  (t )dt 

dla  x ∈ R

α  

 

 Nazywamy zmienną losową typu ciągłego a funkcję f, jej gęstością. Zmienna losowa ciągła x podlega rozkładowi normalnemu, jeżeli jej funkcja gęstości wyraża się następującym wzorem: 

 D( x)

  ( x −  E ( x))2      exp − 2 2∏   2 D ( x)  

Gdzie: E(x)- wartość oczekiwana D2(x)- wariancja exp[x]- ex e≈ 2,71828- podstawa logarytmu naturalnego Π≈ 3,14159… Wartość parametrów w rozkładzie normalnym. Przyjęło się oznaczenie 



 f ( x) =

1

 E ( x ) = m



2

 D ( x)

= σ  2

σ  

− sigma

Fakt że zmienna losowa podlega rozkładowi normalnemu zapisuje się w skrócie: X~N(m,σ) Przy takich oznaczeniach funkcję gęstości rozkładu normalnego zapisuje się następująco: 



 f ( x) =



σ 



  ( x − m) 2      exp − 2 2∏   2σ   

1

Wykresem funkcji f(x) jest krzywa Gaussa- Laplace’a

F(x)

m-σ m

m+σ

x

Cechy rozkładu: Funkcja ta : • W całej dziedzinie przyjmuje wartości dodatnie • W punkcie x=m osiąga maksimum • Dla x=m-σ i x=m+σ posiada punkty przecięcia Wykres jest symetryczny względem prostej x=m • Dystrybuantę zmiennej w rozkładzie normalnym zapisuje się następująco: 

 f ( x) = σ 

 

Wprowadzając standaryzację zmiennej:  X~N(m,σ) Według znanej już zasady 



U  =

 x − m σ  

Otrzymujemy funkcję rozkładu w postaci 



  ( x − m) 2      exp − 2 ∫  2∏   2σ   

1

  U 2      ex p −  f ( x ) = 2∏   2   1

I dystrybuantę: 

  t 2   exp −    F (U ) = dt  ∫    2∏ −   2   1

Ui

α 

Wykres funkcji gęstości f(u) zmiennej standaryzowanej: X~N(m,σ)  Jest symetryczny względem osi rzędnych  Funkcja osiąga maksimum dla U=0  Dla w=-1 i u=1 posiada punkty przecięcia Wartości dystrybuanty zmiennej X~N(m,σ) Zostały tablicowane, co oznacza, że tablice podają dla każdej wartości U0 zmiennej U, wartość dystrybuanty F(U0)

2.Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy sąd o zbiorowości generalnej, wyrażony bez wprowadzenia badania pełnego (wyczerpującego). W oparciu o wyniki otrzymane z próby podejmujemy decyzję o podjęciu lub odrzuceniu podstawionej hipotezy. Algorytmy weryfikacji hipotez statystycznych posiadają pewne wspólne cechy: Ho: m=mo Ho- hipoteza zerowa mo- wartość złożona (konkretna wartość) • Hipoteza zerowa jest podstawową hipotezą sprawdzaną  • Zakłada się, że interesująca nas zmienna ciągła ma rozkład normalny o nieznanych parametrach • Oprócz hipotezy zerowej należy sformułować hipotezę alternatywną  H1: m≠mo; H1: m< mo ; H1: m>mo; • Ponieważ wnioskowanie prowadzone jest na podstawie niepełnej informacji o populacji, to podejmując decyzję o przyjęciu lub odrzuceniu hipotezy możemy popełnić błąd:  Istnieją 2 rodzaje błędów: o Błąd pierwszego rodzaju o Błąd drugiego rodzaju Ho Decyzja PRAWDZIWA FAŁSZYWA Błąd II rodzaju; Przyjąć Decyzja poprawna  prawdopodobieństwo wystąpienia  błędu= β Błąd I rodzaju; Odrzucić  prawdopodobieństwo wystąpienia Decyzja poprawna  błędu= α Udowodniono, że dla danej liczebności próby zmniejszenia prawdopodobieństwa α powoduje wzrost  prawdopodobieństwa β. Prawdopodobieństwo 1- β nazywa się mocą testu. Spośród możliwych do wykorzystania testów należy wybrać test najmocniejszy. W praktyce wykorzystuje się najczęściej tak zwane testy istotności czyli takie, które pozwalają odrzucić hipotezę zerową z małym ryzykiem popełnienia błędu I rodzaju. Prawdopodobieństwo α wystąpienia błędu I rodzaju nosi nazwę poziomu istotności i ustala go osoba prowadząca  badania statystyczne. Najczęściej przyjmuje się wartości α na poziomie 0,01; 0,02; 0,05. • Kryterium podejmowania decyzji o weryfikacji hipotezy stanowi wartość empiryczna statystyki testu • W testach istotności, statystyką testu jest najlepszy estymator danego parametru. Statystyka ma więc znany rozkład prawdopodobieństwa. •  Na podstawie wyników próby losowej oblicza się wartości tej statystyki Zn. • W końcowym etapie weryfikacji podstawionej hipotezy ustala się tak zwany zbiór (obszar) krytyczny K. • Jest to zbiór tak ustalony, aby prawdopodobieństwo tego, że wartość statystyki Z, znajduje się na obszarze krytycznym, gdy prawdziwa jest H0 było równe lub mniejsze od α.  P ( Z n ∈ K  /  H 0 ) ≤ α  



Jeżeli wartość statystyki sprawdzającej Zn należy do zbioru krytycznego, to z prawdopodobieństwem α odrzucamy sprawdzoną hipotezę H0 na korzyść hipotezy alternatywnej H1 •  Natomiast w przypadku, gdy obliczona z próby statystyka Zn nie należy do zbioru krytycznego K, to nie ma podstaw do odrzucenia H0.

Statystyka-wykład VI

13.05.2007

Cdn. Hipotezy statystyczne Wartość krytyczną Zα wyznaczającą granice zbioru K można odczytać z tablic właściwych dla rozkładu danego sprawdzianu Zn. Większość programów komputerowych podaje dokładną wartość prawdopodobieństwa p dla wyliczonej z próby wartości Zn. Zbiory krytyczne ustala się w zależności od postaci hipotezy alternatywnej:



Jeżeli hipoteza alternatywna ma postać H 1: m≠m0 to obszar krytyczny jest zbiorem dwustronnym. H1: m≠m0



-Zα 0 Zα Jeżeli hipoteza alternatywna ma postać H 1: m>m0 to obszar krytyczny jest zbiorem prawostronnym. H1: m>m0



Zα Jeżeli hipoteza alternatywna ma postać H 1: m
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF