Statystyka w
Short Description
Download Statystyka w...
Description
Statystyka- wykład I Podręczniki: 1. Amir Amir D. Aczel, Aczel, Staty Statysty styka ka w zarzą zarządza dzaniu, niu, PWN PWN 2000 2000 2. Maria Pociecha Pociecha,, Metody Metody statystyc statystyczne zne w zarzą zarządzaniu dzaniu turystyką, turystyką, ALBIS ALBIS 2002 3. Stat Statystyka ystyka ogólna, ogólna, pod red. Michała Michała Woźniak Woźniaka, a, AE w Krakowie Krakowie 1994
25.02.2007
Statystyka- jest to nauka o ilościowych metodach badania prawidłowości dotyczących zjawisk masowych. Właściwości prawidłowości występujących w otaczającej nas rzeczywistości są kształtowane i przejawiają się tylko w procesie masowym. Każde zjawisko jest kształtowane przez dwojakiego rodzaju przyczyny: • Główne ( podstawowe, typowe, systematyczne) • Uboczne ( przypadkowe) My zajmujemy się tylko przyczynami głównymi. Opisując liczbowo zjawiska masowe należy określić 2 składniki: o Systematyczny- jako wyraz oddziaływania przyczyn głównych o Przypadkowy- odzwierciedlający wpływ czynnika losowego Zastosowanie do analizy odpowiednich metod statystycznych pozwala nam na: Porządkowanie i klasyfikacja danych Dokładniejszy opis danego zjawiska Badanie różnego rodzaju powiązań Formułowanie uogólnień Prognozowanie analizowanych wielkości Opracowanie statystyczne składa się z 4 etapów: • Formułowanie hipotezy merytorycznej • Gromadzenie danych liczbowych i ich klasyfikacja • Opracowania statystycznego wg wybranych metod • Weryfikacji hipotezy merytorycznej
Zbiorowością statystyczną nazywamy zbiór obiektów ( osób, przedmiotów, zdarzeń) posiadających cechy wspólne. Poszczególne elementy składowe zbiorowości statystycznej noszą nazwę jednostek statystycznych . Rozróżnia się dwa rodzaje zbiorowości statystycznych: Zbiorowość generalną ( populacja) Zbiorowość próbną ( próba, próbka) Zbiorowość generalna tworzą wszystkie obiekty będące przedmiotem badania. Musi być ona jednorodna i jednoznacznie określona. Zbiorowość próbna ( próbka) jest podzbiorem zbiorowości generalnej. Próba powinna być reprezentatywna tzn. taka aby z przyjęta dokładnością opisywała strukturę zbiorowości generalnej. Reprezentatywność próby zapewnia nam jej losowy wybór. Losowo tzn. tak, że każdy element populacji ma jednakowa szansę (prawdopodobieństwo) znalezienia się w próbie. Próba wybierana jest na drodze losowania. Metoda reprezentacyjna- zajmuje się różnymi sposobami………………………………………..
Relacje między populacją a próbą
Populacja Rachunek prawdopodobieństwa
Próba I etap: statystyka opisowa (opis próby) II etap: statystyka matematyczna (wnioskowanie na temat populacji na podstawie próby) Właściwości jakimi odznaczają się jednostki tworzące badana zbiorowość nazywamy cechami statystycznymi . Cechy można podzielić na: • Jakościowe (niemierzalne) np. płeć • Ilościowe (mierzalne) np. przeciętny dochód , wyrażane w zł, kg, cm. Cecha mierzalna z punktu widzenia matematycznego jest zmienną . Wyróżnia się zmienne mierzalne: Skokowe (przyjmują wartości ze zbioru skończonego lub przeliczalnego) Ciągłe (przyjmują wartości z określonego przedziału liczb li czb rzeczywistych) Obiekt nr Cecha x 1 x1 2 x2 ….. ….. i xi ….. ….. n xn Jeżeli cecha x- zmienna jednowymiarowa Jeżeli cecha x, y- zmienna dwuwymiarowa Jeżeli cecha x, y, z- zmienna trójwymiarowa
Cecha y y1 y2 ….. yi ….. yn
Szereg statystyczny jest to uporządkowany zbiór (ciąg) wartości zmiennej. • Szczegółowe • Strukturalne • Kumulacyjne • Geograficzne • Dynamiczne Charakterystyki liczbowe rozkładu badanej cechy Czym różnią się badane zbiorowości
Cecha z z1 z2 ….. zi ….. zn
Krzywa Gaosa La Plaza
Inna zmienność w obrębie
Asymetria prawostronna
Asymetria lewostronna
Najczęściej do opisu struktury badanej zbiorowości wykorzystuje się: • Miary położenia • Miary zmienności ( rozproszenia, dyspersji) • Miary asymetrii • Miary spłaszczenia i koncentracji
MIARY POŁOŻENIA Średnie klasyczne: Średnia arytmetyczna- jest równa sumie wartości zmiennej podzielonej przez ich liczbę n
x =
x1 + x2 + + xn
∑ xi =
i =1
n n xi- wartość zmiennej n- liczba jednostek statystycznych badanej zbiorowości Średnia ważona (dla szeregu rozdzielczego) k
x n + x2 n2 + + xk nk x = 1 1 = n x’i- wartość zmiennej ni- liczebność n-tej klasy k- liczba klas
∑ x n i
i
i =1
n
Średnia geometryczna- pierwiastek n-tego stopnia z iloczynu wartości pomiaru n
xG = n x1 × x2 × × xn = n
∏x
i
i =1
xi- wartość zmiennej n- ogólna liczebność Gdy wartości zmiennej podane są w formie przyrostów (zwłaszcza w %)
Średnia harmoniczna- jest odwrotnością średniej arytmetycznej z odwrotności wartości pomiarów. Stosujemy ją tam gdzie pomiar wyrażony jest w przeliczeniu na inne jednostki (km/h, os/km2, itp.) n n = n x H = n 1 ∑ mi ∑ x i =1 i =1 i xi- wartość zmiennej n- ogólna liczebność
Średnia kwadratowa- stosujemy ja kiedy chcemy określić przeciętne zróżnicowanie obiektów K = = n
1
n
∑ xi n
2
i =1
Xi- wartość zmiennej n- ogólna liczebność
Przeciętne pozycyjne oraz kwartyle Modalna (wartość najczęstsza, typowa, dominanta) –jest to wartość zmiennej która występuje największą liczbę razy w zbiorowości statystycznej Przykład:
-2,2,2,2,3,4,4,4,4,5,7,7,10,12,12 Modalna wynosi 4. Oznacza to, że najczęściej w biurach podróży zatrudniane są 4 osoby. Modalna dla szeregu rozdzielczego n s − n s −1 M o = x s + h (n s − n s −1 ) + (n s − n s +1 ) s- numer przedziału najliczniejszego xs- dolna granica s-tego przedziału ns- liczebność w przedziale modalnej ns-1- liczebność w przedziale poprzednim ns+1- liczebność w przedziale następnym h- rozpiętość (interwał) przedziału
11.03.2007 Statystyka-wykład II Przeciętne pozycyjne: Modalna: Dla szeregu rozdzielczego: n s − n s −1 M o = x s + h (n s − n s −1 ) + (n s − n s +1 ) Gdzie: s- nr przedziału najliczniejszego xs- dolna granica s-tego przedziału ns- liczebność w przedziale modalnej ns-1- liczebność w przedziale poprzednim ns+1- liczebność w przedziale następnym h- rozpiętość (interwał) przedziału Modalna przedział najliczniejszy
Może się zdarzyć że przedział może mieć 2 modalne.
Mediana- (wartość środkowa)Mediana jest tą wartością cechy która dzieli szereg statystyczny na 2 równe części ze względu na liczbę jednostek. Połowa obiektów posiada wartość cech nie większą, a pozostałe 50% nie mniejszą od mediany. Mediana dla nieparzystej liczby obiektów : M e = x n +1 2
Biura podróży wg liczby zatrudnionych osób w pewnej miejscowości (dane umowne): 2,2,2,3,4,4,4,4,4,5,7,7,10,12,12, Me= 4 osoby Połowa spośród badanych biur podróży zatrudnia nie więcej niż 4 pracowników.
Mediana dla parzystej liczby obiektów :
M e
1 = x n + x n +1 2 2 2
Biura podróży wg zatrudnionych osób w pewnej miejscowości (dane umowne): 2,2,2,3,4,4,4,4,4,5,7,7,10,12,12,13,13,14,14,16, Me=6 osób Połowa spośród badanych biur zatrudnia nie więcej niż 6 pracowników.
Mediana dla szeregu rozdzielczego:
h n e−1 M e = xe + ( − ∑ ni ) ne 2 i=1 Gdzie: e- nr przedziału mediany xe- dolna granica przedziału mediany h- rozpiętość (interwał) przedziału ne- liczebność przedziału mediany Σ ni- suma liczebności przedziałów od pierwszego do przedziału poprzedzającego przedział mediany
Kwartyle (wartości ćwiartkowe)- podają wartości zmiennej jakiego nie przekracza określona część zbiorowości. Kwartyl pierwszy i trzeci: q −1 h 1 ( n − ∑ ni Q1 = xq + nq 4 i =1 q −1 h 3 ( n − ∑ni ) Q3 = x q + nq 4 i =1 Analogicznie do przedziału mediany
MIARY ZMIENNOŚCI Dwie zbiorowości o różnym poziomie zmienności.
Na rysunku pokazano dwa diagramy częstości (1) i (2).
Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. •
Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy.
•
Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy.
Podstawowe miary zmienności (rozproszenia, dyspersji): Rozstęp Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp- jest to różnica między największą a najmniejszą wartością zmiennej w danej zbiorowości. Rozstęp określa obszar zmienności analizowanej cechy. R = xmax − xmin Wariancja- jest średnią arytmetyczną z kwadratów różnic poszczególnych wartości zmiennej od ich średniej arytmetycznej. Wariancja –szereg szczegółowy n
∑ ( xi − x ) s 2 =
2
i =1
n
Gdzie: xi- wartość zmiennej x- średnia arytmetyczna n- ogólna liczebność
Wariancja szereg rozdzielczy:
s
2
1
=
k
∑ ni
k
2
x ) * n *∑ ( xi − i "
1 n=
1 n= Gdzie: xi’- środek przedziału x- średnia arytmetyczna ni- liczebność w klasach
Odchylenie standardowe- określa, o ile średnio jednostki zbiorowości różnią się od średniej arytmetycznej. k
∑ ( x
i
s =
− x ) ni 2
i =1
n
= s 2
Współczynnik zmienności- jest względną miarą rozproszenia V
==
s x
*100
Gdzie: s-odchylenie standardowe
x- średnia arytmetyczna
MIARY ASYMETRII Współczynnik asymetrii Rozkład symetryczny- jest wtedy gdy średnia arytmetyczna jest równa medianie i modalnej.
As=0
X= Me= Mo Współczynnik asymetrii: As =
x − Mo s
Gdzie: x-średnia arytmetyczna Mo- modalna s- odchylenie standardowe Asymetria prawostronna: As>0
Mo x Asymetria lewostronna As 3/6
(4,5> 4/6
(5,6> 5/6
(6,+∞) 1
Parametry rozkładu Wartość oczekiwana ( nadzieja matematyczna) Wartością oczekiwaną E(X) (nadzieją matematyczną) nazywamy sumę iloczynów wartości zmiennej i odpowiadających im prawdopodobieństw. n
E ( X ) = ∑ xi p i i =1
Dla naszego rozkładu: n
E ( X ) = ∑ xi pi = 1 * i =1
1 1 1 1 1 1 + 2 * + 3 * + 4 * + 5 * + 6 * = 3,5 6 6 6 6 6 6
Wariancja Wariancją D 2 ( X ) nazywamy liczbę zdefiniowaną:
n
D ( X ) = ∑ ( xi − E ( X )) 2 * pi 2
i =1
Dla naszego przykładu: n
D ( X ) = ∑ ( xi − E ( X )) 2 * pi = (1 − 3,5) 2 * 2
i =1
(4 − 3,5) 2 *
1 6
+ (5 − 3,5) 2 *
1 6
+ (6 − 3,5) 2 *
Stąd odchylenie standardowe wynosi: D ( X )
=
2,9166
1 6
1 6
2
+ (2 − 3,5) *
1 6
2
+ (3 − 3,5) *
1 6
+
= 2,9166
1,7
=
Na egzaminie może być: Definicja prawdopodobieństwa Jak dzielą się zmienne: skokowe, ciągłe Dla zmiennej skokowej podstawowe charakterystyki to rozkład i dystrybuanta Parametry dla określenia zmiennej (nadzieja matematyczna, wariancja)
Statystyka-wykład V
29.04.2007
1. Zmienna losowa typu ciągłego. Rozkład normalny Wartość oczekiwana i wariancja zmiennej losowej x przekształconej następująco: U =
X − E ( x ) D( x )
Gdzie: E(x)- wartość oczekiwana zmiennej losowej x D(x)- odchylenie standardowe zmiennej losowej x Przekształcenie to nosi nazwę STANDARYZACJI.
Wartość oczekiwana i wariancja dla zmiennej standaryzowanej: U =
X − E ( x ) D( x )
D2(U)=1
Wynosi: E(U)=0
Zmienna losowa typu ciągłego: Zmienną losową x przyjmującą wszystkie wartości z pewnego przedziału, dla której istnieje nieujemna funkcja f taka, że dystrybuanta F(x) wyraża się wzorem: x
∫
F ( x ) = f (t )dt
dla x ∈ R
α
Nazywamy zmienną losową typu ciągłego a funkcję f, jej gęstością. Zmienna losowa ciągła x podlega rozkładowi normalnemu, jeżeli jej funkcja gęstości wyraża się następującym wzorem:
D( x)
( x − E ( x))2 exp − 2 2∏ 2 D ( x)
Gdzie: E(x)- wartość oczekiwana D2(x)- wariancja exp[x]- ex e≈ 2,71828- podstawa logarytmu naturalnego Π≈ 3,14159… Wartość parametrów w rozkładzie normalnym. Przyjęło się oznaczenie
f ( x) =
1
E ( x ) = m
2
D ( x)
= σ 2
σ
− sigma
Fakt że zmienna losowa podlega rozkładowi normalnemu zapisuje się w skrócie: X~N(m,σ) Przy takich oznaczeniach funkcję gęstości rozkładu normalnego zapisuje się następująco:
f ( x) =
σ
( x − m) 2 exp − 2 2∏ 2σ
1
Wykresem funkcji f(x) jest krzywa Gaussa- Laplace’a
F(x)
m-σ m
m+σ
x
Cechy rozkładu: Funkcja ta : • W całej dziedzinie przyjmuje wartości dodatnie • W punkcie x=m osiąga maksimum • Dla x=m-σ i x=m+σ posiada punkty przecięcia Wykres jest symetryczny względem prostej x=m • Dystrybuantę zmiennej w rozkładzie normalnym zapisuje się następująco:
f ( x) = σ
Wprowadzając standaryzację zmiennej: X~N(m,σ) Według znanej już zasady
U =
x − m σ
Otrzymujemy funkcję rozkładu w postaci
( x − m) 2 exp − 2 ∫ 2∏ 2σ
1
U 2 ex p − f ( x ) = 2∏ 2 1
I dystrybuantę:
t 2 exp − F (U ) = dt ∫ 2∏ − 2 1
Ui
α
Wykres funkcji gęstości f(u) zmiennej standaryzowanej: X~N(m,σ) Jest symetryczny względem osi rzędnych Funkcja osiąga maksimum dla U=0 Dla w=-1 i u=1 posiada punkty przecięcia Wartości dystrybuanty zmiennej X~N(m,σ) Zostały tablicowane, co oznacza, że tablice podają dla każdej wartości U0 zmiennej U, wartość dystrybuanty F(U0)
2.Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy sąd o zbiorowości generalnej, wyrażony bez wprowadzenia badania pełnego (wyczerpującego). W oparciu o wyniki otrzymane z próby podejmujemy decyzję o podjęciu lub odrzuceniu podstawionej hipotezy. Algorytmy weryfikacji hipotez statystycznych posiadają pewne wspólne cechy: Ho: m=mo Ho- hipoteza zerowa mo- wartość złożona (konkretna wartość) • Hipoteza zerowa jest podstawową hipotezą sprawdzaną • Zakłada się, że interesująca nas zmienna ciągła ma rozkład normalny o nieznanych parametrach • Oprócz hipotezy zerowej należy sformułować hipotezę alternatywną H1: m≠mo; H1: m< mo ; H1: m>mo; • Ponieważ wnioskowanie prowadzone jest na podstawie niepełnej informacji o populacji, to podejmując decyzję o przyjęciu lub odrzuceniu hipotezy możemy popełnić błąd: Istnieją 2 rodzaje błędów: o Błąd pierwszego rodzaju o Błąd drugiego rodzaju Ho Decyzja PRAWDZIWA FAŁSZYWA Błąd II rodzaju; Przyjąć Decyzja poprawna prawdopodobieństwo wystąpienia błędu= β Błąd I rodzaju; Odrzucić prawdopodobieństwo wystąpienia Decyzja poprawna błędu= α Udowodniono, że dla danej liczebności próby zmniejszenia prawdopodobieństwa α powoduje wzrost prawdopodobieństwa β. Prawdopodobieństwo 1- β nazywa się mocą testu. Spośród możliwych do wykorzystania testów należy wybrać test najmocniejszy. W praktyce wykorzystuje się najczęściej tak zwane testy istotności czyli takie, które pozwalają odrzucić hipotezę zerową z małym ryzykiem popełnienia błędu I rodzaju. Prawdopodobieństwo α wystąpienia błędu I rodzaju nosi nazwę poziomu istotności i ustala go osoba prowadząca badania statystyczne. Najczęściej przyjmuje się wartości α na poziomie 0,01; 0,02; 0,05. • Kryterium podejmowania decyzji o weryfikacji hipotezy stanowi wartość empiryczna statystyki testu • W testach istotności, statystyką testu jest najlepszy estymator danego parametru. Statystyka ma więc znany rozkład prawdopodobieństwa. • Na podstawie wyników próby losowej oblicza się wartości tej statystyki Zn. • W końcowym etapie weryfikacji podstawionej hipotezy ustala się tak zwany zbiór (obszar) krytyczny K. • Jest to zbiór tak ustalony, aby prawdopodobieństwo tego, że wartość statystyki Z, znajduje się na obszarze krytycznym, gdy prawdziwa jest H0 było równe lub mniejsze od α. P ( Z n ∈ K / H 0 ) ≤ α
•
Jeżeli wartość statystyki sprawdzającej Zn należy do zbioru krytycznego, to z prawdopodobieństwem α odrzucamy sprawdzoną hipotezę H0 na korzyść hipotezy alternatywnej H1 • Natomiast w przypadku, gdy obliczona z próby statystyka Zn nie należy do zbioru krytycznego K, to nie ma podstaw do odrzucenia H0.
Statystyka-wykład VI
13.05.2007
Cdn. Hipotezy statystyczne Wartość krytyczną Zα wyznaczającą granice zbioru K można odczytać z tablic właściwych dla rozkładu danego sprawdzianu Zn. Większość programów komputerowych podaje dokładną wartość prawdopodobieństwa p dla wyliczonej z próby wartości Zn. Zbiory krytyczne ustala się w zależności od postaci hipotezy alternatywnej:
•
Jeżeli hipoteza alternatywna ma postać H 1: m≠m0 to obszar krytyczny jest zbiorem dwustronnym. H1: m≠m0
•
-Zα 0 Zα Jeżeli hipoteza alternatywna ma postać H 1: m>m0 to obszar krytyczny jest zbiorem prawostronnym. H1: m>m0
•
Zα Jeżeli hipoteza alternatywna ma postać H 1: m
View more...
Comments