Stochastik_Skript

February 13, 2018 | Author: ClubMateMatiker | Category: Measure Theory, Logic, Mathematical Concepts, Mathematical Analysis, Probability Theory
Share Embed Donate


Short Description

Download Stochastik_Skript...

Description

Grundlagen der Stochastik In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universit¨at G¨ottingen von PD Dr. Fiebig im Wintersemester 2007/2008

Kirsten Bolze G¨ ottingen, [email protected]

Frank Werner G¨ ottingen, [email protected]

2

Inhaltsverzeichnis

Inhaltsverzeichnis Inhaltsverzeichnis

2

Literatur

4

Vorwort

5

1 Grundbegriffe 1.1 Einf¨ uhrung . . . . . . . . . . . . . . . . . . . 1.1.1 Mengentheoretische Verkn¨ upfungen . . 1.1.2 Relative H¨ aufigkeiten . . . . . . . . . 1.1.3 Axiomatik nach Kolmogoroff (1939) . 1.2 Laplace Experimente . . . . . . . . . . . . . . 1.3 Allgemeine diskrete Wahrscheinlichkeitsr¨aume 1.4 Siebformeln . . . . . . . . . . . . . . . . . . . 1.4.1 Allgemeine Siebformeln . . . . . . . . 1.4.2 Die Bonferroni-Ungleichungen . . . . . 1.4.3 Anwendung . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

6 7 7 8 8 11 13 15 15 17 20

2 Kombinatorik 2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . 2.1.1 Ziehen mit Zur¨ ucklegen (Binomialverteilung) . . . . . . . 2.1.2 Ziehen ohne Zur¨ ucklegen (Hypergeometrische Verteilung) 2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

22 26 26 27 28

3 Unabh¨ angigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 3.1 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . 3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . 3.4.1 Mit Produktexperimenten zusammenh¨angende Verteilungen . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

31 31 33 38 40 43 45

4 Zufallsvariablen, Verteilungen 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . 4.1.1 Unabh¨ angigkeit von Zufallsvariablen 4.2 Verteilungen . . . . . . . . . . . . . . . . . . 4.2.1 Eigenschaften der Possionverteilung

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . und -funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

48 48 51 56 59

5 Kenngr¨ oßen von Verteilungen 5.1 Der Erwartungswert . . . . . . . . . . . . . . . 5.1.1 Erwartungswerte einiger Verteilungen . 5.1.2 Eigenschaften des Erwartungswertes . . 5.1.3 Produktformel . . . . . . . . . . . . . . 5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . 5.2.1 Varianzen einiger diskreter Verteilungen

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

60 60 60 62 64 65 69

6 Wahrscheinlichkeitsungleichungen und das SGGZ 6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72 72 73 74

7 Faltung, bedingte Verteilungen und Korrelation 7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . 7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . 7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . 7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . 7.2.3 Anwendung der iterierten Erwartung . . . . . . . 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) 7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . .

77 77 78 78 80 82 82 83 84 85

. . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

Inhaltsverzeichnis

3

8 Erzeugende Funktion und Verzweigungsprozesse 8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . 8.1.1 Modellbildung . . . . . . . . . . . . . . . . 8.1.2 Motivation . . . . . . . . . . . . . . . . . . 8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . .

. . . .

87 92 92 92 92

9 Grenzwertsatz von de Moivre-Laplace 9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . .

95 95 98 99

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

10 Allgemeine Modelle und stetige Verteilungen 10.1 Allgemeine Wahrscheinlichkeitsr¨aume und Zufallsvariablen . . . . . . . . . . . . . . . 10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen 10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . 10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . 10.10.1 Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10.2 Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

100 100 102 104 105 105 106 106 107 108 108 108 111 114 117 122 125 125 126 127

11 Markov-Ketten mit endlichem Zustandsraum ¨ 11.1 Steuerung der Spr¨ unge: Ubergangsmatrizen und -graphen . . . . 11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . ¨ 11.1.2 Die Periode einer Ubergangsmatrix . . . . . . . . . . . . . 11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten 11.3 Invariante Maße und Konvergenzs¨atze . . . . . . . . . . . . . . . 11.4 R¨ uckkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . 11.4.1 Der R¨ uckkehrzeitensatz . . . . . . . . . . . . . . . . . . . 11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . 11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

133 133 135 136 139 140 141 146 147 150 150 152

12 Sch¨ atzer und statistische Tests 12.1 Punktsch¨ atzer . . . . . . . . . . . 12.1.1 ML-Sch¨ atzer . . . . . . . 12.1.2 Erwartungstreue Sch¨ atzer 12.2 Statistische Tests . . . . . . . . . 12.2.1 Der einseitige Gaußtest . 12.2.2 Der t-Test . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

154 154 155 156 159 161 162

. . . . . .

. . . . . .

. . . . . .

A Tabelle der Standardnormalverteilung

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

163

B Kenngr¨ oßen der wichtigsten Verteilungen 164 B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Stichwortverzeichnis

166

4

Literatur

Literatur [Dehling/Haupt] Herold Dehling, Beate Haupt : Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X [Krengel] Ulrich Krengel: Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5

Vorwort

5

Vorwort Dieses Skript ist unter einigem Arbeitsaufwand w¨ahrend der Vorlesung Grundlagen der Stochastik“ von ” PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universit¨at G¨ottingen entstanden. Der Begriff der Stochastik umfasst heutzutage die Unterbegriffe der Wahrscheinlichkeitstheorie und der Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, w¨ahrend die Statistik sich mit der Analyse und Modellierung von Datenstrukturen befasst. Die Urspr¨ unge der Stochastik als Wissenschaft gehen auf das Gl¨ ucksspiel (W¨ urfeln, Kartenspiel etc.) zur¨ uck und liegen etwa um 1630. Als erste stellten Menschen wie Pascal oder Fermat Fragen wie Was ist wahrscheinlicher? Bei vier W¨ urfen mit ” einem W¨ urfel eine 6 oder bei 24 W¨ urfen mit zwei W¨ urfeln eine Doppel-6 zu haben?“ Der Begriff der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) gepr¨agt. Die axiomatische Einf¨ uhrung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff. Heutzutage findet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualit¨atskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Pr¨amien oder in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse. In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus Prognosen f¨ ur die Daten get¨ atigt werden und gleichzeitig mittels Daten bereits bestehende Modelle gepr¨ uft und neue Modelle geschaffen werden. Es handelt sich hierbei ausdr¨ ucklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten f¨ ur das Verst¨ andnis aufwerfen wird. G¨ottingen, 23. Januar 2009 Kirsten Bolze, Frank Werner

6

1 Grundbegriffe

Motivation Zur Motivation wollen wir zwei Beispiele f¨ ur stochastische Modelle angeben. • Europ¨aische Call-Option

Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen zu k¨onnen. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht? Eine m¨ogliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines stochastischen Modells zur Entwicklung der Preisentwicklung gegeben: √  C = S(0) · Φ (ω) − k · exp (−r) · Φ ω − σ t1 Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und σ die Voluntarit¨at (Schwankung) des Marktes. ω ist gegeben als   k rt1 + σ 2 t21 − log S(0) √ ω= σ t1

und Φ ist die Verteilungsfunktion der Standard-Normalverteilung, d.h. Φ (ω) =



−∞

 2 x 1 √ exp − dx 2 2π

¨ F¨ ur dieses Modell wurde 1997 der Nobelpreis f¨ ur Okonomie verliehen. • Spracherkennung

Sei A die Mikrofonaufnahme eines gesprochenen Wortes. F¨ ur jedes Wort wi in der deutschen Sprache sei Wi das Ereignis w wurde gesprochen“ ” i

Gesucht ist nun das Wort wi , das der Sprecher tats¨achlich gesagt hat, d.h. mit unserem Modell das Wort wi , f¨ ur welches P (wi | A)

¨ durchlaufen, am gr¨oßten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.A. um alle W¨orter der deutschen Sprache abzudecken. Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet f¨ ur jedes (!) i mit Hilfe stochastischer Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zus¨atzlich die relative H¨ aufigkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen wir die Bayes-Formel P (A | wi ) · P (Wi ) P (wi | A) = 100.000 P P (A | wk ) · P (Wk ) k=1

Der Nenner dieses Ausdrucks h¨ angt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn P (A | wi ) · P (Wi ) maximal ist.

1

Grundbegriffe

1.1 Definition: Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist. Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.

1 Grundbegriffe

1.1

7

Einfu ¨ hrung

1.2 Definition: Ein diskreter Grundraum Ω = {ω1 , ω2 , ...} ist eine nicht leere, abz¨ ahlbare (oder endliche) Menge. Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis. Beispiel 1.3: F¨ ur einen W¨ urfelwurf mit einem W¨ urfel w¨are Ω = {1, 2, 3, 4, 5, 6}. 5 ∈ Ω entspricht dann dem Ergebnis 5 wurde geworfen“ und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gew¨ urfelt“. ” ” 1.4 Definition: Sei Ω ein diskreter Grundraum. Wir nennen • Ω ⊆ Ω das sichere Ereignis und • ∅ ⊆ Ω das unm¨ ogliche Ereignis. 1.1.1

Mengentheoretische Verkn¨ upfungen

Beispiel 1.5: Wir betrachten einen zweifachen W¨ urfelwurf. Ein geeigneter Grundraum hier ist 2

Ω = {1, 2, 3, 4, 5, 6) × {1, 2, 3, 4, 5, 6) = {1, 2, 3, 4, 5, 6} = {(i, j) | i, j ∈ N, 1 ≤ i, j ≤ 6} Wir betrachten die Ereignisse A =

Beim ersten Wurf wird eine 6 gew¨ urfelt“ ” A = Beim zweiten Wurf wird eine 3 gew¨ urfelt“ ” Diese Ereignisse entsprechen dann den Teilmengen A = {(6, i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω und B = {(j, 3) | j ∈ N, 1 ≤ j ≤ 6} Dann ist A ∩ B = {(6, 3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt. 1.6 Definition: Sei Ω ein diskreter Grundraum und seien Ai , i ∈ N sowie A, B Ereignisse. Dann entsprechen •



A und B treten ein“ dem Ereignis A ∩ B





A oder B treten ein“ dem Ereignis A ∪ B





Jedes der Ai , i ∈ N ist eingetreten“ dem Ereignis





Mindestens eins der Ai , i ∈ N ist eingetreten“ dem Ereignis





A ist nicht eingetreten“ dem Ereignis Ac := Ω \ A.

T

Ai

i∈N

S

Ai

i∈N

Man kann sich mittels Venn-Diagrammen gut Verkn¨ upfungen von Ereignissen verdeutlichen. 1.7 Definition: Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h. i 6= j ⇒ Ai ∩ Aj = ∅ Dann schreiben wir auch

[

i∈N

Ai =:

X i∈N

Ai

8

1 Grundbegriffe

1.1.2

Relative H¨ aufigkeiten

Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation daf¨ ur sind sogenannte relative H¨ aufigkeiten: 1.8 Definition: Sei Ω0 ein diskreter Grundraum. Die relative H¨ aufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von Relationen ω1 , ω2 , ..., ωn aus gleichwertigen Experimenten ist definiert als rn (A) :=

1 # {j = 1, ..., n | ωj ∈ A} n

Beispiel 1.9: Bei 300 W¨ urfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1“ ” das Ergebnis Spitze nach oben“ und 0“ das Ergebnis Kopf nach oben“. Dann ist ” ” ” Ω := {0, 1}

300

= {(ω1 , ..., ω300 ) | ωi ∈ {0, 1} ∀ 1 ≤ i ≤ 300}

ein geeigneter Grundraum f¨ ur dieses Experiment. Außerdem setzt man Ω0 := {0, 1} als den Grundraum f¨ ur einen einfachen Wurf der Reißzwecke fest. Entsprechend ist f¨ ur n = 300 also Ω = Ωn0 und es gilt rn ({1}) =

1 300

· 124.

Wir wollen nun einige offensichtliche Eigenschaften relativer H¨aufigkeiten in einem Lemma festhalten: 1.10 Lemma: Es gelten die folgenden Relationen: • 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0 . • rn (Ω0 ) = 1. • rn (A + B) = rn (A) + rn (B) f¨ ur A, B ⊆ Ω mit A ∩ B = ∅. / ∞ gegen die Wahrscheinlichkeit P (A) Die Idee ist nun, dass die relativen H¨ aufigkeiten rn (A) f¨ ur n eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die relativen H¨aufigkeiten f¨ ur immer gr¨ oßer werdendes n stabilsieren. Um diese Aussage auch beweisen zu k¨onnen, brauchen wir nun eine geeignete Axiomatik. 1.1.3

Axiomatik nach Kolmogoroff (1939)

1.11 Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei Ω ein diskreter Grundraum und P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erf¨ ullt: (A1) Positivit¨ at Es gilt P (A) ≥ 0 f¨ ur alle A ⊆ Ω. (A2) Normiertheit Es gilt P (Ω) = 1. (A3) σ-Additivit¨ at F¨ ur jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... ⊆ Ω gilt ! ∞ ∞ X X P (Ai ) P Ai = i=1

i=1

P heißt Wahrscheinlichkeitsmaß oder auch (Wahrscheinlichkeits-)Verteilung auf Ω. P (A) ist die Wahrscheinlichkeit des Ereignisses A ⊂ Ω.

1 Grundbegriffe

9

Folgerung 1.12 (Rechenregeln): (R1) Es ist P (∅) = 0. (R2) Es gilt Additivit¨ at, d.h. n X

P

Ai

i=1

!

=

n X

P (Ai )

i=1

f¨ ur endlich viele paarweise disjunkte Mengen A1 , ..., An . Beweis: (R1) Setze Ai = ∅ f¨ ur i = 1, 2, 3, .... Dann gilt R ∋ P (∅) = P

∞ [

Ai

i=1

!

(A3)

=

∞ X

P (Ai ) =

∞ X

P (∅)

i=1

i=1

Aus der Konvergenz der Summe folgt P (∅) = 0. (R2) Setze in (A3) Ai = ∅ f¨ ur i > n und benutze (R1). In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erh¨alt, empirisch verifiziert werden. Beim Wurf der Reißzwecke setzt man z.B. Ω = {0, 1}, P (1) = 0.4 und P (0) = 0.6 (wobei 1 Spitze oben“ ” bedeutet) und best¨ atigt sich dies so in unserem Versuch mit 300 W¨ urfen, denn r300 (1) =

124 176 ≈ 0.4 und r300 (0) = ≈ 0.6 300 300

1.13 Definition: Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit Ac := Ω \ A Wir erinnern uns an die de Morgan’schen Regeln: 1.14 Hilfssatz: F¨ ur zwei Mengen M und N gelten: Mc ∪ Nc

Mc ∩ Nc

= =

(M ∩ N )

c

(1.1)

c

(M ∪ N )

(1.2)

Beweis: Sei x ∈ M c ∪ N c . Dann gilt sicherlich entweder x ∈ M c oder x ∈ N c (oder beides), d.h. x ∈ / M oder x∈ / N (oder beides). Daher ist x ∈ / M ∩ N und daher x ∈ (M ∩ N )

c

c

Ist andersherum x ∈ (M ∩ N ) , so ist x ∈ / M ∩ N und daher entweder x ∈ / N oder x ∈ / M (oder beides). Entsprechend gilt sicherlich x ∈ M c oder x ∈ N c was (1.1) zeigt. Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x ∈ / M und x ∈ / N . Daher gilt auch x ∈ / M ∪ N und entsprechend c x ∈ (M ∪ N ) c

Ist andersherum x ∈ (M ∪ N ) , so ist x ∈ / M ∪ N , also x ∈ / M und x ∈ / N . Das hat aber x ∈ M c und x ∈ N c zur Folge und daher gilt x ∈ Mc ∩ Nc Das zeigt (1.2).

Bemerkung 1.15: Nat¨ urlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und Schnitte. Sind Ai , i ∈ N Mengen, so gilt: !c ∞ ∞ [ \ c Ai = (1.3) Ai i=1 ∞ \

i=1

i=1

Aci

=

∞ [

i=1

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.

Ai

!c

(1.4)

10

1 Grundbegriffe

1.16 Lemma (weitere Rechenregeln): Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum. A, B und Ai seien Ereignisse f¨ ur i ∈ N. Dann gilt: (R3) P (A) = 1 − P (Ac )

(R4) P (A) ≤ 1 f¨ ur alle A ⊂ Ω (R5) P (A \ B) = P (A) − P (B) falls B ⊂ A (R6) P (B) ≤ P (A), wenn B ⊂ A

(Monotonie)

(R7) F¨ ur beliebige endliche oder unendliche Folgen A1 , A2 , A3 , ... gilt ! X [ P P (Ai ) Ai ≤

(Boole’sche Ungleichung)

i

i

(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt

(Stetigkeit von unten) P

∞ [

Ai

!

Ai

!

i=1

(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt

= lim P (Ai ) i→∞

(Stetigkeit von oben) P

∞ \

i=1

= lim P (Ai ) i→∞

Beweis: Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt: (A2)

(R2)

(R3) Es gilt Ω = A ∪ Ac mit A, Ac disjunkt und damit 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ). Durch Umstellen erh¨ alt man P (A) = 1 − P (Ac ). (A1)

(R4) Da P (Ac ) ≥ 0 folgt mit (R3) P (A) = 1 − P (Ac ) ≤ 1. (R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \ B) + P (B). (A1)

(R6) Nach Rechenregel (R3) ist P (B) = P (A) − P (A \ B). Außerdem ist P (A \ B) ≥ 0 und es folgt die Behauptung. (R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 ∪ A2 ), ... d.h. Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1 ) f¨ ur n ∈ N Die Bi sind paarweise disjunkt und Bi ⊂ Ai f¨ ur alle i ∈ N. Es gilt also [ X Ai Bi = i∈N

i∈N

und damit P

[

i∈N

Ai

!

X

=P

i∈N

Bi

!

(A3)

=

X i∈N

(R4)

P (Bi ) ≤

X i∈N

(R8) Setze die Bi wie eben. Dann gilt: P

∞ [

i=1

Ai

!

=

∞ X

P

Bi

i=1

(A3)

=

∞ X

!

P (Bi )

i=1

= (R2)

=

=

lim

n→∞

n X

lim P

n→∞

P (Bi )

i=1

n X i=1

lim P (An )

n→∞

Bi

!

P (Ai )

1 Grundbegriffe

11

(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar

Ac1 ⊂ Ac2 ⊂ ...

Wir berechnen daher P

∞ \

i=1

Ai

!

(1.4)

=

∞ [

P

Aci

i=1 (R3)

=

(R8)

=

(R3)

=

=

1−P

∞ [

!c !

Aci

i=1

!

1 − lim P (Aci ) i→∞



 1 − 1 − lim P (A1 ) i→∞

lim P (Ai )

i→∞

was die Behauptung zeigt.

1.2

Laplace Experimente

1.17 Definition: Ein Paar (Ω, P ) heißt Laplace-Raum, wenn • Ω = {ω1 , ..., ωn } endlich ist und • f¨ ur alle A ⊆ Ω

P (A) =

#A # g¨ unstige F¨ alle“ = ” #Ω # m¨ ogliche F¨ alle“ ”

gilt. P heißt Laplace-Verteilung oder diskrete Gleichverteilung auf Ω = {ω1 , ..., ωn }. Bemerkung 1.18: Sei (Ω, P ) ein Laplace-Raum. Dann ist P ({ω}) =

1 1 = ∀ω∈Ω #Ω n

Beispiel 1.19: (1) Gegeben sei ein W¨ urfel. Wir setzen als Grundraum Ω = {1, 2, ..., 6} mit P als der Laplace-Verteilung. Uns interessiert das Ereignis A =“gerade Zahl“ = {2, 4, 6}. Dann gilt: P (A) =

#A #{2, 4, 6} 1 = = #Ω 6 2

(2) Beim Wurf der Reißzwecke liegt kein Laplace-Raum vor, da P (1) = 0.4 6= 0.6 = P (0) (3) Man muss darauf achten den richtigen“ Laplace-Raum zu w¨ahlen. Beim (gleichzeitigen) Wurf ” zweier fairer M¨ unzen ist die Wahrscheinlichkeit des Ereignisses B = “einmal Kopf und einmal Zahl wird geworfen“ gesucht. Modell 1: Wir setzen Ω := {KK, KZ, ZK, ZZ} als Laplace-Raum. Das liefert P (B) = P ({KZ, ZK}) =

#{ZK, KZ} 2 1 = = #Ω 4 2

12

1 Grundbegriffe

Modell 2: Wir setzen Ω := {KK, KZ, ZZ} ohne Beachtung der Ordnung - das liefert P ({KZ}) =

1 3

Dieses Ergebnis ist empirisch wiederlegbar. (4) Summe von Augenzahlen Es werde zwei Mal gew¨ urfelt. Sei Am =“Die Augensumme ist m“ f¨ ur m = 2, 3, ..., 12. 2 Unser Modell ist Ω = {1, 2, ..., 6} = {(i, j) | 1 ≤ i, j ≤ 6} als Laplace-Raum, d.h. P (Am ) =

#Am #Ω

Offenbar ist #Ω = 36. Nun ergibt sich #A2 #A3 #A4 #A5 #A6 #A7 #A8

#A12

= #{(1, 1)} = #{(1, 2), (2, 1)} = #{(1, 3), (2, 2), (3, 1)} = #{(1, 4), (2, 3), (3, 2), (4, 1)} = #{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} = #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} = #{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} .. . = #{(6, 6)}

= = = = = = = .. . =

1 2 3 4 5 6 5

P (A2 ) P (A3 ) P (A4 ) P (A5 ) P (A6 ) P (A7 ) P (A8 )

1 P (A12 )

= = = = = = = .. . =

1 36 2 36 3 36 4 36 5 36 6 36 5 36

1 36

(5) Teilungsproblem des Luca Paccioli (1494) Zwei Spieler A und B wiederholen ein faires Spiel (z.B. M¨ unzwurf). Wer zuerst sechs Spiele gewonnen hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist der Einsatz gerecht aufzuteilen? Um diese Frage zu beantworten, betrachten wir Verl¨aufe, die zu einer Entscheidung f¨ uhren. Es ergeben sich die folgenden Modelle: Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 F¨allen. Damit gehen Einsatzes an Spieler A und 14 an Spieler B.

3 4

des

Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Definition des Laplace-Raums gehen 87 des Einsatzes an Spieler A und 81 an Spieler B. (6) Wir werfen 10 mal eine M¨ unze. Gesucht ist die Wahrscheinlichkeit des Ereignisses C = “mindestens 1 mal tritt Kopf auf“ Unser Modell ist Ω := {K, Z}10 = {(a1 , ..., a10 ) | ai ∈ {K, Z}} als Laplace-Raum. Es folgt #Ω = 1024 und wir berechnen P (C) =

#C #Ω

mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen! P (C) = 1 − P (C c ) = 1 −

# { Es tritt kein mal Kopf auf“} 1 1023 #C c ” =1− =1− = #Ω #Ω 1024 1024

(7) Maxima von Augenzahlen Es wird k mal gew¨ urfelt. Sei m ∈ {1, 2, ..., 6} und das Ereignis Bm =“h¨ochste Augenzahl ist m“. Wir verwenden als Modell den Laplace-Raum Ω := {1, ..., 6}k = {(a1 , ..., ak ) | ai ∈ {1, ..., 6}} F¨ ur 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so P (Am ) =

mk #Am = k. #Ω 6

Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am . Die Rechenregel (R5) liefert nun P (Bm ) = P (Am ) − P (Am−1 ) =

(m − 1)k mk − (m − 1)k mk − = . k k 6 6 6k

1 Grundbegriffe

1.3

13

Allgemeine diskrete Wahrscheinlichkeitsr¨ aume und -funktionen

1.20 Lemma: Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte P ({ω}) , ω ∈ Ω Beweis: Sei A ⊆ Ω beliebig. Dann gilt

A=

[

ω∈A

{ω} =

X

ω∈A

{ω}

und diese Vereinigung ist abz¨ ahlbar, da der Grundraum Ω selbst schon abz¨ahlbar ist. Es folgt aus (A3): ! X X P (A) = P {ω} = P ({ω}) . ω∈A

ω∈Ω

Daher ist P durch die Werte in der Voraussetzung bereits festgelegt. Bemerkung 1.21: Wegen (A1) und (R4) ist bereits klar, dass 0 ≤ P ({ω}) ≤ 1 f¨ ur alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch ! X X (A3) P ({ω}) = P {ω} = P (Ω) ω∈Ω

(A2)

=

1

ω∈Ω

gelten. Das veranlasst uns zu folgender 1.22 Definition: / [0, 1] mit der Eigenschaft Sei Ω ein diskreter Grundraum. Eine Abbildung p : Ω X p (ω) = 1 ω∈Ω

heißt Wahrscheinlichkeitsfunktion auf Ω. Bemerkung 1.23: Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist p (ω) := P ({ω}) wie oben gesehen eine Wahrscheinlichkeitsfunktion. Beispiel 1.24: Wir betrachten den zu einmaligem W¨ urfeln geh¨origen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion p gegeben durch p (1) = p (2) = ... = p (6) =

1 . 6

Beispiel 1.25: Wir betrachten wieder unser Beispiel der Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion p ist gegeben durch p (1) = 0.4, p (0) = 0.6. 1.26 Satz: Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch X P (A) := p (ω) , A ⊆ Ω ω∈A

eine Wahrscheinlichkeitsverteilung P auf Ω.

14

1 Grundbegriffe

Beweis: Wir m¨ ussen lediglich die Axiome (A1), (A2) und (A3) pr¨ ufen. (A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort X

P (A) =

ω∈A

(A2) Offenbar ist P (Ω) =

X

p (ω) ≥ 0. | {z } ≥0

p (ω) = 1.

ω∈Ω

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist P

∞ X i=1

Ai

!

=

X

ω∈

∞ P

p (ω) .

Ai

i=1

Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der Disjunktheit der Ai : ! ∞ ∞ X ∞ X X X P (Ai ) . p (ω) = P Ai = i=1

i=1 ω∈Ai

i=1

Das zeigt die Behauptung. Bemerkung 1.27: F¨ ur diskrete Grundr¨ aume Ω haben wir also folgendes: Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen p auf Ω lassen sich bijektiv durch P 7→ p, p (ω) := P ({ω}) , ω ∈ Ω ineinander abbilden. Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen arbeitet. Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0, 1] oder Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach der Wahrscheinlichkeit eines einzelnen Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit w¨are stets 0. Man stelle sich Beispielsweise einen Zufallsgenerator vor, der gleichverteilt“ Zahlen aus [0, 1] zieht. Die ” Wahrscheinlichkeit, dass eine 0 gezogen wird, m¨ usste dann 0 sein, aber die Summe u ¨ber alle Zahlen der Wahrscheinlichkeiten w¨ are weiterhin 1. Das macht schlicht und ergreifend keinen Sinn! Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abz¨ahlbare) Grundr¨aume Ω verallgemeinern und liefern so eine einheitliche Theorie f¨ ur alle Wahrscheinlichkeitsr¨aume. Beispiel 1.28: Wir k¨onnen einen gef¨ alschten W¨ urfel modellieren durch p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2. Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1, 2, ..., 6}. Die zugeh¨orige Wahrscheinlichkeitsverteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung. Beispiel 1.29: Auf Ω = {2, 3, ..., 12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor   5 6 5 1 1 2 . , , ..., , , , ..., 36 36 36 36 36 36 1 2 Damit ist nat¨ urlich gemeint, dass p (2) = 36 , p (3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion definiert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem W¨ urfeln.

1 Grundbegriffe

1.4

15

Siebformeln

In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder absch¨atzen, wenn wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω, P ) ein Wahrscheinlichkeitsraum. 1.30 Lemma: Sind A1 , A2 ⊆ Ω Ereignisse, so gilt P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) . Beweis: Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2 ). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅. Daher gilt: P (A1 ∪ A2 )

= (R2)

P (B1 ∪ B2 )

=

P (B1 ) + P (B2 )

=

P (A1 ) + P (A1 \ (A1 ∩ A2 ))

(R5)

=

P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) .

Das zeigt die Behauptung. Beispiel 1.31: Wir definieren das Ereignis A als A:= Eine in 1,2,...,100 rein zuf¨allig gew¨ahlte Zahl ist durch 2 oder durch 5 teilbar“ ” Um P (A) zu berechnen definieren wir A2 := Eine in 1,2,...,100 rein zuf¨allig gew¨ahlte Zahl ist durch 2 teilbar“ ” A5 := Eine in 1,2,...,100 rein zuf¨allig gew¨ahlte Zahl ist durch 5 teilbar“ ” Dann gilt A = A2 ∪ A5 , offenbar ist P (A2 ) = P (A2 ∩ A5 )

50 100

= 21 , P (A5 ) =

20 100

=

1 5

und

= P ( Eine in 1,2,...,100 rein zuf¨allig gew¨ahlte Zahl ist durch 2 und durch 5 teilbar“) ” 1 10 = . = P ( Eine in 1,2,...,100 rein zuf¨allig gew¨ahlte Zahl ist durch 10 teilbar“) = ” 100 10

Nach Lemma 1.30 ist also P (A) = P (A2 ) + P (A5 ) − P (A2 ∩ A5 ) =

1 1 1 3 + − = . 2 5 10 5

Sind A1 , A2 , A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) , wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus den folgenden allgemeinen Siebformeln. 1.4.1

Allgemeine Siebformeln

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse, n ≥ 2. Setze X Sk := P (Ai1 ∩ ... ∩ Aik ) 1≤i1 0 ist, d.h. falls die Zahl n−1 Y

piν ,iν+1

ν=0

strikt positiv ist. Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine L¨ ange. 11.1.1

Potenzen der Matrix P

Im Weiteren ben¨ otigen wir st¨ andig n-te Potenzen der Matrix P. Sei n ∈ N und N = #S. Man beachte: • Die N × N -Matrix P2 = P · P ist gegeben durch X X P2 (i, j) = pi,k · pk,j = P (i, k) · P (k, j) , k∈S

k∈S

• Allgemein folgt induktiv f¨ ur Pn = P · Pn−1 , dass X Pn (i, j) = pi,i1 · ... · pin−1 ,j , i1 ,...,in−1 ∈S

i, j ∈ S.

i, j ∈ S,

(11.1)

d.h. dass die Zahl Pn (i, j) genau die Summe aller Gewichte von Pfaden der L¨ange n von i nach j ist. Damit haben wir sofort folgenden 11.14 Satz: ¨ Sei P eine Ubergangsmatrix auf S. Dann gilt: P ist genau dann irreduzibel, wenn es f¨ ur jedes Paar i, j ∈ S ein n = n (i, j) ∈ N mit Pn (i, j) > 0 gibt.

136

11 Markov-Ketten mit endlichem Zustandsraum

Beweis: Ist P irreduzibel, so gibt es zu i, j ∈ S ein n = n (i, j) und einen Pfad der L¨ange n von i nach j mit Gewicht λ ∈ (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte von Pfaden der L¨ange n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt Pn (i, j) ≥ λ > 0. Gibt es zu i, j ∈ S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass ein Pfad von i nach j in GP der L¨ ange n existiert. Beispiel 11.15: Sei 0 1

P= Dann ist 1 0

0 1

!

2

1 0

!

. !

0 1 1 0

4

= P = P = ... und

= P = P3 = P5 = ....

Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugeh¨origen Graphen GP leicht erkennen: 1

*

1 j

2 .

1

Beispiel 11.16: ¨ Wir betrachten wieder die Ubergangsmatrix 0

1

1 2

1 2

!

1 2 1 4

1 2 3 4

!

1, 2

o

P= aus Beispiel 11.9. Dann ist 2

P = womit offenbar n = 2 f¨ ur jedes Paar i, j ∈ S = zu zeigen.

n

,

ausreicht, um die Irreduzibilit¨at mit dem Satz

¨ Wir werden meist nur irreduzible Ubergangsmatrizen P betrachten! 11.1.2

¨ Die Periode einer Ubergangsmatrix

11.17 Definition: ¨ Sei P eine irreduzible Ubergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist der gr¨ oßte gemeinsame Teiler der Menge {n ∈ N | es gibt einen Pfad der L¨ ange n von i nach i} = {n ∈ N | Pn (i, i) > 0} . Beispiel 11.18: ¨ Wir betrachten wieder die Ubergangsmatrix P=

0 1

1 0

!

aus Beispiel 11.15. ur den Zustand i = 1 existieren offenbar Pfade mit L¨angen 2,4,6,8,... von i nach   F¨ i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Definition auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.   Genauso ist d 2 = 2.

11 Markov-Ketten mit endlichem Zustandsraum

137

Beispiel 11.19: Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist ! 0 1 P= . 1 1 2

2

• F¨ ur i = 1 finden wir offenbar Pfade von i nach i mit den L¨angen 2,3,4,5,6 usw., schließlich k¨onnen wir im Zustand   ” 2 “ immer rotieren. Das gr¨oßte gemeinsame Teiler dieser Menge ist 1, d.h. wir haben d 1 = 1.

einen • F¨ ur i = 2 gibt es sogar   Pfad von i nach i mit L¨ange 1, weshalb es keinen gr¨oßeren Teiler als 1 geben kann. Es folgt d 2 = 1.

Nach diesen beiden Beispielen kann man schon vermuten: F¨ ur jedes i ∈ S ist d(i) gleich. In der Tat ist diese Aussage stets richtig: 11.20 Satz: ¨ Sei P eine irreduzible Ubergangsmatrix auf S. Dann ist die Periode d(i) f¨ ur jedes i ∈ S gleich. Beweis: Seien i, j ∈ S. Es gen¨ ugt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) d(j). Da P irreduzibel ist finden wir einen Weg i ist dann

w1

/ j mit |w1 | = r und j w1 w2

i mit |w1 w2 | = r + s. Das zeigt zun¨ achst

Ist nun j

w

w2

/ i mit |w2 | = r. Insbesondere

/i

d(i) r + s.

(11.2)

/ j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) n. Da dann w1 ww2

i

/i

ein Pfad mit |w1 ww2 | = r + s + n ist, folgt daraus d(i) r + s + n. Mit (11.2) und (11.3) folgt aber d(i) n, was zu zeigen war.

(11.3)

Bemerkung 11.21: Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zust¨anden ¨ auch f¨ ur nicht irreduzible Ubergangsmatrizen P definieren, allerdings kann dann d(i) 6= d(j) f¨ ur i 6= j, i, j ∈ S gelten. 11.22 Definition: ¨ Sei P eine irreduzible Ubergangsmatrix auf S. Wir nennen die Zahl d := d(i), i ∈ S beliebig die Periode von P. Nach obigem Satz ist d wohldefiniert. 11.23 Definition: ¨ Sei P eine irreduzible Ubergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch. Bemerkung 11.24: ¨ Zur Bestimmung der Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Ubergangsgraphen GP zum Beispiel eine Schleife der Form p3 >0

p1

)i

... j p2

so w¨ahlt man als Zustand i und hat sofort d = 1.

Z

,

138

11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.25: ¨ ¨ Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen 1 2

1 2

*

1 j

1 2

*

2 j

1 2

*

3 j

1 2

4

1 2

gegeben ist. Da es offenbar nur Wege gerader L¨angen von i nach i f¨ ur jedes i ∈ S = geben kann, ist d = 2.

n

1, 2, 3, 4

o

Beispiel 11.26: ¨ ¨ Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen 6 1 V 1 2

1 2

1 2

2

1 2

1 2

 3 3

sv 1 2

gegeben ist. Dann finden wir f¨ ur jedes i ∈ S = folgt.

n

1, 2, 3

o

Wege der L¨ange 2 und 3, weshalb d = 1

11.27 Satz: ¨ Seine Ubergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit Pn (i, j) > 0 ∀ i, j ∈ S gibt. Beweis: Wir wollen die folgende zahlentheoretische Tatsache verwenden: Ist der gr¨oßte gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler nat¨ urlicher Zahlen = 1, so gibt es ein k ∈ N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als m = a1 · n1 + ... + ak nk mit Koeffizienten ai ∈ N, i = 1, .., k. Dies sieht man leicht u ¨ber die Theorie der Hauptideale ein.   ⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d 1 = 1 und es gibt nach unserer zahlentheoretischen ” Tatsache ein M ∈ N, s.d. f¨ ur alle m ≥ M ein Weg 1

w

/ 1 , |w| = m

existiert. F¨ ur #S = N setze nun n := M + 2N . Da P irreduzibel ist, finden wir zu i, j ∈ S beliebig einen Weg w1 /j i mit |w1 | ≤ N , indem wir keine Zust¨ ande unn¨otigerweise doppelt besuchen. Genauso existiert auch ein Weg w2 /j 1 mit |w2 | ≤ N . Gem¨ aß der Wahl von M finden wir einen Pfad 1

w

/ 1

11 Markov-Ketten mit endlichem Zustandsraum

139

mit |w| = 2N − |w1 | − |w2 | + M ≥ M . Damit ist i

w1 ww2

/j

mit |w1 ww2 | = 2N + M , also Pn (i, j) > 0. ⇐“ Ist Pn (i, j) > 0 f¨ ur alle i, j ∈ S, so folgt aus der Darstellungsformel ” X Pn+1 (i, j) = P (i, k) · Pn (k, j) k∈S

und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der L¨ange N ist , auch sofort Pn+1 (i, j) > 0 ∀ i, j ∈ S. Daher gibt es Wege der L¨ange n und n + 1 von 1 nach 1 . Es folgt d(1) (n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch. Die Irreduzibilit¨ at von P folgt bereits aus Satz 11.14.

11.2

Markov-Ketten

Von jetzt an werden wir stets ohne Einschr¨ankung S = {1, ..., N } annehmen. Bisher haben wir in diesem Zusammenhang unsere Zust¨ ande stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen. Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist. 11.28 Definition: Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung π0 := (π0 (1) , ..., π0 (N )) . 11.29 Definition: ¨ Sei P eine Ubergangsmatrix und π0 eine Startverteilung auf S. Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge X0 , X1 , X2 , X3 , ... von (diskreten) Zufallsvariablen mit Werten in S, s.d. (1) P (X0 = i) = π0 (i) (2) F¨ ur alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1 , ..., in−k

(Startverteilung) (Markov-Eigenschaft) ∈ S mit P (Xn = in , ..., Xn−k = in−k ) 6= 0 gilt

P (Xn+1 = in+1 | Xn = in , ..., Xn−k = in−k ) = P (Xn+1 = in+1 | Xn = in ) = P (in , in+1 ) . Bemerkung 11.30: (1) Xn gibt in diesem Modell den zuf¨alligen Zustand zur Zeit n ∈ N an. (2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen Prozesses X0 , X1 , X2 , ..., dass die Wahrscheinlichkeit f¨ ur den n¨achsten Zustand nur vom jetzigen ” Zustand und nicht von der weiteren Vergangenheit abh¨angt“, wie wir es in der Idee zu Beginn gefordert haben. Die Forderung P (Xn = in , ..., Xn−k = in−k ) 6= 0 ist mathematisch unerl¨asslich, wir werden sie aber stets stillschweigend annehmen. ¨ Man kann sich nun Fragen, ob es u ur jede Ubergangsmatrix und ¨berhaupt Markov-Ketten gibt (d.h. ob f¨ jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Maßtheorie beantwortet diese Frage mit ja. Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige“ ” Modell f¨ ur das zuf¨ allige, durch P gesteuerte Wandern auf GP bei zuf¨alligem, durch π0 gesteuertem Start handelt.

140

11.2.1

11 Markov-Ketten mit endlichem Zustandsraum

Drei elementare Wahrscheinlichkeiten von Markov-Ketten

Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29. Bemerkung 11.31 (Pfadwahrscheinlichkeiten): F¨ ur m ∈ N und i0 , i1 , ..., im ∈ S haben wir  P Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0 = | {z }

P (Xn+m = im | B)

=:B

Markov-Eigenschaft

=

P (im−1 , im ) · P (B) .

Daher folgt induktiv P (Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0 ) =

m Y

ν=1

P (iν−1 , iν ) · P (Xn = i0 ) .

Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist P (X0 = ii ) = π0 (i0 ) durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also genau unseren W¨ unschen! ¨ Bemerkung 11.32 (m-Schritt Ubergangswahrscheinlichkeiten): Sind i, j ∈ S, so erh¨ alt man durch disjunkte Zerlegung von S in seine Elemente sofort P (Xn+m = j, Xn = i) X P (Xn+m = j, Xn+m−1 = im−1 , ..., Xn+1 = i1 , Xn = i)

=

im−1 ,...,i1 ∈S

Bemerkung 11.31

P (Xn = i) ·

=

(11.1)

X

im−1 ,...,i1 ∈S

P (i, i1 ) · P (i1 , i2 ) · ... · P (im−1 , j)

P (Xn = i) · P (i, j) .

=

Insbesondere folgt durch Division des Terms P (Xn = i), dass P (Xn+m = j | Xn = i) = Pm (i, j) . Beispiel 11.33: Ist P=

0

1

1 2

1 2

!

¨ die Ubergangsmatrix aus Beispiel 11.9, so berechnet man ! ! P2 =

1 2 1 4

1 2 3 4

, P4 =

3 8 5 16

5 8 11 16

, P10 ≈

0.33398 0.33301

5 16

= 0.3125.

Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) =

0.66602 0.66699

Bemerkung 11.34 (Verteilung zur Zeit n): Sei πn (j) := P (Xn = j) , j ∈ S

!

.

die Verteilung von Xn . Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der Formel von der totalen Wahrscheinlichkeit f¨ ur jedes j ∈ S πn (j)

= (3.2)

=

P (Xn = j) X P (Xn = j | X0 = i) · P (X0 = i) i∈S

Bemerkung 11.32

=

X i∈S

=

Pn (i, j) · π0 (i)

(π0 Pn ) (j) ,

11 Markov-Ketten mit endlichem Zustandsraum

141

wobei π0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 × N -Matrix) π0 und der N × N -Matrix Pn bezeichnet. Das liefert die Formel

π n = π 0 Pn .

(11.4)

Beispiel 11.35: Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa π0 = (0, 1), d.h. starten wir mit Sicherheit im Zustand 2, so ist   5 11 π4 = π0 P4 = zweite Zeile von P4 = . , 16 16 Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.  unzwurf f¨ ur den Startzustand entspricht, so ist Ist dagegen π0 = 12 , 21 , was etwa einem M¨   1 1 11 21 π4 = π0 P4 = · erste Zeile von P4 + · zweite Zeile von P4 = . , 2 2 32 32 Wir werden im n¨ achsten Abschnitt allgemein sehen, dass   /∞ 1 2 n / πn , 3 3 f¨ ur jede beliebige Startverteilung π0 gilt!

11.3

Invariante Maße und Konvergenzs¨ atze

11.36 Definition: ¨ Ist P eine Ubergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass πP = π ist, so nennt man π eine invariante Verteilung. Bemerkung 11.37: Der Begriff invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt ”  πPn = πP Pn−1 = πPn−1 = ... = π.

D.h. wenn X0 , X1 , X2 , ... eine Markov-Kette zu P mit der speziellen Startverteilung π0 = π ist, so gilt πn = π ∀ n ∈ N nach (11.4). 11.38 Satz (Konvergenzsatz): ¨ Sei P eine irreduzible und aperiodische Ubergangsmatrix. (1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von Pn (exponentiell schnell) gegen π, d.h. Pn (i, j)

/∞

n

/ π (j) ∀ i ∈ S.

(2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung π0 , so gilt πn d.h. P (Xn = j)

n

/∞

n

/ π (j) f¨ ur alle j ∈ S.

/∞

/ π,

142

11 Markov-Ketten mit endlichem Zustandsraum

Beweis: (1) Wir unterteilen den Beweis in zwei Schritte:

Schritt I Sei j ∈ S beliebig aber fest. Wir setzen (n)

mj

(n)

Mj Wegen

:= :=

min Pn (i, j) = b Minimum der Werte der j − en Spalte von Pn , i∈S

max Pn (i, j) = b Maximum der Werte der j − en Spalte von Pn . i∈S

(n+1)

mj

=

min Pn+1 (i, j)

=

min

i∈S

i∈S

≥ min i∈S

X

P (i, k) Pn (k, j)

k∈S

X

(n)

P (i, k) mj

k∈S

(n)

= mj und (n+1)

Mj

=

max Pn+1 (i, j)

=

max

i∈S

i∈S

≤ min i∈S

=

X

P (i, k) Pn (k, j)

k∈S

X

(n)

P (i, k) Mj

k∈S

(n) Mj

(n)

(n)

ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj fallend in n. Unser Ziel ist es nun zu zeigen, dass (n)

Mj

(n)

− mj

n

/∞

/0

monoton

(11.5)

gilt. Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt, s.d. PL (i, j) ≥ δ ∀ i, j ∈ S ist. Sei n ∈ N zun¨ achst fest. W¨ ahle • ein i0 ∈ S mit

(n+L)

Pn+L (i0 , j) = mj

und • ein i1 ∈ S mit Sei nun

(n+L)

Pn+L (i1 , j) = Mj

 I+ := k ∈ S | PL (i1 , k) ≥ PL (i0 , k)

und I− := S \ I+ . Mit dieser Einteilung folgt X   X L P (i1 , k) − PL (i0 , k) PL (i1 , k) − PL (i0 , k) + k∈I+

.

=

X

k∈S

k∈I−

=

PL (i1 , k) −

1 − 1 = 0.

X

PL (i0 , k)

k∈S

(11.6)

11 Markov-Ketten mit endlichem Zustandsraum

143

Damit gilt dann (n+L)

Mj

(n+L)

− mj

= Pn+L (i1 , j) − Pn+L (i0 , j) X X = Pn (i1 , k) PL (k, j) − Pn (i0 , k) PL (k, j) k∈S

X

=

| k∈S

 PL (i1 , k) − PL (i0 , k) Pn (k, j) {z }

k∈I+

k∈I−

X

=

k∈S

=:dk

X

dk Pn (k, j) +

dk Pn (k, j) ,

und da f¨ ur k ∈ I+ offenbar dk ≥ 0 und f¨ ur k ∈ I− offenbar dk < 0 gilt folgt so X X (n+L) (n+L) (n) (n) Mj − mj ≤ d k Mj + d k mj k∈I+

X

(11.6)

=

k∈I−



k∈I+



≤ ≤

(n)

Mj

(m·L)

Mj

(m·L)

− mj (n)

Da wir schon wissen, dass mj Aussage (11.5).



(n)

− mj 

(n)

− mj

m

≤ (1 − δ)

 |

(0)

Mj



 X  PL (i1 , k) − δ · k∈I+

(n)

(1 − δ) · Mj

Induktiv folgt also f¨ ur jedes m ∈ N, dass 

(n)

d k Mj

(n)

− mj

 (0) − mj {z }



.

m

/∞

/ 0.

≤1

(n)

monoton w¨achst und Mj

monoton f¨allt folgt so die behauptete

Schritt II Setze nun

(n)

π (j) := lim mj n→∞

(n)

Da die Folgen mj werte. Wegen

(n)

und Mj

(n)

= lim Mj . n→∞

beschr¨ankt (durch [0, 1]) und monoton sind, existieren diese Grenz(n)

mj

(n)

≤ Pn (i, j) ≤ Mj

∀i∈S

folgt sofort Pn (i, j)

n

/∞

/ π (j)

f¨ ur alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach: • Wir m¨ ussen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber (Pn (1, j))j∈S f¨ ur jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge f¨ ur n vergiert, ist diese Aussage klar.

/ ∞ gegen π kon-

• Wir m¨ ussen zeigen, dass π eine invariante Verteilung f¨ ur P ist. Das folgt aus πP(j) =

X

k∈S

π(k)P (k, j) ←−n

f¨ ur jedes j ∈ S.

/∞ X k∈S

Pn (i, k) π(k)P (k, j) = Pn+1 (i, j)

n

/∞

/ π(j)

144

11 Markov-Ketten mit endlichem Zustandsraum

• Wir m¨ ussen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung mit π ′ = π ′ P. Insbesondere ist dann π ′ = π ′ Pn f¨ ur alle n ∈ N und daher gilt f¨ ur alle j∈S X π ′ (j) = π ′ (k)Pn (k, j) . k∈S

Im Grenz¨ ubergang n

/ ∞ ist Pn (k, j) / π (j), d.h. es folgt X π ′ (j) = π ′ (k) π(j) = π(j) k∈S

|

{z

}

=1

f¨ ur alle j ∈ S, was gleichbedeutend mit π = π ′ ist. (2) Mit Teil (1) folgt leicht f¨ ur jede beliebige Startverteilung π0 und jedes j ∈ S P (Xn = j)

=

πn (j)

Bemerkung 11.34

(π0 Pn ) (j) X π0 (k)

=

=

k∈S

/∞

n

/

π (j)

X

k∈S

= n

Das zeigt πn

/∞

π(j).

|

Pn (k, j) | {z } /∞ n

/ π(j)

π0 (k) {z

=1

}

/ π.

Beispiel 11.39: ¨ Wir haben schon gesehen, dass die Ubergangsmatrix P=

0

1

1 2

1 2

!

aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zun¨achst eine invariante Verteilung π, d.h. ein π = (π(1), π(2)) mit πP = π. Das liefert das Gleichungssystem 1 π(2) 2 1 π(1) + π(2) 2

= π(1) = π(2),

woraus nur π = (a, 2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor sein soll, muss a + 2a = 1 gelten, d.h. a = 31 . Es folgt, dass   1 2 π= , 3 3 die einzige invariante Verteilung zu P ist, was eine Probe leicht best¨atigt: !     0 1 1 2 1 2 = π. , , = πP = 1 1 3 3 3 3 2 2 Mit Satz 11.38 folgt also n

P und P (Xn = 1)

n

/∞

/∞

n

/ 1 , P (Xn = 2) 3

n

/

1 3 1 3

/∞ /

2 3

2 3 2 3

!

f¨ ur jede beliebige Startverteilung π0 .

11 Markov-Ketten mit endlichem Zustandsraum

145

11.40 Hilfssatz: ¨ Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix   1 1 Pk := 1 − P + IN k k f¨ ur die N × N -Einheitsmatrix IN f¨ ur jedes k ∈ N≥2 aperiodisch und irreduzibel. Beweis: Laut Satz 11.27 m¨ ussen wir zeigen, dass es ein M ∈ N gibt, s.d. PM k (i, j) > 0 ∀ i, j ∈ S. Da P irreduzibel ist, gibt es gem¨ aß Satz 11.14 zu jedem Paar i, j ∈ S ein n (i, j) mit Pn(i,j) (i, j) > 0. Setze nun M := max n (i, j) . i,j∈S

Sei nun i, j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar PM k

=

 M  X M

ν=0

ν

1 1− k



1 k M −ν

Pν ,

j da IN = IN und P · IN = IN · P = P. Also ist

PM k

ν n(i,j)    M  X 1 1 1 M 1 M ν P (i, j) ≥ 1− (i, j) = 1− Pn(i,j) (i, j) > 0. M −ν M −n(i,j) | {z } k k k n (i, j) ν k ν=0 | {z } ≥0 >0

Das zeigt die Behauptung.

11.41 Satz (Invariante Verteilung): ¨ Ist P eine irreduzible Ubergangsmatrix, so gibt es genau eine invariante Verteilung π zu P. Beweis: Sei wieder ohne Einschr¨ ankung S = {1, ..., N }. • Existenz: Sei IN die N × N -Einheitsmatrix. F¨ ur k ∈ N≥2 setze   1 1 P + IN . Pk := 1 − k k

(11.7)

Diese Matrix ist gem¨ aß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk . Da π (k) Koordinatenweise durch [0, 1] beschr¨ankt ist, existiert eine Teilfolge ki s.d. i

π ki

/∞



f¨ ur eine Wahrscheinlichkeitsverteilung π gilt. Diese erf¨ ullt dann π ki = π ki · Pki . Mit i

/ ∞ in dieser Gleichung folgt

π = π · P.

• Eindeutigkeit: Ist π = πP und π ′ = π ′ P f¨ ur zwei Wahrscheinlichkeitsverteilungen π, π ′ , so folgt insbesondere nach (11.7), dass π π



= πP2 = π ′ P2 ,

was nach Satz 11.38 π = π ′ zur Folge hat. Der Konvergenzsatz l¨ asst sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses Ergebnis allerdings nur ohne Beweis angeben:

146

11 Markov-Ketten mit endlichem Zustandsraum

Bemerkung 11.42 (Konvergenzsatz f¨ ur periodische Matrizen): ¨ Sei d > 1 die Periode der irreduziblen Ubergangsmatrix P. Setze Si (n) := {j ∈ S | es gibt einen Pfad der L¨ange n von i nach j in S} . F¨ ur j ∈ / Si (n) ist dann P (Xn = j) = 0 und es gilt /∞

n

max |P (Xn = j) − d · π(j)|

j∈Si (n)

/0

exponentiell schnell.

11.4

Ru ¨ ckkehrzeiten und starkes Gesetz

11.43 Definition: ¨ Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N } und i ∈ S. Sei Ti die zuf¨ allige Zeit (∈ N), die vergeht, bis die in i gestartete“ Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet ” in i gestartet, dass π0 = ei f¨ ur den i-ten karthesischen Einheitsvektor ei gilt. Dann ist Ti = inf {n ≥ 1 | Xn = i} und wir nennen Ti die R¨ uckkehrzeit von i. Bemerkung 11.44: Beachte, dass {Ti = n} = {Xn = i, .Xn−1 6= i, ..., X1 6= i, X0 = i} . Beispiel 11.45: ¨ ¨ Betrachte wieder die Ubergangsmatrix P zum Ubergangsgraphen GP aus Beispiel 11.9: 1 2

1

*

1 j 1 2

2

. [

Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zuf¨alligen Gr¨oße T1 bestimmen. n ur n ≥ 1. Damit folgt Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 12 f¨ E (T1 )

∞ X

=

n=0

n · P (T1 = n)

 n−1 ∞ X 1 n 2 n=2

=

∞ X

=

(n + 1)

n=1

 n 1 2

 n X ∞  n ∞ X 1 1 + . n 2 2 n=1 n=1 | {z }

=

=1

Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo d.h. wir haben E (T1 ) = 3.

1 2



entspricht ist ihr Wert = 2,

F¨ ur Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = E (T2 ) = 1 ·

1 1 3 +2· = . 2 2 2

Insbesondere sehen wir in diesem Beispiel schon, dass E (Ti ) = f¨ ur die zu P invariante Verteilung π =

1 2 3, 3



gilt.

1 π(i)

1 2

ist

11 Markov-Ketten mit endlichem Zustandsraum

147

11.46 Satz (Positive Rekurrenz - ohne Beweis): ¨ Sei P eine irreduzible Ubergangsmatrix und X0 , X1 , ... die zugeh¨ orige in i ∈ S gestartete Markov-Kette. Dann gilt: (1) Man kehrt sicher zu i zur¨ uck, d.h.

∞ X

P (Ti = n) = 1.

n=1

(2) Es ist E (Ti ) =

∞ X

n=1

P (Ti = n) < ∞.

¨ Ein Teil des Beweises ist Aufgabe 5 des Ubungsblatts 12. Bemerkung 11.47: Ist #S = ∞, so ist der Satz von der positiven Rekurrenz im allgemeinen falsch. 11.4.1 Der R¨ uckkehrzeitensatz 11.48 Lemma: Sei X0 , X1 , X2 , ... eine Markov-Kette und E ⊂ S n . Dann gilt f¨ ur jedes in+1 , in ∈ S  P Xn+1 = in+1 | Xn = in , (X0 , ..., Xn−1 ) ∈ E = P (Xn+1 = in+1 | Xn = in ) . | {z } | {z } | {z } =:A

=:B

(11.8)

=:C

Beweis: Wir zerlegen das Ereignis C disjunkt als

C=

X

Ck

k∈I

mit Ck ’s von der Form {X0 = i0 , ..., Xn−1 = in−1 } f¨ ur ein Tupel (i0 , ..., in−1 ) ∈ E. Nach der MarkovEigenschaft gilt P (A | B ∩ Ck ) = P (A | B) ∀ k ∈ I, d.h. es folgt P (A ∩ B ∩ Ck ) = P (A | B) · P (B ∩ Ck ) ∀ k ∈ I nach Definition der bedingten Wahrscheinlichkeit. Bilden der Summe u ¨ber k ∈ I liefert P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) , was per Definition gleichbedeutend mit P (A | B ∩ C) = P (A | B) ist - das ist genau die Behauptung. 11.49 Satz (R¨ uckkehrzeitensatz): ¨ Sei P eine irreduzible Ubergangsmatrix und π die zugeh¨ orige invariante Verteilung. Dann gilt E (Ti ) =

1 π(i)

f¨ ur jedes i ∈ S. Beweis: Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion µ (k) :=

∞ X

n=0

P (Xn = k, Ti > n) ,

k ∈ S.

¨ Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Ubergangsmatrix P und die Zahlen P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber bis zur Zeit n noch nicht wieder in i war.

148

11 Markov-Ketten mit endlichem Zustandsraum

Ohne Einschr¨ankung nehmen wir wieder S = {1, ..., N } an. Setze dann µ := (µ (1) , ..., µ (N )) . Dann gilt N X

µ (k)

N ∞ X X

=

P (Xn = k, Ti > n)

n=0 k=1

k=1

∞ X

=

P (Ti > n)

n=0 ∞ X

=

n=1 (5.3)

=

P (Ti ≥ n)

E (Ti )

und diese Zahl ist nach dem Satz u ¨ber die positive Rekurrenz oben < ∞. Daher ist   1 µ(N ) µ(1) ·µ= , ..., E (Ti ) E (Ti ) E (Ti ) ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt. Zur Vorbereitung berechnen wir f¨ ur k ∈ S, k 6= i und j ∈ S, dass P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) · P (Xn = k, Ti > n) . Verwenden wir nun das Lemma oben f¨ ur E = {(i, j1 , ..., jn−1 ) ∈ S n | j1 , ..., jn−1 6= i}, so folgt wegen {Ti > n} = {Xn−1 6= i, ..., X1 6= i, X0 = i} = ˆ (X0 , ..., Xn−1 ) ∈ E, dass (11.8)

P (Xn+1 = j, Xn = k, Ti > n)

=

P (Xn+1 = j | Xn = k) · P (Xn = k, Ti > n)

=

P (k, j) · P (Xn = k, Ti > n) .

Man beobachtet schnell, dass diese Gleichung auch f¨ ur k = i richtig bleibt:Ist n > 0, so sind zwingend beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j). 1 Es gen¨ ugt nun zu zeigen, dass µP = µ ist, der Faktor E(T braucht nicht beachtet zu werden (da er auf i) beiden Seiten auftaucht). Mit obiger Rechnung gilt f¨ ur j ∈ S: X (µP) (j) = µ(k) · P (k, j) k∈S

=

∞ X X

P (Xn = k, Ti > n) P (k, j)

n=0 k∈S

=

∞ X X

P (Xn+1 = j, Xn = k, Ti > n)

n=0 k∈S

=

∞ X

P (Xn+1 = j, Ti > n) .

n=0

Jetzt unterscheiden wir: F¨ ur j 6= i erh¨ alt man damit (µP) (j)

=

∞ X

P (Xn+1 = j, Ti > n)

n=0

=

∞ X

P (Xn+1 = j, Ti > n + 1)

n=0

= µ(j) − P (X0 = j, Ti > 0) = µ(j),

11 Markov-Ketten mit endlichem Zustandsraum

149

und f¨ ur i = j erh¨ alt man (µP) (j)

∞ X

=

P (Xn+1 = j, Ti > n)

n=0 ∞ X

=

P (Ti = n + 1)

n=0 Satz 11.46

=

1.

Beachte nun noch, dass µ(i) =

∞ X

P (Xn = i, Ti > n) =

∞ X

n=1

n=0

P (Xn = i, Ti > n) + P (X0 = i, Ti > 0) = 1. | {z } | {z } =0

=1

1 ·µ eine invariante Verteilung f¨ ur P ist. Gem¨aß Satz 11.41 ist die invariante Verteilung Das zeigt, dass E(T i) eindeutig, d.h. wir haben 1 · µ(i) = π(i). E (Ti )

Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung. 11.50 Satz (Starkes Gesetz - ohne Beweis): / R eine Funktion. F¨ ¨ ur jede Startverteilung π0 gilt Sei P irreduzible Ubergangsmatrix und sei f : S 4 dann mit Wahrscheinlichkeit 1: Ist x0 , x1 , x2 , ... ein zuf¨ alliger Pfad der Markov-Kette X0 , X1 , ... zu P und π0 (d.h. eine Realisierung“ ” dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ (f ): n−1 1X f (xk ) n

n

/∞ /

X

f (j)π(j).

j∈S

k=0

Dabei bezeichnet π die invariante Verteilung zu P. Insbesondere gilt f¨ ur A ⊆ S und f := 1A , dass 1 # {0 ≤ k ≤ n − 1 | xk ∈ A} n

n

/∞ /

X

π(j) = π(A).

j∈A

D.h. die Anzahl der Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 f¨ ur n ” scheinlichkeit von A unter der invarianten Verteilung π. Speziell f¨ ur A = {i} gilt also 1 # {0 ≤ k ≤ n − 1 | xk = i} n

4 Eine

n

Konvergenz dieser Art nennt man fast sichere Konvergenz.

/∞

/ π(i).

/ ∞ gegen die Wahr-

150

11.5 11.5.1

11 Markov-Ketten mit endlichem Zustandsraum

Beispiele Irrfahrt auf ungerichtetem Graphen

In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden. Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S. 11.51 Definition: F¨ ur jede Ecke i ∈ S sei d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} . Beispiel 11.52: Sei G gegeben als

1

3 Dann ist d



2               

 n o    2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3

4 

= 3, d



4



= 1.

Wir wandern nun rein zuf¨ allig auf diesem Graphen, in dem wir jeweils gleichverteilt die n¨achste Ecke unter den mit i verbunden Ecken w¨ ahlen. D.h. 11.53 Definition: Sei P die N × N -Matrix mit P (i, j) =

(

0 1 d(i)

falls keine Kante zwischen i und j existiert, falls eine Kante zwischen i und j existiert.

Offenbar ist P tats¨ achlich eine stochastische Matrix: X j∈S

P (i, j) =

X

j∈{k | es gibt eine Kante zwischen i und k}

11.54 Definition: Wir setzen D :=

X

d(i).

i∈S

11.55 Satz: Damit ist π(i) := eine invariante Verteilung von P.

d(i) , i∈S D

d(i) 1 = = 1 ∀ i ∈ S. d(i) d(i)

11 Markov-Ketten mit endlichem Zustandsraum

151

Beweis: Man berechnet (πP) (j)

=

X

π(i)P (i, j)

i∈S

X

=

i∈{k | es gibt eine Kante zwischen i und j}

1 d(i) · D d(i)

1 · # {k | es gibt eine Kante zwischen i und j} D d(j) = D = π(j)

=

f¨ ur j ∈ S. Bemerkung 11.56: Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig bestimmt ist. Beispiel 11.57: Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i, j) | 1 ≤ i, j ≤ 4}. Der zugeh¨ orige Graph stellt sich wie folgt dar: (1,4) (2,4) (3,4) (4,4) OOO o o // OOOOO / / o o O o o // //    OOOooo OOO oo // // //  OOO  ooOOOO  ooo o o //  o o OOO OOO / ooo / ooo  //  OOOOoOoooo///  OOOOOooooo///  // oO oO  // ooooo OOOOO/// ooooo OOOOO///    O O o o // / /    O O o o o //OOoOoOoo //OOOO  /o/ oooo // OOOO o//o OOOO o o /  o o O O //  oo //  oo //  / / /    / / (1,3) (2,3) (3,3) (4,3) // OOO  /// oo  /// oo // OOOOO // / /  O o o // //   O O o/o  o/o //   OOOO/// // //   ooOoOoOO//O/ oooo /// OO/ O  //    o o   //ooo //ooo // OOO /O/ OOO //  //  // OOOoOoooo// // OOOOooooo// / //  / oooo OOOO //  / oooo OOOO // //  / / O / O / ooo//  o/  //  // //  OO/O/ OO ooo oo ///  OO/O/ OO // ooooo  //    O O // oooOO // OOO // /   /o  //  OOO /  ooooo//   ooooo//  OOOO /  // // // // // / (1,2) (2,2) (3,2) (4,2) OOO  // OOO  // oo  /// oo OO O / OO O o/oo o  o/o  OOO // ooOoOoOO//O/ oooo /// OO/ O o o    // OOO /O/ OOO // ooo ooo // OOOoOoooo  // OOOOooooo  //  // oooo OOOO // oooo OOOO //  //  OOOO  OOOO ooo// ooo// o o    O O o o OoOoOo OOO // // /   oo o    O O o o OOO OOO // o /  /  o o  ooooo O O oo (1,1) (2,1) (3,1) (4,1) Aus diesem Graphen lesen wir nun die Gradzahlen d   folgenden Tabelle bezeichnet d (i,j) :



(i,j)

2

3

3

2

3

4

4

3

3

4

4

3

2

3

3

2



ab. Der Eintrag in der Zelle (i, j) der

152

11 Markov-Ketten mit endlichem Zustandsraum

Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gem¨aß dem Satz die invariante Verteilung π:5 1 24 1 16 1 16 1 24

1 16 1 12 1 12 1 16

1 16 1 12 1 12 1 16

1 24 1 16 1 16 1 24

Daraus erhalten wir nun: (1) Nach dem R¨ uckkehrzeitensatz ist dann zum Beispiel  E T(1,1) =

1 = 24. π((1, 1))

(2) Das starke Gesetz sagt etwa, dass f¨ ur einen Springerpfad die relative H¨aufigkeit der Besuche in den mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen π ({(i, j) | 2 ≤ i, j ≤ 3}) = 4 ·

1 1 = 12 3

konvergiert. ¨ (3) Sei P die zugeh¨ orige Ubergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist. Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe (Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zur¨ uckziehen m¨oglich ist, genau Periode d = 2. (4) Mit Bemerkung 11.42 ist f¨ ur großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben als 1 0 81 0 12 0 61 0 18 1 0 61 0 8 1 0 81 0 12 Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springer sich zur Zeit n in der Position (i, j) aufh¨alt. 11.5.2

Ehrenfeld-Diffusion

Wir nehmen an, in einem H¨ orsaal befinden sich N Gasmolek¨ ule. Wir zerteilen den H¨orsaal in die rechte H¨alfte H1 und die linke H¨ alfte H2 . Als Modell nehmen wir an, dass jeweils ein Molek¨ ul zuf¨allig ausgew¨ahlt wird und dieses dann in die andere H¨ orsaalh¨ alfte wechselt. Sei dazu S = {0, ..., N } , ¨ was der Anzahl der Gasmolek¨ ule in H1 entsprechen soll. Offenbar muss dann f¨ ur die Ubergangsmatrix P P (i, i + 1)

=

P (i, i − 1)

=

N −i , N i , N

i1

gelten. Alle u age der Matrix sind 0. ¨brigen Eintr¨ Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch   N −N π(i) = 2 , i ∈ S. i  D.h. wir haben π ∼ B N, 12 . Nach dem R¨ uckkehrzeitensatz ist dann zum Beispiel E (T0 ) =

1 = 2N . π(0)

5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die Matrix ist also irreduzibel!

11 Markov-Ketten mit endlichem Zustandsraum

153

D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmolek¨ ule sind, so ist zu erwarten, dass dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist f¨ ur eine Anzahl N von Molek¨ ulen reichlich groß! Außerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist:  Sei N = 10.000. Wegen π ∼ B 10.000, 12 liefert die Chernov-Ungleichung π ({4801, ..., 5199}) ≥ 0.9993.

Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmolek¨ ule sind.

154

12

12 Sch¨atzer und statistische Tests

Sch¨ atzer und statistische Tests

Wir beginnen mit einen motivierenden Beispiel. Beispiel 12.1: Wir wollen eine Lebensmittelkontrolle durchf¨ uhren. Dazu messen wir die F¨ ullungen von 1-Liter-Flaschen nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte 999, 990, 995, 1003, 1001, 991. Diese Messwerte wollen wir im folgenden mit x1 , ..., x6 bezeichnen. Wir k¨onnen uns nun die folgenden Fragen stellen:  (1) Wenn man annimmt, dass die F¨ ullmenge eine N µ, σ 2 -verteilte Zufallsvariable ist, wie sch¨atzt man dann mittels dieser Messungen den Erwartungswert? Wie sch¨atzt man die Varianz? Um solche Fragen zu beantworten wollen wir hier kurz ML-Sch¨atzer und erwartungstreue Sch¨atzer behandeln. (2) Soll die Kontrolle wegen zu geringer Bef¨ ullung nach dieser Messung einschreiten? Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.

12.1

Punktsch¨ atzer

Sei X eine Zufallsvariable (oder ein Zufallsvektor) X:Ω

/ X.

Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum. Wir nehmen nat¨ urlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass wir hier P anstelle von P X schreiben. Stattdessen nehmen wir an, dass P in einer Familie P = {Pθ | θ ∈ Θ} von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell f¨ ur die m¨oglichen Verteilungen von X. Beispiel 12.2: Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit. Dann ist X = {0, ..., n} und das statistische Modell ist gegeben als  P = B (n, θ) | θ ∈ [0, 1] . | {z } | {z } =Pθ



Zu jeder der Verteilungen Pθ geh¨ ort in diesem Fall eine Wahrscheinlichkeitsfunktion   n x n−x pθ (x) = θ (1 − θ) , x = 0, ..., n. x

Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ oder allgemeiner eine Funktion g in Abh¨ angigkeit von θ gesch¨atzt werden. 12.3 Definition: ur θ ∈ Θ ist eine Abbildung Ein Sch¨ atzer f¨ t:X

/ Θ.

ur θ. F¨ ur ein konkretes x ∈ X heißt t(x) dann eine Sch¨ atzung f¨ Die Zufallsvariable T := t (X) wird ebenfalls Sch¨ atzer f¨ ur θ genannt. Beispiel 12.4: Betrachte wieder das Setting aus Beispiel 12.2. Ist x ∈ {0, ..., n} die Stichprobe, so ist t(x) :=

x n

12 Sch¨atzer und statistische Tests

155

ein Sch¨atzer f¨ ur die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen, ob dieser Sch¨ atzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen. Ebenso ist dann 1 T = X n ein Sch¨atzer f¨ ur θ und konkret f¨ ur n = 20 und x = 14 ist t(14) =

7 = 0.7 10

eine Sch¨atzung von θ. 12.5 Definition: Sei g eine beliebige Funktion auf Θ. Jede Abbildung t:X

/ g (Θ)

ur g(θ). heißt Sch¨ atzer f¨ Beispiel 12.6: Wieder im Setting von Beispiel 12.2 k¨ onnen wir versuchen, die Varianz von B (nθ) zu sch¨atzen, d.h. g(θ) = n · θ · (1 − θ) . Ein m¨oglicher Sch¨ atzer w¨ are

 x x x 1− =x· 1− . n n n Weiter unten werden wir uns mit der Frage besch¨aftigen, ob dieser Sch¨atzer sinnvoll bzw. gut ist. t(x) := n ·

Man sollte beachten, dass es im Allgemeinen nicht den Besten“ Sch¨atzer gibt. Es gibt verschiedene ” Verfahren zur Herleitung und verschiedene G¨ ute-Kriterien f¨ ur Sch¨atzer. Wir besprechen hier die MLSch¨atzer und die erwartungstreuen Sch¨atzer, es gibt außerdem noch Risiko-Sch¨atzer, Konsistenz-Sch¨atzer und viele mehr. 12.1.1 ML-Sch¨ atzer 12.7 Definition: Wir sagen, ein Sch¨ atzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt: F¨ ur jedes x ∈ X ist t(x) = θML ∈ Θ mit pθML (x) ≥ pθ (x) ∀ θ ∈ Θ. Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugeh¨ orige pθ die entsprechende Wahrscheinlichkeitsfunktion, ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte. D.h. f¨ ur festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion Lx (θ) = pθ (x) u ¨ber θ ∈ Θ. Beispiel 12.8: Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als   n x n−x Lx (θ) = θ (1 − θ) . x Um einen ML-Sch¨ atzer f¨ ur θ zu bestimmen ist diese Funktion jetzt f¨ ur gegebenes x ∈ {0, ..., n} u ¨ber θ ∈ [0, 1] zu minimieren. Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton steigend ist6 , nehmen Lx und log Lx im selben θ ihr Maximum. 6 Wir

betrachten hier stets nur den nat¨ urlichen Logarithmus ln = log.

156

12 Sch¨atzer und statistische Tests

Beispiel 12.9: Im obigen Beispiel 12.2 ist dann log Lx (θ) = log

  n + x log θ + (n − x) log (1 − θ) . x

Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so !

0 = 0+

x n−x − , θ 1−θ

womit θ = nx folgt. Also ist unser Sch¨ atzer

n x von oben sogar ein ML-Sch¨ atzer f¨ ur die Erfolgswahrscheinlichkeit θ. t(x) =

12.1.2

Erwartungstreue Sch¨ atzer

12.10 Definition: Ein Sch¨ atzer t f¨ ur θ ist erwartungstreu, wenn Eθ (t(X)) = θ f¨ ur alle θ ∈ Θ gilt, d.h.: Ist θ der wahre Parameter, so ist die (zuf¨ allige) Sch¨ atzung t(x) zumindest im Erwartungswert gleich θ. Ganz analog definiert man f¨ ur Sch¨ atzer von Funktionen: 12.11 Definition: Ein Sch¨ atzer t f¨ ur eine Funktion g in Abh¨ angigkeit von θ ist erwartungstreu, wenn Eθ (t(X)) = g (θ) f¨ ur alle θ ∈ Θ gilt. Beispiel 12.12: Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Sch¨atzer t(x) =

x n

von dort erwartungstreu ist. Beweis: Mit der Linearit¨at des Erwartungswertes gilt   1 1 X = E (X) = θn = θ. E (t (X)) = E n n n Es folgt die Behauptung. Beispiel 12.13: Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist

 x t(x) = x 1 − n

ein ML-Sch¨atzer f¨ ur die Varianz, denn schließlich haben wir dort einfach den ML-Sch¨atzer f¨ ur θ in die

12 Sch¨atzer und statistische Tests

157

Varianz-Formel θ 7→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu:    X Eθ (t(X)) = Eθ X 1 − n  1 = Eθ (X) − Eθ X 2 n  1 2 = nθ − Vθ (X) + (Eθ (X)) n  1 = nθ − nθ (1 − θ) + n2 θ2 n = (n − 1) θ (1 − θ) n−1 nθ (1 − θ) . n } | {z } | {z

=

6=1

=g(θ)=Vθ (X)

Allerdings sehen wir an dieser Berechnung schon, dass

 n x n t(x) = x 1− n−1 n−1 n

ein erwartungstreuer Sch¨ atzer f¨ ur die Varianz ist. Z.B. f¨ ur n = 2 ist die Abweichung zwischen diesen beiden Sch¨atzern deutlich: Ist der wahre Parameter θ = 21 , so ist 1 n−1 (1 − θ) = , Eθ (t(X)) = θ 4 obwohl die tats¨ achliche Varianz

1 2

betr¨agt.

Wir wollen nun eine allgemeinere Situation betrachten: Seien X1 , ..., Xn unabh¨ angige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variablen. Definiere als Stichprobenraum n

X=

×X ν=1

Betrachte dazu das statistische Modell P=



1

= X1 ×... × X1 . {z } | n−mal

P˜θ × ... × P˜θ | θ ∈ Θ , {z } | =:Pθ

wobei jedes P˜θ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist. Beispiel 12.14: Sei etwa

P˜θ ∈ {B (1, θ) | 0 ≤ θ ≤ 1}

oder

  P˜θ ∈ N µ, σ 2 | µ ∈ R, σ 2 > 0 .  Wir wollen im zweiten Fall θ := µ, σ 2 setzen.

(1) Wir wollen zuerst einen Sch¨ atzer f¨ ur den Erwartungswert Eθ (X1 ) von P˜θ herleiten.

12.15 Lemma: Der Sch¨ atzer

n

t (x1 , ..., xn ) := ist erwartungstreu f¨ ur Eθ (X1 ).

1X xi = x ¯ n i=1

158

12 Sch¨atzer und statistische Tests

Beweis: Man berechnet n

Eθ (t (X1 , ..., Xn ))

= Eθ n

=

1X Xi n i=1

!

1X Eθ (Xi ) n i=1

= Eθ (X1 ) . Das zeigt die Behauptung. Beispiel 12.16: In Beispiel 12.1 w¨ are also 6

1X xi = 996.5 6 i=1

eine erwartungstreue Sch¨ atzung f¨ ur µ.

(2) Jetzt wollen wir einen Sch¨ atzer f¨ ur die Varianz Vθ (X1 ) von P˜θ herleiten. Sei dazu wieder n

x ¯ :=

1X xi . n i=1

Berechne nun n X i=1

2

(xi − x ¯)

=

n X i=1

=

n X i=1

=

n X i=1

x2i − 2

n X

xi x ¯+

n X

x ¯2

i=1

i=1

x2i − 2n¯ x2 + n¯ x2 2

x2i − n (¯ x)

(12.1)

und Eθ

 x ¯2

=

=

  n X 1 Eθ  Xi · Xj  n2 i,j=1

n n 1 X 1 X Eθ (Xi · Xj ) Eθ (Xi · Xi ) + 2 n2 i=1 n i,j=1 i6=j

Unabh¨ angigkeit

=

1 nEθ n2

n  1 X X12 + 2 Eθ (Xi ) · Eθ (Xj ) n i,j=1 i6=j

=

 2

n−1 1 2 Eθ X 1 + (Eθ (X1 )) . n n

Jetzt k¨onnen wir zeigen: 12.17 Lemma: Der Sch¨ atzer

(12.2)

n

S 2 (x1 , ..., xn ) =

1 X 2 (xi − x ¯) n − 1 i=1

ist ein erwartungstreuer Sch¨ atzer f¨ ur die Varianz. Er wird auch Stichprobenvarianz genannt.

12 Sch¨atzer und statistische Tests

159

Beweis: Es gilt Eθ

n X i=1

2

(Xi − x ¯)

!

(12.1)

=



n X

Xi2

i=1

(12.2)

=

=

2

− n¯ x

!

    2 nEθ X12 − Eθ X12 + (n − 1) (Eθ (X1 ))    2 (n − 1) Eθ X12 − (Eθ (X1 )) (n − 1) Vθ (X1 ) .

= Das zeigt die Behauptung.

Beachte den Unterschied zur empirischen Varianz n

1X 2 σ ˆ (x1 , ..., xn ) = (xi − x ¯) . n i=1 2

/ ∞. Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n √ 2 2 ur die Standardabweichung In der Praxis wird S als Sch¨ atzer f¨ ur die Varianz und S als Sch¨atzer f¨ verwendet. Beispiel 12.18: In Beispiel 12.1 w¨ are also 6

S 2 (x1 , ..., x6 ) =

6

1X 1X 2 2 (xi − x ¯) = (xi − 996.5) = 28.7 5 i=1 5 i=1

√ eine erwartungstreue Sch¨ atzung f¨ ur σ 2 . Entsprechend sch¨atzen wir σ als 28.7 ≈ 5.357.   Die Sch¨ atzung der Parameter µ, σ 2 von N µ, σ 2 w¨ urde in unserem Fall also µ = 996.5 und σ 2 = 28.7

liefern.

12.2

Statistische Tests

Wir wollen uns nun mit der Frage aus Beispiel 12.1 besch¨aftigen, ob aufgrund dieser Stichproben die Kontrolle eingeschaltet werden sollte. Dazu besch¨aftigen wir uns allgemein mit statistischen Tests: Sei X ein Stichprobenraum und P = {Pθ | θ ∈ Θ} ein statistisches Modell f¨ ur die m¨ oglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X mit Werten in X. Seien nun Θ0 ⊂ Θ und Θ1 ⊂ Θ zwei disjunkte Teilmengen. 12.19 Definition: Die Aussage H0 : θ ∈ Θ0 nennen wir Hypothese und die Aussage H1 : θ ∈ Θ1 nennen wir Alternative. Beispiel 12.20: In Beispiel 12.1 w¨ are P=



 N µ, σ 2 | µ ≥ 0, σ 2 > 0 | {z } =θ

160

12 Sch¨atzer und statistische Tests

das statistische Modell f¨ ur die m¨ oglichen Verteilungen der Bef¨ ullung. Die Aussage kein Betrug“ ent” spr¨ache dann der Hypothese   H0 : θ ∈ Θ0 := µ, σ 2 | µ = 1000, σ 2 > 0 ache der Alternative und die Aussage Betrug“ entspr¨ ”   H1 : θ ∈ Θ1 := µ, σ 2 | µ < 1000, σ 2 > 0 .

12.21 Definition: Das Entscheidungsproblem

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 heißt Testproblem. 12.22 Definition: Ein Test ist eine Abbildung ϕ:X

/ {0, 1} ,

wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese nicht verworfen wird. Die Menge {x ∈ X | ϕ(x) = 1} heißt Verwerfungsbereich. Bemerkung 12.23: Als Hypothese sollte man stets die Annahme w¨ahlen, deren Verwerfung die gr¨oßeren Konsequenzen hat - wie vor Gericht die Unschuldsvermutung. Der Grund daf¨ ur ist, dass durch (statistische) Tests stets nur der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird. Beim Test eines neuen Prototypen w¨ urde man als Hypothese also das bisherige Produkt ist besser“ ” verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss. 12.24 Definition: Sei ϕ ein Test. Wir definieren die G¨ utefunktion βϕ : Θ

/ [0, 1] von ϕ durch

βϕ (θ) := Pθ (ϕ(x) = 1) , d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen. F¨ ur θ ∈ Θ0 ist βϕ (θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung 12.23). Das prim¨are Ziel bei statistischen Tests ist es nun, den Fehler erster Art f¨ ur alle θ ∈ Θ0 zu kontrollieren! 12.25 Definition: Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0, 1], wenn sup βϕ (θ) ≤ α

θ∈Θ0

ist, d.h. wenn f¨ ur alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschr¨ ankt ist. 12.26 Definition: 1 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund Ist ϕ ein Test zum Niveau α = 20 dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis. Bei α =

1 100

= 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.

Wir wollen im folgenden zwei Arten von Tests f¨ ur Normalverteilungen besprechen.

12 Sch¨atzer und statistische Tests

12.2.1

161

Der einseitige Gaußtest

Dieser Test wird durchgef¨ uhrt, wenn die Varianz bekannt ist. Beispiel 12.27: Wissen wir also etwa in Beispiel 12.1, dass die F¨ ullmaschine eine Standard-Abweichung von σ0 = 5 hat, so k¨onnen wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ, 25) | µ ≥ 0} ist und unsere Hypothese ( kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( Betrug“) ist dann ” ” µ < µ0 = 1000. Wir wollen nun in Abh¨ angigkeit von

n

x ¯=

1X xi n i=1

entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall (−∞, z) mit einem noch zu bestimmenden z w¨ ahlen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn x ¯ < z gilt. Wir werden hier jetzt beispielhaft an unserem F¨ ullmengenbeispiel z so bestimmen, dass der zugeh¨orige Test das Niveau 0.05 hat. Seien X1 , ..., Xn die zuf¨ alligen Meßwerte und sei wie immer n

X ¯= 1 X Xi . n i=1 Es ist z so zu bestimmen, dass unter der Hypothese µ = µ0 gilt:  ¯ < z ≤ 0.05. Pµ0 X  Unter der Hypothese µ = µ0 gilt Xi ∼ N µ0 , σ02 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass ¯ − µ0 X σ0 √ n

Damit haben wir 

¯ < z = Pµ Pµ0 X 0

Wir m¨ ussen also ein y finden, s.d.

∼ N (0, 1) .

¯ − µ0 X σ0 √ n

<

| {z } ∼N (0,1)

z − µ0 σ0 √ n

| {z }

!

!

≤ 0.05.

=:y

Φ(y) = 0.05 f¨ ur die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall, wenn Φ(−y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so −y = 1.645, womit

σ0 z = µ0 + √ · (−1.645) n

ist. Beispiel 12.28: In Beispiel 12.1 w¨ are dementsprechend σ0 5 z = µ0 + √ · (−1.645) = 1000 − 1.645 √ ≈ 996.64. n 6 Wegen x ¯ = 996.5 w¨ urden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung machen!

162

12.2.2

12 Sch¨atzer und statistische Tests

Der t-Test

Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen. In unserem Beispiel 12.1 wollen wir hier also   H0 : θ ∈ Θ0 = µ, σ 2 | µ = µ0 = 1000, σ 2 > 0

gegen

H1 : θ ∈ Θ1 = testen. Als Testgr¨oße“ kann man jetzt nicht ”



µ, σ 2



| µ < µ0 = 1000, σ 2 > 0

¯ − µ0 X σ0 √ n

nutzen, da man σ0 nicht kennt. Die L¨ osung f¨ ur dieses Problem ist denkbar einfach: Man sch¨atzt σ0 u ¨ber v u n √ u 1 X  2 t ¯ 2, Xi − X S= S = n − 1 i=1

wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Sch¨atzer f¨ ur σ0 ist! Nach dieser Sch¨ atzung nutzt man dann ! ¯ − µ0  X z − µ 0 ¯ 0

Geometrisch

p ∈ [0, 1]

Negativ-Binomial

p ∈ [0, 1], r ∈ N

Bezeichnung

X (Ω)

Verteilung

{0, ..., n} Poi (λ) Geo (p)

N0 N N0

1−k

pk (1 − p)  n−k n k k p (1 − p) R k

N −R n−k N n

( )( ) ( )

k

exp (−λ) λk!

k−1

p · (1 − p)  k r+k−1 r p (1 − p) k



λ

λ

1 p

1−p p2

1−p p

r 1−p p2

B Kenngr¨oßen der wichtigsten Verteilungen

Stetige Verteilungen Verteilung

Parameter

Bezeichnung

Gleichverteilung

a 0

N µ, σ 2

Exponentialverteilung

λ>0

Exp (λ)

Gammaverteilung

r, λ ∈ (0, ∞)

Gamma (r, λ)

Chi-Quadrat-Verteilung

n∈N

Paretoverteilung Cauchyverteilung

α ∈ (0, ∞)

Wahrscheinlichkeitsdichte f (t) =



χ2n = Gamma Pareto(α)

f (t) =

Erwartungswert

Varianz

b+a 2

(b−a)2 12

µ

σ

1 λ

1 λ2

r λ

r λ2

1 b−a 1[a,b] (t)

√ 1 2πσ 2

  2 exp − (t−µ) 2 2σ

f (t) = λ exp (−λt) 1(0,∞) (t)

n 1 2, 2

f (t) = 

λr r−1 Γ(r) t n

f (t) =

2− 2 Γ( n 2)

exp (−λt) 1(0,∞) (t)  n t 2 −1 exp − 2t 1(0,∞) (t)

f (t) =

α 1 (t) (t+1)α+1 (0,∞)

f (t) :=

1 π(1+t2 )

n (



1 α−1

falls α ≤ 1 falls α > 1

existiert nicht

2n (

α α−2





α2 (α−1)2

falls α > 2 falls α ≤ 2

B Kenngr¨ oßen der wichtigsten Verteilungen

B.2

existiert nicht

165

166

Stichwortverzeichnis

Stichwortverzeichnis σ-Algebra, 100, 102, 114 Borel’sche, 102, 114 triviale, 100 3-T¨ uren-Problem, 52 Abbildung meßbare, 101 Bayes Formel von, 36 bedingte Erwartung, 82 Bernoulli -Experiment, 45 Bernstein Ungleichung, 74 Binomialkoeffizient, 24 Binomialverteilung, siehe Verteilung Blockungslemma, 54, 119 Borel’sche σ-Algebra, 102, 114 Cauchyverteilung, siehe Verteilung Chernov Ungleichung, 76 Chi-Quadrat-Verteilung, siehe Verteilung de Moivre-Laplace Grenzwertsatz von, 96 de Morgan’sche Regeln, 9 Dichte, 104, 115 der Standardnormalverteilung, 96 gemeinsame, 115 Produktdichte, 115 Transformationsformel, 109 Ereignis, 7 bedingte Wahrscheinlichkeit, 33 sicheres, 7 Unabh¨angigkeit, 31, 32 unm¨ogliches, 7 Verkn¨ upfungen, 7 Ergebnis, 7 Erwartungswert, 60 bedingter, 82 eines Zufallsvektors, 122 Jensen’sche Ungleichung, 126 Linearit¨at, 63, 117 Produktformel, 64 Trafoformel, siehe Transformationsformel Experiment n-stufiges, 39 Exponentialverteilung, siehe Verteilung F¨achermodell, 22 Faltung, 120 Formel Mulitplikationsformel, 34 von Bayes, 36 von der totalen Wahrscheinlichkeit, 36 Funktion erzeugende, 87

Gamma-, 108 rechtstetig, 102 Galton-Watson-Prozess, 92 Gammaverteilung, siehe Verteilung Gaußsche Glockenkurve, 96 geometrische Verteilung, siehe Verteilung Gleichverteilung, siehe Verteilung diskrete, 11 Graph Pfad, 134 Gewicht, 135 L¨ange, 135 Weg, 134 Grundraum diskreter, 7 Hoeffding Ungleichung, 76 Indikatorvariable, 50 Korellationskoeffizient, 85 Korrelation negative, 86 positive, 86 Kovarianz eines Zufallsvektors, 123 Laplace-Raum, 11 Laplace-Verteilung, 11 Markov-Kette, 139 ¨ Ubergangsgraph, 134 irreduzibel, 135 ¨ Ubergangsmatrix, 133 aperiodisch, 137 irreduzibel, 135 Periode, 137 in i gestartete, 146 Konvergenzssatz, 141 Markov-Eigenschaft, 139 R¨ uckkehrzeit, 146 R¨ uckkehrzeitensatz, 147 Satz von der invarianten Verteilung, 145 Satz von der positiven Rekurrenz, 147 starkes Gesetz, 149 Startverteilung, 139 stochastische Matrix, 133 Verteilung invariante, 141 Zustand Periode, 136 Zustandsmenge, 133 Markov-Ungleichung, 72 Menge Komplement, 9 Multinomialkoeffizient, 25 Multinomialverteilung, siehe Verteilung negative Binomialverteilung, siehe Verteilung

Stichwortverzeichnis

Normalapproximation, 98 Normalverteilung, siehe Verteilung Paretoverteilung, siehe Verteilung Polya’sches Urnenmodell, 39 relative H¨ aufigkeit, 8 Satz Abel’scher Grenzwertsatz, 88 Binomischer Lehrsatz, 24 Grenzwertsatz von de Moivre-Laplace, 96 Konvergenzsatz f¨ ur Markov-Ketten, 141 Poisson-Grenzwert, 59 R¨ uckkehrzeitensatz, 147 von der invarianten Verteilung, 145 von der iterierten Erwartung, 82 von der positiven Rekurrenz, 147 Zentraler Grenzwertsatz, 127 Fehlerabsch¨ atzung nach Berry-Esseen, 131 Sch¨atzer, 154 erwartungstreuer, 156 ML-, 155 Sch¨atzung, 154 Schwaches Gesetz großer Zahlen, 73 Siebformel, 15 Bonferroni-Ungleichungen, 19 von Poincare-Sylvester, 15 Simpson-Paradoxon, 37 Spiegelungsprinzip, 29 Stichprobe Stichprobenvarianz, 158 Stichprobenraum, 154 Stimmzettelproblem, 28 System dynamisches, 93 Grenzwert, 93 Test, 160 t-, 162 Alternative, 159 Fehler erster Art, 160 G¨ utefunktion, 160 Gauß-, 161 hoch-signifikantes Ergebnis, 160 Hypothese, 159 signifikantes Ergebnis, 160 Testproblem, 160 Verwerfungsbereich, 160 zum Niveau α, 160 Transformationsformel, 62, 112, 116 Tschebyschow-Ungleichung, 72 Ungleichung Bernstein-, 74 Bonferroni, 19 Boole’sche, 10, 20 Chernov-, 76 Hoeffding-, 76 Markov, 72 SGGZ, siehe Schwaches Gesetz großer Zahlen Tschebyschow, 72 Urnenmodell, 22

167

Varianz, 65, 113 empirische, 159 Rechenregeln, 66 Stichprobenvarianz, 158 Verteilung, 100 k-dimensionale Randverteilung, 51 n-dimensionale Normalverteilung, 122 n-dimensionale Std.-Normalverteilung, 122 a-posteriori, 42 a-priori, 42 austauschbare, 40 bedingte, 80 Binomialverteilung, 27 Cauchy-, 108 Chi-Quadrat, 108 einer Zufallsvariable, 48 Exponential-, 106 Ged¨achtnislosigkeit, 107 Faltung, 77 Gamma-, 108 gemeinsame, 50 geometrische, 46 Gleichverteilung, 105 hypergeometrische, 27 Marginalverteilung, 51 Multinomialverteilung, 45 negative Binomialverteilung, 47 Normalverteilung, 106 ausgeartete, 124 nicht ausgeartete, 124 Pareto-, 107 Produktverteilung, 115 Standard-Normalverteilung, 96, 106 stetige, 104 Verteilungsfunktion, 102 Standardnormalverteilung, 96 Verzweigungsprozess, 92 Aussterbewahrscheinlichkeit, 92 Vitali-Menge, 101 Vorhersager linearer, 86 Wahrscheinlichkeit bedingte, 33 Multiplikationsformel, 34 Wahrscheinlichkeitsfunktion, 13 bedingte, 80 Wahrscheinlichkeitsraum, 100 diskreter, 8 Laplace-Raum, 11 Produkt, 43 Wahrscheinlichkeitsverteilung, 100 Wald’sche Identit¨at, 83, 91 Ziegenproblem, 52 zuf¨allige Summe erzeugende Funktion, 90 Zufallsexperiment, 6 Zufallsvariabel standardisierte, 95 Zufallsvariable, 48, 101 j-tes faktorielles Moment, 88

168

Stichwortverzeichnis

k-tes Moment, 113 k-tes zentrales Moment, 66 bedingte Erwartung, siehe bedingte Erwartung Bernoulli-verteilte, 56 Binomial-verteilte, 56 Poisson-Approximation, 59 drittes zentrales Moment, 127 Erwartungswert, siehe Erwartungswert Funktion von Zufallsvariablen, 53 gemeinsame Dichte, 115 geometrisch verteilte, 57 Ged¨achtnislosigkeit, 57 gleichverteilte, 56 Kovarianz, 66 Laplace-verteilte, 56 Poisson-verteilte, 58 reelle, 102 Standardabweichung, 65 stetig verteilte, 105 Erwartungswert, 111 Unabh¨angigkeit, 51, 83, 117 unkorreliert, 69, 119 Varianz, siehe Varianz Verteilung, 48, 101 bedingte, 80 Faltung, 77 Wahrscheinlichkeitsfunktion bedingte, 80

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF