Seminar Stochastik _ Bayes-Statistik (Sommer)
December 24, 2016 | Author: mailbigfoot | Category: N/A
Short Description
Download Seminar Stochastik _ Bayes-Statistik (Sommer)...
Description
Bayes-Statistik Marian Sommer - 28. September 2012 Seminar zur Stochastik WS 2012 - Institut für Statistik und Wirtschaftsmathematik - RWTH Aachen www.isw.rwth-aachen.de
Inhaltsverzeichnis 1 Grundlagen
1
2 Bayes-Schätzfunktion
3
3 Beispiele
5
4 Das IMDb-Top250-Bewertungssystem
18
5 Zusammenfassung und Ausblick
21
Literaturverzeichnis
23
1
Grundlagen
Diese Ausarbeitung knüpft an die Grundlagen über Schätzfunktionen in der Statistik an. Es werden einige Definitionen benötigt, die fortlaufend verwendet werden. Definition 1.1 (statistischer Raum) Sei (X , B) ein Messraum, Ω ̸= ∅ eine Menge und P = {Pϑ |ϑ ∈ Ω} eine Familie von Wahrscheinlichkeitsverteilungen auf B mit Pϑ ̸= Pϑ′ falls ϑ ̸= ϑ′ . Dann heißt (X , B, P) statistischer Raum, X Stichprobenraum, P Verteilungsannahme, Ω Parameterraum. Definition 1.2 (Statistik) Sei (X , B, P) ein statistischer Raum und (V, V) ein Messraum. Eine messbare Abbildung T : (X , B) → (V, V) heißt Statistik. (V, V, P T ) mit P T := {P T |P ∈ P} heißt wieder statistischer Raum. Definition 1.3 (Nichtrandomisierte statistische Entscheidungsfunktion, Entscheidungsraum) Sei (X , B, P) ein statistischer Raum und (D, D) ein Messraum. Eine messbare Abbildung δ : (X , B) → (D, D) heißt nichtrandomisierte statistische Entscheidungsfunktion oder Schätzfunktion und (D, D) heißt Entscheidungsraum. Definition 1.4 (Verlustfunktion) Es sei (X , B, P) ein statistischer Raum, P = {Pϑ |ϑ ∈ Ω}, Ω ̸= ∅ eine Menge, und (D, D) ein Messraum. Eine Funktion L : Ω × D → [0, ∞], (ϑ, d) 7→ L(ϑ, d) 1
1
heißt Verlustfunktion, wenn L(ϑ, ·) D − (B ∩ [0, ∞]) messbar ist ∀ϑ ∈ Ω, wobei B die Borelsche σ-Algebra auf R = R ∪ {∞, −∞} ist.
Eine bekannte und häufig benutzte Verlustfunktion ist die Gauss’sche Verlustfunktion. Definition 1.5 (Gauss’sche Verlustfunktion) Es sei D ⊆ Ω ⊆ R, P = {Pϑ |ϑ ∈ Ω}, g : (Ω, D) → (R1 , B1 ) messbar. Dann heißt L : Ω × D → [0, ∞], (ϑ, d) 7→ (g(ϑ) − d)2 Gauss’sche Verlustfunktion. Für g(ϑ) = ϑ wird L auch quadratischer Verlustfunktion genannt. Definition 1.6 (statistisches Entscheidungsproblem) Sei (X , B, P) ein statistischer Raum, P = {Pϑ |ϑ ∈ Ω}, Ω ̸= ∅ eine Menge, (D, D) ein Entscheidungsraum und L : Ω × D → [0, ∞] eine Verlustfunktion. Dann heißt E = ((X , B, P), (D, D), L) statistisches Entscheidungsproblem Definition 1.7 (Risikofunktion) Gegeben sei ein statistisches Entscheidungsproblem E = ((X , B, P), (D, D), L) und △ sei die Menge aller nichtrandomisierten Entscheidungsfunktionen. Die Funkrion R : Ω × △ → [0, ∞], (ϑ, δ) 7→
∫
L(ϑ, δ(x))dPϑ (x) X
heißt Risikofunktion.
1
Definition 1.8 (UMP-Schäzer) Es sei E = ((X , B, P), (D, D), L) ein statistisches Entscheidungsproblem. Eine nichtrandomisierte Entscheidungsfunktion δ heißt gleichmäßig optimal oder UMP-Schätzer (Uniformly most powerful) genau dann, wenn R(ϑ, δ) ≤ R(ϑ, δ ′ ) , ∀ϑ ∈ Ω , ∀δ ′ ∈ △ wobei △ die Menge aller nichtrandomisierten Entscheidungsfunktionen sei. Definition 1.9 (UMVU-Schätzer, Erwartungstreue) Es sei E = ((X , B, P), (D, D), L) ein statistisches Entscheidungsproblem, wobei L durch die Gauss’sche Verlustfunktion gegeben ist. Jede Schätzfunktion δ für die Eϑ (δ(X)) = g(ϑ) (Erwartungstreue Schätzfunktion für g(ϑ)) gilt und die gleichmäßig optimal, ist heißt UMVUSchätzer(Uniformly minimum variance unbiased estimator). Eine Identitätsaussage hat C.R.Rao(1973) entdeckt. Satz 1.1 Es sei X : (Ω′ , A′ , P ) → (X , B, Pϑ ) eine von ϑ ∈ Ω abhängige Zufallsvariable und δ ∗ : X → G ⊆ R1 erwartungstreue Schätzfunktion für g(ϑ) mit V arϑ δ ∗ (X) < ∞, ∀ϑ ∈ Ω. δ ∗ ist UMVU-Schätzer genau dann, wenn ∀ϕ : X → R1 B − B1 -messbar mit Eϑ ϕ(X) = 0 , ∀ϑ ∈ Ω : Cov(δ ∗ (X), ϕ(X)) = 0 , ∀ϑ′ ∈ Ω mit V arϑ′ ϕ(X) < ∞ Für einen Beweis siehe C.R.Rao(1973). Anwendung findet dieser Satz in der Bestimmung des UMVU-Schätzers bei binomialverteilter Zufallsvariable. Beispiel 1.1 (Binomialer UMVU-Schätzer) Es sei X eine binomialverteilte Zufallsvariable, X ∼ bin(n, p) , n ∈ N, p ∈ (0, 1) = Ω, X = {0, . . . , n}. Wegen (
X E(X) = np ⇔ E n
)
=p
ist δ(x) = nx , x ∈ {0, . . . , n} erwartungstreue Schätzfunktion für p. ϕ : R → R erwatungstreue Schätzfunktion für 0 ⇔ ∀p ∈ [0, 1] : Ep (ϕ(X)) =
n ∑
ϕ(j)pj (1 − p)(n−j) = 0
j=0
ist ein Polynom in p mit überabzählbar vielen Nullstellen. ⇒ ϕ(j) = 0 , j ∈ {0, . . . , n} So erhält man Covp (δ(X), ϕ(X)) = Ep (δ(X)ϕ(X)) − Ep (δ(X)) Ep (δ(X)) |
=
n ∑ j=0
{z
}
=0 j n
ϕ(j) pj (1 − p)n−j = 0, ∀p ∈ (0, 1) | {z } =0
2
Mit Satz1.1 folgt, dass δ(X) = X/n UMVU-Schätzer ist für p ist . Definition 1.10 (Absolute Stetigkeit von Maßen) Seien µ, ν Maße auf einer σ-Algebra A. µ heißt absolut stetig bzgl. ν, wenn für alle A ∈ A gilt: ν(A) = 0 ⇒ µ(A) = 0 Kurz: µ 0 gilt P (A|B) =
P (B|A) · P (A) P (B)
Beweis von Satz1.3 Def.
P (A|B) =
2
P (A ∩ B) P (A ∩ B) P (A) Def. P (B|A) · P (A) = · = P (B) P (A) P (B) P (B)
Bayes-Schätzfunktion
Grundlage dieses Seminars ist das Kapitel über Bayes-Schätzung (Bayes-Estimation) aus dem Buch von Keener(2010) [1]. Der Vergleich zweier Schätzfunktionen bzgl. deren Risikofunktion führt zu keinem zufriedenstellenden Ergebnis, falls sich diese schneiden (Vergleichkriterium aus der Mathematischen Statistik: UMP-Schätzer). Betrachtet man die Risikofunktion einer Schätzfunktion (im folgenden ’Schätzer’ genannt) über einen ’gewichteten Mittelwert’ (bzw. gewichtetes Mittelintegral) der Risikofunktion, so erhält man den Bayes’schen Ansatz. Das Bayes-Risiko sei wie folgt definiert: Definition 2.1 (Bayes-Risiko, a-priori-Verteilung) Gegeben sei ein statistisches Entscheidungsproblem E = ((X , B, P), (D, D), L) mit Risikofunktion R(·, δ) : Ω → [0, ∞] und δ eine nichtrandomisierte Entscheidungsfunktion. Es sei zusätzlich I eine σ-Algebra über Ω mit 1) ϑ → Pϑ (B) ist I-(B1 ∩ [0, 1])-messbar ∀B ∈ B
3
2) (ϑ, d) → L(ϑ, d) ist (I ⊗ D)-(B1 ∩ [0, 1])-messbar und Π sei die Menge aller Wahrscheinlichkeitsverteilungen auf (Ω, I). Jedes Λ ∈ Π heißt a-priori-Verteilung. Für Λ ∈ Π heißt ∫
(1)
r(Λ, δ) :=
R(ϑ, δ)dΛ(ϑ)
Bayes-Risiko von δ bzgl. Λ. Das Ziel der Bayes-Statistik ist eine Schätzfunktion zu finden, die das Bayes-Risiko bzgl. einer a-priori-Verteilung Λ minimiert. Definition 2.2 (Bayes-Schätzer) Es gelten die Voraussetzungen aus Definition2.1. Λ ∈ Π sei fest gewählt. Eine nichtrandomisierte Entscheidungsfunktion δ, die (1) minimiert wird Bayes-Schätzfunktion für ϑ bzgl. Λ genannt. Ist die a-priori-Verteilung aus dem Kontext bekannt, so bezeichnet man δ auch abkürzend als Bayes-Schätzer für ϑ. Im Bayes’schen Wahrscheinlichkeitsmodell geht man nun davon aus, dass der unbekannte Parameter ϑ sowie die Stichprobe x zufällig sind. Sei (Ω′ , A′ , P ) ein Wahrscheinlichkeitsraum, dann definiert man die Zufallsvariablen X|Θ = ϑ : (Ω′ , A′ , P ) → (X , B, Pϑ ) , ϑ ∈ Ω Θ : (Ω′ , A′ , P ) → (Ω, I, Λ) , wobei alle Bezeichnungen denen aus Definition2.1 entsprechen. Abkürzend schreibt man dafür Θ ∼ Λ und X|Θ = ϑ ∼ Pϑ . Mit diesen Zufallsvariablen erhält man eine alternative Darstellung der Risikofunktion: ∫
R(ϑ, δ) =
L(ϑ, δ(x))dPϑ (x) = E[L(ϑ, δ(X))|Θ = ϑ] = E[L(Θ, δ(X))|Θ = ϑ] X
Daraus folgt ebenso eine alternative Darstellung des Bayes-Risikos: r(Λ, δ)
=
∫
R(ϑ, δ)dΛ(ϑ)
Ω
= E(R(Θ, δ)) = E(E(L(Θ, δ(X))|Θ)) = E(L(Θ, δ(X))) = E(E(L(Θ, δ(X))|X)) Ein Ansatz zur Minimierung des Bayes-Risikos von δ bzgl. Λ, die Minimierung der Risikofunktion, ist bereits bekannt. Falls δ gleichmäßig optimal ist, dann ist insbesondere das Bayes-Risiko minimal, also ist jeder UMP-Schätzer auch Bayes-Schätzer von ϑ. Der zweite Ansatz ist, den sogenannten a-posteriori-Erwartungswert von L(Θ, δ(X)), E(L(Θ, δ(X))|X = x), zu minimieren. Die Verteilung für dessen Berechnung erhält man über den Satz von Bayes.
4
Theorem 2.1 Sei E = ((X , B, P), (D, D), L), Θ ∼ Λ ein statistisches Entscheidungsproblem und X|Θ = ϑ ∼ Pϑ . Falls a) EL(Θ, δ0 (X)) < ∞ für eine Entscheidungsfunktion δ0 und b) für P X -f.a. x existiert ein Wert δΛ (x), der E[L(Θ, d)|X = x] bzgl. d minimiert. Dann ist δΛ ein Bayes-Schätzer. Beweis: Sei δ eine beliebige Schätzfunktion. Dann gilt für P X -f.a. x: E[L(Θ, δ(X))|X = x] = E[L(Θ, δ(x))|X = x] ≥ E[L(Θ, δΛ (x))|X = x] = E[L(Θ, δΛ (X))|X = x] . Daraus folgt E[L(Θ, δ(X))|X] ≥ E[L(Θ, δΛ (X))|X] und zusätzliche Erwartungswertbildung über X ergibt dann EL(Θ, δ(X)) = E[E(L(Θ, δ(X))|X)] ≥ E[E(L(Θ, δΛ (X))|X)] = EL(Θ, δΛ (X)) .
Folglich ist δΛ Bayes-Schätzer von ϑ.
Bedingung (a) könnte man auch weglassen, allerdings wäre dann jede Schätzfunktion δ ein Bayes-Schätzer von ϑ, da das Bayes-Risiko für alle Schätzfunktionen unendlich ist.
3
Beispiele
Es folgen Beispiele für die Berechnung von Bayes-Schätzern unter einfachen und bekannten Verlustfunktionen. Beispiel 3.1 (gewichtete quadratische Verlustfunktion) Gegeben sei die gewichtete quadratische Verlustfunktion L(ϑ, d) = w(ϑ)(d − g(ϑ))2 , wobei g : (Ω, I) → (R, B1 ) und w : (Ω, I) → ([0, ∞), B1 ∩[0, ∞)). Nach Theorem(2.1) minimiert δΛ den Ausdruck
5
E[w(Θ)(d − g(Θ))2 |X = x] =
d2 E[w(Θ)|X = x] −2dE[w(Θ)g(Θ)|X = x] +E[w(Θ)g 2 (Θ)|X = x] .
Falls E(w(Θ)|X = x) = 0 gilt, dann ist E[w(Θ)(d − g(Θ))2 |X = x] =
−2dE[w(Θ)g(Θ)|X = x] +E[w(Θ)g 2 (Θ)|X = x]
eine lineare Funktion in d. Damit Bedingung (b) erfüllt ist muss also E[w(Θ)g(Θ)|X = x] = 0 gelten. Der a-posteriori-Erwartungswert ist dann konstant in d, also sind alle Entscheidungsfunktionen δ nach Theorem2.1 Bayes-Schätzer. Falls E(w(Θ)|X = x) > 0 kann man einen P X -f.s. Bayes-Schätzer bestimmen. Der a-posteriori-Erwartungswert von L(Θ, d) ist eine quadratische Funktion in d. Setze also die Ableitung 2dE[w(Θ)|X = x] − 2E[w(Θ)g(Θ)|X = x] gleich Null und erhalte > 0 für d > δΛ (x)
d · E(w(Θ)|X = x) − E(w(Θ)g(Θ)|X = x) = 0 für d = δΛ (x) < 0 für d < δΛ (x)
,
wobei (2)
δΛ (x) =
E[w(Θ)g(Θ)|X = x] . E[w(Θ)|X = x]
Folglich ist δΛ P X -f.s. eindeutiger Bayes-Schätzer für g(ϑ). Ist die Gewichtungsfunktion w ≡ 1, so entspricht die Verlustfunktion der quadratischen Verlustfunktion. Dann ist δΛ (X) = E[g(Θ)|X] der a-posteriori-Erwartungswert von g(Θ). Falls P = {Pϑ |ϑ ∈ Ω} eine dominierte Familie von Verteilungen ist mit Dichte pϑ und falls Λ 0, β > 0 fest. Da sich die Dichte zu 1 integriert, folgt ∫1
(4)
ϑα−1 (1 − ϑ)β−1 dϑ =
0
Γ(α)Γ(β) . Γ(α + β)
Mit (4) kann man den Erwartungswert von Θ leicht berechnen: EΘ
=
Γ(α+β) Γ(α)Γ(β)
∫1
ϑ1+α−1 (1 − ϑ)β−1 dϑ
0 (4) Γ(α+β) Γ(α+1)Γ(β) = Γ(α)Γ(β) Γ(α+β+1) α = α+β
Die Randdichte von X im Bayes’schen Modell ist q(x) = = =
∫
pϑ (x)λ(ϑ)dϑ
∫1 (n)
Γ(α+β) x+α−1 ϑ (1 x Γ(α)Γ(β)
0 ) (
− ϑ)n−x+β−1 dϑ
n Γ(α+β) Γ(x+α)Γ(n−x+β) x Γ(α)Γ(β) Γ(n+α+β)
, x ∈ {0, . . . , n} .
q(x) ist offensichtlich die Zähldichte einer Beta-Binomial-Verteilung. Teilt man die gemeinsame Dichte pϑ (x)λ(ϑ) durch die eben berechnete Zähldichte q(x), so erhält man die bedingte Dichte λ(ϑ|x) =
Γ(n + α + β) ϑx+α−1 (1 − ϑ)n−x+β−1 , x ∈ {0, . . . , n} , ϑ ∈ (0, 1) . Γ(α + x)Γ(β + n − x)
Die bedingte Zähldichte λ(ϑ|x) impliziert Θ|X = x ∼ Beta(x + α, n − x + β) . Die a-posteriori-Verteilung aus der a-priori-Verteilung und der beobachteten Stichprobe zu berechnen ist hier einfach: man erhöht α um die Anzahl der Erfolge x und β um die Anzahl der Misserfolge n−x. Falls, wie in diesem Fall, die Klasse der a-priori-, sowie der a-posteriori-Verteilung
7
übereinstimmt, so nennt man diese Verteilungsklasse konjugiert. Letzteres wird in Beispiel(3.7) ausführlicher behandelt. Unter Gauss’scher Verlustfunktion mit g(ϑ) = ϑ ergibt sich somit δΛ (X) = E[Θ|X] =
X +α n+α+β
als Bayes-Schätzer für ϑ. Elementares Umformen ergibt dann [
]
[
]
n X n α δΛ (X) = + 1− n+α+β n n+α+β α+β was zeigt, dass der Bayes-Schätzer ein gewichteter Mittelwert aus dem UMVUESchätzer X/n und dem a-priori-Erwartungswert EΘ = α/(α + β) ist. Die Beta-verteilung ist eine beliebte Wahl für die a-priori-Dichte, da die Dichte, abhängig von den Parametern α und β unterschiedliche Darstellungen annehmen kann, wie man in folgender Abbildung erkennen kann.
Dichte einer Beta(α, β)-Verteilung
1
Notation [Proportionalität ∝] Seien h, g : X → R Funktionen. h heißt porportional zu g in (x), wenn ein a ∈ R\{0} existiert mit h(x) = a · g(x), ∀x ∈ X . Kurz schreibt man∫ h(x) ∝x g(x). Insbesondere∫gilt h(x) ∝x b · g(x) ∀b ∈ R\{0}. Da für Dichten h h = 1 gilt, folgt, dass a = ( g)−1 . a ist somit eine Normierungs∫ konstante, sofern 0 < g < ∞. Beispiel 3.3 (Negative Binomial-Verteilung) Es sei (Xi )i∈N ein Bernoulli-Prozess mit Erfolgswahrscheinlichkeit ϑ und X die Anzahl der Fehlversuche vor dem zweiten Erfolg, dann ist die Dichte von X|Θ = ϑ gegeben durch pϑ (x) = Pϑ (X = x) = (x + 1)ϑ2 (1 − ϑ)x , x = 0, 1, 2, . . . 1
http://de.wikipedia.org/wiki/Betaverteilung
8
Erklärung der Dichte: ( |
)
x+1 (1 − ϑ)x ϑ 1 {z
·
ϑ |{z}
}
(II)
(I)
(I) Wahrscheinlichkeit, dass ein Erfolg in x+1 Bernoulli-Versuchen, mit Erfolgswahrschienlichkeit ϑ, auftritt (II) Wahrscheinlichkeit für zweiten Erfolg im x+2’ten Versuch Betrachtet man die Schätzung von g(Θ) = 1/Θ in einem Bayes’sches Modell, in dem Θ gleichverteilt auf (0, 1) sei (also Θ ∼ U(0, 1) ). Dann ist λ(ϑ|x) ∝ϑ pϑ (x)λ(ϑ) ∝ϑ ϑ2 (1 − ϑ)x . Diese Dichte ist offensichtlich in ϑ proportional zur Beta(3, x + 1)-Verteilung. Dies impliziert Θ|X = x ∼ Beta(3, x + 1) . Der a-posteriori-Erwartungswert von 1/Θ ist dann δ0 (x) = E[Θ−1 |X = x]
=
Γ(x+4) Γ(3)Γ(x+1)
∫1
ϑ(1 − ϑ)x dϑ
0 (4) Γ(x+4)Γ(2)Γ(x+1) = Γ(3)Γ(x+1)Γ(x+3) = x+3 . 2
Der UMVU-Schätzer für 1/ϑ (siehe Keener, Beispiel(5.3)) ist δ1 (x) =
x+2 , 2
der im Zusammenhang mit dem eben berechneten δ0 steht δ0 (X) = δ1 (X) +
1 . 2
Also hat der Schätzer δ0 die konstante Verzerrung Bias(ϑ, δ0 )
= Eϑ δ0 (X) − ϑ1 = Eϑ δ1 (X) + 12 − ϑ1 = ϑ1 + 12 − ϑ1 = 12 .
Mit quadratischer Verlustfunktion ist die Risikofunktion die Varianz des Schätzers addiert mit der quadratischen Verzerrung. Da δ0 und δ1 sich nur bis auf eine Konstante unterscheiden, haben sie dieselbe Varianz und somit ist R(ϑ, δ0 ) = V arϑ (δ0 ) +
1 1 1 = V arϑ (δ1 ) + = R(ϑ, δ1 ) + . 4 4 4
Daraus folgt, dass die Risikofunktion des UMVU-Schätzers δ1 echt kleiner ist, als die Risikofunktion vom Bayes-Schätzer δ0 . Zur Erinnerung: ein Schätzer heißt unzulässig, wenn es einen Schätzer δ0 gibt, der
9
δ dominiert ( δ ≺ δ0 , d.h. R(ϑ, δ0 ) ≤ R(ϑ, δ)∀ϑ ∈ Ω und ∃ϑ0 ∈ Ω : R(ϑ0 , δ0 ) < R(ϑ0 , δ)). Ein unzulässiger Schätzer ist grunsätzlich kein Bayes-Schätzer, da ein Schätzer mit niedrigerer Risikofunktion, über Integration in ϑ, dann auch ein niedrigeres BayesRisiko besitzt. Theorem (2.1) greift hier nicht, da Bedingung (a) nicht erfüllt ist:
(5)
EL(Θ, δ(X)) =
∞ ∫ ∑
(
δ(x) −
x=0(0,1)
=
∞ ∑
(x + 1) δ(x)2 − 2δ(x)
x=0
∫
1 ϑ
)2
(x + 1)ϑ2 (1 − ϑ)x dϑ
ϑ(1 − ϑ)x dϑ +
(0,1)
∫
(1 − ϑ)x dϑ
(0,1)
Die Integrale berechnen sich wie folgt: ∫
(1 − ϑ)x dϑ
(0,1)
1 = − x+1
∫
−(x + 1)(1 − ϑ)x dϑ
(0,1)
1 = − x+1 · [(1 − ϑ)x ]ϑ=1 ϑ=0 1 1 = − x+1 (0 − 1) = x+1
∫
P.I.
ϑ(1 − ϑ)x dϑ
[
(
1 = ϑ · − x+1 (1 − ϑ)x+1
(0,1)
)]ϑ=1 ϑ=0
−
∫ (0,1)
1 − x+1 (1 − ϑ)x+1 dϑ
−1 = 0 + (x+1)(x+2) [(1 − ϑ)x+2 ]ϑ=0 1 = (x+1)(x+2) ϑ=1
Angenommen es existiert eine Schätzfunktion δ ∗ mit E(L(Θ, δ ∗ (X))) < ∞. Mit Theorem2.1 folgt dann, dass δ0 das Bayes-Risiko P X -f.s. eindeutig minimiert. Setzt man δ0 = x+3 und die berechneten Integrale in (5) ein: 2 ∞ ∑ x=0
=
(
(x + 1)(x + 3)2 x + 3 − +1 4 x+2
)
∞ ∑ (x + 2)(x + 1)(x + 3)2 − 4(x + 3) + 4(x + 2)
4(x + 2) {z
x=0 |
}
ax :=
Wegen 2 ax > 1 ⇔ |{z} x4 + |{z} 9x3 + 29x 6 >0 | {z } + 35x |{z} + |{z} ≥0
für x ∈ N folgt, dass
∞ ∑ x=0
≥0
≥0
≥0
>0
ax = ∞ und somit E(L(Θ, δ0 (X))) = ∞, was ein Wider-
spruch zur Annahme ist. In diesem Fall minimiert jeder Schätzer (1). Beispiel 3.4 Gegeben sei ein Bayes’sches Modell mit exponentialverteilter Zufallsvariable Θ mit Ausfallrate µ > 0, d.h. die Dichte von Θ ist gegeben durch λ(ϑ) = µ exp(−µϑ), ∀ϑ > 0 .
10
i.i.d.
Für gegebenes Θ = ϑ, seien X1 , . . . , Xn ∼ po(ϑ) mit Dichte ϑx i exp(−ϑ) , i = 1, . . . , n xi !
pϑ (xi ) =
und X := (X1 , . . . , Xn ). Die Verlustfunktion sei wie folgt definiert: L(ϑ, d) = ϑp (d − ϑ)2 , wobei p > 0 eine feste Konstante sei. Die Dichte von X bei gegebenem Θ = ϑ ist dann n ∏
pϑ (x) =
pϑ (xi ) =
n ∏
ϑxi xi !
i=1 i=1 ϑT (x) ∏nexp(−nϑ) , x x! i=1 i
=
exp(−ϑ)
∈ Nn0 ,
∑
wobei T (x) = ni=1 xi . Mit Beispiel (3.1) hat der Bayes-Schätzer für ϑ folgende Form ∫∞
p+1
ϑ pϑ (x)λ(ϑ)dϑ δΛ (x) = ∫0 ∞ ϑp p (x)λ(ϑ)dϑ
ϑ ∫ ∞0 T (x)+p+1 ϑ exp(−(n+µ)ϑ)dϑ = 0 ∫ ∞ T (x)+p 0
ϑ
exp(−(n+µ)
ϑ=∞
∫∞
1 T (x)+p+1 · − 1 exp(−(n+µ)ϑ) exp(−(n+µ)ϑ))dϑ )] − 0 (T (x)+p+1)·ϑT (x)+p ·(− n+µ ( n+µ P.I. [ϑ ∫ ∞ϑ=0 = T (x)+p ϑ exp(−(n+µ))dϑ 0 ∫ ∞ T (x)+p ϑ exp(−(n+µ)ϑ)dϑ (∗) T (x)+p+1 = n+µ ∫0 ∞ ϑT (x)+p exp(−(n+µ))dϑ 0 , x ∈ Nn0 . = T (x)+p+1 n+µ
Wobei in der Umformung (*) folgende Grenzwerte eingehen: (
lim ϑ
ϑ→0 |
)
1 } − n + µ exp(−(n + µ)ϑ) = 0
T (x)+p+1
{z
→0
|
{z
(
ϑT (x)+p+1 1 lim · − ϑ→∞ exp((n + µ)ϑ) n+µ |
}
→1
{z
→0
)
=0
}
da jede Exponentialfunktion schneller gegen unendlich läuft als jedes Polynom. Beispiel 3.5 Sei ein Bayes’sches Modell gegeben, in dem die a-priori-Verteilung absolut stetig sei mit Dichte λ(ϑ) =
1 ,ϑ>0. (1 + ϑ)2
Für gegebenes Θ = ϑ, sei die Variable X gleichverteilt auf (0, ϑ) (X ∼ U (0, ϑ)). Dann ist die Randverteilung von X gegeben durch
11
∫
q(x) = ∫ pϑ (x)λ(ϑ)dϑ 1 1 = x∞ (1+ϑ) 2 · ϑ dϑ =
∫∞ [1
[
x
ϑ
−
1 1+ϑ
−
1 (1+ϑ)2
]
[ da pϑ (x) =
= =
1 ϑ
· 1(x,∞) (ϑ) ]
]ϑ=∞ 1 ϑ+1 ϑ=x
]ϑ=∞ 1 ϑ+1 ϑ=x 1 lim log(1 − 1+ϑ ) + lim 1 ϑ→∞ ( ) ϑ→∞ 1+ϑ 1 0 + 0 − log 1+x − x+1 x ( ) 1 log 1+x − x+1 ,x>0. x
ϑ = log( 1+ϑ )+
=
· 1(0,ϑ) (x) =
dϑ
= log(ϑ) − log(ϑ + 1) + [
1 ϑ
(
− lim log(1 − ϑ→x
1 ϑ+1
+
)
1 ) 1+ϑ
Also gilt mit dem Satz von Bayes pϑ (x) · λ(ϑ) 1 = ,ϑ>x>0 q(x) ϑ(1 + ϑ)2 q(x)
p(ϑ|x) = und somit E[|Θ − d||X = x]
=
∫∞ x
∫
d
= |
x
|ϑ−d| dϑ ϑ(1+ϑ)2 q(x)
∫ ∞ d−ϑ ϑ−d dϑ + dϑ . 2 ϑ(1 + ϑ) q(x) ϑ(1 + ϑ)2 q(x) d {z } | {z } 1 2 ⃝ ⃝
1 Zu ⃝: 1 ⃝
= = =
d ∫d 1 ∫d 1 1 dϑ + q(x) dϑ x − (1+ϑ) q(x) x ϑ(1+ϑ)2 ( ) 2 d(q(x)−q(d)) 1 1 1 + q(x) − x+1 q(x) d+1 1 1 + q(x)(d+1) − (1+x)q(x) d − d·q(d) q(x)
2 Zu ⃝: 2 ⃝
1 = − q(x)
∫∞ [
d ∫∞ 1 dϑ q(x) d ϑ(1+ϑ)2 d·q(d) q(x)
1 − (1+ϑ) 2 dϑ −
]ϑ=∞ 1 1+ϑ ϑ=d 1 − d·q(d) q(x)(d+1) q(x)
1 · = − q(x)
=
d
−
Also insgesamt: 1 + ⃝ 2 = d − ⃝
1 2 2d · q(d) − + q(x) (1 + x)q(x) (1 + d)q(x)
Da ∂ q(d) ∂d
= = =
(
(
)
)
∂ 1 log 1+d − d+1 ∂d d d 1 · − d12 + (d+1) 2 d+1 −(d+1)+d 1 = − d(1+d)2 , (d+1)2 d
1 + ⃝ 2 gegeben durch ist die Ableitung nach d des Ausdrucks ⃝
12
∂ ∂d
(
∂ 1 2 1 + ⃝ 2 ⃝ = ∂d d − 2dq(d) − (1+x)q(x) + (1+d)q(x) q(x) 2 2 = 1 − q(x) (q(d) + dq ′ (d)) − q(x)(1+d) 2
(
(3.5)
(
)
))
2 1 = 1 − q(x) q(d) + d · − d(1+d) − 2 2q(d) 2 2 = 1 − q(x) + q(x)(1+d)2 − q(x)(1+d)2 . = 1 − 2q(d) q(x)
2 q(x)(1+d)2
Offensichtlich ist q(d) streng monoton fallend für d > x, da (6)
∂ 1 q(d) = − < 0 , ∀d > x(> 0) . ∂d d(1 + d)2
Zudem gilt für A(d) := 1 −
2q(d) : q(x)
A(x) = −1 lim A(d) = 1
d→∞
Mit (6) ist A streng monoton steigend mit Werten zwischen -1 und 1 und somit existiert eine eindeutige Nullstelle in der gilt: q(δΛ (X)) =
q(X) 2
dessen Gleichung dann den Bayes-Schätzer beschreibt. Mit dieser Gleichung erhält man zudem ∫
(7)
P (δΛ (X) < Θ|X = x) =
∞
δΛ (x)
1 q(ϑΛ (x)) 1 dϑ = = . 2 ϑ(1 + ϑ) q(x) q(x) 2
Lehmann und Casella(1998) fanden heraus, dass jeder Median von Θ|X = x BayesSchätzer von ϑ ist. Da hier mit einer stetigen Verteilung gearbeitet wird, ist das Ergebnis aus (7) klar. Beispiel 3.6 Für die Bayes-Schätzung einer linearen Regression werde angenommen, dass die additive Konstante Θ1 und die Steigung Θ2 unabhängig a-prioriverteilt sind mit Θ1 ∼ N (0, τ12 ) und Θ2 ∼ N (0, τ22 ). Für gegebenes Θ1 = ϑ1 und Θ2 = ϑ2 seien die unabhängigen Daten Y1 , . . . , Yn jeweils Yi ∼ N (ϑ1 + ϑ2 xi , σ 2 ) verteilt für i = 1, . . . , n, wobei die Varianz σ 2 > 0 bekannt sei und x1 , . . . , xn Kon∑ stanten sind, die sich zu 0 aufsummieren ( ni=1 xi = 0). Die zugehörigen Dichten sind dann s.u.
λ(ϑ) = λ(ϑ1 , ϑ2 ) = λ(ϑ1))λ(ϑ2 ) ( ϑ2 = √ 1 2 exp − 12 τ 21 · √ 1 2πτ1
1
und
13
2πτ22
(
ϑ2
exp − 12 τ 22 2
)
pϑ (y) = = = = =
=
n ∏
pϑ (yi )
(
i=1 n ∏
)
2 2 xi )) √ 1 exp − 12 (yi −(ϑ1σ+ϑ 2 2 2πσ i=1 ) ( ( )n n 1 ∑ 2 √ 1 exp − 2σ2 (yi − (ϑ1 + ϑ2 xi )) 2πσ 2 i=1 )) ( ( ( )n n n n ∑ ∑ ∑ 1 1 2 2 √ exp − 2σ2 yi − 2 (ϑ1 + ϑ2 xi )yi + (ϑ1 + ϑ2 xi ) 2πσ 2 i=1 i=1 (i=1 ( ( )n n n n ∑ ∑ ∑ 1 1 2 √ exp − 2σ2 yi − 2ϑ1 yi − 2ϑ2 yi xi 2πσ 2 i=1 i=1 i=1 )) n n n ∑ ∑ ∑ + ϑ21 + 2ϑ1 ϑ2 xi + ϑ22 x2i i=1 i=1 ( i=1 ( n )) ( )n n n n ∑ 2 ∑ ∑ ∑ 1 2 2 2 √ 1 exp − 2σ2 yi − 2ϑ1 yi − 2ϑ2 yi xi + nϑ1 + ϑ2 xi 2πσ 2 i=1 i=1 i=1 i=1
Die Dichte von (Θ1 , Θ2 )|Y ist proportional zu λ(ϑ)pϑ (y)
[
ϑ2
1
∝ϑ exp − 2τ12 −
ϑ22 2τ22
n ∑
nϑ21 2σ 2
−
(
ϑ2 −2 i=1 1 2 n+ σ2 τ 1 ∝ϑ exp −
∑n
2 i=1 xi +
)2
n ∑
y i ϑ2 1
+
ϑ21 2σ 2
−
ϑ1 σ2
∑n
i=1 yi +
ϑ2 σ2
∑n
i=1 xi yi
]
( n 1 ) · 2 + 2 σ τ1
yi
i=1 2 n+ σ2 τ 1
2
∑ 2 n ) (n xi yi ∑ x2i 1 i=1 ϑ22 −2ϑ2 ni=1 + 2 · n ∑ 2 σ 2 + ∑ σ2 τ 2 2 i=1 x + 2 x2 + σ2 i τ i τ 2 2 i=1 i=1 − 2
∝ϑ exp −
[
∑n
n ∑
]
2 y i=1 i n+σ 2 /τ 2 1 2(n/σ 2 +1/τ12 )−1
ϑ1 −
yi xi
[
−
∑n
ϑ2 − ∑ n
∑n
2(
x y i=1 i i x2 +σ 2 /τ 2 2 i=1 i
]2
−1 x2 /σ 2 +1/τ22 i=1 i
)
Bei gegebenen Stichproben-Daten sind also Θ1 und Θ2 unabhängige normalverteilte Zufallsvariablen. Die jeweiligen Bayes-Schätzer sind dann die a-posterioriErwarungswerte: E[Θ1 |X, Y ] =
∑n
n
i=1 Yi + σ 2 /τ12
∑n
i=1 xi Yi 2 2 2 i=1 xi + σ /τ2
und E[Θ2 |X, Y ] = ∑n
.
Beispiel 3.7 (konjugierte a-priori-Verteilungsklassen) Sei P = {Pϑ , ϑ ∈ Ω} eine einparametrische Exponentialfamilie in Normalform, dessen Dichte gegeben ist durch: pϑ (x) = h(x) exp(ϑT (x) − A(ϑ)) , x ∈ X .
14
Sei der Parameterraum Ω ein Intervall und Λ = Λα,β eine absolut stetige a-prioriVerteilung mit Dichte exp(α · ϑ − βA(ϑ) − B(α, β)), ϑ ∈ Ω λ(ϑ) = 0, sonst ∫
wobei B(α, β) = log
,
exp(α · ϑ − βA(ϑ))dϑ .
Ω
Die Dichten von Λα,β bilden eine zweiparametrische Exponentialfamilie. Sei Ω∗ = {(α, β) : B(α, β) < ∞} der Parameterraum. Für λ gelte zusätzlich, dass λ(ϑ) → 0, falls ϑ gegen die Ränder von Ω läuft, unabhängig von den Werten (α, β) ∈ E. Mit dieser Annahme gilt für λ: ∫
λ′ (ϑ)dϑ = lim λ(ϑ) − lim λ(ϑ) = 0 . ϑ→supΩ
ϑ→inf Ω
Ω
Wegen λ′ (ϑ) = [α − βA′ (ϑ)]λ(ϑ) folgt, dass ′
E[α − βA (Θ)] =
∫
λ′ (ϑ)dϑ = 0 !
Ω
und damit EA′ (Θ) =
(8)
α . β
Nehme das Bayes’sche Modell mit Ω ∼ Λα,β , X1 , . . . , Xn seien bei gegebenem Θ = ϑ Pϑ -verteilt und stochastisch unabhängig. pϑ (x) ist dann proportional zu exp(ϑnT (x) − nA(ϑ)), wobei T (X) := [T (X1 ) + · · · + T (Xn )]/n. Die bedingte Dichte von Θ unter X = x ist proportional zu pϑ (x)λ(ϑ) ∝ exp((α + nT (x))ϑ − (β + n)A(ϑ)) ∝ϑ λα+nT (x),β+n . Also ist Θ|X = x ∼ Λα+nT (x),β+n . mit diesem Ergebnis kann man den Bayes-Schätzer von A′ (Θ) berechnen: E[A′ (Θ)|X] =
α + nT (X) β α n = + T (X) , β+n β +nβ n+β
wobei der letzte Ausdruck offensichtlich ein gewichtetes arithmetisches Mittel von EA′ (Θ) = αβ und T (X) ist. Betrachtet man nun den Fall, dass Pϑ die Exponentialverteilung mit Ausfallrate ϑ und Erwartungswert 1/ϑ ist. Da pϑ (x) = ϑ exp(−ϑx) = exp(−ϑx + log(ϑ)) wählt man T (x) = −x und A(ϑ) = − log(ϑ). Dann ist λα,β (ϑ) ∝ϑ exp(αϑ + β log(ϑ)) = ϑβ exp(αϑ) , ϑ > 0 . α muss negativ sein, da sonst die obige Konvergenzbedingung für λ nicht erfüllt ist. Die λ-Dichte ist offensichtlich proportional zu einer Gamma-Dichte und deswegen ist Λα,β die Gamma-Verteilung mit Γ(β + 1, −α). Da 1/ϑ = −A′ (ϑ), ist der BayesSchätzer von 1/ϑ gegeben durch −E[A′ (Θ)|X] = −
|α| + nX α + nT = . β+n β+n
15
Beispiel 3.8 Gegeben sei ein Bayes’sches Modell mit zufälligem Parameter Θ, der Bernoulli-verteilt sei mit Erfolgswarscheinlichkeit 1/2, also P (Θ = 1) = P (Θ = 0) = 1/2. Für gegebenes Θ = 0 habe X die Dichte f0 und für gegebenes Θ = 1 habe X die Dichte f1 . Man bestimme nun den Bayes-Schätzer von Θ bei (i) Gauss’scher Verlustfunktion mit g(ϑ) = ϑ (ii) Verlustfunktion L(ϑ, d) = 1{ϑ̸=d} [0-1-Verlustfunktion] . Zu (i): Die gemeinsame Dichte ist λ(ϑ)pϑ (x) = fϑ (x)/2, x ∈ X , ϑ ∈ {0, 1}. Durch Summation erhält man die Randdichte von X: q(x) =
1 ∑
λ(ϑ)pϑ (x) =
ϑ=0
1 ∑ fϑ (x) ϑ=0
2
=
f1 (x) + f0 (x) ,x∈X . 2
Die bedingte Dichte von Θ bei gegebenem X = x ist dann gegeben durch λ(ϑ|x) =
λ(ϑ)pϑ (x) fϑ (x) = , ϑ ∈ {0, 1} , x ∈ X . q(x) f0 (x) + f1 (x)
λ(ϑ|x) ist die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit Erfolgsf1 (x) wahrscheinlichkeit p = p(x) = f0 (x)+f , x ∈ X . Der Bayes-Schätzer von ϑ unter 1 (x) quadratischer Verlustfunktion ist dann der Erwartungswert dieser bedingten Verteilung: 1 ∑ fϑ (X) f1 (X) E(Θ|X) = ϑ = . f0 (X) + f1 (X) ϑ=0 f0 (X) + f1 (X) Zu (ii): Theorem (2.1) zufolge sollte der Bayes-Scätzer das a-posteriori-Risiko minimieren. Die a-posteriori-Verteilung kann (i) entnommen werden. E(1{Θ̸=d} |X)
∑1
fϑ (X) 1{ϑ̸=d} f0 (X)+f 1 (X) f0 (X) f1 (X) = 1{d̸=0} +1{d̸=1} f0 (X) + f1 (X) f0 (X) + f1 (X)
=
ϑ=0
|
{z
}
|
=(1−p(X))
(**)
{z
}
=p(X)
= 1{d=1} (1 − p(X)) + 1{d=0} p(X)
Mann muss nun eine Fallunterscheidung zur Minimierung des a-posteriori-Erwartungswerts von L in d betrachten: 1. falls p(X) > 21 ⇔ f1 (X) > f0 (X) ist (**) minimal für d = 1 2. falls p(X) < 21 ⇔ f1 (X) < f0 (X) ist (**) minimal für d = 0 3. falls p(X) = 21 ist (**) für d = 0 oder d = 1 minimal Durch den 3. Fall, p(X) = 12 , folgt die die Nicht-Eindeutigkeit des Bayes-Schätzers. Die beiden resultierenden Bayes-Schätzer sind 1 , fallsp(X) ≥ δ1 (X) = 0 , sonst
16
1 2
1 , fallsp(X) > 0 , sonst
und
1 2
.
Beispiel 3.9 Θ sei Standard-Exponentialverteilt, d.h. mit Dichte λ(ϑ) = exp(−ϑ), i.i.d. ϑ > 0, und für gegebenes Θ = ϑ, seien X1 , . . . , Xn ∼ exp(ϑ), d.h. mit Dichte ϑ exp(−ϑx) , x ≥ 0 pϑ (x) = 0 , sonst
.
Die Verlustfunktion sei durch L(ϑ, d) = (d − ϑ)2 /d definiert. Nach Theorem(2.1) ist der Bayes-Schätzer δ(x) das d, welches den a-posteriori-Erwartungswert minimiert:
[
]
(d − Θ)2 E[Θ2 |X = x] E X = x = d − 2E[Θ|X = x] + . d d √
Setze die Ableitung dieses Ausdrucks gleich Null und erhalte δ(x) = E[Θ2 |X = x]. Es sei T (X) := X1 + · · · + Xn , X = (X1 , . . . , Xn ). Wegen λ(ϑ|x) ∝ϑ pϑ (x)λ(ϑ) ∝ϑ ϑn exp(−[1 + T (x)]ϑ) ist ∫∞
E[Θ |X = x] 2
(3)
ϑn+2 exp(−(1+T (x))ϑ)dϑ
0
= ∫∞
ϑn exp(−(1 + T )ϑ)dϑ 0
|
{z
P.I. 1 = A
}
A:=
) ]ϑ=inf ty ( [ n+2 1 ϑ exp(−(1 + T (x))ϑ) · − 1 + T (x) ϑ=0 | {z } (
∫∞
=
P.I.
=
)
)
0
n+2 T (x)+1
n+2 A(T (x)+1)
∫∞
n+1
ϑ
exp(−(1 + T (x))ϑ)dϑ
0
( ) ]ϑ=inf ty [ n+1 1 ϑ · − exp(−(1 + T (x))ϑ) 1 + T (x) ϑ=0 | {z } =0 ) ( ) ∫∞ 1 n
− (n + 1)ϑ 0
= =
)
− (n + 2)ϑn+1 − 1+T1 (x) exp(−(1 + T (x))ϑ)dϑ
( 1 A
=0
(n+2)(n+1) (T (x)+1)2 ·A (n+1)(n+2) (1+T )2
− 1+T (x) exp(−(1 + T (x))ϑ)dϑ
·A .
Also ist der Bayes-Schätzer: √ δΛ (X) =
n2 + 3n + 2 . 1 + T (X)
17
4
Das IMDb-Top250-Bewertungssystem
Die IMDb (Internet-Movie-Database) bestimmt ihre TOP250 mit einem Bewertungssystem, dessen Formel sie als ”echte Bayes’sche Schätzung” bezeichnen: (9)
Gewichtete Wertung(W R) =
C ·m+R·v m+v
wobei C die Durchschnittsbewertung aller Filme ist (derzeit 7,1), v die Anzahl abgegebener Stimmen für den Film, R der Durchschnitt der Bewertung für den Film und m das erforderliche Minimum an Stimmen, um in den 250 besten Filmen aufgelistet zu sein (derzeit 25000).2 Man bewertet einen Film mit einer Note von 1 bis 10, wobei 1 einer niedrigen und 10 einer hohen Bewertung entspricht. Schreibt man die gewichtete Wertung (9) ein wenig um, versteht man auch die Plausibilität des Schätzers: m v WR = C+ R m+v m+v Auf die Gewichtete Wertung(WR) des Films gehen, unabhängig von der Anzahl der für den Film abgegebenen Bewertungen v, immer zusätzliche m Stimmen mit der Durchschnittsbewertung aller Filme C ein. Je größer die Anzahl der Bewertungen für einen Film v ∈ N ist, desto schwächer ist der Einfluss des Durchschnittswerts aller Filme C auf die gewichtete Wertung des Films. Dieses System ist hilfreich, um hohen Bewertungen von neuen Filmen entgegen zu wirken, die nur eine geringe Anzahl an Bewertungen haben. Doch wie kommt IMDb nun darauf, dass gerade dieser Schätzer ein Bayes-Schätzer ist? Eine Theorie ist die folgende:3 Nehme an, dass die abgegebenen Bewertungen für einen Film Xi , i = 1, . . . , n, i.i.d. normalverteilt mit unbekanntem Erwartungswert ϑ und Varianz 1 seien. Die a-prioriVerteilung sei normalverteilt mit bekanntem Erwartungswert µ0 und bekannter Genauigkeit τ0 , wobei die Genauigkeit definiert ist durch den Kehrwert der Varianz. Die a-posteriori-Verteilung einer N (ϑ, τ )-Verteilung, wobei die a-priori-Verteilung N (µ0 , τ0 )-verteilt ist, ist wiederum eine Normalverteilung4 mit Erwartungswert (also Bayes-Schätzer für ϑ unter Gauss’scher Verlustfunktion mit g(ϑ) = ϑ): ∑
τ0 µ0 + τ ni=1 Xi τ0 + nτ Mit τ = 1, wie oben beschrieben, ergibt sich dann: ∑
τ0 µ0 + ni=1 Xi τ0 + n Ein direkter Vergleich mit der Formel (9) von IMDb lässt auf folgende Identitäten schließen: v≡n 2 3 4
http://www.imdb.de/chart/top http://masanjin.net/blog/bayesian-average http://en.wikipedia.org/wiki/Conjugate_prior
18
Ist klar, denn die Anzahl der Bewertungen für den Film oben war so definiert. C ≡ µ0 µ0 kann man hier als Expertenwissen interpretieren. Die Durchschnittsbewertung aller Filme C ist IMDb bekannt, also gehen sie davon aus, dass der Film ebenso eine Bewertung um C annehmen wird. m ≡ τ0 m wurde hier von IMDB ebenfalls als Expertenwissen eingebracht. 1/m beschreibt in diesem Modell dann die Varianz der a-priori-Verteilung. Je größer m gewählt wird, desto mehr konzentriert sich die Wahrscheinlichkeit der a-priori-Verteilung um die Durchschnittsbewertung aller Filme C ( = µ0 ). (
)
v v ∑ 1 ∑ R·v = Xi · v = Xi v i=1 i=1
R · v beschreibt die kumulierten Bewertungen für den Film. Die Annahme der Normalverteilung einer Stimme kann sich allerdings als problematisch erweisen, da zum Träger der Normalverteilung alle Werte unter 1 und über 10 gehören. Das Argument des zu großen Trägers lässt sich leicht durch Betrachtung der Verteilungsfunktion von (WR) entkräften. ∑ i.i.d. Da X1 , . . . , Xv n ∼ N (ϑ, 1) folgt, dass Y := n1 ni=1 ∼ N (ϑ, 1/n). Die Randverteilung von Y ist dann proportional zu
19
p(y)
∝y ∝y
∫∞ −∞ ∫∞ −∞
(
2
exp − n(y−ϑ) 2 (
exp −
ny 2
)
(
0
+ nyϑ −
2
)
0) exp − (ϑ−µ dϑ 2σ 2
nϑ2 2
−
ϑ 2σ02
+
µ0 ϑ σ02
−
µ20 2σ02
)
dϑ
) ( ) ( ( ) ∫∞ 1 µ 2 0 1 2 ∝y exp − ny2 · exp − 2 n + 2 ϑ − 2 ny + 2 ϑ dϑ σ0 σ0 −∞ | {z } | {z } S:= T := ( ) ( ) ∫∞ ( ( 2 )) −1 −1 2 −1 2 2
∝y exp − ny2 (
∝y exp − ny2
1 (T ·S ) 2 S −1
· exp
)
2
· exp
(
)
T2 S
·
1 2
·
·
−∞ ∫∞
exp −
−∞
(
∝y exp −
ny 2
+ ·
2
(
ny+
1 2
2
∝y exp − ny2 + 12 ·
µ0 σ2 0
+
+(T S S −1
)
dϑ
1 (ϑ − T S −1 )2 (√ )2 dϑ 2 S −1
| {z } =1, da proportial in ϑ zu N (T S −1 ,S −1 )-Dichte )2
S n2 y 2 S
ϑ −2T S
exp − 12
nµ0 y σ02 S
+
1 2
(
) µ0 2 σ02
· S −1
)
n2 2 nµ y − 2 σ2 S0 y 0 | {z S}
∝y exp − 21 n −
(
∝y exp − 12
∝y exp − 12
(
U := y 2 −2
nµ0 −1 U y+ σ2 S 0 U −1
nµ
y 2 − 2 0 U −1 σ S √0 2 ( U −1 )
nµ0 −1 U σ2 S 0
)2
)2
Diese Dichte ist proportional zu einer Normalverteilung mit Erwartungswert (
µ⋆
nµ0 −1 U σ02 S
:= =
nµ0 σ02 n+1
(
=
nµ0 σ02 n+1
)−1
n−
) n(σ02 n+1)−n2 σ02 −1 2 σ0 n+1
n2 n+
=
1 σ2 0
nµ0 σ02 n+1
·
sigma20 n+1 n
= µ0
und Varianz σ⋆2
(
:= U −1 = n − =
σ02 n+1 n
= σ02 +
n2
)−1
S 1 n
(
= n−
)−1 n2 n+
1 σ2 0
.
Berechne durch Standardisierung von Y die Verteilungsfunktion von δ(Y ) =
m v ·C + ·Y . m+v m+v
20
F δ(Y ) (a)
= P (δ(Y ) ≤ a) ( m = P m+v · C + (
v m+v
)
·Y ≤a
v m = P m+v · Y ≤ a − m+v ·C ( ) (m+v)a−mC =P Y ≤ v
)
X−C =P √ 1 +1 ≤ m v
(m+v)a−mC − √v 1 + v1 m
|
{z
C }
Aa :=
= Φ(Aa ), dabei ist Aa
=
√ (m+v)(a−C) mv √ v m+v √ √ m(a−C) m+v √ v √
= √ = m(a − C)
m v
+ 1.
Falls a > C ist Aa streng monoton fallend in v, für v ∈ N, d.h. maximal in v = 1 und minimal für v → ∞. Falls a < C ist Aa streng monoton steigend in v, für v ∈ N, d.h. minimal in v = 1 und maximal für v → ∞. Betrachte Φ(A10 ) minimal und Φ(A1 ) maximal in v ∈ N, d.h. v → ∞ √ Φ(A10 ) = Φ( 25000(10 − 7, 1)) ≈ Φ(458, 53) ≈ 1 √ Φ(A1 ) = Φ( 25000(1 − 7, 1)) ≈ Φ(−964, 49) ≈ 0 . Damit kann man die Wahrscheinlichkeit dafür berechnen, dass die Bayes-Schätzung sich im gewünschten Bewertungsbereich bewegt stetig
P (1 ≤ δ(Y ) ≤ 10) = P (δ(Y ) ≤ 10) − P (δ(Y ) ≤ 1) = Φ(A10 ) − Φ(A1 ) ≈ 1 Da der Träger des Modells ganz R ist, ist es möglich, dass Werte unter 1 und über 10 angenommen werden, aber wie gerade gezeigt ist dies ein höchst unwahrscheinliches Ereignis. Probleme könnten weiterhin auftreten, da die Durchschnittsbewertung nur mit einer Nachkommastelle ausgegeben wird. Die Rechnung auf Rundungsfehler zu untersuchen ist wohl eher eine Aufgabenstellung der Numerik.
5
Zusammenfassung und Ausblick
Nach einer Einführung in das Grundmodell der Bayes-Statistik ist nun verständlich geworden, wie man einfache Bayes-Schätzer unter verschiedenen Verlustfunktionen bestimmt. Zur Motivation wurde das IMDb-Bayes-Modell aufgeführt. Durch eine Modifizierung des Bayes-Modells erhält man einen weiteren interessanten Schätzer. Ist ein Parameter der a-priori-Verteilung zusätzlich unbekannt, dann
21
muss man diesen ebenso schätzen. Üblicherweise benutzt man dafür den MaximumLikelihood-Schätzer der a-priori-Verteilung. Man substituiert nun den unbekannten Parameter durch den Maximum-Likelihood-Schätzer und fährt wie gewohnt mit der Bestimmung des Bayes-Schätzers fort. Für diese Methode benötigt man also mindestens zwei Stichprobenentnahmen. Der resultierende Schätzer wird empirischer Bayes-Schätzer genannt. Eine intensivere Behandlung von Bayes-Schätzern findet man in Lehmann und Casella (1998).
22
Literatur [1] Keener, R.W. (2010), Theoretical Statistics - Topics for a Core Course, Springer, New York. [2] Lehmann, E.L., und Casella, G. (1998), Theory of Point-Estimation, 2nd Ed., Springer, New York. [3] Rao, C.R. (1973), Lineare statistische Methoden und ihre Anwendungen, Akademie-Verlag, Berlin. [4] Schervish, M.J. (1995), Theory of Statistics, Springer, New York.
23
View more...
Comments