Exercices de Statistique 2006
March 20, 2017 | Author: Ayoub Khairany | Category: N/A
Short Description
Download Exercices de Statistique 2006...
Description
Département de Mathématiques et Informatique
Ex er ci ces Cor r i gé s Abdelhamid El Mossadeq P rofesseu r à l’E H T P
2006-2007
© A. El Mossadeq Juin 2006
TABLE DES MATIERES
Structures Statistiques et Estimation
1
Les Procédures U suelles des Tests d’H ypothèses : 1. Les Fréquences
45
Les Procédures U suelles des Tests d’H ypothèses : 2. Les Tests du Khi-Deux
61
Les Procédures Usuelles des Tests d’H ypothèses : 3. Moyennes et Variances
95
Structure Statistique et Estimation
A. El Mossadeq
Structures Statistiques et Estimation
Exercice 1 Déterminer et étudier les propriétés de l’estimateur du maximum de vraisemlance d’un r-échantillon pour : 1. le paramètre p d’une loi de Bernouilli 2. le paramètre p d’une loi g´ eom´ etrique 3. le paramètre p d’une loi binomiale d’ordre n 4. le paramètre α d’une loi de P oisson 5. le paramètre λ d’une loi exponentielle 6. les paramètres μ et σ 2 d’une loi normale 7. le paramètre θ d’une loi unif orme sur l’intervalle [0, θ]
Solution 1 1. Soit X une variable aléatoire de Bernouilli de paramètre p. Pour tout x ∈ {0, 1}, la probabilité élémentaire p (x) de x est : p (x) = px (1 − p)1−x
de plus :
⎧ ⎨ E [X] = p
⎩ V [X] = p (1 − p) (a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ {0, 1}r par : L (p; x1 , ..., xr )
r Y
=
i=1 r P
=
p
p (xi )
i=1
xi
r−
(1 − p)
d’où :
r P
xi
i=1
! Ã ! Ã r r X X xi ln p + r − xi ln (1 − p) ln L (p; x1 , ..., xr ) = i=1
i=1
3
Structures Statistiques et Estimation
A. El Mossadeq
Il en résulte que : ∂ ln L (p; x1 , ..., xr ) = ∂p
r P
xi
i=1
p
−
d’où :
r−
r P
xi
i=1
1−p
∂ 1X xi ln L (p; x1 , ..., xr ) = 0 =⇒ p = ∂p r i=1 r
et comme :
∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Bernouilli est : r 1X pˆ = Xi r i=1
C’est la fréquence empirique du r-échantillon. (b) Etude des propriétés de pˆ : Puisque : E [ˆ p]
= =
E [X] p
et : V [X] r p (1 − p) = r On en déduit que pˆ est un estimateur sans biais et convergent du paramètre p d’une loi de Bernouilli. V [ˆ p]
=
2. Soit X une variable aléatoire de géométrique de paramètre p. Pour tout x ∈ N∗ , la probabilité élémentaire p (x) de x est : p (x) = p (1 − p)x−1
de plus :
⎧ 1 ⎪ ⎪ E [X] = ⎪ ⎨ p
⎪ ⎪ 1−p ⎪ ⎩ V [X] = p2 4
A. El Mossadeq
Structures Statistiques et Estimation
Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ (N∗ )r par : L (p; x1 , ..., xr )
=
r Y
p (xi )
i=1
= d’où : ln L (p; x1 , ..., xr ) = r ln p + Il en résulte que : ∂ ln L (p; x1 , ..., xr ) ∂p
r P
r
p (1 − p)i=1 Ã r X i=1
=
=
xi −r
!
xi − r ln (1 − p)
r − p
r P
i=1
xi − r
1−p r P r − p xi i=1
p (1 − p)
d’où : ∂ r ln L (p; x1 , ..., xr ) = 0 =⇒ p = P r ∂p
xi
i=1
et comme :
∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure géométrique est : r pˆ = P r Xi i=1
C’est l’inverse de la moyenne empirique du r-échantillon.
3. Soit X une variable aléatoire binomiale d’ordre n et de paramètre p. pour tout x ∈ {0, 1, ..., n}, la probabilité élémentaire p (x) de x est : p (x) = C (n, x) px (1 − p)n−x
5
Structures Statistiques et Estimation
de plus :
A. El Mossadeq
⎧ ⎨ E [X] = np
⎩ V [X] = np (1 − p) (a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ {0, 1, ..., n}r par : L (p; x1 , ..., xr )
= =
r Y
p (xi )
i=1 " r Y
#
C (n, xi ) p
i=1
d’où : ln L (p; x1 , ..., xr ) = ln
r Y
C (n, xi ) +
i=1
Il en résulte que :
∂ ln L (p; x1 , ..., xr ) ∂p
r X
xi ln p +
i=1
r P
=
i=1
=
i=1
d’où :
r P
xi
xi
rn−
(1 − p)
i=1
Ã
rn −
rn −
r X i=1
r P
r P
xi
i=1
!
xi ln (1 − p)
xi
i=1
− p 1−p r P xi − rnp p (1 − p)
∂ 1 X xi ln L (p; x1 , ..., xr ) = 0 =⇒ p = ∂p rn i=1 r
et comme :
∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de binomiale est : r 1 X pˆ = Xi rn i=1
6
A. El Mossadeq
Structures Statistiques et Estimation
(b) Etude des propriétés de pˆ : Puisque : E [ˆ p]
1 E [X] n p
= =
et : V [X] rn2 p (1 − p) = rn on en déduit que pˆ est un estimateur sans biais et convergent de p. V [ˆ p]
=
4. Soit X une variable aléatoire de Poisson de paramètre α. Pour tout x ∈ N, la probabilité élémentaire p (x) de x est : p (x) = de plus :
αx exp −α x!
⎧ ⎨ E [X] = α
⎩ V [X] = α
(a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, et tout (x1 , ..., xr ) ∈ Nr par : L (α; x1 , ..., xr )
=
r Y
p (xi )
i=1
=
r P
xi
αi=1 exp −rα x1 !...xr !
d’où : r X
ln L (α; x1 , ..., xr ) = − ln (x1 !...xr !) +
i=1
Il en résulte que : ∂ ln L (α; x1 , ..., xr ) = ∂α
7
r P
xi ln α − rα
xi
i=1
α
−r
Structures Statistiques et Estimation
A. El Mossadeq
d’où : 1X ∂ ln L (α; x1 , ..., xr ) = 0 =⇒ p = xi ∂α r i=1 r
et comme :
∂2 ln L (α; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Poisson est : r 1X Xi α ˆ= r i=1
C’est la moyenne empirique du r-échantillon. (b) Etude des propriétés de α ˆ: Puisque : E [ˆ α]
= =
E [X] α
et : V [X] r α = r On en déduit que α ˆ est un estimateur sans biais et convergent de α. V [ˆ α]
=
5. Soit X une variable aléatoire exponentielle de paramètre λ. Sa densité de probabilité f est définie par : ⎧ si x ≤ 0 ⎨ 0 f (x) = ⎩ λ exp −λx si x > 0 de plus :
⎧ 1 ⎪ ⎪ ⎪ ⎨ E [X] = λ
⎪ 1 ⎪ ⎪ ⎩ V [X] = 2 λ Considérons un r-échantillon de cette structure.
8
A. El Mossadeq
Structures Statistiques et Estimation
Sa fonction de vraisemblance est définie pour tout λ, λ > 0, et tout (x1 , ..., xr ) dans Rr , tous strictement positifs, par : L (λ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
r
λ exp −λ
d’où : ln L (λ; x1 , ..., xr ) = r ln λ − λ Il en résulte que :
r X
xi
i=1
r X
xi
i=1
∂ r X ln L (λ; x1 , ..., xr ) = − xi ∂λ λ i=1 r
d’où :
r ∂ ln L (λ; x1 , ..., xr ) = 0 =⇒ λ = P r ∂λ
xi
i=1
et comme :
∂2 ln L (λ; x1 , ..., xr ) < 0 ∂λ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure exponentielle est : ˆ= r λ r P Xi i=1
C’est l’inverse de la moyenne empirique du r-échantillon.
6. Soit X une variable aléatoire normale de paramètres μ et σ 2 . Sa densité de probabilité f est définie pour tout x ∈ R par : 1 1 f (x) = √ exp − 2 (x − μ)2 2σ σ 2π
de plus :
⎧ ⎨ E [X] = μ
⎩ V [X] = σ2
9
Structures Statistiques et Estimation
A. El Mossadeq
(a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout μ ∈ R, tout σ > 0 et tout (x1 , ..., xr ) ∈ Rr par : L (μ, σ; x1 , ..., xr )
=
f (xi )
i=1
= d’où :
r Y
r 1 1 X (xi − μ)2 ¡ √ ¢r exp − 2 2σ σ 2π i=1
r √ 1 X ln L (μ, σ; x1 , ..., xr ) = −r ln 2π − r ln σ − 2 (xi − μ)2 2σ i=1
Il en résulte que :
⎧ r ∂ 1 X ⎪ ⎪ L (μ, σ; x1 , ..., xr ) = 2 (xi − μ) ⎪ ⎪ ⎪ σ i=1 ⎨ ∂μ d’où : ⎧ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎩
⎪ ⎪ ⎪ ⎪ ⎪ ⎩
r 1 X r ∂ L (μ, σ; x1 , ..., xr ) = − + 3 (xi − μ)2 ∂σ σ σ i=1
∂ L (μ, σ; x1 , ..., xr ) = 0 ∂μ
=⇒
∂ L (μ, σ; x1 , ..., xr ) = 0 ∂σ
⎧ r 1X ⎪ ⎪ μ = xi ⎪ ⎪ ⎪ r i=1 ⎨
⎪ r ⎪ ⎪ 1X ⎪ 2 ⎪ (xi − μ)2 ⎩ σ = r i=1
Donc les estimateurs du maximum de vraisemblance d’un r-échantillon d’une structure normale est : ⎧ r 1X ⎪ ⎪ μ ˆ = Xi ⎪ ⎪ ⎪ r i=1 ⎨ ⎪ r ⎪ ⎪ 1X 2 ⎪ ⎪ ˆ = (Xi − μ ˆ )2 ⎩ σ r i=1
10
A. El Mossadeq
Structures Statistiques et Estimation
(b) Etude des propriétés de μ ˆ et σ ˆ: On a : E [ˆ μ]
= =
E [X] μ
et : £ 2¤ E σ ˆ
r−1 V [X] r r−1 2 σ = r On en déduit que μ ˆ est un estimateur sans biais et convergent de μ, mais σ ˆ est un estimateur biaisé de σ. =
7. Soit X une variable aléatoire uniforme sur l’intervalle [0, θ]. Sa densité de probabilité f est définie pour tout x ∈ [0, θ] par : ⎧ 1 ⎪ ⎨ si x ∈ [0, θ] θ f (x) = ⎪ ⎩ 0 si x ∈ / [0, θ] de plus :
⎧ θ ⎪ ⎪ ⎪ ⎨ E [X] = 2
⎪ 2 ⎪ ⎪ ⎩ V [X] = θ 12 Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ [0, θ]r : L (θ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
1 θr
La fonction : θ −→ L (θ; x1 , ..., xr )
est strictement décroissante, donc elle atteint son maximum lorsque θ est minimum. Et comme : ∀i ∈ {1, ..., r} : θ ≥ xi
11
Structures Statistiques et Estimation
A. El Mossadeq
donc θ est minimum lorsque : θ = max (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure uniforme est : ˆθ = max (X1 , ..., Xr )
Exercice 2 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 1 x ⎪ ⎨ exp − θ θ f (x) = ⎪ ⎩ 0
si
x>0
si
x≤0
où θ est un paramètre réel strictement positif. 1. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. 2. ˆθ est-il un résumé exhaustif ? 3. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 4. Calculer la quantité d’information de F isher. En déduire que ˆθ est efficace.
Solution 2 Soit X une variable aléatoire exponentielle dont la densité de probabilité f est définie pour tout x, x > 0, par : ⎧ 1 x ⎪ ⎨ exp − θ θ f (x) = ⎪ ⎩ 0
où θ est un paramètre réel strictement positif. On a : ⎧ ⎨ E [X] = θ ⎩
si
x>0
si
x≤0
V [X] = θ2
12
A. El Mossadeq
Structures Statistiques et Estimation
1. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, par : L (θ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
r P
1 exp − i=1 θr θ
xi
d’où : ln L (θ; x1 , ..., xr ) = −r ln θ −
r P
xi
i=1
θ
Il en résulte que : r P
xi r i=1 ∂ ln L (θ; x1 , ..., xr ) = − + 2 ∂θ θ θ d’où : ∂ 1X ln L (θ; x1 , ..., xr ) = 0 =⇒ θ = xi ∂θ r i=1 r
et comme :
∂2 ln L (θ; x1 , ..., xr ) < 0 ∂θ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure exponentielle est : r X ˆθ = 1 Xi r i=1 C’est la moyenne empirique du r-échantillon.
2. Pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, on a : L (θ; x1 , ..., xr )
= =
r P
xi 1 i=1 exp − θr θ ˆ 1 rθ (x1 , ..., xr ) r exp − θ θ
13
Structures Statistiques et Estimation
A. El Mossadeq
D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ³ ´ L (θ; x1 , ..., xr ) = g θ; ˆθ (x1 , ..., xr ) h (x1 , ..., xr ) où :
et :
´ ³ 1 rˆθ (x1 , ..., xr ) g θ; ˆθ (x1 , ..., xr ) = r exp − θ θ h (x1 , ..., xr ) = 1
3. Comme : X ˆθ = 1 Xi r i=1 r
alors :
h i E ˆθ
=
E [X]
=
θ
h i V ˆθ
=
et : V [X] r 2 θ r
=
On en déduit que ˆθ est un estimateur sans biais et convergent de θ. 4. Calculons la quantité d’information de F isher, I [X, θ], concernant θ. On a : ∙ 2 ¸ ∂ I [X, θ] = −E ln f (θ, X) ∂θ2 ¶¸ ∙ 2 µ X ∂ − ln θ − = −E θ ∂θ2 ¸ ∙ 2X 1 = E − 2+ 3 θ θ 1 = θ2 Donc la quantité d’information de F isher, I [X1 , ..., Xr , θ], concernant θ fournie par le r-échantillon est : I [X1 , ..., Xr , θ]
= =
14
rI [X, θ] r θ2
A. El Mossadeq
Structures Statistiques et Estimation
h i Calculons l’efficacité e ˆθ de .ˆθ. On a : h i e ˆθ = =
1
h i I [X1 , ..., Xr , θ] V ˆθ
1
donc, ˆθ est efficace.
Exercice 3 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 0 si x ≤ 0 ⎪ ⎨ f (x) = ⎪ ⎩ λ xk−1 exp − x si x > 0 θ θk où θ est un paramètre réel strictement positif , k un entier naturel non nul et λ une constante réel. 1. Déterminer la constante λ. 2. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. ˆ 3. θ est-il un résumé exhaustif ? 4. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 5. Calculer la quantité d’information de F isher. En déduire que ˆθ est efficace.
Solution 3 La densité de probabilité de la variable aléatoire X est définie par : ⎧ 0 si x ≤ 0 ⎪ ⎨ f (x) = ⎪ ⎩ λ xk−1 exp − x si x > 0 θ θk Rappelons que pour tout k ∈ N : Z +∞ uk exp −udu = k! 0
15
Structures Statistiques et Estimation
1. Ainsi :
Z
A. El Mossadeq
Z
+∞
f (x) dx
=
−∞
+∞
0
Z
=
x λ k−1 x exp − dx k θ θ
+∞
0
λuk−1 exp −udu
λ (k − 1)!
= d’où λ= puisque :
Z
1 (k − 1)!
+∞
f (x) dx = 1
−∞
De plus : E [X]
= =
Z
+∞
xf (x) dx
−∞ Z +∞ 0
= et : £ ¤ E X2
=
kθ
Z
1 x xk exp − dx k θ (k − 1)!θ
+∞
x2 f (x) dx
−∞ +∞
= =
Z
1 x xk+1 exp − dx k θ (k − 1)!θ 0 2 k (k + 1) θ
d’où : V [X]
= =
£ ¤ E X 2 − E [X]2
kθ2
2. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) Rr , tous strictement positifs, par :
16
A. El Mossadeq
Structures Statistiques et Estimation
L (θ; x1 , ..., xr )
=
f (xi )
i=1
= d’où :
r Y
r P
1 k−1 exp − i=1 r rk (x1 ...xr ) θ [(k − 1)!] θ
k−1
ln L (θ; x1 , ..., xr ) = −r ln (k − 1)! − ln (x1 ...xr )
− rk ln θ −
xi
r P
xi
i=1
θ
Il en résulte que : r P
xi rk i=1 ∂ ln L (θ; x1 , ..., xr ) = − + 2 ∂θ θ θ d’où : ∂ 1 X ln L (θ; x1 , ..., xr ) = 0 =⇒ θ = xi ∂θ rk i=1 r
et comme :
∂2 ln L (θ; x1 , ..., xr ) < 0 ∂θ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : r X ˆθ = 1 Xi rk i=1
3. Pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, on a : L (θ; x1 , ..., xr )
= =
r P
xi 1 i=1 k−1 (x1 ...xr ) exp − θ [(k − 1)!]r θrk 1 rkˆθ (x1 , ..., xr ) k−1 (x ...x ) exp − 1 r θ [(k − 1)!]r θrk
D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ³ ´ ˆ L (θ; x1 , ..., xr ) = g θ; θ (x1 , ..., xr ) h (x1 , ..., xr )
17
Structures Statistiques et Estimation
A. El Mossadeq
où :
et :
´ ³ 1 rk ˆθ (x1 , ..., xr ) g θ; ˆθ (x1 , ..., xr ) = rk exp − θ θ h (x1 , ..., xr ) =
4. Puisque :
1 (x1 ...xr )k−1 [(k − 1)!]r
X ˆθ = 1 Xi rk i=1 r
alors :
et :
h i 1 E ˆθ = E [X] = θ k h i V [X] θ2 V ˆθ = = rk 2 rk
On en déduit que ˆθ est un estimateur sans biais et convergent de θ. 5. Calculons la quantité d’information de F isher, I [X, θ], concernant θ. On a : ¸ ∙ 2 ∂ ln f (θ, X) I [X, θ] = −E ∂θ2 ¶¸ ∙ 2 µ X ∂ − ln (k − 1)! + (k − 1) ln X − k ln θ − = −E θ ∂θ2 ∙ ¸ k 2X = E − 2+ 3 θ θ k = θ2 Donc la quantité d’information de F isher, I [X1 , ..., Xr , θ], concernant θ fournie par le r-échantillon est : I [X1 , ..., Xr , θ]
= =
rI [X, θ] rk θ2
h i Calculons l’efficacité e ˆθ de .ˆθ. On a : h i 1 h i =1 e ˆθ = I [X1 , ..., Xr , θ] V ˆθ
18
A. El Mossadeq
Structures Statistiques et Estimation
donc, ˆθ est efficace.
Exercice 4 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ si x ∈ / [0, θ] ⎪ ⎨ 0 f (x) = ⎪ ⎩ 1 si x ∈ [0, θ] θ où θ est un paramètre réel. 1. Déterminer la fonction de répartition de X. 2. Calculer la quantité d’information de F isher. 3. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. 4. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 5. Dans le cas où ˆθ est biasé, proposer un estimateur sans biais de θ.
Solution 4 1. La fonction de répartition F de X est définie pour tout x ∈ R par : Z x F (x) = f (t) dt −∞
d’où :
de plus :
⎧ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ x F (x) = ⎪ θ ⎪ ⎪ ⎪ ⎪ ⎩ 1
si
x≤0
si
0≤x≤θ
si
x≥θ
⎧ θ ⎪ ⎪ ⎪ ⎨ E [X] = 2
2. Puisque le domaine Dθ : Dθ
⎪ 2 ⎪ ⎪ ⎩ V [X] = θ 12 = =
{x ∈ R |f (x) > 0} [0, θ]
19
Structures Statistiques et Estimation
A. El Mossadeq
dépend de θ, donc la quantité d’information de F isher n’existe pas. 3. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ [0, θ]r : L (θ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
1 θr
La fonction : θ −→ L (θ; x1 , ..., xr )
est strictement décroissante, donc elle atteint son maximum lorsque θ est minimum. Et comme : ∀i ∈ {1, ..., r} : θ ≥ xi
Il en résulte que θ est minimum lorsque :
θ = max (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure uniforme est : ˆθ = max (X1 , ..., Xr )
4. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.
(a) Fonction de répartition de ˆθ :
20
A. El Mossadeq
Structures Statistiques et Estimation
Pour tout u ∈ R on a : Fˆθ (u)
= = = =
h i ˆ P θ 0} [θ, +∞[
dépend de θ, donc la quantité d’information de F isher n’existe pas. 3. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ ∈ R, et tout (x1 , ..., xr ) ∈ ([θ, +∞[)r :
L (θ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
exp
r X i=1
La fonction :
(θ − xi )
θ −→ L (θ; x1 , ..., xr )
est strictement croissante, donc elle atteint son maximum lorsque θ est maximum. Et comme : ∀i ∈ {1, ..., r} : θ ≤ xi
Il en résulte que θ est maximum lorsque :
θ = min (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ˆθ = min (X1 , ..., Xr )
4. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.
24
A. El Mossadeq
Structures Statistiques et Estimation
(a) Fonction de répartition de ˆθ : Pour tout v ∈ R on a : Fˆθ (v)
= = = = = = = =
h i ˆ P θ 0, et tout (k1 , ..., kr ) ∈ Nr par : L (α; k1 , ..., kr )
=
r Y
p (ki )
i=1
=
r P
ki
αi=1 exp −rα k1 !...kr !
d’où : r X
ln L (α; k1 , ..., kr ) = − ln (k1 !...kr !) +
i=1
Il en résulte que : ∂ ln L (α; k1 , ..., kr ) = ∂α
r P
ki ln α − rα
ki
i=1
α
−r
d’où : ∂ 1X xi ln L (α; k1 , ..., kr ) = 0 =⇒ p = ∂α r i=1 r
et comme :
∂2 ln L (α; k1 , ..., kr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Poisson est : r 1X Xi α ˆ= r i=1 C’est la moyenne empirique du r-échantillon.
27
Structures Statistiques et Estimation
A. El Mossadeq
(b) Etude des propriétés de α ˆ: Puisque : E [ˆ α]
= =
E [X] α
et : V [X] r α = r On en déduit que α ˆ est un estimateur sans biais et convergent de α. V [ˆ α]
=
2. Pour tout α, α > 0, et tout (k1 , ..., kr ) ∈ Nr on a : L (α; x1 , ..., xr ) =
αrαˆ (k1 ,...,kr ) exp −rα x1 !...xr !
D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ˆ (x1 , ..., xr )) h (x1 , ..., xr ) L (α; x1 , ..., xr ) = g (α; α où : et :
g (α; α ˆ (x1 , ..., xr )) = αrˆα(k1 ,...,kr ) exp −rα h (x1 , ..., xr ) =
1 x1 !...xr !
3. On a : δ
= =
P [X = 0] exp −α
Pour tout δ, δ > 0, et tout (k1 , ..., kr ) ∈ Nr par : L (δ; k1 , ..., kr )
=
r Y
p (ki )
i=1
r P
ki
(− ln δ) δr k1 !...kr ! i=1
= d’où :
ln L (δ; k1 , ..., kr ) = − ln (k1 !...kr !) +
28
r X i=1
ki ln (− ln δ) + r ln δ
A. El Mossadeq
Structures Statistiques et Estimation
Il en résulte que : r P
ki r ∂ i=1 ln L (δ; k1 , ..., kr ) = + ∂δ δ ln δ δ d’où : ∂ ln L (δ; k1 , ..., kr ) = 0 =⇒ δ = exp − ∂δ
Ã
et comme :
1X ki r i=1 r
!
∂2 ln L (δ; k1 , ..., kr ) < 0 ∂δ 2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ! Ã r X 1 ˆδ = exp − Xi r i=1 exp −ˆ α
=
Exercice 7 Soit α un réel appartenant à ]1, +∞[ et X une variable aléatoire telle que : µ ¶k−1 1 1 1− , k ∈ N∗ P [X = k] = α α 1. Calculer l’espérance mathématique et la variance de X. 2. Déterminer l’estimateur du maximum de vraisemlance α ˆ de α d’un r-échantillon de variable parente X et étudier ses propriétés. 3. α ˆ est-il un résumé exhaustif ?
Solution 7 1. On a : E [X]
= =
∞ X
kP [X = k]
k=1 ∞ X k=1
=
α
29
µ ¶k−1 k 1 1− α α
Structures Statistiques et Estimation
A. El Mossadeq
et : E [X (X − 1)]
= = =
∞ X k=1 ∞ X
k (k − 1) P [X = k]
µ ¶k−1 k (k − 1) 1 1− α α k=1 µ ¶ 1 2α2 1 − α
d’où : £ ¤ E X2
E [X (X − 1)] + E [X] α (2α − 1)
= =
et : V [X]
£ ¤ E X 2 − E [X]2 α (α − 1)
= =
2. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α ∈ ]1, +∞[ et tout (x1 , ..., xr ) ∈ (N∗ )r par : L (α; x1 , ..., xr )
r Y
=
p (xi )
i=1
1 αr
= d’où : ln L (α; x1 , ..., xr ) = −r ln α + Il en résulte que : ∂ ln L (α; x1 , ..., xr ) ∂α
à r X
=
=
30
µ ¶ Pr x −r 1 i=1 i 1− α
i=1
!
¶ µ 1 xi − r ln 1 − α r P
xi − r r i=1 − + α α (α − 1) r P xi − rα i=1
α (α − 1)
A. El Mossadeq
Structures Statistiques et Estimation
d’où : 1X ∂ ln L (α; x1 , ..., xr ) = 0 =⇒ α = xi ∂α r i=1 r
et comme :
∂2 ln L (p; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure géométrique est : r 1X α ˆ= Xi r i=1
C’est la moyenne empirique du r-échantillon. 3. Puisque : 1X α ˆ= Xi r i=1 r
alors :
E [ˆ α]
= =
E [X] α
et : V [X] r α (α − 1) = r On en déduit que α ˆ est un estimateur sans biais et convergent du paramètre α d’une structure géométrique. V [ˆ α]
=
Exercice 8 Soit X une variable aléatoire qui suit une loi de Pareto dont la densité de probabilité f est définie par : ⎧ αaα ⎪ ⎨ α+1 si x ≥ a x f (x) = ⎪ ⎩ 0 si x < a
où X représente le revenu par habitant, a le revenu minimum et α, α > 2, un coefficient dépendant du type du pays où l’on se place.
31
Structures Statistiques et Estimation
A. El Mossadeq
1. Vérifier que f est bien une densité de probabilité. 2. Calculer l’espérance mathématique et la variance de X. 3. Calculer la fonction de répartition de X. 4. Déterminer l’estimateur du maximum de vraisemlance aˆ de a d’un r-échantillon issu X. 5. Dans le cas où a ˆ est biasé, proposer un estimateur sans biais de a.
Solution 8 1. La densité de probabilité de la loi de Pareto est définie par : ⎧ αaα ⎪ ⎨ α+1 si x ≥ a x f (x) = ⎪ ⎩ 0 si x < a f est bien une densité de probabilité. En effet : Z f (x) dx = R
Z
a
=
2. On a : E [X]
xf (x) dx
ZR+∞
=
a
et : = =
Z
=
V [X]
= =
x2 f (x) dx
ZR+∞ a
d’où :
αaα dx xα
α a α−1
= £ ¤ E X2
αaα dx xα+1
1 Z
=
+∞
αaα dx xα−1
α 2 a α−2
£ ¤ E X 2 − E [X]2 α 2 2a (α − 2) (α − 1)
32
A. El Mossadeq
Structures Statistiques et Estimation
3. La fonction de répartition F de X est définie pour tout x ∈ R par : F (x)
=
Z
x
f (t) dt
−∞
=
=
⎧ ⎪ 0 si x ≥ a ⎪ ⎨ Z x α αa ⎪ ⎪ dt si x ≥ a ⎩ α+1 a t ⎧ si x ≤ a ⎪ ⎨ 0
α ⎪ ⎩ 1− a si x ≥ a xα 4. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout a ∈ R et tout (x1 , ..., xr ) ∈ (]a, +∞[)r , par :
L (a; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
αr arα (x1 ...xr )α+1
La fonction : a −→ L (a; x1 , ..., xr )
est strictement croissante, donc elle atteint son maximum lorsque a est maximum. Et comme : ∀i ∈ {1, ..., r} : a ≤ xi
Il en résulte que θ est maximum lorsque :
a = min (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : aˆ = min (X1 , ..., Xr )
5. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.
33
Structures Statistiques et Estimation
A. El Mossadeq
(a) Fonction de répartition de aˆ : Pour tout x ∈ R on a : Faˆ (x)
= = = =
P [ˆ a < x] P [min (X1 , ..., Xr ) < x] 1 − P [min (X1 , ..., Xr ) ≥ x] 1 − P [X1 ≥ v, ..., Xr ≥ x] r Y 1− P [Xk ≥ x]
=
k=1 r Y
(1 − P [Xk < x])
=
1−
=
1 − [1 − F (x)]r ⎧ ⎨ 0 µ ¶ r aα ⎩ 1− xα
=
k=1
si
x≤a
si
x≥a
(b) Densité de probabilité de ˆθ : Pour tout x ∈ R− {a} on a : faˆ (x)
= =
d Faˆ (x) dv ⎧ ⎪ ⎨ 0
si
x a xrα+1 (c) Espérance mathématique de a ˆ: Z vfaˆ (v) dv E [ˆa] = R Z +∞ rαarα = dv vrα a rα a = rα − 1
(d) Espérance mathématique de a ˆ2 : Z £ 2¤ E aˆ v2 faˆ (v) dv = ZR+∞ rαarα = dv vrα−1 a rα 2 = a rα − 2
34
A. El Mossadeq
Structures Statistiques et Estimation
(e) Variance de aˆ : V [ˆa]
£ 2¤ a]2 E a ˆ − E [ˆ rα 2 2a (rα − 2) (rα − 1)
= =
L’estimateur aˆ de a est biaisé, mais il est asymptotiquement sans biais. (f) Considérons l’estimateur : T =
rα − 1 aˆ rα
Alors : E [T ] = a et : V [T ] =
µ
rα − 1 rα
¶2
V [ˆa] =
1 a2 rα (rα − 2)
T est donc un estimateur sans biais et convergent de a.
Exercice 9 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 0 si x ≤ θ ⎪ ⎨ f (x) = ⎪ ⎩ 1 exp (θ − x) si x > θ α α où θ est un paramètre réel et α un paramètre réel strictement positif. 1. Vérifier que f est bien une densité de probabilité. 2. Calculer l’espérance mathématique et la variance de X. 3. Calculer la fonction de répartition de X. 4. On suppose θ connu et α inconnu. (a) Déterminer l’estimateur du maximum de vraisemlance α ˆ de α d’un réchantillon issu X. (b) Etudier les propriétés de α ˆ. (c) Dans le cas où α ˆ est biasé, proposer un estimateur sans biais de α. 5. On suppose α connu et θ inconnu. (a) Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un réchantillon issu de X. (b) Etudier les propriétés de ˆθ (c) Dans le cas où ˆθ est biasé, proposer un estimateur sans biais de θ.
35
Structures Statistiques et Estimation
A. El Mossadeq
6. On suppose que θ et α sont tous les deux inconnus. (a) Déterminer l’estimateur du maximum de vraisemlance d’un r-échantillon issu de ³X. ´ (b) Etudier les propriétés de α ˆ , ˆθ (c) Proposer un estimateur sans biais de (α, θ) .
Solution 9 1. f est bien une densité de probabilité. En effet : Z Z +∞ 1 (θ − x) exp dx f (x) dx = α α R θ Z +∞ = exp −tdt 0
=
2. On a : E [X]
1
Z
=
xf (x) dx
ZR+∞
=
Zθ +∞
=
0
=
α+θ
=
Z
et : £ ¤ E X2
Zθ +∞
=
(αt + θ) exp −tdt
x2 f (x) dx
ZR+∞
=
x (θ − x) exp dx α α
0
x2 (θ − x) exp dx α α (αt + θ)2 exp −tdt
2α2 + 2αθ + θ2 (α + θ)2 + α2
= = d’où : V [X]
= =
£ ¤ E X 2 − E [X]2
α2
36
³ ´ α ˆ , ˆθ de (α, θ)
A. El Mossadeq
Structures Statistiques et Estimation
3. La fonction de répartition F de X est définie pour tout x ∈ R par : Z x f (t) dt F (x) = −∞ ⎧ 0 si x ≤ θ ⎪ ⎪ ⎨ Z x = 1 (θ − t) ⎪ ⎪ exp dt si x ≥ θ ⎩ α θ α ⎧ 0 si x ≤ θ ⎪ ⎨ = ⎪ ⎩ 1 − exp (θ − x) si x ≥ θ α 4. On suppose θ connu et α inconnu. (a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r par : L (α; x1 , ..., xr )
r Y
=
f (xi )
i=1
X (θ − xi ) 1 exp αr α i=1
= d’où :
r
1X (θ − xi ) α i=1 r
ln L (α; x1 , ..., xr ) = −r ln α + Il en résulte que : ∂ ln L (α; x1 , ..., xr ) ∂α
r 1 X − − 2 (θ − xi ) α α i=1 " # r 1 1X r− (θ − xi ) α α i=1 r
= =
d’où : ∂ ln L (α; x1 , ..., xr ) = 0 ∂α
1X (xi − θ) r i=1 r
=⇒
α=
=⇒
# r 1X α= xi − θ r i=1
37
"
Structures Statistiques et Estimation
A. El Mossadeq
et comme : ∂2 ln L (α; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : # " r 1X α ˆ= Xi − θ r i=1 (b) On a : E [ˆ α]
=
E
=
α
et : V [ˆ α]
=
V
"Ã
"Ã
1X Xi r i=1 r
1X Xi r i=1 r
!
!
−θ
#
−θ
#
V [X] r 2 α = r 5. On suppose α connu et θ inconnu. =
(a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r , tous strictement positifs, par : L (θ; x1 , ..., xr )
r Y
=
f (xi )
i=1
X (θ − xi ) 1 exp αr α i=1
= La fonction :
r
θ −→ L (θ; x1 , ..., xr )
est strictement croissante, donc elle atteint son maximum lorsque θ est maximum.
38
A. El Mossadeq
Structures Statistiques et Estimation
Et comme : ∀i ∈ {1, ..., r} : θ ≤ xi
Il en résulte que θ est maximum lorsque : θ = min (x1 , ..., xr )
Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ˆθ = min (X1 , ..., Xr ) (b) Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition. (i) Fonction de répartition de ˆθ : Pour tout v ∈ R on a : h i Fˆθ (v) = P ˆθ < v = = = = = = =
P [min (X1 , ..., Xr ) < v] 1 − P [min (X1 , ..., Xr ) ≥ v] 1 − P [X1 ≥ v, ..., Xr ≥ v] r Y P [Xk ≥ v] 1− 1−
k=1 r Y k=1
(1 − P [Xk < v])
1 − [1 − F (v)]r ⎧ 0 ⎪ ⎪ ⎨ µ ¶ θ−v ⎪ ⎪ ⎩ 1 − exp r α
si
v≤θ
si
v≥θ
(ii) Densité de probabilité de ˆθ : Pour tout v ∈ R− {θ} on a : fˆθ (v)
=
=
d Fˆ (v) dv θ ⎧ 0 ⎪ ⎪ ⎨
r ⎪ ⎪ exp r ⎩ α
µ
39
θ−v α
¶
si
vθ
Structures Statistiques et Estimation
A. El Mossadeq
(iii) Espérance mathématique de ˆθ : Z h i ˆ vfˆθ (v) dv E θ = R µ ¶ Z +∞ r θ−v = v exp r dv α α θ Z +∞ ³ ´ α t + θ exp −tdt = r 0 α +θ = r 2
(iv) Espérance mathématique de ˆθ : Z h 2i ˆ v2 fˆθ (v) dv E θ = ZR+∞ r 2 = v exp r (θ − v) dv α θ ´2 ³ α ´2 ³α +θ + = r r (v) Variance de ˆθ : h i h 2i h i2 V ˆθ = E ˆθ − E ˆθ ³ α ´2 = r L’estimateur ˆθ de θ est biaisé, mais il est asymptotiquement sans biais. (c) Considérons l’estimateur : T = ˆθ − Alors : E [T ]
α r
h i α E ˆθ − r θ
= =
et :
h i V ˆθ α = r2 T est donc un estimateur sans biais et convergent de θ. V [T ]
=
40
A. El Mossadeq
Structures Statistiques et Estimation
6. On suppose que θ et α sont tous les deux inconnus. (a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r , tous strictement positifs, par : L (α, θ; x1 , ..., xr )
=
r Y
f (xi )
i=1
=
X (θ − xi ) 1 exp αr α i=1 r
Compte tenu des questions précedentes, la fonction : (α, θ) 7−→ L (α, θ; x1 , ..., xr ) atteint son maximum pour : ⎧ θ = min (x1 , ..., xr ) ⎪ ⎪ ⎪ ⎨ # " r X 1 ⎪ ⎪ xi − θ ⎪ ⎩ α= r i=1
³ ´ d’où, les estimateurs du maximum de vraisemblance α ˆ , ˆθ de (α, θ) sont donnés par :
(b) On a :
⎧ ˆθ = min (X1 , ..., Xr ) ⎪ ⎪ ⎪ ⎨ # " r X 1 ⎪ ⎪ Xi − θˆ ˆ= ⎪ α ⎩ r i=1 h i α E ˆθ = + θ r
et : E [ˆ α]
= =
h i E [X] − E ˆθ r−1 α r
Donc les estimateurs α ˆ et ˆθ sont biaisés.
41
Structures Statistiques et Estimation
A. El Mossadeq
(c) Considérons les estimateurs T et S de α et θ respectivement définis par : ⎧ r ⎪ α ˆ T = ⎪ ⎨ r−1 alors :
⎪ ⎪ ⎩ S = ˆθ −
1 α ˆ r−1
⎧ ⎨ E [T ] = α ⎩ E [S] = θ
Donc T et S sont des estimateurs sans biais de α et θ respectivement.
Exercice 10 Soient X et Y deux variables aléatoires indépendantes, la première prenant les valeurs 1 et 0 avec les probabilités respectives α et 1 − α, et la deuxième prenant les valeurs 1 et 0 avec les probabilités respectives P et 1 − P . On suppose α inconnue et P connue, P > 0.5. On définit la variable aléatoire Z par : ⎧ ⎨ Z = 1 si X = Y ⎩ Z=0
si
X 6= Y
On considère un n-échantillon ((X1 , Y1 ) , ..., (Xn , Yn )) de (X, Y ) et on définit Zi , 1 ≤ i ≤ n, à partir de Xi et Yi comme on a défini Z à partir de X et Y . 1. Montrer que (Z1 , ..., Zn ) est un n-échantillon de Z. 2. Etudier les propriétés de l’estimateur : 1 (Z1 + ... + Zn ) n 3. Proposer alors un estimateur sans biais S de α. 4. Etudier la variance de S en fonction de P . 5. Indiquer un intervalle de confiance pour α lorsque n est grand, en supposant qu’on dispose d’une observation p de la variable : T =
1 (Z1 + ... + Zn ) n 6. Voyez-vous une application de ce qui précède dans le domaine des sondages d’opinion ? T =
42
A. El Mossadeq
Structures Statistiques et Estimation
Solution 10 On a :
⎧ ⎨ P [X = 0] = 1 − α ⎩ P [X = 1] = α
et :
⎧ ⎨ P [Y = 0] = 1 − P ⎩ P [Y = 1] = P
X et Y deux variables aléatoires de Bernouilli de paramètres α et P respectivement. Déterminons la loi de probabilité de Z : P [Z = 0]
= = = =
P [X 6= Y ] P [{(X, Y ) = (0, 1)} ⊕ {(X, Y ) = (0, 1)}] P [X = 0] P [Y = 1] + P [X = 1] P [Y = 0] (1 − α) P + α (1 − P )
P [Z = 1]
= = = =
P [X = Y ] P [{(X, Y ) = (0, 0)} ⊕ {(X, Y ) = (1, 1)}] P [X = 0] P [Y = 0] + P [X = 1] P [Y = 1] (1 − α) (1 − P ) + αP
et :
Z est donc une variable aléatoire de Bernouilli de paramètre : θ = (1 − α) (1 − P ) + αP de plus : E [Z] V [Z]
= =
θ θ (1 − θ)
1. Puisque (X1 , Y1 ) , ..., (Xn , Yn ) sont indépentants et suivent la même loi que (X, Y ), on en déduit que (Z1 , ..., Zn ) sont indépendants et suivent la même loi que Z, donc c’est un n-échantillon de Z. 2. Soit l’estimateur : 1 T = (Z1 + ... + Zn ) n On a : E [T ]
= =
E [Z] (1 − α) (1 − P ) + αP
43
Structures Statistiques et Estimation
A. El Mossadeq
et : 1 V [Z] n 1 [(1 − α) (1 − P ) + αP ] [(1 − α) P + α (1 − P )] = n 3. T est donc un estimateur biaisé de α sauf lorsque : V [T ]
=
α=
1 2
ou : P =1 (a) Si : α=
1 ou P = 1 2
alors il suffit de prendre : S=T (b) Si : α 6=
1 et P 6= 1 2
alors il suffit de prendre : S= 4. On a : V [S]
= =
1 [T − (1 − P )] 2P − 1
1 V [T ] (2P − 1)2 1 [(1 − α) (1 − P ) + αP ] [(1 − α) P + α (1 − P )] n (2P − 1)2
44
T ests d ’H yp oth èses Les Fréquences
A. El Mossadeq
Tests : Les Fréquences
Exercice 1 A la veille d’une consultation électorale, on a intérrogé cent électeurs constituant un échantillon au hasard. Soixante ont déclaré avoir l’intention de voter pour le candidat C. En quelles limites, au moment du sondage, la proportion du corps électoral favorable à C se situe-t-elle ?
Solution 1 Construisons l’intervalle de confiance correspondant à la fréquence f = 0.6 du corps électoral favorable à C observée sur un échantillon de taille n = 100. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.504, .696] A 95%, le candidat C serait élu.
Exercice 2 On sait que le taux de mortalité d’une certaine maladie est de 30%. Sur 200 malades testés, combien peut-on envisager de décès ?
Solution 2 Construisons d’obord l’intervalle de pari, pour un échantillon de taille n = 200, correspondant à la probabilité de décès p = 0.3. Au seuil α, cet intervalle est défini par : " # r r p (1 − p) p (1 − p) p − t1−α/2 , p + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96
47
Tests : Les Fréquences
A. El Mossadeq
on obtient alors l’intervalle : [.24, .36] Il en résulte que sur les 200 malades, le nombre de décès à envisager serait compris, à 95%, entre 48 et 72 décès.
Exercice 3 Dans une pré-enquête, on selectionne, par tirage au sort cent dossiers. Quinze d’entre eux sont incomplets. Combien de dossiers incomplets trouvera-t-on sur dix milles dossiers ?
Solution 3 Construisons l’intervalle de confiance correspondant à la fréquence f = 0.15 de dossiers incomplets observée sur un échantillon de taille n = 100. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.08, .22] Il en résulte que sur les 10000 dossiers, le nombre de dossiers incomplets serait compris, à 95%, entre 800 et 2200 dossiers.
Exercice 4 Dans une maternité, on fait le point de la proportion de filles toutes les cent naissances. Comment peut varier cette proportion d’une fois à l’autre si l’on admet qu’il nait en moyenne 51% de filles ?
Solution 4 Construisons l’intervalle de pari, pour un échantillon de taille n = 100, correspondant à la probabilité d’obtenir une fille p = 0.51.
48
A. El Mossadeq
Tests : Les Fréquences
Au seuil α, cet intervalle est défini par : # " r r p (1 − p) p (1 − p) , p + t1−α/2 p − t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.41, .61] Il en résulte, qu’à 95%, la proportion de filles varie d’une fois à l’autre, entre 41% et 61%.
Exercice 5 Une machine à former des pilules fonctionne de façon satisfaisante si la proportion de pilules non réussies est de 1 pour 1000. Sur un échantillon de 10000 pilules, on a trouvé 15 pilules défectueuses. Que faut-il conclure ?
Solution 5 Ici on :
⎧ n = 104 ⎪ ⎪ ⎪ ⎪ ⎨ f = 15 × 10−4 ⎪ ⎪ ⎪ ⎪ ⎩ p = 10−3
Testons, au seuil α, l’hypothèse nulle :
H0 : ”la machine est bien réglée” Sous cette hypothèse, la quantité : t= r
f −p
p (1 − p) n
peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96
49
Tests : Les Fréquences
A. El Mossadeq
et comme : t
= =
r
f −p
p (1 − p) n 1.58
on accepte donc l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, qu’au seuil α = 5%, la machine fonctionne de façon satisfaisante.
Exercice 6 Sur un échantillon de 600 sujets atteints du cancer des poumons, on a trouvé 550 fumeurs. Que peut-on dire du pourcentage de fumeurs parmi les cancéreux ?
Solution 6 11 Construisons l’intervalle de confiance correspondant à la fréquence f = des 12 cancéreux parmi les fumeurs observée sur un échantillon de taille n = 600. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.9, .94] Il en résulte que parmi, les fumeurs, la proportion des atteints par le cancer des poumons est comprise, à 95%, entre 90% et 94%.
Exercice 7 Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une enquête portant sur deux régions géographiques A et B. Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le produit. En provenance de B, 150 réponses sur 600 se déclarent favorables. Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B quant au produit considéré.
50
A. El Mossadeq
Tests : Les Fréquences
Solution 7 Ici on : ⎧ 7 ⎪ ⎪ ⎨ nA = 1800 et fA = 20 ⎪ ⎪ ⎩ n = 600 et f = 1 B B 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”les opinions des régions A et B sont identiques” Sous cette hypothèse, la quantité : fA − fB fA (1 − fA ) fB (1 − fB ) + nA nB peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t= r
t.975 = 1.96 et comme : t
= =
fA − fB fA (1 − fA ) fB (1 − fB ) + nA nB 4.77 r
on rejette donc l’hypothèse nulle H0 à 95% (et même à 99.98%), c’est à dire, les deux régions A et B ont des opinions différentes.
Exercice 8 Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement par application locale du radium a donné 50 guérisons. Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie, on a trouvé 50 guérisons. Que peut-on conclure ?
51
Tests : Les Fréquences
A. El Mossadeq
Solution 8 Ici on : ⎧ 1 ⎪ ⎪ ⎨ n1 = 200 , f1 = 4 ⎪ ⎪ ⎩ n = 150 , f = 1 2 2 3 Testons, au seuil α, l’hypothèse nulle : H0 : ”les deux traitements sont équivalents” Sous cette hypothèse, la quantité : f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t= r
t.975 = 1.96 et comme : t
= =
f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 −1.69 r
on accepte donc l’hypothèse nulle H0 au seuil 5%, c’est à dire, les deux méthodes sont équivalentes.
Exercice 9 Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi, 95 étaient des billets de 1e`re classe. Sur les 250 billets vendus la matinée du lundi suivant, 55 étaient de 1e`re classe. Peut-on considérer qu’il y a une différence entre les proportions de vente de parcours en 1e`re classe pour les fins et débuts de semaines ?
52
A. El Mossadeq
Tests : Les Fréquences
Solution 9 Ici on : ⎧ 19 ⎪ ⎪ ⎨ n1 = 350 , f1 = 70 ⎪ ⎪ ⎩ n = 250 , f = 11 2 2 50 Testons, au seuil α, l’hypothèse nulle : H0 :
”les taux de billets de 1e`re classe vendus en fin et début de semaines sont identiques”
Sous cette hypothèse, la quantité : f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 peut être considérée comme une réalisation d’une variable normale centrée réduite. Pour α = 5%, on a : t= r
t.975 = 1.96 et comme : f1 − f2 = 1.45 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 on accepte donc l’hypothèse nulle H0 au seuil 5%, c’est à dire, les taux de billets de parcours en 1e`re classe vendus en fins et débuts de semaines sont identiques et qu’on peut estimer par : t= r
f
= =
n1 f1 + n2 f2 n1 + n2 0.25
Exercice 10 On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et quarante fois ”face”. Tester au seuil de 5%, puis 1%, l’hypothèse de la loyauté de la pièce.
53
Tests : Les Fréquences
Solution 10 Ici on :
A. El Mossadeq
½
n = 100 f = 0.6
où f est la fréquence de ”pile”. Testons, au seuil α, l’hypothèse nulle : H0 : ”la pièce est loyale” Sous cette hypothèse, on a : p = 0.5 et la quantité : t= r
f −p
p (1 − p) n peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. on a : f −p t = r p (1 − p) n = 2 (1) Pour α = 5%, on a : t.975 = 1.96 on rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, qu’à 95%, la pièce est truquée. (2) Pour α = 1%, on a : 2.57 < t.995 < 2.58 on accepte donc l’hypothèse nulle H0 au seuil α = 1%, c’est à dire, qu’au seuil α = 1%, la pièce est normale.
Exercice 11 Un échantillon de taille n a donné lieu au calcul d’une fréquence observée f correspondant à l’intervalle de confiance [.22 − .34] au seuil α = 5%. 1. Calculer n. 2. Par rapport à la proportion p = 0.3, l’écart est-il significatif au seuil α = 5% ? 3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%.
54
A. El Mossadeq
Tests : Les Fréquences
Solution 11 1. Au seuil α, l’intervalle de confiance correspondant à une fréquence f observée sur un échantillon de taille n est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n On en déduit :
⎧ 0.22 + 0.34 ⎪ f= ⎪ ⎪ ⎨ 2
Pour α = 5%, on a :
⎪ f (1 − f ) ⎪ ⎪ ⎩ n = t21−α/2 (f − 0.22)2 t0.975 = 1.96
on obtient alors :
½
f = .28 n = 215
2. Testons, au seuil α, l’hypothèse nulle : H0 : ”l’écart n’est pas singificatif” Sous cette hypothèse, la quantité : t= r
f −p
p (1 − p) n
peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. On a : f −p t = r p (1 − p) n = −0.64 Pour α = 5%, on a : t.975 = 1.96 on accepte donc l’hypothèse nulle H0 au seuil α = 5%. 3. Au seuil α : ¤ £ f −p r ∈ −t1−α/2 , t1−α/2 p (1 − p) n
55
Tests : Les Fréquences
A. El Mossadeq
donc, au seuil α :
"
|f − p| ∈ 0, t1−α/2
r
p (1 − p) n
#
Pour α = 5%, on a : t.975 = 1.96 d’où : |f − p| ∈ [0, 0.06]
Exercice 12 L’étude du taux de défectuosités afférentes aux caractéristiques de traitements thermiques d’une même pièce, traitée par deux fours différents, a donné lieu aux résultats suivants : * Pour le premier four, 20 pièces défectueuses sur un échantillon de 200 pièces traitées. * Pour le second four, 120 pièces défectueuses sur un échantillon de 800 pièces traitées. Que peut-on conclure ?
Solution 12 Ici on :
⎧ ⎨ n1 = 200 , f1 = 0.10 ⎩ n = 800 , f = 0.15 2 2
Testons, au seuil α, l’hypothèse nulle :
H0 : ”les deux traitements thermiques sont équivalents” Sous cette hypothèse, la quantité : t= r
f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2
peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96
56
A. El Mossadeq
Tests : Les Fréquences
et comme : t
f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 −2.03 r
= =
on rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, les deux traitements ne sont pas équivalents.
Exercice 13 Un questionnaire auquel on ne peut répondre que par ”oui” ou par ”non”, a été rempli par un échantillon de taille n. L’intervalle de confiance de la fréquence observée f des réponses ”oui” est (0.35 − 0.43) au seuil α = 5%. 1. Quelle est la taille n de l’échantillon. 2. Par rapport à la proportion p = 0.4, l’écart est-il significatif au seuil α = 5% ? 3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%. Solution 13 1. Au seuil α, l’intervalle de confiance correspondant à une fréquence f observée sur un échantillon de taille n est défini par : "
f − t1−α/2
r
f (1 − f ) , f + t1−α/2 n
r
On en déduit : ⎧ 0.35 + 0.43 ⎪ f= ⎪ ⎪ ⎨ 2 Pour α = 5%, on a :
⎪ f (1 − f ) ⎪ ⎪ ⎩ n = t21−α/2 (f − 0.35)2 t0.975 = 1.96
on obtient alors :
⎧ ⎨ f = 0.39 ⎩ n = 571 57
f (1 − f ) n
#
Tests : Les Fréquences
A. El Mossadeq
2. Testons, au seuil α, l’hypothèse nulle : H0 : ”l’écart n’est pas singificatif” Sous cette hypothèse, la quantité : t= r
f −p
p (1 − p) n
peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. On a : f −p t = r p (1 − p) n = −0.49 Pour α = 5%, on a : t.975 = 1.96 On accepte donc l’hypothèse nulle H0 au seuil α = 5%. 3. Au seuil α : ¤ £ f −p r ∈ −t1−α/2 , t1−α/2 p (1 − p) n donc, au seuil α : " # r p (1 − p) |f − p| ∈ 0, t1−α/2 n Pour α = 5%, on a : t.975 = 1.96 d’où : |f − p| ∈ [0, 0.04]
Exercice 14 Parmi 470 sujets exposés à une infection, 370 n’ayant pas été immunisés. Parmi ces derniers, 140 contractent la malidie ainsi que 25 sujets immunisés. Le traitement donne-t-il une protection significative ?
58
A. El Mossadeq
Tests : Les Fréquences
Solution 14 Soient f1 la fréquence de contracter la maladie pour un sujet non immunisé et f2 la fréquence de contracter la maladie pour un sujet immunisé. Ici on : ⎧ 14 ⎪ ⎪ ⎨ n1 = 370 et f1 = 37 ⎪ ⎪ ⎩ n = 100 et f = 1 2 2 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”le traitements n’est pas efficace” Sous cette hypothèse, la quantité : t= r
f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2
peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96 et comme : t
= =
f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 2.56 r
On rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, le traitement donne une protection significative.
59
Les Tests du Khi-deux
A. El Mossadeq
Les Tests du Khi-Deux
Exercice 1 Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une enquête portant sur deux régions géographiques A et B. Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le produit. En provenance de B, 150 réponses sur 600 se déclarent favorables. Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B quant au produit considéré.
Solution 1 La répartition observée est : T ableau des eff ectif s observ´ ees R´ egionÂOpinion favorable non favorable T otal R´ egion A
630
1170
1800
R´ egion B
150
450
600
T otal
780
1620
2400
Testons, au seuil α, l’hypothèse nulle : H0 : ”les régions A et B ont la même opinion” Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques R´ egionÂOpinion favorable non favorable T otal R´ egion A
585
1215
1800
R´ egion B
195
405
600
T otal
780
1620
2400
Sous l’hypothèse nulle H0 , la quantité : χ2 =
2 X 2 X (oij − tij )2 i=1 j=1
63
tij
Les Tests du Khi-Deux
A. El Mossadeq
est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : χ2
=
2 X 2 X (oij − tij )2 i=1 j=1
=
tij
20.51
On rejette alors H0 à 95% (et même à 99.5%), c’est à dire, les deux régions ont des opinions différentes quant au produit considéré.
Exercice 2 Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement par application locale du radium a donné 50 guérisons. Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie, on a trouvé 54 guérisons. Que peut-on conclure ?
Solution 2 La répartition observée est : T ableau des eff ectif s observ´ ees T raitementÂR´ esultat gu´ eri non gu´ eri T otal radium
50
150
200
chirurgie
54
96
150
T otal
104
246
350
Testons, au seuil α, l’hypothèse nulle : H0 : ”les deux traitements sont équivalents”
64
A. El Mossadeq
Les Tests du Khi-Deux
Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques T raitementÂR´ esultat gu´ eri non gu´ eri T otal radium
59.4
140.6
200
chirurgie
44.6
105.4
150
T otal
104
246
350
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
2 X 2 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : χ2
=
2 X 2 X (oij − tij )2 i=1 j=1
=
tij
4.94
On rejette alors H0 à 95% , c’est à dire, les deux traitements ne sont pas équivalents.
Exercice 3 Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi, 95 étaient des billets de 1e`re classe. Sur les 250 billets vendus la matinée du lundi suivant, 55 étaient de 1e`re classe. Peut-on considérer qu’il y une différence entre les proportions de vente de parcours en 1e`re classe pour les fins et débuts de semaines ?
65
Les Tests du Khi-Deux
A. El Mossadeq
Solution 3 La répartition observée est : T ableau des eff ectif s observ´ ees 1e`re classe 2e`re classe T otal
jourÂClasse V endredi A.M
95
255
350
Lundi matin
55
195
250
T otal
150
450
600
Testons, au seuil α, l’hypothèse nulle : H0 :
”les taux de billets de parcours en 1e`re classe vendus en fin et début de semaines sont identiques”
Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques 1e`re classe 2e`re classe T otal
JourÂClasse V endredi A.M
87.5
262.5
350
Lundi matin
62.5
187.5
250
T otal
150
450
600
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
2 X 2 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84
66
A. El Mossadeq
Les Tests du Khi-Deux
Et comme : χ2
=
2 2 X X (oij − tij )2
tij
i=1 j=1
=
2.06
On accepte alors H0 au seuil α = 5% , c’est à dire, les taux de billets de parcours en 1 e`re classe vendus en fins et débuts de semaines sont identiques.
Exercice 4 On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et quarante fois ”face”. Tester au seuil de 5% puis 1%, l’hypothèse de la loyauté de la pièce.
Solution 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”la pièce est loyale” Sous cette hypothèse, on a : p = 0.5 d’où les répartitions : C oˆt´ e
R´ epartition Observ´ ee R´ epartition T h´ eorique
pile
60
50
f ace
40
50
T otal
100
100
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
2 X (oi − ti )2 i=1
67
ti
Les Tests du Khi-Deux
A. El Mossadeq
est une réalisation d’une variable du Khi-deux à : 2−1=1 degré de liberté. On a :
χ2
=
2 X (oi − ti )2 i=1
=
ti
4
(1) Pour α = 5%, on a : χ21;.95 = 3.84 On rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, qu’à 95%, la pièce est truquée. (2) Pour α = 1%, on a : χ21;.99 = 6.63 On accepte donc l’hypothèse nulle H0 au seuil α = 1%, c’est à dire, qu’au seuil α = 1%, la pièce est normale.
Exercice 5 On veut savoir si la réussite (R) d’un traitement est indépendantes du niveaux de la tension artérielle du malade (T ). On dispose pour cela de 250 observations réparties comme suit : T ÂR
e´chec succ` es
basse
21
104
e´lev´ ee
29
96
Que peut-on conclure ?
68
A. El Mossadeq
Les Tests du Khi-Deux
Solution 5 La répartition observée est : T ableau des eff ectif s observ´ ees T ÂR
Echec Succ` es T otal
Basse
21
104
125
Elev´ ee
29
96
125
T otal
50
200
250
Testons, au seuil α, l’hypothèse nulle : H0 : ”la réussite du traitement est indépendante du niveau de la tension artérielle” Calculons, sous cette hypothèse, la répartition théorique, le tableau de cette répartition est donné ci-après. T ableau des ef fectif s th´ eoriques T ÂR
Echec Succ` es T otal
Basse
25
100
125
Elev´ ee
25
100
125
T otal
50
200
250
Sous l’hypothèse nulle H0 , la quantité : χ2 =
2 X 2 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84
69
Les Tests du Khi-Deux
A. El Mossadeq
Et comme : χ2
=
2 2 X X (oij − tij )2
tij
i=1 j=1
=
1.6
On accepte alors H0 au seuil α = 5% , c’est à dire, la réussite du traitement est indépendante du niveau de la tension artérielle.
Exercice 6 On veut savoir s’il y a une liason entre la localisation (L) du cancer du poumon (périphérique , non périphérique) et le côté (C) de la lésion (poumon gauche , poumon droit). L’étude a porté sur 1054 malades : LÂC
gauche droit
p´ eriph´ erique
26
62
non p´ eriph´ erique
416
550
Que peut-on conclure ?
Solution 6 La répartition observée est : T ableau des eff ectif s observ´ ees LÂC
gauche droit T otal
p´ eriph´ erique
26
62
88
non p´ eriph´ erique
416
550
966
T otal
442
612
1054
Testons, au seuil α, l’hypothèse nulle : H0 :
”la localisation du cancer est indépendante du côté de la lésion”
Calculons, sous cette hypothèse, la répartition théorique. Le tableau de cette répartition est donnée ci-après.
70
A. El Mossadeq
Les Tests du Khi-Deux
T ableau des ef fectif s th´ eoriques LÂC
gauche
droit
T otal
p´ eriph´ erique
36.9
51.1
88
nonp´ eriph´ erique
405.1
560.9
966
T otal
442
612
1054
Sous l’hypothèse nulle H0 , la quantité : χ2 =
2 2 X X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à :
(2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : 2
χ
=
2 2 X X (oij − tij )2 i=1 j=1
=
tij
6.05
On rejette alors H0 à 95% (même à 97.5%), c’est à dire, la localisation du cancer dépend du côté de la lésion.
Exercice 7 De nombreuses observations cliniques ont montré que jusque là : • • • •
30% 50% 10% 10%
des malades atteints de M ont une survie inférieure à un an ont une survie entre un an et deux ans ont une survie entre deux ans et cinq ans ont une survie supérieure à cinq ans.
On applique un nouveau traitement à 80 malades atteint de la maladie M et on constate :
71
Les Tests du Khi-Deux
• • • •
A. El Mossadeq
12 ont une survie inférieure à un an 56 ont une survie entre un an et deux ans 8 ont une survie entre deux ans et cinq ans 4 ont une survie supérieure à cinq ans.
Que peut-on conclure ?
Solution 7 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nouveau traitement n’est pas actif contre la maladie M” Sous cette hypothèse, on a les répartitions : Survie
R´ epartition Observ´ ee R´ epartition T h´ eorique
survie ≤ 1 an
12
24
1 an < survie ≤ 2 ans
56
40
2 an < survie ≤ 5 ans
8
8
survie > 5 ans
4
8
T otal
80
80
Sous l’hypothèse nulle H0 , la quantité : χ2 =
4 X (oi − ti )2 i=1
ti
est une réalisation d’une variable du Khi-deux à : 4−1=3 degrés de liberté. Pour α = 5%, on a : χ23;.95 = 7.81
72
A. El Mossadeq
Les Tests du Khi-Deux
Et comme : χ2
=
2 X (oi − ti )2
ti
i=1
=
14.4
on rejette donc l’hypothèse nulle H0 à 95% (même à 99.5%), c’est à dire, qu’à 99.5%, le nouveau traitement est actif contre la maladie M.
Exercice 8 On suppose pouvoir classer les malades atteints d’une maladie M en trois catégories cliniques : A , B , C. On se demande si ces trois catégories diffèrent par leurs survies à un an. Les effectifs observés sont les suivants : SurvieÂCat´ egorie
A
B
C
survie a ` un an
5
20
45
d´ ec´ es avant un an
15 50 145
Que peut-on conclure ?
Solution 8 La répartition observée est : T ableau des eff ectif s observ´ ees SurvieÂCat´ egorie
A
B
C
T otal
Survie a ` un an
5
20
45
70
D´ ec´ es avant un an 15 50 145
210
T otal
20 70 190
280
Testons, au seuil α, l’hypothèse nulle : H0 :
”la survie à un an est indépendante de la catégorie clinique”
Calculons, sous cette hypothèse, la répartition théorique.
73
Les Tests du Khi-Deux
A. El Mossadeq
T ableau des ef fectif s th´ eoriques SurvieÂCat´ egorie
A
B
C
T otal
Survie a ` un an
5
17.5
47.5
70
15 52.5 142.5
210
20
280
D´ ec´ es avant un an T otal
70
190
Sous l’hypothèse nulle H0 , la quantité : χ2 =
3 2 X X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à :
(2 − 1) (3 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme :
2
χ
=
3 2 X X (oij − tij )2 i=1 j=1
=
tij
.65
On accepte alors H0 au seuil α = 5% , c’est à dire, la survie à un an est indépendante de la catégorie clinique.
Exercice 9 75 enfants sont vus en consultation pour un asthme. On relève chez eux les deux symptômes suivants : * Intensité de la maladie asmathique : légère , moyenne , forte * Existence ou absence d’un eczéma au moment de l’observation ou dans le passé.
74
A. El Mossadeq
Les Tests du Khi-Deux
On peut classer les enfants selon la répartition suivante : EÂA
fort moyen l´ eger
pr´ esent
8
2
2
pass´ e
11
11
3
jamais
6
18
14
Au vu de ces résultats, existe-t-il une association entre l’intensité de l’asthme et l’existence d’un eczéma ?
Solution 9 Le tableau de la répartition observée est donnée ci-après: T ableau des eff ectif s observ´ ees Ecz´ emaÂAsthme f ort moyen l´ eger
T otal
pr´ esent
8
2
2
12
pass´ e
11
11
3
25
jamais
6
18
14
38
T otal
25
31
19
75
Testons, au seuil α, l’hypothèse nulle : H0 :
”l’intensité de l’asthme est indépendante de l’existence d’un eczéma”
Calculons, sous cette hypothèse, la répartition théorique. Le tableau de cette répartition est donnée ci-après.
75
Les Tests du Khi-Deux
A. El Mossadeq
T ableau des ef fectif s th´ eoriques Ecz´ emaÂAsthme
f ort
moyen l´ eger
T otal
pr´ esent
4
4.96
3.04
12
pass´ e
8.33
10.33
6.34
25
jamais
12.67
15.71
9.62
38
T otal
25
31
19
75
Les effectifs théoriques sur la première ligne sont strictement inférieurs à cinq, ce qui empêche l’application d’un test du Khi-deux.On peut remédier à cet état en opérant le groupement ”logique” des classes ”pr´ esent” et ”pass´ e”. Les nouveaux tableaux des effectifs observés et théoriques, obtenus après regroupement de ces deux classes sont donnés ci-après. T ableau des eff ectif s observ´ ees Ecz´ emaÂAsthme f ort moyen l´ eger
T otal
pr´ esent ou pass´ e
19
13
5
37
jamais
6
18
14
38
T otal
25
31
19
75
T ableau des eff ectif s th´ eoriques Ecz´ emaÂAsthme
fort
moyen l´ eger
pr´ esent ou pass´ e
12.33
15.29
9.38
37
jamais
12.67
15.71
9.62
38
T otal
25
31
19
75
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
3 2 X X (oij − tij )2 i=1 j=1
76
tij
T otal
A. El Mossadeq
Les Tests du Khi-Deux
est une réalisation d’une variable du Khi-deux à : (2 − 1) (3 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme : 2
χ
=
3 2 X X (oij − tij )2 i=1 j=1
=
tij
11.84
On rejette alors H0 à 95% (même à 99.5%), c’est à dire, l’intensité de l’asthme dépend de l’existence d’un eczéma.
Exercice 10 Une étude statistique relative aux résultats d’admission du concours d’une grande école fait ressortir la répartition des admis selon la profession des parents lorsque celle-ci est connue. 1. La profession des parents a-t-elle une influence sur l’accès à cette école ? 2. Cette conclusion persiste-t-elle lorsqu’on tient compte pour compléter la statistique précédente de 961 candidats dont l’origine socio-professionnelle est inconnue et qui ont obtenus 43 succès ? P rof ession des P arents
Candidats Admis
F ontionnaires et Assimil´ es
2224
180
Commerce et Industrie
998
89
P rof essions Lib´ erales
575
48
P ropri´ etaires Rentiers
423
37
P ropri´ etaires Agricoles
287
13
Artisans
210
18
Banques et Assurances
209
17
77
Les Tests du Khi-Deux
A. El Mossadeq
Solution 10 1. La répartition observée est : P rofession des P arents
Candidats Admis Non admis
F ontionnaires et Assimil´ es
2224
180
2044
Commerce et Industrie
998
89
899
P rofessions Lib´ erales
575
48
527
P ropri´ etaires Rentiers
423
37
386
P ropri´ etaires Agricoles
287
13
274
Artisans
210
18
192
Banques et Assurances
209
17
192
4916
402
4514
T otal Testons, au seuil α, l’hypothèse nulle :
H0 : ”l’accès à l’Ecole est indépendant de la profession des parents” Calculons, sous cette hypothèse, la répartition théorique : P rof ession des P arents
Candidats Admis Non admis
F ontionnaires et Assimil´ es
2224
181.9
2042.1
Commerce et Industrie
998
80.8
907.2
P rofessions Lib´ erales
575
47
528
P ropri´ etaires Rentiers
423
34.6
388.4
P ropri´ etaires Agricoles
287
23.5
263.5
Artisans
210
17.2
192.8
Banques et Assurances
209
17.1
191.9
4916
402
4514
T otal
78
A. El Mossadeq
Les Tests du Khi-Deux
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
7 X 2 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (7 − 1) (2 − 1) = 6 degrés de liberté. Pour α = 5%, on a : χ26;.95 = 12.6 Et comme : 2 X 3 X (oij − tij )2 χ = = 6.28 tij i=1 j=1 2
On accepte alors H0 au seuil α = 5% , c’est à dire, l’accès à l’Ecole est indépendant de la profession des parents. 2. Si l’on tient compte des 961 candidats dont l’origine socio-professionnelle est inconnue et qui ont obtenus 43 succès, la répartition observée et la répartition théorique, sous la même hypothèse nulle, deviennent comme consognés ci-après. T ableau des eff ectif s observ´ ees P rofession des P arents
Candidats Admis Non admis
F ontionnaires et Assimil´ es
2224
180
2044
Commerce et Industrie
998
89
899
P rofessions Lib´ erales
575
48
527
P ropri´ etaires Rentiers
423
37
386
P ropri´ etaires Agricoles
287
13
274
Artisans
210
18
192
Banques et Assurances
209
17
192
Autres
961
43
918
5877
445
5432
T otal
79
Les Tests du Khi-Deux
A. El Mossadeq
T ableau des ef fectif s th´ eoriques P rofession des P arents
Candidats Admis Non admis
F ontionnaires et Assimil´ es
2224
168.4
2055.6
Commerce et Industrie
998
74.8
913.2
P rofessions Lib´ erales
575
43.5
531.5
P ropri´ etaires Rentiers
423
32
391
P ropri´ etaires Agricoles
287
21.7
265.3
Artisans
210
15.9
194.1
Banques et Assurances
209
15.8
193.2
Autres
961
72.8
888.2
5877
445
5432
T otal
Sous l’hypothèse nulle H0 , la quantité : χ2 =
2 8 X X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (8 − 1) (2 − 1) = 7 degrés de liberté. Pour α = 5%, on a : χ27;.95 = 14.1 Et comme : 3 2 X X (oij − tij )2 χ = = 22.5 t ij i=1 j=1 2
On rejette alors H0 à 95% (même à 99.5%) , c’est à dire, l’accès à l’Ecole est indépendant de la profession des parents.
80
A. El Mossadeq
Les Tests du Khi-Deux
Exercice 11 Sur un échantillon de 84 prématurés, on cherche s’il existe une liaison entre la survenue d’une hypoglycémie et la survenue d’un ictère : • sur 43 enfants n’ayant pas d’ictère, 23 sont hypoglycémiques • sur 20 enfants ayant un ictère modéré, 6 sont hypoglycémiques • sur 21 enfants ayant un ictère intense, 4 sont hypoglycémiques Que peut-on conclure ?
Solution 11 La répartition observée est donnée dans le tableau : T ableau des eff ectif s observ´ ees Ict` ereÂHypoglyc´ emie hypoglyc´ emique non hypoglyc´ emique T otal pas d0 ict` ere
23
20
43
ict` ere mod´ er´ e
6
14
20
ict` ere intense
4
17
21
T otal
33
51
84
Testons, au seuil α, l’hypothèse nulle : H0 :
”la survenue d’une hypoglycémie est indépendante de la survenue d’un ictère”
Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques Ict` ereÂHypoglyc´ emie hypoglyc´ emique non hypoglyc´ emique T otal pas d0 ict` ere
16.89
26.11
43
ict` ere mod´ er´ e
7.86
12.14
20
ict` ere intense
8.25
12.75
21
T otal
33
51
84
81
Les Tests du Khi-Deux
A. El Mossadeq
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
2 X 2 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (3 − 1) (2 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme : χ2
=
2 3 X X (oij − tij )2 i=1 j=1
=
tij
7.97
On rejette alors H0 à 95% (même à 97.5%), c’est à dire, la survenue d’une hypoglycémie dépend de la survenue d’un ictère.
Exercice 12 Un médicament essayé sur 42 patients est contrôlé quant aux effets secondaires qu’il peut avoir sur le poids des malades. On peut considérer que : • quinze d’entre eux ont maigri • dix sept n’ont pas changé de poids • dix ont grossi En supposant que la maladie est sans effet sur les variations de poids, le médicament a-t-il un effet significatif sur le poids ?
Solution 12 Testons, au seuil α, l’hypothèse nulle : H0 : ”le traitement est sans effet sur les variations du poids” Si le traitement est sans effet sur les variations du poids, alors ces variations sont dûes seulement au hasard. La loi de probabilité est donc la loi uniforme, c’est à dire la probabilité de chaque 1 classe est la même et est égale à . 3
82
A. El Mossadeq
Les Tests du Khi-Deux
D’où les répartitions : V ariations
R´ epartition Observ´ ee R´ epartition T h´ eorique
ont maigri
15
14
n0 ont pas chang´ e
17
14
ont grossi
10
14
T otal
42
42
Sous l’hypothèse nulle H0 , la quantité : χ2 =
3 X (oi − ti )2 i=1
ti
est une réalisation d’une variable du Khi-deux à : 3−1=2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme :
χ2
=
2 X (oi − ti )2 i=1
=
ti
1.86
on accepte donc l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, le traitement est sans effet sur les variations du poids.
Exercice 13 Pour étudier la densité de poussières dans un gaz, on a procédé à une série d’observations de petits échantillons de gaz au moyen d’un microscope. On a ainsi effectué 143 observations et les résultats sont les suivants :
83
Les Tests du Khi-Deux
A. El Mossadeq
Nombre de particules en suspension
Nombre d0 e´chantillons de gaz
0
34
1
46
2
38
3
19
4
4
5
2
>5
0
Peut-on admettre, au seuil α = 5%, que le nombre de particules en suspension est une variable de P oisson ?
Solution 13 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nombre de particules en suspension est une variable de Poisson” Calculons une estimation ponctuelle du paramètre α de cette loi : αk exp −α k! où X est la variable aléatoire représentant le nombre de particules en suspension. On sait que : n 1X α ˆ= Xi n i=1 P [X = k] =
est un estimateur sans biais et convergent de α. Une estimation ponctuelle α ˜ de α est donnée par :
1 X ini 143 i=0 5
α ˜
= =
1.4336
D’où les répartitions :
84
A. El Mossadeq
Les Tests du Khi-Deux
P articules en suspension
R´ epartition observ´ ee R´ epartition th´ eorique
0
34
34.1
1
46
48.9
2
38
35.0
3
19
16.7
4
4
06.0
5
2
01.7
>5
0
00.6
T otal
143
143
L’effectif théorique tk , k ≥ 0, représentant le nombre particules en suspension k est donné par : tk = nP [X = k] On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” des classes ”4 et plus”. Les tableaux des effectifs observés et théoriques deviennent comme consignés ciaprès. P articules en suspension
R´ epartition observ´ ee R´ epartition th´ eorique
0
34
34.1
1
46
48.9
2
38
35.0
3
19
16.7
≥4
4
08.3
T otal
143
143
85
Les Tests du Khi-Deux
A. El Mossadeq
Sous l’hypothèse nulle H0 , la quantité : χ2 =
4 X (oi − ti )2 i=0
ti
est une réalisation d’une variable du Khi-deux à : 5−1−1=3
degrés de liberté.puisque pour calculer les effectifs théoriques, nous avons utilisé l’estimation, et non la valeur réel, du paramètre α de la loi de Poisson. Pour α = 5%, on a : χ23;.95 = 7.81 Et comme : χ2 = 2.97 On accepte alors H0 au seuil α = 5%, c’est à dire, le nombre de particules en suspension peut être ajusté par une loi de Poisson dont le paramètre α est estimé par : α ˜ = 1.4336
Exercice 14 Le tableau ci-après concerne le nombre annuel de cyclones tropicaux ayant atteint la côte orientale des Etats-Unis entre 1887 et 1956 : Nombre annuel de cyclones Nombre d0 ann´ ees 0 1 1 6 2 10 3 16 4 19 5 5 6 8 7 3 8 1 9 1 >9 0 Peut-on admettre, au seuil α = 5%, que ce nombre annuel de cyclones est une variable de P oisson ?
86
A. El Mossadeq
Les Tests du Khi-Deux
Solution 14 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nombre annuel de cyclones est une variable de Poisson” Calculons une estimation ponctuelle du paramètre α de cette loi : αk exp −α k! où X est la variable aléatoire représentant le nombre annuel de cyclones. On sait que : n 1X α ˆ= Xi n i=1 P [X = k] =
est un estimateur sans biais et convergent de α. Une estimation ponctuelle α ˜ de α est donnée par :
1 X α ˜= ini = 3.7286 70 i=0 9
L’effectif théorique tk , k ≥ 0, représentant le nombre d’années à k cyclones est donné par : tk = nP [X = k] D’où les répartitions : Nombre annuel de cyclones Eff ectif s observ´ es Ef fectifs th´ eoriques 0 1 1.68 1 6 6.27 2 10 11.69 3 16 14.53 4 19 13.54 5 5 10.1 6 8 6.28 7 3 3.34 8 1 1.56 9 1 0.65 >9 0 0.36 T otal 70 70
On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” : * des classes ”0” et ”1” d’une part, * et des classes ”7 et plus” d’autre part.
87
Les Tests du Khi-Deux
A. El Mossadeq
Les tableaux des effectifs observés et théoriques deviennent : Nombre annuel de cyclones Ef fectif s observ´ es Eff ectifs th´ eoriques 0 ou 1
7
7.95
2
10
11.69
3
16
14.53
4
19
13.54
5
5
10.10
6
8
6.28
≥7
5
5.91
T otal
70
70
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
7 X (oi − ti )2 i=1
ti
est une réalisation d’une variable du Khi-deux à : 7−1−1=5
degrés de liberté.puisque pour calculer les effectifs théoriques, nous avons utilisé l’estimation, et non la valeur réel, du paramètre α de la loi de Poisson. Pour α = 5%, on a : χ25;.95 = 5.8948 Et comme : χ2 = 5.81 On accepte alors H0 au seuil α = 5%, c’est à dire, le nombre annuel de cyclones peut être ajusté par une loi de Poisson dont le paramètre α est estimé par : α ˜ = 3.7286
88
A. El Mossadeq
Les Tests du Khi-Deux
Exercice 15 Le tableau suivant indique le résultat de l’examen de 124 sujets, classés d’après la couleur de leurs yeux (Y ) et la couleur de leus cheveux (C) : Y ÂC
Blonds Bruns Noirs Roux
Bleus
25
9
3
7
Gris ou V erts
13
17
10
7
Marrons
7
13
8
5
Existe-t-il une liason entre ces deux caractères ?
Solution 15 La répartition observée est : Y ÂC
Blonds Bruns Noirs Roux T otal
Bleus
25
9
3
7
44
Gris ou V erts
13
17
10
7
47
Marrons
7
13
8
5
33
T otal
45
39
21
19
124
Testons, au seuil α, l’hypothèse nulle : H0 :
”les couleurs des yeux et des cheveux sont indépendantes”
Calculons, sous cette hypothèse, la répartition théorique : Y ÂC
Blonds Bruns Noirs Roux T otal
Bleus
16
13.8
7.4
6.8
44
Gris ou V erts
17
14.8
8
7.2
47
Marrons
12
10.4
5.6
5
33
T otal
45
39
21
19
124
89
Les Tests du Khi-Deux
A. El Mossadeq
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
3 X 4 X (oij − tij )2 i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à : (3 − 1) (4 − 1) = 6 degrés de liberté. Pour α = 5%, on a : χ26;.95 = 12.6 Et comme : 2
χ
=
3 2 X X (oij − tij )2 i=1 j=1
=
tij
15
On rejette alors H0 à 95% (même à 97.5%), c’est à dire, les couleurs des yeux et des cheveux ne sont pas indépendantes.
Exercice 16 On considère les familles de quatre enfants. Sur un échantillon de cent familles à quatre enfants, la répartition suivante a été observée :
Nombre de f illes Nombre de f amilles 0
7
1
20
2
41
3
22
4
10
Peut-on considérer que la probabilité qu’un enfant soit une fille est
90
1 ? 2
A. El Mossadeq
Les Tests du Khi-Deux
Solution 16 Testons, au seuil α, l’hypothèse nulle : 1 ” 2 Sous l’hypothèse nulle H0 , la variable aléatoire X égale au nombre de filles µ parmi ¶ 1 1 les quatre enfants suit une loi binomiale d’ordre 4 et de paramètre : B 4, . 2 2 Ainsi, pour tout k, 0 ≤ k ≤ 4, la probabilité pk d’avoir k filles parmi les quatre enfants est : µ ¶4 1 pk = C (4, k) 2 H0 : ”la probabilité d’avoir une fille est
L’effectif théorique tk , 0 ≤ k ≤ 4, représentant le nombre de familles ayant k filles parmi les quatre enfants est donné par : tk = npk D’où les répartitions : Nombre de filles R´ epartition observ´ ee R´ epartition th´ eorique 0
7
6.25
1
20
25
2
41
37.5
3
22
25
4
10
6.25
T otal
100
100
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
4 X (oi − ti )2 i=0
ti
est une réalisation d’une variable du Khi-deux à : 5−1=4 degrés de liberté. Pour α = 5%, on a : χ24;.95 = 9.49
91
Les Tests du Khi-Deux
A. El Mossadeq
Et comme : χ2 = 4.03 On accepte alors H0 au seuil α = 5% : la probabilité d’avoir une fille est
1 . 2
Exercice 17 On distribue un jeu de quarante cartes à quatre joueurs : A , B , C , D ; chacun reçevant dix cartes Un statisticien a élaboré un programme de distribution de donnes par ordinateur. Pour un ensemble de deux cents donnes, obtenues à partir de ce programme, il observe le nombre de donnes où le joueur A reçoit k as, 0 ≤ k ≤ 4. Les résultats sont les suivants : Nombre d0 as Nombre de donnes 0
64
1
74
2
52
3
8
4
2
Le programme du statisticien est-il fiable ?
Solution 17 Testons, au seuil α, l’hypothèse nulle : H0 : ”le programme du statisticien est fiable” Sous l’hypothèse nulle H0 , la variable aléatoire X égale au nombre d’as du joueur A suit une loi hypergéométrique. Ainsi, pour tout k, 0 ≤ k ≤ 4, la probabilité pk pour que le joueur A ait k as est : pk =
C (4, k) C (36, 10 − k) C (40, 10)
L’effectif théorique tk , 0 ≤ k ≤ 4, représentant le nombre de donnes à k as, du joueur A, est donné par : tk = npk
92
A. El Mossadeq
Les Tests du Khi-Deux
D’où les répartitions : Nombre d0 as R´ epartition observ´ ee R´ epartition th´ eorique 0
64
59.97
1
74
88.85
2
52
42.84
3
8
7.88
4
2
0.46
T otal
200
200
On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” des classes ”3 et 4”. Le tableau des effectifs observés et théoriques deviennent : Nombre d0 as R´ epartition observ´ ee R´ epartition th´ eorique 0
64
59.97
1
74
88.85
2
52
42.84
3 ou 4
10
8.34
T otal
200
200
Sous l’hypothèse nulle H0 , la quantité : 2
χ =
3 X (oi − ti )2 i=0
ti
est une réalisation d’une variable du Khi-deux à : 4−1=3 degrés de liberté.
93
Les Tests du Khi-Deux
A. El Mossadeq
Pour α = 5%, on a : χ23;.95 = 7.81 Et comme : χ2 = 5.0418 On accepte alors H0 au seuil α = 5%, c’est à dire, le programme du statisticien est fiable.
94
T ests d ’H yp oth èses Moyennes et Variances
A. El Mossadeq
Tests : Moyennes et Variances
Exercice 1 Une série de cent mesures a donné comme résultat : ⎧ 100 X ⎪ ⎪ ⎪ xi = 5200 ⎪ ⎪ ⎪ ⎨ i=1
" #2 ⎪ 100 ⎪ X 100 ⎪ P 1 ⎪ ⎪ ⎪ xi − xj = 396 ⎩ 100 j=1 i=1
1. Estimer la moyenne et la variance. 2. Quel est, à 95%, l’intervalle de confiance de la moyenne ? 3. En supposant la variable mesurée gaussienne, déterminer, à 95%, l’intervalle de confiance de la variance.
Solution 1 1. Soit m l’estimation de la moyenne et s2 celle de la variance. On a : 1 X xi 100 i=1 100
m
= =
52
et : 1 X (xi − m)2 99 i=1 100
2
s
= =
4
2. Au seuil α, l’intervalle de confiace de la moyenne est défini par : ∙ ¸ σ σ m − t1−α/2 √ , m + t1−α/2 √ n n Pour α = 5%, on a : t.975 = 1.96 d’où l’intervalle de confiance à 95% : [51.608, 52.392] 3. Au seuil α, l’intervalle de confiace de la variance est défini par : "
(n − 1) 2 (n − 1) 2 s, 2 s χ2n−1;1−α/2 χn−1;α/2
97
#
Tests : Moyennes et Variances
A. El Mossadeq
Pour α = 5% : ⎧ 2 ⎨ χ99;.025 ' χ2100;.025 = 74.2
⎩ χ2 2 99;.975 ' χ100;.975 = 129.6
d’où l’intervalle de confiace de l’écart-type à 95% : [3.06, 5.34]
Exercice 2 La force de rupture d’un certain type de cable peut être assimilée à une variable aléatoire normale. Des essais portant sur dix cables ont donné une variance empirique s2 de 1560 N2 . Construire un intervalle de confiance, à 95%, de l’écart-type de cette force de rupture.
Solution 2 Au seuil α, l’intervalle de confiace de l’écart-type est défini par : "s Pour α = 5% :
(n − 1) s, χ2n−1;1−α/2
s
#
(n − 1) s χ2n−1;α/2
⎧ 2 ⎨ χ9;.025 = 2.7 ⎩ χ2 9;.975 = 19
d’où l’intervalle de confiace de l’écart-type à 95% : [27.18 N, 72.11 N]
Exercice 3 Une enquête statistique effectuée sur cent sujets permet de définir, à 95%, l’intervalle de confiance de la moyenne : [49.6 − 50.4]
Dans quelles conditions aurait-il été possible que le résultat fût à 95% : [49.8 − 50.2]
98
A. El Mossadeq
Tests : Moyennes et Variances
Solution 3 Il s’agit de déterminer la taille n0 de l’échantillon à prélever pour que l’intervalle de confiance de la moyenne à 95% soit : [49.8, 50.2] sachant que pour un échantillon de taille n = 100, cet intervalle est : [49.6, 50.4] Puisque :
on en déduit :
∙ ¸ σ σ m − t1−α/2 √ , m + t1−α/2 √ = [49.6, 50.4] n n
m
= =
et : σ
= '
49.6 + 50.4 2 50 √ n (50.4 − 49.6) 2t1−α/2 2.04
L’égalité : σ 50.2 = m + t1−α/2 √ n0 implique : 0
n
= =
µ
σt1−α/2 50.2 − m 400
¶2
Exercice 4 Pour déterminer le point de fusion moyen μ d’un certain alliage, on a procédé à neuf observations qui ont données une moyenne m = 1040 ◦ C et un écart-type s = 16 ◦ C. Construire un intervalle de confiance de la moyenne μ à 95%.
99
Tests : Moyennes et Variances
A. El Mossadeq
Solution 4 Ici on a : n m s
= = =
9 1040 ◦ C 16 ◦ C
Au seuil α, l’intervalle de confiace d’une telle moyenne est défini par :
Pour α = 5%, on a :
∙ ¸ s s m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √ n n t8;.975 = 2.31
d’où l’intervalle de confiance à 95% : [1027.68 ◦ C, 1052.32 ◦ C]
Exercice 5 ¯ = 172 cm La taille de 1200 conscrits du bureau de recrutement X a pour moyenne X et pour écart-type sX = 6 cm. Les mêmes mesures effectuées sur les 250 conscrits du bureau de recrutement Y ont donné pour moyenne Y¯ = 170 cm et pour écart-type sX = 5 cm. Que peut-on conclure ?
Solution 5 Testons au seuil α l’hypothèse nulle : H0 : ”les conscrits des bureaux de recrutement X et Y ont la même taille” Sous l’hypothèse nulle H0 , la quantité : ¯ − Y¯ X t= r 2 sX s2Y + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96
100
A. El Mossadeq
Tests : Moyennes et Variances
Et comme : t
¯ − Y¯ X r 2 sX s2Y + n1 n2 5.547
= =
On rejette alors l’hypothèse nulle H0 à 95% (même à 99%), c’est à dire, les conscrits des bureaux de recrutement X et Y ont des tailles moyennes différentes.
Exercice 6 On se propose de comparer le poids à la naissance chez une série de primapares (série 1) et une série de multipares (série 2) : m1 = 3197 g s21 = 210100 g2
S´ erie 1 : n1 = 95
S´ erie 2 : n2 = 105 m2 = 3410 g s22 = 255400 g2 Que peut-on conclure ?
Solution 6 Testons au seuil α l’hypothèse nulle : H0 : ”les primapares et les multipares ont le même poids moyen à la naissance” Sous l’hypothèse nulle H0 , la quantité : m1 − m2 t= r 2 s1 s22 + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite.Pour α = 5%, on a : t.975 = 1.96 Et comme : t
= =
m − m2 r 12 s1 s2 + 2 n1 n2 −3.1256
On rejette alors l’hypothèse nulle H0 , à 95% (même à 99%), c’est à dire, les primapares et les multipares n’ont pas le même poids moyen à la naissance
101
Tests : Moyennes et Variances
A. El Mossadeq
Exercice 7 Chez cent sujet normaux, on dose l’acide urique, les résultats sont : ½ m1 = 53.3 mg/ l s1 = 9.1 mg/ l Chez cent sujet atteints de la maladie de goutte, le même dosage de l’acide urique fournit les résultats : ½ m2 = 78.6 mg/ l s2 = 13.1 mg/ l Que peut-on conclure ?
Solution 7 Testons au seuil α, l’hypothèse nulle : H0 : ”la maladie de goutte n’a pas d’influence sur la dose de l’acide urique” Sous cette hypothèse, la quantité : m1 − m2 t= r 2 s1 s2 + 2 n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96 et comme : t
= =
m − m2 r 12 s1 s2 + 2 n1 n2 −15.862
On rejette l’hypothèse nulle H0 à 95% (même à 99.99%), c’est à dire, la maladie de goutte a une influence sur la dose de l’acide urique.
Exercice 8 On admet que la valeur moyenne de la glycémie du sujet normal est 1 g/ l. Sur 17 sujets, on a trouvé une moyenne de .965 g/ l et un écart-type estimé de .108 g/ l. Cette valeur peut-elle être considérée comme différente du taux normal ?
102
A. El Mossadeq
Tests : Moyennes et Variances
Solution 8 Testons au seuil α, l’hypothèse nulle : H0 : ”la valeur est normale” Sous cette hypothèse, la quantité : t=
m−μ s √ n
est une réalisation de la variable aléatoire Tn−1 de Student à : n − 1 = 16 degrés de liberté. Pour α = 5%, on a : t16;.975 = 2.12 et comme : t
= =
m−μ s √ n −1.3362
on accepte l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, la valeur est normale.
Exercice 9 Dans un échantillon de 17 prématurés, la moyenne du Na-plasmatique est : ⎧ ⎨ m1 = 133 ⎩ s2 1
=
81.2
Soit un autre échantillon de 25 dysmaturés, dans lequel la moyenne du Na-plasmatique est : ⎧ ⎨ m2 = 136 Que peut-on conclure ?
⎩ s2 2
=
56.57
Solution 9 Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances du N aplasmatique chez les prématurés et les dysmaturés.
103
Tests : Moyennes et Variances
A. El Mossadeq
Sous cette hypothèse, la quantité : f=
s21 s22
est une réalisation d’une variable aléatoire de Fisher à : (n1 − 1, n2 − 1) = (16, 24) degrés de liberté. Pour α = 10%, on a : F16,24;.95 = 2.09 Et comme : f
= =
s21 s22 1.4354
on accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2
= =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 66.42
et testons l’hypothèse nulle : H0 : ”les prématurés et les dysmaturés ont la même moyenne du Na-plasmatique” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 40 degrés de liberté. Pour α = 10%, on a : t40;.95 = 1.68 Et comme : t
= =
m − m2 r1 1 1 s + n1 n2 −1.17
104
A. El Mossadeq
Tests : Moyennes et Variances
On accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les prématurés et les dysmaturés ont la même moyenne du Na-plasmatique estimée par : m
n1 m1 + n2 m2 n1 + n2 134.79
= =
Exercice 10 Lorqu’une machine est bien réglée, elle produit des pièces dont le diamètre D est une variable gaussienne de moyenne 25 mm. Deux heures après le réglage de la machine, on a prélevé au hasard neuf pièces. Leurs diamètres ont pour mesure en mm : 22 23 21 25 24 23 22 26 21 Que peut-on conclure quant à la qualité du réglage après deux heures de fonctionnement de la machine ?
Solution 10 Calculons d’abord les estimations m et s2 de la moyenne et de la variance sur cet échantillon de taille n = 9. On a : n 1X m = xi n i=1 =
23 mm
et : 1 X (xi − m)2 n − 1 i=1 n
2
s
= =
3 mm2
Testons l’hypothèse nulle : H0 : ”la machine est bien réglée” Sous l’hypothèse nulle H0 , la quantité : t=
m−μ s √ n
105
Tests : Moyennes et Variances
A. El Mossadeq
est une réalisation d’une variable aléatoire de Student à : n−1=8 degrés de liberté : T8 . Pour α = 5%, on a : t8;.975 = 2.31 et comme : t
= =
m−μ s √ n −3.4641
On rejette l’hypothèse nulle H0 à 95% (même à 99%), c’est à dire, le réglage de la machine est rompu.
Exercice 11 Si l’écart-type de la durée de vie d’un modèle de lampe électrique est estimé à cent heures, quelle doit être la taille de l’échantillon à prélever pour que l’erreur sur l’estimation de la durée de vie moyenne n’exède pas vingt heures et ce avec une probabilité de 95% puis 99% ?
Solution 11 L’erreur sur l’estimation de la moyenne est donnée par : s t1−α/2 √ n (1) Pour α = 5%, on a : t1−α/2 = 1.96 d’où : s t1−α/2 √ ≤ 20 =⇒ n ≥ 97 n (2) Pour α = 1%, on a : t1−α/2 = 2.57 d’où : s t1−α/2 √ ≤ 20 =⇒ n ≥ 166 n
106
A. El Mossadeq
Tests : Moyennes et Variances
Exercice 12 Une machine fabrique des rondelles dont le diamètre D est une variable guassienne. On prélève au hasard un échantillon de huit rondelles. Leurs diamètres ont pour mesure en mm : 20.1 19.9 19.7 20.2 20.1 23.1 22.6 19.8 Construire à 95% puis 99% les intervalles de confiance de la moyenne et de la variance.
Solution 12 Calculons d’abord les estimations m et s2 de la moyenne et de la variance sur cet échantillon de taille n = 8. On a : n 1X m = xi n i=1 =
20.6875 mm
et 1 X (xi − m)2 n − 1 i=1 n
2
s
= =
1.827 mm2
1. L’intervalle de confiance de la moyenne à 1 − α est : ¸ ∙ s s m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √ n n (a) Pour α = 5%, on a : t7;.975 = 2.36 d’où l’intervalle : [19.163, 22.212]
(b) Pour α = 1%, on a : t7;.995 = 3.5 d’où l’intervalle : [18.427, 22.948]
107
Tests : Moyennes et Variances
A. El Mossadeq
2. L’intervalle de confiance de la variance à 1 − α est : # " 2 2 (n − 1) s (n − 1) s , χ2n−1;1−α/2 χ2n−1;α/2 (a) Pour α = 5%, on a : ⎧ 2 ⎨ χ7;.025 = 1.69 d’où l’intervalle :
⎩ χ2 7;.975 = 16
[.79931, 7.5675] (b) Pour α = 1%, on a : ⎧ 2 ⎨ χ7;.005 = .989 d’où l’intervalle :
⎩ χ2 7;.995 = 20.3 [.63, 12.931]
Exercice 13 On effectue un dosage par deux méthodes différentes A et B. On obtient les résultats suivants : M e´thode A
.6
.65
.7
.7
.7
.7
.75
.8
.8
M e´thode B
.6
.6
.65
.65
.7
.6
.75
.8
.8
Peut-on considérer que les deux méthodes sont équivalentes ?
Solution 13 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 9 ⎪ 1X ⎪ ⎪ x1i = .71 ⎪ ⎨ m1 = 9 i=1
9 ⎪ 1X ⎪ 2 ⎪ (x1i − m1 )2 = .004 ⎪ ⎩ s1 = 8 i=1
108
A. El Mossadeq
et :
Tests : Moyennes et Variances
⎧ 9 ⎪ 1X ⎪ ⎪ x2i = .68 ⎪ ⎨ m2 = 9 i=1 9 ⎪ 1X ⎪ 2 ⎪ (x2i − m2 )2 = .007 ⎪ ⎩ s2 = 8 i=1
Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des deux méthodes de dosage. Sous cette hypothèse, la quantité : f=
s22 s21
est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f
= =
s22 s21 1.75
On accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2
= =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 0.0055
et testons l’hypothèse nulle : H0 : ”les deux méthodes de dosage sont équivalentes.” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté.
109
Tests : Moyennes et Variances
A. El Mossadeq
Pour α = 10%, on a : t16;.95 = 1.75 et comme : t
= =
m − m2 r1 1 1 s + n1 n2 0.86
on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux méthodes de dosage sont équivalentes.
Exercice 14 Dans deux types de forêts, on a mesuré les hauteurs de treize et quatorze peuplements choisis au hasard et indépendamment dans le but de vérifier si les hauteurs de ces deux types d’arbres sont ou ne sont pas égales. Les résultats sont les suivants : T ype 1 : 22.5 22.9 23.7 24.0 24.4 24.5 26.0 26.2 26.4 26.7 27.4 28.6 28.7 T ype 2 : 23.4 24.4 24.6 24.9 25.0 26.2 26.3 26.8 26.8 26.9 27.0 27.6 27.7 27.8 On admet que les hauteurs de ces deux types d’arbres sont des variables gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). Que peut-on conclure ?
Solution 14 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 13 ⎪ 1 X ⎪ ⎪ x1i = 25.538 ⎪ ⎨ m1 = 13 i=1
13 ⎪ 1 X ⎪ 2 ⎪ (x1i − m1 )2 = 4.1576 ⎪ ⎩ s1 = 12 i=1
110
A. El Mossadeq
Tests : Moyennes et Variances
et :
⎧ 14 ⎪ 1 X ⎪ ⎪ x2i = 26.1 ⎪ ⎨ m2 = 14 i=1 14 ⎪ 1 X ⎪ 2 ⎪ (x2i − m2 )2 = 1.9431 ⎪ ⎩ s2 = 13 i=1
Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des hauteurs des deux types d’arbres. Sous cette hypothèse, la quantité : f=
s21 s22
est une réalisation d’une variable aléatoire de Fisher à : (n1 − 1, n2 − 1) = (12, 13)
degrés de liberté. Pour α = 10%, on a :
F12,13;.95 = 2.6 et comme : f
= =
s21 s22 2.1398
on accepte donc l’hypothèse d’égalité des variances des hauteurs des deux types d’arbres. Calculons maintenant l’estimation commune s2 de cette variance : s2
= =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 3.0062
et testons l’hypothèse nulle : H0 : ”les deux types d’arbres ont la même hauteur” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2
111
Tests : Moyennes et Variances
A. El Mossadeq
est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 25 degrés de liberté. Pour α = 10%, on a : t25;.95 = 1.71 et comme : t
= =
m − m2 r1 1 1 s + n1 n2 −0.84155
on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux types d’arbres ont la même hauteur moyenne estimée par : m
= =
n1 m1 + n2 m2 n1 + n2 25.829
Exercice 15 On considère deux variétés de maïs M1 et M2 dont les rendements sont des variables aléatoires gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). Afin de comparer les rendements de ces deux variétés de maïs, on a choisi de cultiver dans neuf stations différentes des parcelles voisines encemencées de l’une ou l’autre des deux variétés.On a observé les rendements suivants : Station
1
2
3
4
5
6
V ari´ et´ e 1 39.6 32.4 33.1 27
36
32
7
8
9
25.9 32.4 33.2
V ari´ et´ e 2 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 34.1 Que peut-on conclure ?
112
A. El Mossadeq
Tests : Moyennes et Variances
Solution 15 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 13 ⎪ 1 X ⎪ ⎪ x1i = 32.4 ⎪ ⎨ m1 = 13 i=1
et :
13 ⎪ 1 X ⎪ 2 ⎪ (x1i − m1 )2 = 17.188 ⎪ ⎩ s1 = 12 i=1
⎧ 14 ⎪ 1 X ⎪ ⎪ x2i = 31.1 ⎪ ⎨ m2 = 14 i=1 14 ⎪ 1 X ⎪ 2 ⎪ (x2i − m2 )2 = 21.785 ⎪ ⎩ s2 = 13 i=1
Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des rendements des deux variétés de maïs. Sous cette hypothèse, la quantité : f=
s22 s21
est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f
= =
s22 s21 1.2675
On accepte donc l’hypothèse d’égalité des variances des hauteurs des deux types d’arbres. Calculons maintenant l’estimation commune s2 de cette variance : s2
= = =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 2 2 s1 + s2 2 19.4865
113
Tests : Moyennes et Variances
A. El Mossadeq
et testons l’hypothèse nulle : H0 : ”les deux variétés de maïs ont le même rendement” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté. Pour α = 10%, on a : t16;.95 = 1.75 et comme : t
= =
m − m2 r1 1 1 s + n1 n2 .42892
on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux variétés de maïs ont le même rendement moyen estimé par : m
= =
n1 m1 + n2 m2 n1 + n2 31.75
Exercice 16 Le relevé des températures journalières minimales de deux stations S1 et S2 , au cours de neuf journées consécutives a fourni les valeurs suivantes en ◦ C: Station 1 12 Station 2
8
9 10 11 13 10 7 10
7 11 10
6
8 11 12 9
7
On admet que la distribution des températures journalières minimales des deux stations S1 et S2 sont des variables gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). 1. Déterminer les estimations des moyennes et des variances des températures journalières minimales des deux stations S1 et S2 . 2. Construire, au seuil α = 5%, les intervalles de confiance de ces estimations.
114
A. El Mossadeq
Tests : Moyennes et Variances
3. Peut-on admettre, au seuil α = 10%, l’hypothèse selon laquelle les températures journalières minimales moyennes des deux stations S1 et S2 sont identiques ?
Solution 16 1. Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ). On a : ⎧ 11 ⎪ 1X ⎪ ⎪ m = x1i = 10 ◦ C ⎪ 1 ⎪ ⎪ 9 ⎨ i=1
et :
⎪ 11 ⎪ ⎪ 1X ⎪ 2 ⎪ (x1i − m1 )2 = 3.5 ⎪ ⎩ s1 = 8 i=1 ⎧ 10 ⎪ 1X ⎪ ⎪ m2 = x2i = 9 ◦ C ⎪ ⎪ ⎪ 9 ⎨ i=1
⎪ 10 ⎪ ⎪ 1X ⎪ 2 ⎪ (x2i − m2 )2 = 4.5 ⎪ ⎩ s2 = 8 i=1 (a) L’intervalle de confiance de μ1 à 1 − α est défini par : ∙ ¸ s1 s1 m1 − tn−1;1−α/2 √ , m1 + tn−1;1−α/2 √ n n Pour α = 5%, on a : t8;.975 = 2.31 d’où l’intervalle : [8.56 ◦ C, 11.44 ◦ C] (b) L’intervalle de confiance de σ 21 à 1 − α est défini par : # " (n − 1) s21 (n − 1) s21 , χ2n−1;1−α/2 χ2n−1;α/2 Pour α = 5%, on a :
⎧ 2 ⎨ χ8;.025 = 2.18 ⎩ χ2 8;.975 = 17.5 115
Tests : Moyennes et Variances
A. El Mossadeq
d’où l’intervalle : [1.6, 12.8] (c) L’intervalle de confiance de μ2 à 1 − α est défini par : ¸ ∙ s2 s2 m2 − tn−1;1−α/2 √ , m2 + tn−1;1−α/2 √ n n Pour α = 5%, on a : t8;.975 = 2.31 d’où l’intervalle : [7.37 ◦ C, 10.63 ◦ C] (d) L’intervalle de confiance de σ 22 à 1 − α est défini par : # " 2 2 (n − 1) s2 (n − 1) s2 , χ2n−1;1−α/2 χ2n−1;α/2 Pour α = 5%, on a :
d’où l’intervalle :
⎧ 2 ⎨ χ8;.025 = 2.18 ⎩ χ2 8;.975 = 17.5 [2.06, 16.51]
2. Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des températures journalières minimales des deux stations S1 et S2 . Sous cette hypothèse, la quantité : f=
s22 s21
est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f=
s22 = 1.29 s21
On accepte donc l’hypothèse d’égalité des variances.
116
A. El Mossadeq
Tests : Moyennes et Variances
Calculons maintenant l’estimation commune s2 de cette variance : s2
= = =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 2 2 s1 + s2 2 4
et testons l’hypothèse nulle : H0 :
”les températures journalières minimales moyennes des deux stations S1 et S2 .sont identiques”
Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté. Pour α = 10%, on a : t16;.95 = 1.75 et comme : m1 − m2 t= r = 1.0607 1 1 s + n1 n2
On accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les températures journalières minimales moyennes des deux stations S1 et S2 .sont identiques. Cette température moyenne peut être estimée par : m
= = =
n1 m1 + n2 m2 n1 + n2 m1 + m2 2 9.5
117
Tests : Moyennes et Variances
A. El Mossadeq
Exercice 17 On étudie l’effet d’une substance sur la croissance d’une tumeur greffée. Les résultats sont consignés sur le tableau ci-dessous donnant la surface de la tumeur au 20e`me jour après sa greffe : Surf ace 5.5 6 6.5 7 7.5 8 T e´moins 1 2 3 8 4 3 T rait´ es 4 4 8 3 1 1 Le traitement a-t-il un effet significatif sur la surface tumorale ? On suppose que la surface tumorale est distribuée selon des lois normales N (μ1 , σ 21 ) et N (μ2 , σ 22 ) chez les témoins et les traités respectivement.
Solution 17 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ). On a : ⎧ 6 ⎪ 1 X ⎪ ⎪ m1 = n1i xi = 7 ⎪ ⎪ ⎪ 21 ⎨ i=1
et :
⎪ 6 ⎪ ⎪ 1 X ⎪ 2 ⎪ n1i (xi − m1 )2 = .45 ⎪ ⎩ s1 = 20 i=1
⎧ 6 ⎪ 1 X ⎪ ⎪ m2 = n2i xi = 6.4048 ⎪ ⎪ ⎪ 21 i=1 ⎨
⎪ 6 ⎪ ⎪ 1 X ⎪ 2 ⎪ n2i (xi − m2 )2 = .87972 ⎪ ⎩ s2 = 20 i=1
Testons d’abord, au seuil α = 2%, l’hypothèse nulle d’égalité des variances des surfaces tumorales chez les populations des témoins et des traités. Sous cette hypothèse, la quantité : s22 f= 2 s1 est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (20, 20) degrés de liberté.
118
A. El Mossadeq
Tests : Moyennes et Variances
Pour α = 2%, on a : F20,20;.99 = 2.94 et comme : f
= =
s22 s21 1.9549
on accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2
= =
(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 .66486
et testons l’hypothèse nulle : H0 : ”le traitement est sans effet sur la croissance de la surface tumorale” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 40 degrés de liberté. Pour α = 2%, on a : t40;.99 = 2.42 et comme : t
= =
m − m2 r1 1 1 s + n1 n2 2.831
on rejette l’hypothèse nulle H0 à 98%, c’est à dire, le traitement a une influence sur la croissance de la surface tumorale.
119
View more...
Comments