Exercices de Statistique 2006

March 20, 2017 | Author: Ayoub Khairany | Category: N/A
Share Embed Donate


Short Description

Download Exercices de Statistique 2006...

Description

Département de Mathématiques et Informatique

Ex er ci ces Cor r i gé s Abdelhamid El Mossadeq P rofesseu r à l’E H T P

2006-2007

© A. El Mossadeq Juin 2006

TABLE DES MATIERES

Structures Statistiques et Estimation

1

Les Procédures U suelles des Tests d’H ypothèses : 1. Les Fréquences

45

Les Procédures U suelles des Tests d’H ypothèses : 2. Les Tests du Khi-Deux

61

Les Procédures Usuelles des Tests d’H ypothèses : 3. Moyennes et Variances

95

Structure Statistique et Estimation

A. El Mossadeq

Structures Statistiques et Estimation

Exercice 1 Déterminer et étudier les propriétés de l’estimateur du maximum de vraisemlance d’un r-échantillon pour : 1. le paramètre p d’une loi de Bernouilli 2. le paramètre p d’une loi g´ eom´ etrique 3. le paramètre p d’une loi binomiale d’ordre n 4. le paramètre α d’une loi de P oisson 5. le paramètre λ d’une loi exponentielle 6. les paramètres μ et σ 2 d’une loi normale 7. le paramètre θ d’une loi unif orme sur l’intervalle [0, θ]

Solution 1 1. Soit X une variable aléatoire de Bernouilli de paramètre p. Pour tout x ∈ {0, 1}, la probabilité élémentaire p (x) de x est : p (x) = px (1 − p)1−x

de plus :

⎧ ⎨ E [X] = p

⎩ V [X] = p (1 − p) (a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ {0, 1}r par : L (p; x1 , ..., xr )

r Y

=

i=1 r P

=

p

p (xi )

i=1

xi

r−

(1 − p)

d’où :

r P

xi

i=1

! Ã ! Ã r r X X xi ln p + r − xi ln (1 − p) ln L (p; x1 , ..., xr ) = i=1

i=1

3

Structures Statistiques et Estimation

A. El Mossadeq

Il en résulte que : ∂ ln L (p; x1 , ..., xr ) = ∂p

r P

xi

i=1

p



d’où :

r−

r P

xi

i=1

1−p

∂ 1X xi ln L (p; x1 , ..., xr ) = 0 =⇒ p = ∂p r i=1 r

et comme :

∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Bernouilli est : r 1X pˆ = Xi r i=1

C’est la fréquence empirique du r-échantillon. (b) Etude des propriétés de pˆ : Puisque : E [ˆ p]

= =

E [X] p

et : V [X] r p (1 − p) = r On en déduit que pˆ est un estimateur sans biais et convergent du paramètre p d’une loi de Bernouilli. V [ˆ p]

=

2. Soit X une variable aléatoire de géométrique de paramètre p. Pour tout x ∈ N∗ , la probabilité élémentaire p (x) de x est : p (x) = p (1 − p)x−1

de plus :

⎧ 1 ⎪ ⎪ E [X] = ⎪ ⎨ p

⎪ ⎪ 1−p ⎪ ⎩ V [X] = p2 4

A. El Mossadeq

Structures Statistiques et Estimation

Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ (N∗ )r par : L (p; x1 , ..., xr )

=

r Y

p (xi )

i=1

= d’où : ln L (p; x1 , ..., xr ) = r ln p + Il en résulte que : ∂ ln L (p; x1 , ..., xr ) ∂p

r P

r

p (1 − p)i=1 Ã r X i=1

=

=

xi −r

!

xi − r ln (1 − p)

r − p

r P

i=1

xi − r

1−p r P r − p xi i=1

p (1 − p)

d’où : ∂ r ln L (p; x1 , ..., xr ) = 0 =⇒ p = P r ∂p

xi

i=1

et comme :

∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure géométrique est : r pˆ = P r Xi i=1

C’est l’inverse de la moyenne empirique du r-échantillon.

3. Soit X une variable aléatoire binomiale d’ordre n et de paramètre p. pour tout x ∈ {0, 1, ..., n}, la probabilité élémentaire p (x) de x est : p (x) = C (n, x) px (1 − p)n−x

5

Structures Statistiques et Estimation

de plus :

A. El Mossadeq

⎧ ⎨ E [X] = np

⎩ V [X] = np (1 − p) (a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout p ∈ [0, 1] et tout (x1 , ..., xr ) ∈ {0, 1, ..., n}r par : L (p; x1 , ..., xr )

= =

r Y

p (xi )

i=1 " r Y

#

C (n, xi ) p

i=1

d’où : ln L (p; x1 , ..., xr ) = ln

r Y

C (n, xi ) +

i=1

Il en résulte que :

∂ ln L (p; x1 , ..., xr ) ∂p

r X

xi ln p +

i=1

r P

=

i=1

=

i=1

d’où :

r P

xi

xi

rn−

(1 − p)

i=1

Ã

rn −

rn −

r X i=1

r P

r P

xi

i=1

!

xi ln (1 − p)

xi

i=1

− p 1−p r P xi − rnp p (1 − p)

∂ 1 X xi ln L (p; x1 , ..., xr ) = 0 =⇒ p = ∂p rn i=1 r

et comme :

∂2 ln L (p; x1 , ..., xr ) < 0 ∂p2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de binomiale est : r 1 X pˆ = Xi rn i=1

6

A. El Mossadeq

Structures Statistiques et Estimation

(b) Etude des propriétés de pˆ : Puisque : E [ˆ p]

1 E [X] n p

= =

et : V [X] rn2 p (1 − p) = rn on en déduit que pˆ est un estimateur sans biais et convergent de p. V [ˆ p]

=

4. Soit X une variable aléatoire de Poisson de paramètre α. Pour tout x ∈ N, la probabilité élémentaire p (x) de x est : p (x) = de plus :

αx exp −α x!

⎧ ⎨ E [X] = α

⎩ V [X] = α

(a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, et tout (x1 , ..., xr ) ∈ Nr par : L (α; x1 , ..., xr )

=

r Y

p (xi )

i=1

=

r P

xi

αi=1 exp −rα x1 !...xr !

d’où : r X

ln L (α; x1 , ..., xr ) = − ln (x1 !...xr !) +

i=1

Il en résulte que : ∂ ln L (α; x1 , ..., xr ) = ∂α

7

r P

xi ln α − rα

xi

i=1

α

−r

Structures Statistiques et Estimation

A. El Mossadeq

d’où : 1X ∂ ln L (α; x1 , ..., xr ) = 0 =⇒ p = xi ∂α r i=1 r

et comme :

∂2 ln L (α; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Poisson est : r 1X Xi α ˆ= r i=1

C’est la moyenne empirique du r-échantillon. (b) Etude des propriétés de α ˆ: Puisque : E [ˆ α]

= =

E [X] α

et : V [X] r α = r On en déduit que α ˆ est un estimateur sans biais et convergent de α. V [ˆ α]

=

5. Soit X une variable aléatoire exponentielle de paramètre λ. Sa densité de probabilité f est définie par : ⎧ si x ≤ 0 ⎨ 0 f (x) = ⎩ λ exp −λx si x > 0 de plus :

⎧ 1 ⎪ ⎪ ⎪ ⎨ E [X] = λ

⎪ 1 ⎪ ⎪ ⎩ V [X] = 2 λ Considérons un r-échantillon de cette structure.

8

A. El Mossadeq

Structures Statistiques et Estimation

Sa fonction de vraisemblance est définie pour tout λ, λ > 0, et tout (x1 , ..., xr ) dans Rr , tous strictement positifs, par : L (λ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

r

λ exp −λ

d’où : ln L (λ; x1 , ..., xr ) = r ln λ − λ Il en résulte que :

r X

xi

i=1

r X

xi

i=1

∂ r X ln L (λ; x1 , ..., xr ) = − xi ∂λ λ i=1 r

d’où :

r ∂ ln L (λ; x1 , ..., xr ) = 0 =⇒ λ = P r ∂λ

xi

i=1

et comme :

∂2 ln L (λ; x1 , ..., xr ) < 0 ∂λ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure exponentielle est : ˆ= r λ r P Xi i=1

C’est l’inverse de la moyenne empirique du r-échantillon.

6. Soit X une variable aléatoire normale de paramètres μ et σ 2 . Sa densité de probabilité f est définie pour tout x ∈ R par : 1 1 f (x) = √ exp − 2 (x − μ)2 2σ σ 2π

de plus :

⎧ ⎨ E [X] = μ

⎩ V [X] = σ2

9

Structures Statistiques et Estimation

A. El Mossadeq

(a) Recherche du maximum de vraisemlance : Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout μ ∈ R, tout σ > 0 et tout (x1 , ..., xr ) ∈ Rr par : L (μ, σ; x1 , ..., xr )

=

f (xi )

i=1

= d’où :

r Y

r 1 1 X (xi − μ)2 ¡ √ ¢r exp − 2 2σ σ 2π i=1

r √ 1 X ln L (μ, σ; x1 , ..., xr ) = −r ln 2π − r ln σ − 2 (xi − μ)2 2σ i=1

Il en résulte que :

⎧ r ∂ 1 X ⎪ ⎪ L (μ, σ; x1 , ..., xr ) = 2 (xi − μ) ⎪ ⎪ ⎪ σ i=1 ⎨ ∂μ d’où : ⎧ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎩

⎪ ⎪ ⎪ ⎪ ⎪ ⎩

r 1 X r ∂ L (μ, σ; x1 , ..., xr ) = − + 3 (xi − μ)2 ∂σ σ σ i=1

∂ L (μ, σ; x1 , ..., xr ) = 0 ∂μ

=⇒

∂ L (μ, σ; x1 , ..., xr ) = 0 ∂σ

⎧ r 1X ⎪ ⎪ μ = xi ⎪ ⎪ ⎪ r i=1 ⎨

⎪ r ⎪ ⎪ 1X ⎪ 2 ⎪ (xi − μ)2 ⎩ σ = r i=1

Donc les estimateurs du maximum de vraisemblance d’un r-échantillon d’une structure normale est : ⎧ r 1X ⎪ ⎪ μ ˆ = Xi ⎪ ⎪ ⎪ r i=1 ⎨ ⎪ r ⎪ ⎪ 1X 2 ⎪ ⎪ ˆ = (Xi − μ ˆ )2 ⎩ σ r i=1

10

A. El Mossadeq

Structures Statistiques et Estimation

(b) Etude des propriétés de μ ˆ et σ ˆ: On a : E [ˆ μ]

= =

E [X] μ

et : £ 2¤ E σ ˆ

r−1 V [X] r r−1 2 σ = r On en déduit que μ ˆ est un estimateur sans biais et convergent de μ, mais σ ˆ est un estimateur biaisé de σ. =

7. Soit X une variable aléatoire uniforme sur l’intervalle [0, θ]. Sa densité de probabilité f est définie pour tout x ∈ [0, θ] par : ⎧ 1 ⎪ ⎨ si x ∈ [0, θ] θ f (x) = ⎪ ⎩ 0 si x ∈ / [0, θ] de plus :

⎧ θ ⎪ ⎪ ⎪ ⎨ E [X] = 2

⎪ 2 ⎪ ⎪ ⎩ V [X] = θ 12 Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ [0, θ]r : L (θ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

1 θr

La fonction : θ −→ L (θ; x1 , ..., xr )

est strictement décroissante, donc elle atteint son maximum lorsque θ est minimum. Et comme : ∀i ∈ {1, ..., r} : θ ≥ xi

11

Structures Statistiques et Estimation

A. El Mossadeq

donc θ est minimum lorsque : θ = max (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure uniforme est : ˆθ = max (X1 , ..., Xr )

Exercice 2 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 1 x ⎪ ⎨ exp − θ θ f (x) = ⎪ ⎩ 0

si

x>0

si

x≤0

où θ est un paramètre réel strictement positif. 1. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. 2. ˆθ est-il un résumé exhaustif ? 3. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 4. Calculer la quantité d’information de F isher. En déduire que ˆθ est efficace.

Solution 2 Soit X une variable aléatoire exponentielle dont la densité de probabilité f est définie pour tout x, x > 0, par : ⎧ 1 x ⎪ ⎨ exp − θ θ f (x) = ⎪ ⎩ 0

où θ est un paramètre réel strictement positif. On a : ⎧ ⎨ E [X] = θ ⎩

si

x>0

si

x≤0

V [X] = θ2

12

A. El Mossadeq

Structures Statistiques et Estimation

1. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, par : L (θ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

r P

1 exp − i=1 θr θ

xi

d’où : ln L (θ; x1 , ..., xr ) = −r ln θ −

r P

xi

i=1

θ

Il en résulte que : r P

xi r i=1 ∂ ln L (θ; x1 , ..., xr ) = − + 2 ∂θ θ θ d’où : ∂ 1X ln L (θ; x1 , ..., xr ) = 0 =⇒ θ = xi ∂θ r i=1 r

et comme :

∂2 ln L (θ; x1 , ..., xr ) < 0 ∂θ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure exponentielle est : r X ˆθ = 1 Xi r i=1 C’est la moyenne empirique du r-échantillon.

2. Pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, on a : L (θ; x1 , ..., xr )

= =

r P

xi 1 i=1 exp − θr θ ˆ 1 rθ (x1 , ..., xr ) r exp − θ θ

13

Structures Statistiques et Estimation

A. El Mossadeq

D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ³ ´ L (θ; x1 , ..., xr ) = g θ; ˆθ (x1 , ..., xr ) h (x1 , ..., xr ) où :

et :

´ ³ 1 rˆθ (x1 , ..., xr ) g θ; ˆθ (x1 , ..., xr ) = r exp − θ θ h (x1 , ..., xr ) = 1

3. Comme : X ˆθ = 1 Xi r i=1 r

alors :

h i E ˆθ

=

E [X]

=

θ

h i V ˆθ

=

et : V [X] r 2 θ r

=

On en déduit que ˆθ est un estimateur sans biais et convergent de θ. 4. Calculons la quantité d’information de F isher, I [X, θ], concernant θ. On a : ∙ 2 ¸ ∂ I [X, θ] = −E ln f (θ, X) ∂θ2 ¶¸ ∙ 2 µ X ∂ − ln θ − = −E θ ∂θ2 ¸ ∙ 2X 1 = E − 2+ 3 θ θ 1 = θ2 Donc la quantité d’information de F isher, I [X1 , ..., Xr , θ], concernant θ fournie par le r-échantillon est : I [X1 , ..., Xr , θ]

= =

14

rI [X, θ] r θ2

A. El Mossadeq

Structures Statistiques et Estimation

h i Calculons l’efficacité e ˆθ de .ˆθ. On a : h i e ˆθ = =

1

h i I [X1 , ..., Xr , θ] V ˆθ

1

donc, ˆθ est efficace.

Exercice 3 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 0 si x ≤ 0 ⎪ ⎨ f (x) = ⎪ ⎩ λ xk−1 exp − x si x > 0 θ θk où θ est un paramètre réel strictement positif , k un entier naturel non nul et λ une constante réel. 1. Déterminer la constante λ. 2. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. ˆ 3. θ est-il un résumé exhaustif ? 4. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 5. Calculer la quantité d’information de F isher. En déduire que ˆθ est efficace.

Solution 3 La densité de probabilité de la variable aléatoire X est définie par : ⎧ 0 si x ≤ 0 ⎪ ⎨ f (x) = ⎪ ⎩ λ xk−1 exp − x si x > 0 θ θk Rappelons que pour tout k ∈ N : Z +∞ uk exp −udu = k! 0

15

Structures Statistiques et Estimation

1. Ainsi :

Z

A. El Mossadeq

Z

+∞

f (x) dx

=

−∞

+∞

0

Z

=

x λ k−1 x exp − dx k θ θ

+∞

0

λuk−1 exp −udu

λ (k − 1)!

= d’où λ= puisque :

Z

1 (k − 1)!

+∞

f (x) dx = 1

−∞

De plus : E [X]

= =

Z

+∞

xf (x) dx

−∞ Z +∞ 0

= et : £ ¤ E X2

=



Z

1 x xk exp − dx k θ (k − 1)!θ

+∞

x2 f (x) dx

−∞ +∞

= =

Z

1 x xk+1 exp − dx k θ (k − 1)!θ 0 2 k (k + 1) θ

d’où : V [X]

= =

£ ¤ E X 2 − E [X]2

kθ2

2. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) Rr , tous strictement positifs, par :

16

A. El Mossadeq

Structures Statistiques et Estimation

L (θ; x1 , ..., xr )

=

f (xi )

i=1

= d’où :

r Y

r P

1 k−1 exp − i=1 r rk (x1 ...xr ) θ [(k − 1)!] θ

k−1

ln L (θ; x1 , ..., xr ) = −r ln (k − 1)! − ln (x1 ...xr )

− rk ln θ −

xi

r P

xi

i=1

θ

Il en résulte que : r P

xi rk i=1 ∂ ln L (θ; x1 , ..., xr ) = − + 2 ∂θ θ θ d’où : ∂ 1 X ln L (θ; x1 , ..., xr ) = 0 =⇒ θ = xi ∂θ rk i=1 r

et comme :

∂2 ln L (θ; x1 , ..., xr ) < 0 ∂θ2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : r X ˆθ = 1 Xi rk i=1

3. Pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ Rr , tous strictement positifs, on a : L (θ; x1 , ..., xr )

= =

r P

xi 1 i=1 k−1 (x1 ...xr ) exp − θ [(k − 1)!]r θrk 1 rkˆθ (x1 , ..., xr ) k−1 (x ...x ) exp − 1 r θ [(k − 1)!]r θrk

D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ³ ´ ˆ L (θ; x1 , ..., xr ) = g θ; θ (x1 , ..., xr ) h (x1 , ..., xr )

17

Structures Statistiques et Estimation

A. El Mossadeq

où :

et :

´ ³ 1 rk ˆθ (x1 , ..., xr ) g θ; ˆθ (x1 , ..., xr ) = rk exp − θ θ h (x1 , ..., xr ) =

4. Puisque :

1 (x1 ...xr )k−1 [(k − 1)!]r

X ˆθ = 1 Xi rk i=1 r

alors :

et :

h i 1 E ˆθ = E [X] = θ k h i V [X] θ2 V ˆθ = = rk 2 rk

On en déduit que ˆθ est un estimateur sans biais et convergent de θ. 5. Calculons la quantité d’information de F isher, I [X, θ], concernant θ. On a : ¸ ∙ 2 ∂ ln f (θ, X) I [X, θ] = −E ∂θ2 ¶¸ ∙ 2 µ X ∂ − ln (k − 1)! + (k − 1) ln X − k ln θ − = −E θ ∂θ2 ∙ ¸ k 2X = E − 2+ 3 θ θ k = θ2 Donc la quantité d’information de F isher, I [X1 , ..., Xr , θ], concernant θ fournie par le r-échantillon est : I [X1 , ..., Xr , θ]

= =

rI [X, θ] rk θ2

h i Calculons l’efficacité e ˆθ de .ˆθ. On a : h i 1 h i =1 e ˆθ = I [X1 , ..., Xr , θ] V ˆθ

18

A. El Mossadeq

Structures Statistiques et Estimation

donc, ˆθ est efficace.

Exercice 4 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ si x ∈ / [0, θ] ⎪ ⎨ 0 f (x) = ⎪ ⎩ 1 si x ∈ [0, θ] θ où θ est un paramètre réel. 1. Déterminer la fonction de répartition de X. 2. Calculer la quantité d’information de F isher. 3. Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un r-échantillon de variable parente X. 4. Calculer l’espérance mathématique et la variance de ˆθ. Que peut-on conclure ? 5. Dans le cas où ˆθ est biasé, proposer un estimateur sans biais de θ.

Solution 4 1. La fonction de répartition F de X est définie pour tout x ∈ R par : Z x F (x) = f (t) dt −∞

d’où :

de plus :

⎧ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ x F (x) = ⎪ θ ⎪ ⎪ ⎪ ⎪ ⎩ 1

si

x≤0

si

0≤x≤θ

si

x≥θ

⎧ θ ⎪ ⎪ ⎪ ⎨ E [X] = 2

2. Puisque le domaine Dθ : Dθ

⎪ 2 ⎪ ⎪ ⎩ V [X] = θ 12 = =

{x ∈ R |f (x) > 0} [0, θ]

19

Structures Statistiques et Estimation

A. El Mossadeq

dépend de θ, donc la quantité d’information de F isher n’existe pas. 3. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x1 , ..., xr ) ∈ [0, θ]r : L (θ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

1 θr

La fonction : θ −→ L (θ; x1 , ..., xr )

est strictement décroissante, donc elle atteint son maximum lorsque θ est minimum. Et comme : ∀i ∈ {1, ..., r} : θ ≥ xi

Il en résulte que θ est minimum lorsque :

θ = max (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure uniforme est : ˆθ = max (X1 , ..., Xr )

4. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.

(a) Fonction de répartition de ˆθ :

20

A. El Mossadeq

Structures Statistiques et Estimation

Pour tout u ∈ R on a : Fˆθ (u)

= = = =

h i ˆ P θ 0} [θ, +∞[

dépend de θ, donc la quantité d’information de F isher n’existe pas. 3. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout θ ∈ R, et tout (x1 , ..., xr ) ∈ ([θ, +∞[)r :

L (θ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

exp

r X i=1

La fonction :

(θ − xi )

θ −→ L (θ; x1 , ..., xr )

est strictement croissante, donc elle atteint son maximum lorsque θ est maximum. Et comme : ∀i ∈ {1, ..., r} : θ ≤ xi

Il en résulte que θ est maximum lorsque :

θ = min (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ˆθ = min (X1 , ..., Xr )

4. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.

24

A. El Mossadeq

Structures Statistiques et Estimation

(a) Fonction de répartition de ˆθ : Pour tout v ∈ R on a : Fˆθ (v)

= = = = = = = =

h i ˆ P θ 0, et tout (k1 , ..., kr ) ∈ Nr par : L (α; k1 , ..., kr )

=

r Y

p (ki )

i=1

=

r P

ki

αi=1 exp −rα k1 !...kr !

d’où : r X

ln L (α; k1 , ..., kr ) = − ln (k1 !...kr !) +

i=1

Il en résulte que : ∂ ln L (α; k1 , ..., kr ) = ∂α

r P

ki ln α − rα

ki

i=1

α

−r

d’où : ∂ 1X xi ln L (α; k1 , ..., kr ) = 0 =⇒ p = ∂α r i=1 r

et comme :

∂2 ln L (α; k1 , ..., kr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure de Poisson est : r 1X Xi α ˆ= r i=1 C’est la moyenne empirique du r-échantillon.

27

Structures Statistiques et Estimation

A. El Mossadeq

(b) Etude des propriétés de α ˆ: Puisque : E [ˆ α]

= =

E [X] α

et : V [X] r α = r On en déduit que α ˆ est un estimateur sans biais et convergent de α. V [ˆ α]

=

2. Pour tout α, α > 0, et tout (k1 , ..., kr ) ∈ Nr on a : L (α; x1 , ..., xr ) =

αrαˆ (k1 ,...,kr ) exp −rα x1 !...xr !

D’après le théorème de factorisation, ˆθ est un résumé exhaustif puisque : ˆ (x1 , ..., xr )) h (x1 , ..., xr ) L (α; x1 , ..., xr ) = g (α; α où : et :

g (α; α ˆ (x1 , ..., xr )) = αrˆα(k1 ,...,kr ) exp −rα h (x1 , ..., xr ) =

1 x1 !...xr !

3. On a : δ

= =

P [X = 0] exp −α

Pour tout δ, δ > 0, et tout (k1 , ..., kr ) ∈ Nr par : L (δ; k1 , ..., kr )

=

r Y

p (ki )

i=1

r P

ki

(− ln δ) δr k1 !...kr ! i=1

= d’où :

ln L (δ; k1 , ..., kr ) = − ln (k1 !...kr !) +

28

r X i=1

ki ln (− ln δ) + r ln δ

A. El Mossadeq

Structures Statistiques et Estimation

Il en résulte que : r P

ki r ∂ i=1 ln L (δ; k1 , ..., kr ) = + ∂δ δ ln δ δ d’où : ∂ ln L (δ; k1 , ..., kr ) = 0 =⇒ δ = exp − ∂δ

Ã

et comme :

1X ki r i=1 r

!

∂2 ln L (δ; k1 , ..., kr ) < 0 ∂δ 2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ! Ã r X 1 ˆδ = exp − Xi r i=1 exp −ˆ α

=

Exercice 7 Soit α un réel appartenant à ]1, +∞[ et X une variable aléatoire telle que : µ ¶k−1 1 1 1− , k ∈ N∗ P [X = k] = α α 1. Calculer l’espérance mathématique et la variance de X. 2. Déterminer l’estimateur du maximum de vraisemlance α ˆ de α d’un r-échantillon de variable parente X et étudier ses propriétés. 3. α ˆ est-il un résumé exhaustif ?

Solution 7 1. On a : E [X]

= =

∞ X

kP [X = k]

k=1 ∞ X k=1

=

α

29

µ ¶k−1 k 1 1− α α

Structures Statistiques et Estimation

A. El Mossadeq

et : E [X (X − 1)]

= = =

∞ X k=1 ∞ X

k (k − 1) P [X = k]

µ ¶k−1 k (k − 1) 1 1− α α k=1 µ ¶ 1 2α2 1 − α

d’où : £ ¤ E X2

E [X (X − 1)] + E [X] α (2α − 1)

= =

et : V [X]

£ ¤ E X 2 − E [X]2 α (α − 1)

= =

2. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α ∈ ]1, +∞[ et tout (x1 , ..., xr ) ∈ (N∗ )r par : L (α; x1 , ..., xr )

r Y

=

p (xi )

i=1

1 αr

= d’où : ln L (α; x1 , ..., xr ) = −r ln α + Il en résulte que : ∂ ln L (α; x1 , ..., xr ) ∂α

à r X

=

=

30

µ ¶ Pr x −r 1 i=1 i 1− α

i=1

!

¶ µ 1 xi − r ln 1 − α r P

xi − r r i=1 − + α α (α − 1) r P xi − rα i=1

α (α − 1)

A. El Mossadeq

Structures Statistiques et Estimation

d’où : 1X ∂ ln L (α; x1 , ..., xr ) = 0 =⇒ α = xi ∂α r i=1 r

et comme :

∂2 ln L (p; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon d’une structure géométrique est : r 1X α ˆ= Xi r i=1

C’est la moyenne empirique du r-échantillon. 3. Puisque : 1X α ˆ= Xi r i=1 r

alors :

E [ˆ α]

= =

E [X] α

et : V [X] r α (α − 1) = r On en déduit que α ˆ est un estimateur sans biais et convergent du paramètre α d’une structure géométrique. V [ˆ α]

=

Exercice 8 Soit X une variable aléatoire qui suit une loi de Pareto dont la densité de probabilité f est définie par : ⎧ αaα ⎪ ⎨ α+1 si x ≥ a x f (x) = ⎪ ⎩ 0 si x < a

où X représente le revenu par habitant, a le revenu minimum et α, α > 2, un coefficient dépendant du type du pays où l’on se place.

31

Structures Statistiques et Estimation

A. El Mossadeq

1. Vérifier que f est bien une densité de probabilité. 2. Calculer l’espérance mathématique et la variance de X. 3. Calculer la fonction de répartition de X. 4. Déterminer l’estimateur du maximum de vraisemlance aˆ de a d’un r-échantillon issu X. 5. Dans le cas où a ˆ est biasé, proposer un estimateur sans biais de a.

Solution 8 1. La densité de probabilité de la loi de Pareto est définie par : ⎧ αaα ⎪ ⎨ α+1 si x ≥ a x f (x) = ⎪ ⎩ 0 si x < a f est bien une densité de probabilité. En effet : Z f (x) dx = R

Z

a

=

2. On a : E [X]

xf (x) dx

ZR+∞

=

a

et : = =

Z

=

V [X]

= =

x2 f (x) dx

ZR+∞ a

d’où :

αaα dx xα

α a α−1

= £ ¤ E X2

αaα dx xα+1

1 Z

=

+∞

αaα dx xα−1

α 2 a α−2

£ ¤ E X 2 − E [X]2 α 2 2a (α − 2) (α − 1)

32

A. El Mossadeq

Structures Statistiques et Estimation

3. La fonction de répartition F de X est définie pour tout x ∈ R par : F (x)

=

Z

x

f (t) dt

−∞

=

=

⎧ ⎪ 0 si x ≥ a ⎪ ⎨ Z x α αa ⎪ ⎪ dt si x ≥ a ⎩ α+1 a t ⎧ si x ≤ a ⎪ ⎨ 0

α ⎪ ⎩ 1− a si x ≥ a xα 4. Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout a ∈ R et tout (x1 , ..., xr ) ∈ (]a, +∞[)r , par :

L (a; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

αr arα (x1 ...xr )α+1

La fonction : a −→ L (a; x1 , ..., xr )

est strictement croissante, donc elle atteint son maximum lorsque a est maximum. Et comme : ∀i ∈ {1, ..., r} : a ≤ xi

Il en résulte que θ est maximum lorsque :

a = min (x1 , ..., xr ) Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : aˆ = min (X1 , ..., Xr )

5. Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition.

33

Structures Statistiques et Estimation

A. El Mossadeq

(a) Fonction de répartition de aˆ : Pour tout x ∈ R on a : Faˆ (x)

= = = =

P [ˆ a < x] P [min (X1 , ..., Xr ) < x] 1 − P [min (X1 , ..., Xr ) ≥ x] 1 − P [X1 ≥ v, ..., Xr ≥ x] r Y 1− P [Xk ≥ x]

=

k=1 r Y

(1 − P [Xk < x])

=

1−

=

1 − [1 − F (x)]r ⎧ ⎨ 0 µ ¶ r aα ⎩ 1− xα

=

k=1

si

x≤a

si

x≥a

(b) Densité de probabilité de ˆθ : Pour tout x ∈ R− {a} on a : faˆ (x)

= =

d Faˆ (x) dv ⎧ ⎪ ⎨ 0

si

x a xrα+1 (c) Espérance mathématique de a ˆ: Z vfaˆ (v) dv E [ˆa] = R Z +∞ rαarα = dv vrα a rα a = rα − 1

(d) Espérance mathématique de a ˆ2 : Z £ 2¤ E aˆ v2 faˆ (v) dv = ZR+∞ rαarα = dv vrα−1 a rα 2 = a rα − 2

34

A. El Mossadeq

Structures Statistiques et Estimation

(e) Variance de aˆ : V [ˆa]

£ 2¤ a]2 E a ˆ − E [ˆ rα 2 2a (rα − 2) (rα − 1)

= =

L’estimateur aˆ de a est biaisé, mais il est asymptotiquement sans biais. (f) Considérons l’estimateur : T =

rα − 1 aˆ rα

Alors : E [T ] = a et : V [T ] =

µ

rα − 1 rα

¶2

V [ˆa] =

1 a2 rα (rα − 2)

T est donc un estimateur sans biais et convergent de a.

Exercice 9 Soit X une variable aléatoire dont la densité de probabilité f est définie par : ⎧ 0 si x ≤ θ ⎪ ⎨ f (x) = ⎪ ⎩ 1 exp (θ − x) si x > θ α α où θ est un paramètre réel et α un paramètre réel strictement positif. 1. Vérifier que f est bien une densité de probabilité. 2. Calculer l’espérance mathématique et la variance de X. 3. Calculer la fonction de répartition de X. 4. On suppose θ connu et α inconnu. (a) Déterminer l’estimateur du maximum de vraisemlance α ˆ de α d’un réchantillon issu X. (b) Etudier les propriétés de α ˆ. (c) Dans le cas où α ˆ est biasé, proposer un estimateur sans biais de α. 5. On suppose α connu et θ inconnu. (a) Déterminer l’estimateur du maximum de vraisemlance ˆθ de θ d’un réchantillon issu de X. (b) Etudier les propriétés de ˆθ (c) Dans le cas où ˆθ est biasé, proposer un estimateur sans biais de θ.

35

Structures Statistiques et Estimation

A. El Mossadeq

6. On suppose que θ et α sont tous les deux inconnus. (a) Déterminer l’estimateur du maximum de vraisemlance d’un r-échantillon issu de ³X. ´ (b) Etudier les propriétés de α ˆ , ˆθ (c) Proposer un estimateur sans biais de (α, θ) .

Solution 9 1. f est bien une densité de probabilité. En effet : Z Z +∞ 1 (θ − x) exp dx f (x) dx = α α R θ Z +∞ = exp −tdt 0

=

2. On a : E [X]

1

Z

=

xf (x) dx

ZR+∞

=

Zθ +∞

=

0

=

α+θ

=

Z

et : £ ¤ E X2

Zθ +∞

=

(αt + θ) exp −tdt

x2 f (x) dx

ZR+∞

=

x (θ − x) exp dx α α

0

x2 (θ − x) exp dx α α (αt + θ)2 exp −tdt

2α2 + 2αθ + θ2 (α + θ)2 + α2

= = d’où : V [X]

= =

£ ¤ E X 2 − E [X]2

α2

36

³ ´ α ˆ , ˆθ de (α, θ)

A. El Mossadeq

Structures Statistiques et Estimation

3. La fonction de répartition F de X est définie pour tout x ∈ R par : Z x f (t) dt F (x) = −∞ ⎧ 0 si x ≤ θ ⎪ ⎪ ⎨ Z x = 1 (θ − t) ⎪ ⎪ exp dt si x ≥ θ ⎩ α θ α ⎧ 0 si x ≤ θ ⎪ ⎨ = ⎪ ⎩ 1 − exp (θ − x) si x ≥ θ α 4. On suppose θ connu et α inconnu. (a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r par : L (α; x1 , ..., xr )

r Y

=

f (xi )

i=1

X (θ − xi ) 1 exp αr α i=1

= d’où :

r

1X (θ − xi ) α i=1 r

ln L (α; x1 , ..., xr ) = −r ln α + Il en résulte que : ∂ ln L (α; x1 , ..., xr ) ∂α

r 1 X − − 2 (θ − xi ) α α i=1 " # r 1 1X r− (θ − xi ) α α i=1 r

= =

d’où : ∂ ln L (α; x1 , ..., xr ) = 0 ∂α

1X (xi − θ) r i=1 r

=⇒

α=

=⇒

# r 1X α= xi − θ r i=1

37

"

Structures Statistiques et Estimation

A. El Mossadeq

et comme : ∂2 ln L (α; x1 , ..., xr ) < 0 ∂α2 donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : # " r 1X α ˆ= Xi − θ r i=1 (b) On a : E [ˆ α]

=

E

=

α

et : V [ˆ α]

=

V





1X Xi r i=1 r

1X Xi r i=1 r

!

!

−θ

#

−θ

#

V [X] r 2 α = r 5. On suppose α connu et θ inconnu. =

(a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r , tous strictement positifs, par : L (θ; x1 , ..., xr )

r Y

=

f (xi )

i=1

X (θ − xi ) 1 exp αr α i=1

= La fonction :

r

θ −→ L (θ; x1 , ..., xr )

est strictement croissante, donc elle atteint son maximum lorsque θ est maximum.

38

A. El Mossadeq

Structures Statistiques et Estimation

Et comme : ∀i ∈ {1, ..., r} : θ ≤ xi

Il en résulte que θ est maximum lorsque : θ = min (x1 , ..., xr )

Donc l’estimateur du maximum de vraisemblance d’un r-échantillon de cette structure est : ˆθ = min (X1 , ..., Xr ) (b) Pour déterminer la densité de probabilité de ˆθ, commençons d’abord par calculer sa fonction de répartition. (i) Fonction de répartition de ˆθ : Pour tout v ∈ R on a : h i Fˆθ (v) = P ˆθ < v = = = = = = =

P [min (X1 , ..., Xr ) < v] 1 − P [min (X1 , ..., Xr ) ≥ v] 1 − P [X1 ≥ v, ..., Xr ≥ v] r Y P [Xk ≥ v] 1− 1−

k=1 r Y k=1

(1 − P [Xk < v])

1 − [1 − F (v)]r ⎧ 0 ⎪ ⎪ ⎨ µ ¶ θ−v ⎪ ⎪ ⎩ 1 − exp r α

si

v≤θ

si

v≥θ

(ii) Densité de probabilité de ˆθ : Pour tout v ∈ R− {θ} on a : fˆθ (v)

=

=

d Fˆ (v) dv θ ⎧ 0 ⎪ ⎪ ⎨

r ⎪ ⎪ exp r ⎩ α

µ

39

θ−v α



si



Structures Statistiques et Estimation

A. El Mossadeq

(iii) Espérance mathématique de ˆθ : Z h i ˆ vfˆθ (v) dv E θ = R µ ¶ Z +∞ r θ−v = v exp r dv α α θ Z +∞ ³ ´ α t + θ exp −tdt = r 0 α +θ = r 2

(iv) Espérance mathématique de ˆθ : Z h 2i ˆ v2 fˆθ (v) dv E θ = ZR+∞ r 2 = v exp r (θ − v) dv α θ ´2 ³ α ´2 ³α +θ + = r r (v) Variance de ˆθ : h i h 2i h i2 V ˆθ = E ˆθ − E ˆθ ³ α ´2 = r L’estimateur ˆθ de θ est biaisé, mais il est asymptotiquement sans biais. (c) Considérons l’estimateur : T = ˆθ − Alors : E [T ]

α r

h i α E ˆθ − r θ

= =

et :

h i V ˆθ α = r2 T est donc un estimateur sans biais et convergent de θ. V [T ]

=

40

A. El Mossadeq

Structures Statistiques et Estimation

6. On suppose que θ et α sont tous les deux inconnus. (a) Considérons un r-échantillon de cette structure. Sa fonction de vraisemblance est définie pour tout α, α > 0, θ ∈ R et tout (x1 , ..., xr ) ∈ (]θ, +∞[)r , tous strictement positifs, par : L (α, θ; x1 , ..., xr )

=

r Y

f (xi )

i=1

=

X (θ − xi ) 1 exp αr α i=1 r

Compte tenu des questions précedentes, la fonction : (α, θ) 7−→ L (α, θ; x1 , ..., xr ) atteint son maximum pour : ⎧ θ = min (x1 , ..., xr ) ⎪ ⎪ ⎪ ⎨ # " r X 1 ⎪ ⎪ xi − θ ⎪ ⎩ α= r i=1

³ ´ d’où, les estimateurs du maximum de vraisemblance α ˆ , ˆθ de (α, θ) sont donnés par :

(b) On a :

⎧ ˆθ = min (X1 , ..., Xr ) ⎪ ⎪ ⎪ ⎨ # " r X 1 ⎪ ⎪ Xi − θˆ ˆ= ⎪ α ⎩ r i=1 h i α E ˆθ = + θ r

et : E [ˆ α]

= =

h i E [X] − E ˆθ r−1 α r

Donc les estimateurs α ˆ et ˆθ sont biaisés.

41

Structures Statistiques et Estimation

A. El Mossadeq

(c) Considérons les estimateurs T et S de α et θ respectivement définis par : ⎧ r ⎪ α ˆ T = ⎪ ⎨ r−1 alors :

⎪ ⎪ ⎩ S = ˆθ −

1 α ˆ r−1

⎧ ⎨ E [T ] = α ⎩ E [S] = θ

Donc T et S sont des estimateurs sans biais de α et θ respectivement.

Exercice 10 Soient X et Y deux variables aléatoires indépendantes, la première prenant les valeurs 1 et 0 avec les probabilités respectives α et 1 − α, et la deuxième prenant les valeurs 1 et 0 avec les probabilités respectives P et 1 − P . On suppose α inconnue et P connue, P > 0.5. On définit la variable aléatoire Z par : ⎧ ⎨ Z = 1 si X = Y ⎩ Z=0

si

X 6= Y

On considère un n-échantillon ((X1 , Y1 ) , ..., (Xn , Yn )) de (X, Y ) et on définit Zi , 1 ≤ i ≤ n, à partir de Xi et Yi comme on a défini Z à partir de X et Y . 1. Montrer que (Z1 , ..., Zn ) est un n-échantillon de Z. 2. Etudier les propriétés de l’estimateur : 1 (Z1 + ... + Zn ) n 3. Proposer alors un estimateur sans biais S de α. 4. Etudier la variance de S en fonction de P . 5. Indiquer un intervalle de confiance pour α lorsque n est grand, en supposant qu’on dispose d’une observation p de la variable : T =

1 (Z1 + ... + Zn ) n 6. Voyez-vous une application de ce qui précède dans le domaine des sondages d’opinion ? T =

42

A. El Mossadeq

Structures Statistiques et Estimation

Solution 10 On a :

⎧ ⎨ P [X = 0] = 1 − α ⎩ P [X = 1] = α

et :

⎧ ⎨ P [Y = 0] = 1 − P ⎩ P [Y = 1] = P

X et Y deux variables aléatoires de Bernouilli de paramètres α et P respectivement. Déterminons la loi de probabilité de Z : P [Z = 0]

= = = =

P [X 6= Y ] P [{(X, Y ) = (0, 1)} ⊕ {(X, Y ) = (0, 1)}] P [X = 0] P [Y = 1] + P [X = 1] P [Y = 0] (1 − α) P + α (1 − P )

P [Z = 1]

= = = =

P [X = Y ] P [{(X, Y ) = (0, 0)} ⊕ {(X, Y ) = (1, 1)}] P [X = 0] P [Y = 0] + P [X = 1] P [Y = 1] (1 − α) (1 − P ) + αP

et :

Z est donc une variable aléatoire de Bernouilli de paramètre : θ = (1 − α) (1 − P ) + αP de plus : E [Z] V [Z]

= =

θ θ (1 − θ)

1. Puisque (X1 , Y1 ) , ..., (Xn , Yn ) sont indépentants et suivent la même loi que (X, Y ), on en déduit que (Z1 , ..., Zn ) sont indépendants et suivent la même loi que Z, donc c’est un n-échantillon de Z. 2. Soit l’estimateur : 1 T = (Z1 + ... + Zn ) n On a : E [T ]

= =

E [Z] (1 − α) (1 − P ) + αP

43

Structures Statistiques et Estimation

A. El Mossadeq

et : 1 V [Z] n 1 [(1 − α) (1 − P ) + αP ] [(1 − α) P + α (1 − P )] = n 3. T est donc un estimateur biaisé de α sauf lorsque : V [T ]

=

α=

1 2

ou : P =1 (a) Si : α=

1 ou P = 1 2

alors il suffit de prendre : S=T (b) Si : α 6=

1 et P 6= 1 2

alors il suffit de prendre : S= 4. On a : V [S]

= =

1 [T − (1 − P )] 2P − 1

1 V [T ] (2P − 1)2 1 [(1 − α) (1 − P ) + αP ] [(1 − α) P + α (1 − P )] n (2P − 1)2

44

T ests d ’H yp oth èses Les Fréquences

A. El Mossadeq

Tests : Les Fréquences

Exercice 1 A la veille d’une consultation électorale, on a intérrogé cent électeurs constituant un échantillon au hasard. Soixante ont déclaré avoir l’intention de voter pour le candidat C. En quelles limites, au moment du sondage, la proportion du corps électoral favorable à C se situe-t-elle ?

Solution 1 Construisons l’intervalle de confiance correspondant à la fréquence f = 0.6 du corps électoral favorable à C observée sur un échantillon de taille n = 100. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.504, .696] A 95%, le candidat C serait élu.

Exercice 2 On sait que le taux de mortalité d’une certaine maladie est de 30%. Sur 200 malades testés, combien peut-on envisager de décès ?

Solution 2 Construisons d’obord l’intervalle de pari, pour un échantillon de taille n = 200, correspondant à la probabilité de décès p = 0.3. Au seuil α, cet intervalle est défini par : " # r r p (1 − p) p (1 − p) p − t1−α/2 , p + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96

47

Tests : Les Fréquences

A. El Mossadeq

on obtient alors l’intervalle : [.24, .36] Il en résulte que sur les 200 malades, le nombre de décès à envisager serait compris, à 95%, entre 48 et 72 décès.

Exercice 3 Dans une pré-enquête, on selectionne, par tirage au sort cent dossiers. Quinze d’entre eux sont incomplets. Combien de dossiers incomplets trouvera-t-on sur dix milles dossiers ?

Solution 3 Construisons l’intervalle de confiance correspondant à la fréquence f = 0.15 de dossiers incomplets observée sur un échantillon de taille n = 100. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.08, .22] Il en résulte que sur les 10000 dossiers, le nombre de dossiers incomplets serait compris, à 95%, entre 800 et 2200 dossiers.

Exercice 4 Dans une maternité, on fait le point de la proportion de filles toutes les cent naissances. Comment peut varier cette proportion d’une fois à l’autre si l’on admet qu’il nait en moyenne 51% de filles ?

Solution 4 Construisons l’intervalle de pari, pour un échantillon de taille n = 100, correspondant à la probabilité d’obtenir une fille p = 0.51.

48

A. El Mossadeq

Tests : Les Fréquences

Au seuil α, cet intervalle est défini par : # " r r p (1 − p) p (1 − p) , p + t1−α/2 p − t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.41, .61] Il en résulte, qu’à 95%, la proportion de filles varie d’une fois à l’autre, entre 41% et 61%.

Exercice 5 Une machine à former des pilules fonctionne de façon satisfaisante si la proportion de pilules non réussies est de 1 pour 1000. Sur un échantillon de 10000 pilules, on a trouvé 15 pilules défectueuses. Que faut-il conclure ?

Solution 5 Ici on :

⎧ n = 104 ⎪ ⎪ ⎪ ⎪ ⎨ f = 15 × 10−4 ⎪ ⎪ ⎪ ⎪ ⎩ p = 10−3

Testons, au seuil α, l’hypothèse nulle :

H0 : ”la machine est bien réglée” Sous cette hypothèse, la quantité : t= r

f −p

p (1 − p) n

peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96

49

Tests : Les Fréquences

A. El Mossadeq

et comme : t

= =

r

f −p

p (1 − p) n 1.58

on accepte donc l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, qu’au seuil α = 5%, la machine fonctionne de façon satisfaisante.

Exercice 6 Sur un échantillon de 600 sujets atteints du cancer des poumons, on a trouvé 550 fumeurs. Que peut-on dire du pourcentage de fumeurs parmi les cancéreux ?

Solution 6 11 Construisons l’intervalle de confiance correspondant à la fréquence f = des 12 cancéreux parmi les fumeurs observée sur un échantillon de taille n = 600. Au seuil α, cet intervalle est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n Pour α = 5%, on a : t.975 = 1.96 on obtient alors l’intervalle : [.9, .94] Il en résulte que parmi, les fumeurs, la proportion des atteints par le cancer des poumons est comprise, à 95%, entre 90% et 94%.

Exercice 7 Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une enquête portant sur deux régions géographiques A et B. Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le produit. En provenance de B, 150 réponses sur 600 se déclarent favorables. Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B quant au produit considéré.

50

A. El Mossadeq

Tests : Les Fréquences

Solution 7 Ici on : ⎧ 7 ⎪ ⎪ ⎨ nA = 1800 et fA = 20 ⎪ ⎪ ⎩ n = 600 et f = 1 B B 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”les opinions des régions A et B sont identiques” Sous cette hypothèse, la quantité : fA − fB fA (1 − fA ) fB (1 − fB ) + nA nB peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t= r

t.975 = 1.96 et comme : t

= =

fA − fB fA (1 − fA ) fB (1 − fB ) + nA nB 4.77 r

on rejette donc l’hypothèse nulle H0 à 95% (et même à 99.98%), c’est à dire, les deux régions A et B ont des opinions différentes.

Exercice 8 Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement par application locale du radium a donné 50 guérisons. Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie, on a trouvé 50 guérisons. Que peut-on conclure ?

51

Tests : Les Fréquences

A. El Mossadeq

Solution 8 Ici on : ⎧ 1 ⎪ ⎪ ⎨ n1 = 200 , f1 = 4 ⎪ ⎪ ⎩ n = 150 , f = 1 2 2 3 Testons, au seuil α, l’hypothèse nulle : H0 : ”les deux traitements sont équivalents” Sous cette hypothèse, la quantité : f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t= r

t.975 = 1.96 et comme : t

= =

f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 −1.69 r

on accepte donc l’hypothèse nulle H0 au seuil 5%, c’est à dire, les deux méthodes sont équivalentes.

Exercice 9 Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi, 95 étaient des billets de 1e`re classe. Sur les 250 billets vendus la matinée du lundi suivant, 55 étaient de 1e`re classe. Peut-on considérer qu’il y a une différence entre les proportions de vente de parcours en 1e`re classe pour les fins et débuts de semaines ?

52

A. El Mossadeq

Tests : Les Fréquences

Solution 9 Ici on : ⎧ 19 ⎪ ⎪ ⎨ n1 = 350 , f1 = 70 ⎪ ⎪ ⎩ n = 250 , f = 11 2 2 50 Testons, au seuil α, l’hypothèse nulle : H0 :

”les taux de billets de 1e`re classe vendus en fin et début de semaines sont identiques”

Sous cette hypothèse, la quantité : f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 peut être considérée comme une réalisation d’une variable normale centrée réduite. Pour α = 5%, on a : t= r

t.975 = 1.96 et comme : f1 − f2 = 1.45 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 on accepte donc l’hypothèse nulle H0 au seuil 5%, c’est à dire, les taux de billets de parcours en 1e`re classe vendus en fins et débuts de semaines sont identiques et qu’on peut estimer par : t= r

f

= =

n1 f1 + n2 f2 n1 + n2 0.25

Exercice 10 On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et quarante fois ”face”. Tester au seuil de 5%, puis 1%, l’hypothèse de la loyauté de la pièce.

53

Tests : Les Fréquences

Solution 10 Ici on :

A. El Mossadeq

½

n = 100 f = 0.6

où f est la fréquence de ”pile”. Testons, au seuil α, l’hypothèse nulle : H0 : ”la pièce est loyale” Sous cette hypothèse, on a : p = 0.5 et la quantité : t= r

f −p

p (1 − p) n peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. on a : f −p t = r p (1 − p) n = 2 (1) Pour α = 5%, on a : t.975 = 1.96 on rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, qu’à 95%, la pièce est truquée. (2) Pour α = 1%, on a : 2.57 < t.995 < 2.58 on accepte donc l’hypothèse nulle H0 au seuil α = 1%, c’est à dire, qu’au seuil α = 1%, la pièce est normale.

Exercice 11 Un échantillon de taille n a donné lieu au calcul d’une fréquence observée f correspondant à l’intervalle de confiance [.22 − .34] au seuil α = 5%. 1. Calculer n. 2. Par rapport à la proportion p = 0.3, l’écart est-il significatif au seuil α = 5% ? 3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%.

54

A. El Mossadeq

Tests : Les Fréquences

Solution 11 1. Au seuil α, l’intervalle de confiance correspondant à une fréquence f observée sur un échantillon de taille n est défini par : " # r r f (1 − f ) f (1 − f ) f − t1−α/2 , f + t1−α/2 n n On en déduit :

⎧ 0.22 + 0.34 ⎪ f= ⎪ ⎪ ⎨ 2

Pour α = 5%, on a :

⎪ f (1 − f ) ⎪ ⎪ ⎩ n = t21−α/2 (f − 0.22)2 t0.975 = 1.96

on obtient alors :

½

f = .28 n = 215

2. Testons, au seuil α, l’hypothèse nulle : H0 : ”l’écart n’est pas singificatif” Sous cette hypothèse, la quantité : t= r

f −p

p (1 − p) n

peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. On a : f −p t = r p (1 − p) n = −0.64 Pour α = 5%, on a : t.975 = 1.96 on accepte donc l’hypothèse nulle H0 au seuil α = 5%. 3. Au seuil α : ¤ £ f −p r ∈ −t1−α/2 , t1−α/2 p (1 − p) n

55

Tests : Les Fréquences

A. El Mossadeq

donc, au seuil α :

"

|f − p| ∈ 0, t1−α/2

r

p (1 − p) n

#

Pour α = 5%, on a : t.975 = 1.96 d’où : |f − p| ∈ [0, 0.06]

Exercice 12 L’étude du taux de défectuosités afférentes aux caractéristiques de traitements thermiques d’une même pièce, traitée par deux fours différents, a donné lieu aux résultats suivants : * Pour le premier four, 20 pièces défectueuses sur un échantillon de 200 pièces traitées. * Pour le second four, 120 pièces défectueuses sur un échantillon de 800 pièces traitées. Que peut-on conclure ?

Solution 12 Ici on :

⎧ ⎨ n1 = 200 , f1 = 0.10 ⎩ n = 800 , f = 0.15 2 2

Testons, au seuil α, l’hypothèse nulle :

H0 : ”les deux traitements thermiques sont équivalents” Sous cette hypothèse, la quantité : t= r

f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2

peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96

56

A. El Mossadeq

Tests : Les Fréquences

et comme : t

f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 −2.03 r

= =

on rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, les deux traitements ne sont pas équivalents.

Exercice 13 Un questionnaire auquel on ne peut répondre que par ”oui” ou par ”non”, a été rempli par un échantillon de taille n. L’intervalle de confiance de la fréquence observée f des réponses ”oui” est (0.35 − 0.43) au seuil α = 5%. 1. Quelle est la taille n de l’échantillon. 2. Par rapport à la proportion p = 0.4, l’écart est-il significatif au seuil α = 5% ? 3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%. Solution 13 1. Au seuil α, l’intervalle de confiance correspondant à une fréquence f observée sur un échantillon de taille n est défini par : "

f − t1−α/2

r

f (1 − f ) , f + t1−α/2 n

r

On en déduit : ⎧ 0.35 + 0.43 ⎪ f= ⎪ ⎪ ⎨ 2 Pour α = 5%, on a :

⎪ f (1 − f ) ⎪ ⎪ ⎩ n = t21−α/2 (f − 0.35)2 t0.975 = 1.96

on obtient alors :

⎧ ⎨ f = 0.39 ⎩ n = 571 57

f (1 − f ) n

#

Tests : Les Fréquences

A. El Mossadeq

2. Testons, au seuil α, l’hypothèse nulle : H0 : ”l’écart n’est pas singificatif” Sous cette hypothèse, la quantité : t= r

f −p

p (1 − p) n

peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. On a : f −p t = r p (1 − p) n = −0.49 Pour α = 5%, on a : t.975 = 1.96 On accepte donc l’hypothèse nulle H0 au seuil α = 5%. 3. Au seuil α : ¤ £ f −p r ∈ −t1−α/2 , t1−α/2 p (1 − p) n donc, au seuil α : " # r p (1 − p) |f − p| ∈ 0, t1−α/2 n Pour α = 5%, on a : t.975 = 1.96 d’où : |f − p| ∈ [0, 0.04]

Exercice 14 Parmi 470 sujets exposés à une infection, 370 n’ayant pas été immunisés. Parmi ces derniers, 140 contractent la malidie ainsi que 25 sujets immunisés. Le traitement donne-t-il une protection significative ?

58

A. El Mossadeq

Tests : Les Fréquences

Solution 14 Soient f1 la fréquence de contracter la maladie pour un sujet non immunisé et f2 la fréquence de contracter la maladie pour un sujet immunisé. Ici on : ⎧ 14 ⎪ ⎪ ⎨ n1 = 370 et f1 = 37 ⎪ ⎪ ⎩ n = 100 et f = 1 2 2 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”le traitements n’est pas efficace” Sous cette hypothèse, la quantité : t= r

f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2

peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96 et comme : t

= =

f1 − f2 f1 (1 − f1 ) f2 (1 − f2 ) + n1 n2 2.56 r

On rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, le traitement donne une protection significative.

59

Les Tests du Khi-deux

A. El Mossadeq

Les Tests du Khi-Deux

Exercice 1 Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une enquête portant sur deux régions géographiques A et B. Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le produit. En provenance de B, 150 réponses sur 600 se déclarent favorables. Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B quant au produit considéré.

Solution 1 La répartition observée est : T ableau des eff ectif s observ´ ees R´ egionÂOpinion favorable non favorable T otal R´ egion A

630

1170

1800

R´ egion B

150

450

600

T otal

780

1620

2400

Testons, au seuil α, l’hypothèse nulle : H0 : ”les régions A et B ont la même opinion” Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques R´ egionÂOpinion favorable non favorable T otal R´ egion A

585

1215

1800

R´ egion B

195

405

600

T otal

780

1620

2400

Sous l’hypothèse nulle H0 , la quantité : χ2 =

2 X 2 X (oij − tij )2 i=1 j=1

63

tij

Les Tests du Khi-Deux

A. El Mossadeq

est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : χ2

=

2 X 2 X (oij − tij )2 i=1 j=1

=

tij

20.51

On rejette alors H0 à 95% (et même à 99.5%), c’est à dire, les deux régions ont des opinions différentes quant au produit considéré.

Exercice 2 Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement par application locale du radium a donné 50 guérisons. Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie, on a trouvé 54 guérisons. Que peut-on conclure ?

Solution 2 La répartition observée est : T ableau des eff ectif s observ´ ees T raitementÂR´ esultat gu´ eri non gu´ eri T otal radium

50

150

200

chirurgie

54

96

150

T otal

104

246

350

Testons, au seuil α, l’hypothèse nulle : H0 : ”les deux traitements sont équivalents”

64

A. El Mossadeq

Les Tests du Khi-Deux

Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques T raitementÂR´ esultat gu´ eri non gu´ eri T otal radium

59.4

140.6

200

chirurgie

44.6

105.4

150

T otal

104

246

350

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

2 X 2 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : χ2

=

2 X 2 X (oij − tij )2 i=1 j=1

=

tij

4.94

On rejette alors H0 à 95% , c’est à dire, les deux traitements ne sont pas équivalents.

Exercice 3 Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi, 95 étaient des billets de 1e`re classe. Sur les 250 billets vendus la matinée du lundi suivant, 55 étaient de 1e`re classe. Peut-on considérer qu’il y une différence entre les proportions de vente de parcours en 1e`re classe pour les fins et débuts de semaines ?

65

Les Tests du Khi-Deux

A. El Mossadeq

Solution 3 La répartition observée est : T ableau des eff ectif s observ´ ees 1e`re classe 2e`re classe T otal

jourÂClasse V endredi A.M

95

255

350

Lundi matin

55

195

250

T otal

150

450

600

Testons, au seuil α, l’hypothèse nulle : H0 :

”les taux de billets de parcours en 1e`re classe vendus en fin et début de semaines sont identiques”

Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques 1e`re classe 2e`re classe T otal

JourÂClasse V endredi A.M

87.5

262.5

350

Lundi matin

62.5

187.5

250

T otal

150

450

600

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

2 X 2 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84

66

A. El Mossadeq

Les Tests du Khi-Deux

Et comme : χ2

=

2 2 X X (oij − tij )2

tij

i=1 j=1

=

2.06

On accepte alors H0 au seuil α = 5% , c’est à dire, les taux de billets de parcours en 1 e`re classe vendus en fins et débuts de semaines sont identiques.

Exercice 4 On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et quarante fois ”face”. Tester au seuil de 5% puis 1%, l’hypothèse de la loyauté de la pièce.

Solution 4 Testons, au seuil α, l’hypothèse nulle : H0 : ”la pièce est loyale” Sous cette hypothèse, on a : p = 0.5 d’où les répartitions : C oˆt´ e

R´ epartition Observ´ ee R´ epartition T h´ eorique

pile

60

50

f ace

40

50

T otal

100

100

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

2 X (oi − ti )2 i=1

67

ti

Les Tests du Khi-Deux

A. El Mossadeq

est une réalisation d’une variable du Khi-deux à : 2−1=1 degré de liberté. On a :

χ2

=

2 X (oi − ti )2 i=1

=

ti

4

(1) Pour α = 5%, on a : χ21;.95 = 3.84 On rejette donc l’hypothèse nulle H0 à 95%, c’est à dire, qu’à 95%, la pièce est truquée. (2) Pour α = 1%, on a : χ21;.99 = 6.63 On accepte donc l’hypothèse nulle H0 au seuil α = 1%, c’est à dire, qu’au seuil α = 1%, la pièce est normale.

Exercice 5 On veut savoir si la réussite (R) d’un traitement est indépendantes du niveaux de la tension artérielle du malade (T ). On dispose pour cela de 250 observations réparties comme suit : T ÂR

e´chec succ` es

basse

21

104

e´lev´ ee

29

96

Que peut-on conclure ?

68

A. El Mossadeq

Les Tests du Khi-Deux

Solution 5 La répartition observée est : T ableau des eff ectif s observ´ ees T ÂR

Echec Succ` es T otal

Basse

21

104

125

Elev´ ee

29

96

125

T otal

50

200

250

Testons, au seuil α, l’hypothèse nulle : H0 : ”la réussite du traitement est indépendante du niveau de la tension artérielle” Calculons, sous cette hypothèse, la répartition théorique, le tableau de cette répartition est donné ci-après. T ableau des ef fectif s th´ eoriques T ÂR

Echec Succ` es T otal

Basse

25

100

125

Elev´ ee

25

100

125

T otal

50

200

250

Sous l’hypothèse nulle H0 , la quantité : χ2 =

2 X 2 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84

69

Les Tests du Khi-Deux

A. El Mossadeq

Et comme : χ2

=

2 2 X X (oij − tij )2

tij

i=1 j=1

=

1.6

On accepte alors H0 au seuil α = 5% , c’est à dire, la réussite du traitement est indépendante du niveau de la tension artérielle.

Exercice 6 On veut savoir s’il y a une liason entre la localisation (L) du cancer du poumon (périphérique , non périphérique) et le côté (C) de la lésion (poumon gauche , poumon droit). L’étude a porté sur 1054 malades : LÂC

gauche droit

p´ eriph´ erique

26

62

non p´ eriph´ erique

416

550

Que peut-on conclure ?

Solution 6 La répartition observée est : T ableau des eff ectif s observ´ ees LÂC

gauche droit T otal

p´ eriph´ erique

26

62

88

non p´ eriph´ erique

416

550

966

T otal

442

612

1054

Testons, au seuil α, l’hypothèse nulle : H0 :

”la localisation du cancer est indépendante du côté de la lésion”

Calculons, sous cette hypothèse, la répartition théorique. Le tableau de cette répartition est donnée ci-après.

70

A. El Mossadeq

Les Tests du Khi-Deux

T ableau des ef fectif s th´ eoriques LÂC

gauche

droit

T otal

p´ eriph´ erique

36.9

51.1

88

nonp´ eriph´ erique

405.1

560.9

966

T otal

442

612

1054

Sous l’hypothèse nulle H0 , la quantité : χ2 =

2 2 X X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à :

(2 − 1) (2 − 1) = 1 degré de liberté. Pour α = 5%, on a : χ21;.95 = 3.84 Et comme : 2

χ

=

2 2 X X (oij − tij )2 i=1 j=1

=

tij

6.05

On rejette alors H0 à 95% (même à 97.5%), c’est à dire, la localisation du cancer dépend du côté de la lésion.

Exercice 7 De nombreuses observations cliniques ont montré que jusque là : • • • •

30% 50% 10% 10%

des malades atteints de M ont une survie inférieure à un an ont une survie entre un an et deux ans ont une survie entre deux ans et cinq ans ont une survie supérieure à cinq ans.

On applique un nouveau traitement à 80 malades atteint de la maladie M et on constate :

71

Les Tests du Khi-Deux

• • • •

A. El Mossadeq

12 ont une survie inférieure à un an 56 ont une survie entre un an et deux ans 8 ont une survie entre deux ans et cinq ans 4 ont une survie supérieure à cinq ans.

Que peut-on conclure ?

Solution 7 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nouveau traitement n’est pas actif contre la maladie M” Sous cette hypothèse, on a les répartitions : Survie

R´ epartition Observ´ ee R´ epartition T h´ eorique

survie ≤ 1 an

12

24

1 an < survie ≤ 2 ans

56

40

2 an < survie ≤ 5 ans

8

8

survie > 5 ans

4

8

T otal

80

80

Sous l’hypothèse nulle H0 , la quantité : χ2 =

4 X (oi − ti )2 i=1

ti

est une réalisation d’une variable du Khi-deux à : 4−1=3 degrés de liberté. Pour α = 5%, on a : χ23;.95 = 7.81

72

A. El Mossadeq

Les Tests du Khi-Deux

Et comme : χ2

=

2 X (oi − ti )2

ti

i=1

=

14.4

on rejette donc l’hypothèse nulle H0 à 95% (même à 99.5%), c’est à dire, qu’à 99.5%, le nouveau traitement est actif contre la maladie M.

Exercice 8 On suppose pouvoir classer les malades atteints d’une maladie M en trois catégories cliniques : A , B , C. On se demande si ces trois catégories diffèrent par leurs survies à un an. Les effectifs observés sont les suivants : SurvieÂCat´ egorie

A

B

C

survie a ` un an

5

20

45

d´ ec´ es avant un an

15 50 145

Que peut-on conclure ?

Solution 8 La répartition observée est : T ableau des eff ectif s observ´ ees SurvieÂCat´ egorie

A

B

C

T otal

Survie a ` un an

5

20

45

70

D´ ec´ es avant un an 15 50 145

210

T otal

20 70 190

280

Testons, au seuil α, l’hypothèse nulle : H0 :

”la survie à un an est indépendante de la catégorie clinique”

Calculons, sous cette hypothèse, la répartition théorique.

73

Les Tests du Khi-Deux

A. El Mossadeq

T ableau des ef fectif s th´ eoriques SurvieÂCat´ egorie

A

B

C

T otal

Survie a ` un an

5

17.5

47.5

70

15 52.5 142.5

210

20

280

D´ ec´ es avant un an T otal

70

190

Sous l’hypothèse nulle H0 , la quantité : χ2 =

3 2 X X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à :

(2 − 1) (3 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme :

2

χ

=

3 2 X X (oij − tij )2 i=1 j=1

=

tij

.65

On accepte alors H0 au seuil α = 5% , c’est à dire, la survie à un an est indépendante de la catégorie clinique.

Exercice 9 75 enfants sont vus en consultation pour un asthme. On relève chez eux les deux symptômes suivants : * Intensité de la maladie asmathique : légère , moyenne , forte * Existence ou absence d’un eczéma au moment de l’observation ou dans le passé.

74

A. El Mossadeq

Les Tests du Khi-Deux

On peut classer les enfants selon la répartition suivante : EÂA

fort moyen l´ eger

pr´ esent

8

2

2

pass´ e

11

11

3

jamais

6

18

14

Au vu de ces résultats, existe-t-il une association entre l’intensité de l’asthme et l’existence d’un eczéma ?

Solution 9 Le tableau de la répartition observée est donnée ci-après: T ableau des eff ectif s observ´ ees Ecz´ emaÂAsthme f ort moyen l´ eger

T otal

pr´ esent

8

2

2

12

pass´ e

11

11

3

25

jamais

6

18

14

38

T otal

25

31

19

75

Testons, au seuil α, l’hypothèse nulle : H0 :

”l’intensité de l’asthme est indépendante de l’existence d’un eczéma”

Calculons, sous cette hypothèse, la répartition théorique. Le tableau de cette répartition est donnée ci-après.

75

Les Tests du Khi-Deux

A. El Mossadeq

T ableau des ef fectif s th´ eoriques Ecz´ emaÂAsthme

f ort

moyen l´ eger

T otal

pr´ esent

4

4.96

3.04

12

pass´ e

8.33

10.33

6.34

25

jamais

12.67

15.71

9.62

38

T otal

25

31

19

75

Les effectifs théoriques sur la première ligne sont strictement inférieurs à cinq, ce qui empêche l’application d’un test du Khi-deux.On peut remédier à cet état en opérant le groupement ”logique” des classes ”pr´ esent” et ”pass´ e”. Les nouveaux tableaux des effectifs observés et théoriques, obtenus après regroupement de ces deux classes sont donnés ci-après. T ableau des eff ectif s observ´ ees Ecz´ emaÂAsthme f ort moyen l´ eger

T otal

pr´ esent ou pass´ e

19

13

5

37

jamais

6

18

14

38

T otal

25

31

19

75

T ableau des eff ectif s th´ eoriques Ecz´ emaÂAsthme

fort

moyen l´ eger

pr´ esent ou pass´ e

12.33

15.29

9.38

37

jamais

12.67

15.71

9.62

38

T otal

25

31

19

75

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

3 2 X X (oij − tij )2 i=1 j=1

76

tij

T otal

A. El Mossadeq

Les Tests du Khi-Deux

est une réalisation d’une variable du Khi-deux à : (2 − 1) (3 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme : 2

χ

=

3 2 X X (oij − tij )2 i=1 j=1

=

tij

11.84

On rejette alors H0 à 95% (même à 99.5%), c’est à dire, l’intensité de l’asthme dépend de l’existence d’un eczéma.

Exercice 10 Une étude statistique relative aux résultats d’admission du concours d’une grande école fait ressortir la répartition des admis selon la profession des parents lorsque celle-ci est connue. 1. La profession des parents a-t-elle une influence sur l’accès à cette école ? 2. Cette conclusion persiste-t-elle lorsqu’on tient compte pour compléter la statistique précédente de 961 candidats dont l’origine socio-professionnelle est inconnue et qui ont obtenus 43 succès ? P rof ession des P arents

Candidats Admis

F ontionnaires et Assimil´ es

2224

180

Commerce et Industrie

998

89

P rof essions Lib´ erales

575

48

P ropri´ etaires Rentiers

423

37

P ropri´ etaires Agricoles

287

13

Artisans

210

18

Banques et Assurances

209

17

77

Les Tests du Khi-Deux

A. El Mossadeq

Solution 10 1. La répartition observée est : P rofession des P arents

Candidats Admis Non admis

F ontionnaires et Assimil´ es

2224

180

2044

Commerce et Industrie

998

89

899

P rofessions Lib´ erales

575

48

527

P ropri´ etaires Rentiers

423

37

386

P ropri´ etaires Agricoles

287

13

274

Artisans

210

18

192

Banques et Assurances

209

17

192

4916

402

4514

T otal Testons, au seuil α, l’hypothèse nulle :

H0 : ”l’accès à l’Ecole est indépendant de la profession des parents” Calculons, sous cette hypothèse, la répartition théorique : P rof ession des P arents

Candidats Admis Non admis

F ontionnaires et Assimil´ es

2224

181.9

2042.1

Commerce et Industrie

998

80.8

907.2

P rofessions Lib´ erales

575

47

528

P ropri´ etaires Rentiers

423

34.6

388.4

P ropri´ etaires Agricoles

287

23.5

263.5

Artisans

210

17.2

192.8

Banques et Assurances

209

17.1

191.9

4916

402

4514

T otal

78

A. El Mossadeq

Les Tests du Khi-Deux

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

7 X 2 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (7 − 1) (2 − 1) = 6 degrés de liberté. Pour α = 5%, on a : χ26;.95 = 12.6 Et comme : 2 X 3 X (oij − tij )2 χ = = 6.28 tij i=1 j=1 2

On accepte alors H0 au seuil α = 5% , c’est à dire, l’accès à l’Ecole est indépendant de la profession des parents. 2. Si l’on tient compte des 961 candidats dont l’origine socio-professionnelle est inconnue et qui ont obtenus 43 succès, la répartition observée et la répartition théorique, sous la même hypothèse nulle, deviennent comme consognés ci-après. T ableau des eff ectif s observ´ ees P rofession des P arents

Candidats Admis Non admis

F ontionnaires et Assimil´ es

2224

180

2044

Commerce et Industrie

998

89

899

P rofessions Lib´ erales

575

48

527

P ropri´ etaires Rentiers

423

37

386

P ropri´ etaires Agricoles

287

13

274

Artisans

210

18

192

Banques et Assurances

209

17

192

Autres

961

43

918

5877

445

5432

T otal

79

Les Tests du Khi-Deux

A. El Mossadeq

T ableau des ef fectif s th´ eoriques P rofession des P arents

Candidats Admis Non admis

F ontionnaires et Assimil´ es

2224

168.4

2055.6

Commerce et Industrie

998

74.8

913.2

P rofessions Lib´ erales

575

43.5

531.5

P ropri´ etaires Rentiers

423

32

391

P ropri´ etaires Agricoles

287

21.7

265.3

Artisans

210

15.9

194.1

Banques et Assurances

209

15.8

193.2

Autres

961

72.8

888.2

5877

445

5432

T otal

Sous l’hypothèse nulle H0 , la quantité : χ2 =

2 8 X X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (8 − 1) (2 − 1) = 7 degrés de liberté. Pour α = 5%, on a : χ27;.95 = 14.1 Et comme : 3 2 X X (oij − tij )2 χ = = 22.5 t ij i=1 j=1 2

On rejette alors H0 à 95% (même à 99.5%) , c’est à dire, l’accès à l’Ecole est indépendant de la profession des parents.

80

A. El Mossadeq

Les Tests du Khi-Deux

Exercice 11 Sur un échantillon de 84 prématurés, on cherche s’il existe une liaison entre la survenue d’une hypoglycémie et la survenue d’un ictère : • sur 43 enfants n’ayant pas d’ictère, 23 sont hypoglycémiques • sur 20 enfants ayant un ictère modéré, 6 sont hypoglycémiques • sur 21 enfants ayant un ictère intense, 4 sont hypoglycémiques Que peut-on conclure ?

Solution 11 La répartition observée est donnée dans le tableau : T ableau des eff ectif s observ´ ees Ict` ereÂHypoglyc´ emie hypoglyc´ emique non hypoglyc´ emique T otal pas d0 ict` ere

23

20

43

ict` ere mod´ er´ e

6

14

20

ict` ere intense

4

17

21

T otal

33

51

84

Testons, au seuil α, l’hypothèse nulle : H0 :

”la survenue d’une hypoglycémie est indépendante de la survenue d’un ictère”

Calculons, sous cette hypothèse, la répartition théorique : T ableau des ef fectif s th´ eoriques Ict` ereÂHypoglyc´ emie hypoglyc´ emique non hypoglyc´ emique T otal pas d0 ict` ere

16.89

26.11

43

ict` ere mod´ er´ e

7.86

12.14

20

ict` ere intense

8.25

12.75

21

T otal

33

51

84

81

Les Tests du Khi-Deux

A. El Mossadeq

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

2 X 2 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (3 − 1) (2 − 1) = 2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme : χ2

=

2 3 X X (oij − tij )2 i=1 j=1

=

tij

7.97

On rejette alors H0 à 95% (même à 97.5%), c’est à dire, la survenue d’une hypoglycémie dépend de la survenue d’un ictère.

Exercice 12 Un médicament essayé sur 42 patients est contrôlé quant aux effets secondaires qu’il peut avoir sur le poids des malades. On peut considérer que : • quinze d’entre eux ont maigri • dix sept n’ont pas changé de poids • dix ont grossi En supposant que la maladie est sans effet sur les variations de poids, le médicament a-t-il un effet significatif sur le poids ?

Solution 12 Testons, au seuil α, l’hypothèse nulle : H0 : ”le traitement est sans effet sur les variations du poids” Si le traitement est sans effet sur les variations du poids, alors ces variations sont dûes seulement au hasard. La loi de probabilité est donc la loi uniforme, c’est à dire la probabilité de chaque 1 classe est la même et est égale à . 3

82

A. El Mossadeq

Les Tests du Khi-Deux

D’où les répartitions : V ariations

R´ epartition Observ´ ee R´ epartition T h´ eorique

ont maigri

15

14

n0 ont pas chang´ e

17

14

ont grossi

10

14

T otal

42

42

Sous l’hypothèse nulle H0 , la quantité : χ2 =

3 X (oi − ti )2 i=1

ti

est une réalisation d’une variable du Khi-deux à : 3−1=2 degrés de liberté. Pour α = 5%, on a : χ22;.95 = 5.99 Et comme :

χ2

=

2 X (oi − ti )2 i=1

=

ti

1.86

on accepte donc l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, le traitement est sans effet sur les variations du poids.

Exercice 13 Pour étudier la densité de poussières dans un gaz, on a procédé à une série d’observations de petits échantillons de gaz au moyen d’un microscope. On a ainsi effectué 143 observations et les résultats sont les suivants :

83

Les Tests du Khi-Deux

A. El Mossadeq

Nombre de particules en suspension

Nombre d0 e´chantillons de gaz

0

34

1

46

2

38

3

19

4

4

5

2

>5

0

Peut-on admettre, au seuil α = 5%, que le nombre de particules en suspension est une variable de P oisson ?

Solution 13 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nombre de particules en suspension est une variable de Poisson” Calculons une estimation ponctuelle du paramètre α de cette loi : αk exp −α k! où X est la variable aléatoire représentant le nombre de particules en suspension. On sait que : n 1X α ˆ= Xi n i=1 P [X = k] =

est un estimateur sans biais et convergent de α. Une estimation ponctuelle α ˜ de α est donnée par :

1 X ini 143 i=0 5

α ˜

= =

1.4336

D’où les répartitions :

84

A. El Mossadeq

Les Tests du Khi-Deux

P articules en suspension

R´ epartition observ´ ee R´ epartition th´ eorique

0

34

34.1

1

46

48.9

2

38

35.0

3

19

16.7

4

4

06.0

5

2

01.7

>5

0

00.6

T otal

143

143

L’effectif théorique tk , k ≥ 0, représentant le nombre particules en suspension k est donné par : tk = nP [X = k] On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” des classes ”4 et plus”. Les tableaux des effectifs observés et théoriques deviennent comme consignés ciaprès. P articules en suspension

R´ epartition observ´ ee R´ epartition th´ eorique

0

34

34.1

1

46

48.9

2

38

35.0

3

19

16.7

≥4

4

08.3

T otal

143

143

85

Les Tests du Khi-Deux

A. El Mossadeq

Sous l’hypothèse nulle H0 , la quantité : χ2 =

4 X (oi − ti )2 i=0

ti

est une réalisation d’une variable du Khi-deux à : 5−1−1=3

degrés de liberté.puisque pour calculer les effectifs théoriques, nous avons utilisé l’estimation, et non la valeur réel, du paramètre α de la loi de Poisson. Pour α = 5%, on a : χ23;.95 = 7.81 Et comme : χ2 = 2.97 On accepte alors H0 au seuil α = 5%, c’est à dire, le nombre de particules en suspension peut être ajusté par une loi de Poisson dont le paramètre α est estimé par : α ˜ = 1.4336

Exercice 14 Le tableau ci-après concerne le nombre annuel de cyclones tropicaux ayant atteint la côte orientale des Etats-Unis entre 1887 et 1956 : Nombre annuel de cyclones Nombre d0 ann´ ees 0 1 1 6 2 10 3 16 4 19 5 5 6 8 7 3 8 1 9 1 >9 0 Peut-on admettre, au seuil α = 5%, que ce nombre annuel de cyclones est une variable de P oisson ?

86

A. El Mossadeq

Les Tests du Khi-Deux

Solution 14 Testons, au seuil α, l’hypothèse nulle : H0 : ”le nombre annuel de cyclones est une variable de Poisson” Calculons une estimation ponctuelle du paramètre α de cette loi : αk exp −α k! où X est la variable aléatoire représentant le nombre annuel de cyclones. On sait que : n 1X α ˆ= Xi n i=1 P [X = k] =

est un estimateur sans biais et convergent de α. Une estimation ponctuelle α ˜ de α est donnée par :

1 X α ˜= ini = 3.7286 70 i=0 9

L’effectif théorique tk , k ≥ 0, représentant le nombre d’années à k cyclones est donné par : tk = nP [X = k] D’où les répartitions : Nombre annuel de cyclones Eff ectif s observ´ es Ef fectifs th´ eoriques 0 1 1.68 1 6 6.27 2 10 11.69 3 16 14.53 4 19 13.54 5 5 10.1 6 8 6.28 7 3 3.34 8 1 1.56 9 1 0.65 >9 0 0.36 T otal 70 70

On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” : * des classes ”0” et ”1” d’une part, * et des classes ”7 et plus” d’autre part.

87

Les Tests du Khi-Deux

A. El Mossadeq

Les tableaux des effectifs observés et théoriques deviennent : Nombre annuel de cyclones Ef fectif s observ´ es Eff ectifs th´ eoriques 0 ou 1

7

7.95

2

10

11.69

3

16

14.53

4

19

13.54

5

5

10.10

6

8

6.28

≥7

5

5.91

T otal

70

70

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

7 X (oi − ti )2 i=1

ti

est une réalisation d’une variable du Khi-deux à : 7−1−1=5

degrés de liberté.puisque pour calculer les effectifs théoriques, nous avons utilisé l’estimation, et non la valeur réel, du paramètre α de la loi de Poisson. Pour α = 5%, on a : χ25;.95 = 5.8948 Et comme : χ2 = 5.81 On accepte alors H0 au seuil α = 5%, c’est à dire, le nombre annuel de cyclones peut être ajusté par une loi de Poisson dont le paramètre α est estimé par : α ˜ = 3.7286

88

A. El Mossadeq

Les Tests du Khi-Deux

Exercice 15 Le tableau suivant indique le résultat de l’examen de 124 sujets, classés d’après la couleur de leurs yeux (Y ) et la couleur de leus cheveux (C) : Y ÂC

Blonds Bruns Noirs Roux

Bleus

25

9

3

7

Gris ou V erts

13

17

10

7

Marrons

7

13

8

5

Existe-t-il une liason entre ces deux caractères ?

Solution 15 La répartition observée est : Y ÂC

Blonds Bruns Noirs Roux T otal

Bleus

25

9

3

7

44

Gris ou V erts

13

17

10

7

47

Marrons

7

13

8

5

33

T otal

45

39

21

19

124

Testons, au seuil α, l’hypothèse nulle : H0 :

”les couleurs des yeux et des cheveux sont indépendantes”

Calculons, sous cette hypothèse, la répartition théorique : Y ÂC

Blonds Bruns Noirs Roux T otal

Bleus

16

13.8

7.4

6.8

44

Gris ou V erts

17

14.8

8

7.2

47

Marrons

12

10.4

5.6

5

33

T otal

45

39

21

19

124

89

Les Tests du Khi-Deux

A. El Mossadeq

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

3 X 4 X (oij − tij )2 i=1 j=1

tij

est une réalisation d’une variable du Khi-deux à : (3 − 1) (4 − 1) = 6 degrés de liberté. Pour α = 5%, on a : χ26;.95 = 12.6 Et comme : 2

χ

=

3 2 X X (oij − tij )2 i=1 j=1

=

tij

15

On rejette alors H0 à 95% (même à 97.5%), c’est à dire, les couleurs des yeux et des cheveux ne sont pas indépendantes.

Exercice 16 On considère les familles de quatre enfants. Sur un échantillon de cent familles à quatre enfants, la répartition suivante a été observée :

Nombre de f illes Nombre de f amilles 0

7

1

20

2

41

3

22

4

10

Peut-on considérer que la probabilité qu’un enfant soit une fille est

90

1 ? 2

A. El Mossadeq

Les Tests du Khi-Deux

Solution 16 Testons, au seuil α, l’hypothèse nulle : 1 ” 2 Sous l’hypothèse nulle H0 , la variable aléatoire X égale au nombre de filles µ parmi ¶ 1 1 les quatre enfants suit une loi binomiale d’ordre 4 et de paramètre : B 4, . 2 2 Ainsi, pour tout k, 0 ≤ k ≤ 4, la probabilité pk d’avoir k filles parmi les quatre enfants est : µ ¶4 1 pk = C (4, k) 2 H0 : ”la probabilité d’avoir une fille est

L’effectif théorique tk , 0 ≤ k ≤ 4, représentant le nombre de familles ayant k filles parmi les quatre enfants est donné par : tk = npk D’où les répartitions : Nombre de filles R´ epartition observ´ ee R´ epartition th´ eorique 0

7

6.25

1

20

25

2

41

37.5

3

22

25

4

10

6.25

T otal

100

100

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

4 X (oi − ti )2 i=0

ti

est une réalisation d’une variable du Khi-deux à : 5−1=4 degrés de liberté. Pour α = 5%, on a : χ24;.95 = 9.49

91

Les Tests du Khi-Deux

A. El Mossadeq

Et comme : χ2 = 4.03 On accepte alors H0 au seuil α = 5% : la probabilité d’avoir une fille est

1 . 2

Exercice 17 On distribue un jeu de quarante cartes à quatre joueurs : A , B , C , D ; chacun reçevant dix cartes Un statisticien a élaboré un programme de distribution de donnes par ordinateur. Pour un ensemble de deux cents donnes, obtenues à partir de ce programme, il observe le nombre de donnes où le joueur A reçoit k as, 0 ≤ k ≤ 4. Les résultats sont les suivants : Nombre d0 as Nombre de donnes 0

64

1

74

2

52

3

8

4

2

Le programme du statisticien est-il fiable ?

Solution 17 Testons, au seuil α, l’hypothèse nulle : H0 : ”le programme du statisticien est fiable” Sous l’hypothèse nulle H0 , la variable aléatoire X égale au nombre d’as du joueur A suit une loi hypergéométrique. Ainsi, pour tout k, 0 ≤ k ≤ 4, la probabilité pk pour que le joueur A ait k as est : pk =

C (4, k) C (36, 10 − k) C (40, 10)

L’effectif théorique tk , 0 ≤ k ≤ 4, représentant le nombre de donnes à k as, du joueur A, est donné par : tk = npk

92

A. El Mossadeq

Les Tests du Khi-Deux

D’où les répartitions : Nombre d0 as R´ epartition observ´ ee R´ epartition th´ eorique 0

64

59.97

1

74

88.85

2

52

42.84

3

8

7.88

4

2

0.46

T otal

200

200

On constate que le tableau contient des effectifs théoriques strictement inférieurs à 5, ce qui empêche l’utilisation d’un test du khi-deux. On peut remédier à cet état en opérant le groupement ”logique” des classes ”3 et 4”. Le tableau des effectifs observés et théoriques deviennent : Nombre d0 as R´ epartition observ´ ee R´ epartition th´ eorique 0

64

59.97

1

74

88.85

2

52

42.84

3 ou 4

10

8.34

T otal

200

200

Sous l’hypothèse nulle H0 , la quantité : 2

χ =

3 X (oi − ti )2 i=0

ti

est une réalisation d’une variable du Khi-deux à : 4−1=3 degrés de liberté.

93

Les Tests du Khi-Deux

A. El Mossadeq

Pour α = 5%, on a : χ23;.95 = 7.81 Et comme : χ2 = 5.0418 On accepte alors H0 au seuil α = 5%, c’est à dire, le programme du statisticien est fiable.

94

T ests d ’H yp oth èses Moyennes et Variances

A. El Mossadeq

Tests : Moyennes et Variances

Exercice 1 Une série de cent mesures a donné comme résultat : ⎧ 100 X ⎪ ⎪ ⎪ xi = 5200 ⎪ ⎪ ⎪ ⎨ i=1

" #2 ⎪ 100 ⎪ X 100 ⎪ P 1 ⎪ ⎪ ⎪ xi − xj = 396 ⎩ 100 j=1 i=1

1. Estimer la moyenne et la variance. 2. Quel est, à 95%, l’intervalle de confiance de la moyenne ? 3. En supposant la variable mesurée gaussienne, déterminer, à 95%, l’intervalle de confiance de la variance.

Solution 1 1. Soit m l’estimation de la moyenne et s2 celle de la variance. On a : 1 X xi 100 i=1 100

m

= =

52

et : 1 X (xi − m)2 99 i=1 100

2

s

= =

4

2. Au seuil α, l’intervalle de confiace de la moyenne est défini par : ∙ ¸ σ σ m − t1−α/2 √ , m + t1−α/2 √ n n Pour α = 5%, on a : t.975 = 1.96 d’où l’intervalle de confiance à 95% : [51.608, 52.392] 3. Au seuil α, l’intervalle de confiace de la variance est défini par : "

(n − 1) 2 (n − 1) 2 s, 2 s χ2n−1;1−α/2 χn−1;α/2

97

#

Tests : Moyennes et Variances

A. El Mossadeq

Pour α = 5% : ⎧ 2 ⎨ χ99;.025 ' χ2100;.025 = 74.2

⎩ χ2 2 99;.975 ' χ100;.975 = 129.6

d’où l’intervalle de confiace de l’écart-type à 95% : [3.06, 5.34]

Exercice 2 La force de rupture d’un certain type de cable peut être assimilée à une variable aléatoire normale. Des essais portant sur dix cables ont donné une variance empirique s2 de 1560 N2 . Construire un intervalle de confiance, à 95%, de l’écart-type de cette force de rupture.

Solution 2 Au seuil α, l’intervalle de confiace de l’écart-type est défini par : "s Pour α = 5% :

(n − 1) s, χ2n−1;1−α/2

s

#

(n − 1) s χ2n−1;α/2

⎧ 2 ⎨ χ9;.025 = 2.7 ⎩ χ2 9;.975 = 19

d’où l’intervalle de confiace de l’écart-type à 95% : [27.18 N, 72.11 N]

Exercice 3 Une enquête statistique effectuée sur cent sujets permet de définir, à 95%, l’intervalle de confiance de la moyenne : [49.6 − 50.4]

Dans quelles conditions aurait-il été possible que le résultat fût à 95% : [49.8 − 50.2]

98

A. El Mossadeq

Tests : Moyennes et Variances

Solution 3 Il s’agit de déterminer la taille n0 de l’échantillon à prélever pour que l’intervalle de confiance de la moyenne à 95% soit : [49.8, 50.2] sachant que pour un échantillon de taille n = 100, cet intervalle est : [49.6, 50.4] Puisque :

on en déduit :

∙ ¸ σ σ m − t1−α/2 √ , m + t1−α/2 √ = [49.6, 50.4] n n

m

= =

et : σ

= '

49.6 + 50.4 2 50 √ n (50.4 − 49.6) 2t1−α/2 2.04

L’égalité : σ 50.2 = m + t1−α/2 √ n0 implique : 0

n

= =

µ

σt1−α/2 50.2 − m 400

¶2

Exercice 4 Pour déterminer le point de fusion moyen μ d’un certain alliage, on a procédé à neuf observations qui ont données une moyenne m = 1040 ◦ C et un écart-type s = 16 ◦ C. Construire un intervalle de confiance de la moyenne μ à 95%.

99

Tests : Moyennes et Variances

A. El Mossadeq

Solution 4 Ici on a : n m s

= = =

9 1040 ◦ C 16 ◦ C

Au seuil α, l’intervalle de confiace d’une telle moyenne est défini par :

Pour α = 5%, on a :

∙ ¸ s s m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √ n n t8;.975 = 2.31

d’où l’intervalle de confiance à 95% : [1027.68 ◦ C, 1052.32 ◦ C]

Exercice 5 ¯ = 172 cm La taille de 1200 conscrits du bureau de recrutement X a pour moyenne X et pour écart-type sX = 6 cm. Les mêmes mesures effectuées sur les 250 conscrits du bureau de recrutement Y ont donné pour moyenne Y¯ = 170 cm et pour écart-type sX = 5 cm. Que peut-on conclure ?

Solution 5 Testons au seuil α l’hypothèse nulle : H0 : ”les conscrits des bureaux de recrutement X et Y ont la même taille” Sous l’hypothèse nulle H0 , la quantité : ¯ − Y¯ X t= r 2 sX s2Y + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96

100

A. El Mossadeq

Tests : Moyennes et Variances

Et comme : t

¯ − Y¯ X r 2 sX s2Y + n1 n2 5.547

= =

On rejette alors l’hypothèse nulle H0 à 95% (même à 99%), c’est à dire, les conscrits des bureaux de recrutement X et Y ont des tailles moyennes différentes.

Exercice 6 On se propose de comparer le poids à la naissance chez une série de primapares (série 1) et une série de multipares (série 2) : m1 = 3197 g s21 = 210100 g2

S´ erie 1 : n1 = 95

S´ erie 2 : n2 = 105 m2 = 3410 g s22 = 255400 g2 Que peut-on conclure ?

Solution 6 Testons au seuil α l’hypothèse nulle : H0 : ”les primapares et les multipares ont le même poids moyen à la naissance” Sous l’hypothèse nulle H0 , la quantité : m1 − m2 t= r 2 s1 s22 + n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite.Pour α = 5%, on a : t.975 = 1.96 Et comme : t

= =

m − m2 r 12 s1 s2 + 2 n1 n2 −3.1256

On rejette alors l’hypothèse nulle H0 , à 95% (même à 99%), c’est à dire, les primapares et les multipares n’ont pas le même poids moyen à la naissance

101

Tests : Moyennes et Variances

A. El Mossadeq

Exercice 7 Chez cent sujet normaux, on dose l’acide urique, les résultats sont : ½ m1 = 53.3 mg/ l s1 = 9.1 mg/ l Chez cent sujet atteints de la maladie de goutte, le même dosage de l’acide urique fournit les résultats : ½ m2 = 78.6 mg/ l s2 = 13.1 mg/ l Que peut-on conclure ?

Solution 7 Testons au seuil α, l’hypothèse nulle : H0 : ”la maladie de goutte n’a pas d’influence sur la dose de l’acide urique” Sous cette hypothèse, la quantité : m1 − m2 t= r 2 s1 s2 + 2 n1 n2 peut être considérée comme une réalisation d’une variable aléatoire normale centrée réduite. Pour α = 5%, on a : t.975 = 1.96 et comme : t

= =

m − m2 r 12 s1 s2 + 2 n1 n2 −15.862

On rejette l’hypothèse nulle H0 à 95% (même à 99.99%), c’est à dire, la maladie de goutte a une influence sur la dose de l’acide urique.

Exercice 8 On admet que la valeur moyenne de la glycémie du sujet normal est 1 g/ l. Sur 17 sujets, on a trouvé une moyenne de .965 g/ l et un écart-type estimé de .108 g/ l. Cette valeur peut-elle être considérée comme différente du taux normal ?

102

A. El Mossadeq

Tests : Moyennes et Variances

Solution 8 Testons au seuil α, l’hypothèse nulle : H0 : ”la valeur est normale” Sous cette hypothèse, la quantité : t=

m−μ s √ n

est une réalisation de la variable aléatoire Tn−1 de Student à : n − 1 = 16 degrés de liberté. Pour α = 5%, on a : t16;.975 = 2.12 et comme : t

= =

m−μ s √ n −1.3362

on accepte l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, la valeur est normale.

Exercice 9 Dans un échantillon de 17 prématurés, la moyenne du Na-plasmatique est : ⎧ ⎨ m1 = 133 ⎩ s2 1

=

81.2

Soit un autre échantillon de 25 dysmaturés, dans lequel la moyenne du Na-plasmatique est : ⎧ ⎨ m2 = 136 Que peut-on conclure ?

⎩ s2 2

=

56.57

Solution 9 Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances du N aplasmatique chez les prématurés et les dysmaturés.

103

Tests : Moyennes et Variances

A. El Mossadeq

Sous cette hypothèse, la quantité : f=

s21 s22

est une réalisation d’une variable aléatoire de Fisher à : (n1 − 1, n2 − 1) = (16, 24) degrés de liberté. Pour α = 10%, on a : F16,24;.95 = 2.09 Et comme : f

= =

s21 s22 1.4354

on accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2

= =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 66.42

et testons l’hypothèse nulle : H0 : ”les prématurés et les dysmaturés ont la même moyenne du Na-plasmatique” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 40 degrés de liberté. Pour α = 10%, on a : t40;.95 = 1.68 Et comme : t

= =

m − m2 r1 1 1 s + n1 n2 −1.17

104

A. El Mossadeq

Tests : Moyennes et Variances

On accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les prématurés et les dysmaturés ont la même moyenne du Na-plasmatique estimée par : m

n1 m1 + n2 m2 n1 + n2 134.79

= =

Exercice 10 Lorqu’une machine est bien réglée, elle produit des pièces dont le diamètre D est une variable gaussienne de moyenne 25 mm. Deux heures après le réglage de la machine, on a prélevé au hasard neuf pièces. Leurs diamètres ont pour mesure en mm : 22 23 21 25 24 23 22 26 21 Que peut-on conclure quant à la qualité du réglage après deux heures de fonctionnement de la machine ?

Solution 10 Calculons d’abord les estimations m et s2 de la moyenne et de la variance sur cet échantillon de taille n = 9. On a : n 1X m = xi n i=1 =

23 mm

et : 1 X (xi − m)2 n − 1 i=1 n

2

s

= =

3 mm2

Testons l’hypothèse nulle : H0 : ”la machine est bien réglée” Sous l’hypothèse nulle H0 , la quantité : t=

m−μ s √ n

105

Tests : Moyennes et Variances

A. El Mossadeq

est une réalisation d’une variable aléatoire de Student à : n−1=8 degrés de liberté : T8 . Pour α = 5%, on a : t8;.975 = 2.31 et comme : t

= =

m−μ s √ n −3.4641

On rejette l’hypothèse nulle H0 à 95% (même à 99%), c’est à dire, le réglage de la machine est rompu.

Exercice 11 Si l’écart-type de la durée de vie d’un modèle de lampe électrique est estimé à cent heures, quelle doit être la taille de l’échantillon à prélever pour que l’erreur sur l’estimation de la durée de vie moyenne n’exède pas vingt heures et ce avec une probabilité de 95% puis 99% ?

Solution 11 L’erreur sur l’estimation de la moyenne est donnée par : s t1−α/2 √ n (1) Pour α = 5%, on a : t1−α/2 = 1.96 d’où : s t1−α/2 √ ≤ 20 =⇒ n ≥ 97 n (2) Pour α = 1%, on a : t1−α/2 = 2.57 d’où : s t1−α/2 √ ≤ 20 =⇒ n ≥ 166 n

106

A. El Mossadeq

Tests : Moyennes et Variances

Exercice 12 Une machine fabrique des rondelles dont le diamètre D est une variable guassienne. On prélève au hasard un échantillon de huit rondelles. Leurs diamètres ont pour mesure en mm : 20.1 19.9 19.7 20.2 20.1 23.1 22.6 19.8 Construire à 95% puis 99% les intervalles de confiance de la moyenne et de la variance.

Solution 12 Calculons d’abord les estimations m et s2 de la moyenne et de la variance sur cet échantillon de taille n = 8. On a : n 1X m = xi n i=1 =

20.6875 mm

et 1 X (xi − m)2 n − 1 i=1 n

2

s

= =

1.827 mm2

1. L’intervalle de confiance de la moyenne à 1 − α est : ¸ ∙ s s m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √ n n (a) Pour α = 5%, on a : t7;.975 = 2.36 d’où l’intervalle : [19.163, 22.212]

(b) Pour α = 1%, on a : t7;.995 = 3.5 d’où l’intervalle : [18.427, 22.948]

107

Tests : Moyennes et Variances

A. El Mossadeq

2. L’intervalle de confiance de la variance à 1 − α est : # " 2 2 (n − 1) s (n − 1) s , χ2n−1;1−α/2 χ2n−1;α/2 (a) Pour α = 5%, on a : ⎧ 2 ⎨ χ7;.025 = 1.69 d’où l’intervalle :

⎩ χ2 7;.975 = 16

[.79931, 7.5675] (b) Pour α = 1%, on a : ⎧ 2 ⎨ χ7;.005 = .989 d’où l’intervalle :

⎩ χ2 7;.995 = 20.3 [.63, 12.931]

Exercice 13 On effectue un dosage par deux méthodes différentes A et B. On obtient les résultats suivants : M e´thode A

.6

.65

.7

.7

.7

.7

.75

.8

.8

M e´thode B

.6

.6

.65

.65

.7

.6

.75

.8

.8

Peut-on considérer que les deux méthodes sont équivalentes ?

Solution 13 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 9 ⎪ 1X ⎪ ⎪ x1i = .71 ⎪ ⎨ m1 = 9 i=1

9 ⎪ 1X ⎪ 2 ⎪ (x1i − m1 )2 = .004 ⎪ ⎩ s1 = 8 i=1

108

A. El Mossadeq

et :

Tests : Moyennes et Variances

⎧ 9 ⎪ 1X ⎪ ⎪ x2i = .68 ⎪ ⎨ m2 = 9 i=1 9 ⎪ 1X ⎪ 2 ⎪ (x2i − m2 )2 = .007 ⎪ ⎩ s2 = 8 i=1

Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des deux méthodes de dosage. Sous cette hypothèse, la quantité : f=

s22 s21

est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f

= =

s22 s21 1.75

On accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2

= =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 0.0055

et testons l’hypothèse nulle : H0 : ”les deux méthodes de dosage sont équivalentes.” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté.

109

Tests : Moyennes et Variances

A. El Mossadeq

Pour α = 10%, on a : t16;.95 = 1.75 et comme : t

= =

m − m2 r1 1 1 s + n1 n2 0.86

on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux méthodes de dosage sont équivalentes.

Exercice 14 Dans deux types de forêts, on a mesuré les hauteurs de treize et quatorze peuplements choisis au hasard et indépendamment dans le but de vérifier si les hauteurs de ces deux types d’arbres sont ou ne sont pas égales. Les résultats sont les suivants : T ype 1 : 22.5 22.9 23.7 24.0 24.4 24.5 26.0 26.2 26.4 26.7 27.4 28.6 28.7 T ype 2 : 23.4 24.4 24.6 24.9 25.0 26.2 26.3 26.8 26.8 26.9 27.0 27.6 27.7 27.8 On admet que les hauteurs de ces deux types d’arbres sont des variables gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). Que peut-on conclure ?

Solution 14 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 13 ⎪ 1 X ⎪ ⎪ x1i = 25.538 ⎪ ⎨ m1 = 13 i=1

13 ⎪ 1 X ⎪ 2 ⎪ (x1i − m1 )2 = 4.1576 ⎪ ⎩ s1 = 12 i=1

110

A. El Mossadeq

Tests : Moyennes et Variances

et :

⎧ 14 ⎪ 1 X ⎪ ⎪ x2i = 26.1 ⎪ ⎨ m2 = 14 i=1 14 ⎪ 1 X ⎪ 2 ⎪ (x2i − m2 )2 = 1.9431 ⎪ ⎩ s2 = 13 i=1

Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des hauteurs des deux types d’arbres. Sous cette hypothèse, la quantité : f=

s21 s22

est une réalisation d’une variable aléatoire de Fisher à : (n1 − 1, n2 − 1) = (12, 13)

degrés de liberté. Pour α = 10%, on a :

F12,13;.95 = 2.6 et comme : f

= =

s21 s22 2.1398

on accepte donc l’hypothèse d’égalité des variances des hauteurs des deux types d’arbres. Calculons maintenant l’estimation commune s2 de cette variance : s2

= =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 3.0062

et testons l’hypothèse nulle : H0 : ”les deux types d’arbres ont la même hauteur” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2

111

Tests : Moyennes et Variances

A. El Mossadeq

est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 25 degrés de liberté. Pour α = 10%, on a : t25;.95 = 1.71 et comme : t

= =

m − m2 r1 1 1 s + n1 n2 −0.84155

on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux types d’arbres ont la même hauteur moyenne estimée par : m

= =

n1 m1 + n2 m2 n1 + n2 25.829

Exercice 15 On considère deux variétés de maïs M1 et M2 dont les rendements sont des variables aléatoires gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). Afin de comparer les rendements de ces deux variétés de maïs, on a choisi de cultiver dans neuf stations différentes des parcelles voisines encemencées de l’une ou l’autre des deux variétés.On a observé les rendements suivants : Station

1

2

3

4

5

6

V ari´ et´ e 1 39.6 32.4 33.1 27

36

32

7

8

9

25.9 32.4 33.2

V ari´ et´ e 2 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 34.1 Que peut-on conclure ?

112

A. El Mossadeq

Tests : Moyennes et Variances

Solution 15 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ) : ⎧ 13 ⎪ 1 X ⎪ ⎪ x1i = 32.4 ⎪ ⎨ m1 = 13 i=1

et :

13 ⎪ 1 X ⎪ 2 ⎪ (x1i − m1 )2 = 17.188 ⎪ ⎩ s1 = 12 i=1

⎧ 14 ⎪ 1 X ⎪ ⎪ x2i = 31.1 ⎪ ⎨ m2 = 14 i=1 14 ⎪ 1 X ⎪ 2 ⎪ (x2i − m2 )2 = 21.785 ⎪ ⎩ s2 = 13 i=1

Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des rendements des deux variétés de maïs. Sous cette hypothèse, la quantité : f=

s22 s21

est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f

= =

s22 s21 1.2675

On accepte donc l’hypothèse d’égalité des variances des hauteurs des deux types d’arbres. Calculons maintenant l’estimation commune s2 de cette variance : s2

= = =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 2 2 s1 + s2 2 19.4865

113

Tests : Moyennes et Variances

A. El Mossadeq

et testons l’hypothèse nulle : H0 : ”les deux variétés de maïs ont le même rendement” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté. Pour α = 10%, on a : t16;.95 = 1.75 et comme : t

= =

m − m2 r1 1 1 s + n1 n2 .42892

on accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les deux variétés de maïs ont le même rendement moyen estimé par : m

= =

n1 m1 + n2 m2 n1 + n2 31.75

Exercice 16 Le relevé des températures journalières minimales de deux stations S1 et S2 , au cours de neuf journées consécutives a fourni les valeurs suivantes en ◦ C: Station 1 12 Station 2

8

9 10 11 13 10 7 10

7 11 10

6

8 11 12 9

7

On admet que la distribution des températures journalières minimales des deux stations S1 et S2 sont des variables gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ). 1. Déterminer les estimations des moyennes et des variances des températures journalières minimales des deux stations S1 et S2 . 2. Construire, au seuil α = 5%, les intervalles de confiance de ces estimations.

114

A. El Mossadeq

Tests : Moyennes et Variances

3. Peut-on admettre, au seuil α = 10%, l’hypothèse selon laquelle les températures journalières minimales moyennes des deux stations S1 et S2 sont identiques ?

Solution 16 1. Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ). On a : ⎧ 11 ⎪ 1X ⎪ ⎪ m = x1i = 10 ◦ C ⎪ 1 ⎪ ⎪ 9 ⎨ i=1

et :

⎪ 11 ⎪ ⎪ 1X ⎪ 2 ⎪ (x1i − m1 )2 = 3.5 ⎪ ⎩ s1 = 8 i=1 ⎧ 10 ⎪ 1X ⎪ ⎪ m2 = x2i = 9 ◦ C ⎪ ⎪ ⎪ 9 ⎨ i=1

⎪ 10 ⎪ ⎪ 1X ⎪ 2 ⎪ (x2i − m2 )2 = 4.5 ⎪ ⎩ s2 = 8 i=1 (a) L’intervalle de confiance de μ1 à 1 − α est défini par : ∙ ¸ s1 s1 m1 − tn−1;1−α/2 √ , m1 + tn−1;1−α/2 √ n n Pour α = 5%, on a : t8;.975 = 2.31 d’où l’intervalle : [8.56 ◦ C, 11.44 ◦ C] (b) L’intervalle de confiance de σ 21 à 1 − α est défini par : # " (n − 1) s21 (n − 1) s21 , χ2n−1;1−α/2 χ2n−1;α/2 Pour α = 5%, on a :

⎧ 2 ⎨ χ8;.025 = 2.18 ⎩ χ2 8;.975 = 17.5 115

Tests : Moyennes et Variances

A. El Mossadeq

d’où l’intervalle : [1.6, 12.8] (c) L’intervalle de confiance de μ2 à 1 − α est défini par : ¸ ∙ s2 s2 m2 − tn−1;1−α/2 √ , m2 + tn−1;1−α/2 √ n n Pour α = 5%, on a : t8;.975 = 2.31 d’où l’intervalle : [7.37 ◦ C, 10.63 ◦ C] (d) L’intervalle de confiance de σ 22 à 1 − α est défini par : # " 2 2 (n − 1) s2 (n − 1) s2 , χ2n−1;1−α/2 χ2n−1;α/2 Pour α = 5%, on a :

d’où l’intervalle :

⎧ 2 ⎨ χ8;.025 = 2.18 ⎩ χ2 8;.975 = 17.5 [2.06, 16.51]

2. Testons d’abord, au seuil α = 10%, l’hypothèse nulle d’égalité des variances des températures journalières minimales des deux stations S1 et S2 . Sous cette hypothèse, la quantité : f=

s22 s21

est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (8, 8) degrés de liberté. Pour α = 10%, on a : F8,8;.95 = 3.44 et comme : f=

s22 = 1.29 s21

On accepte donc l’hypothèse d’égalité des variances.

116

A. El Mossadeq

Tests : Moyennes et Variances

Calculons maintenant l’estimation commune s2 de cette variance : s2

= = =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 2 2 s1 + s2 2 4

et testons l’hypothèse nulle : H0 :

”les températures journalières minimales moyennes des deux stations S1 et S2 .sont identiques”

Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 16 degrés de liberté. Pour α = 10%, on a : t16;.95 = 1.75 et comme : m1 − m2 t= r = 1.0607 1 1 s + n1 n2

On accepte l’hypothèse nulle H0 au seuil α = 10%, c’est à dire, les températures journalières minimales moyennes des deux stations S1 et S2 .sont identiques. Cette température moyenne peut être estimée par : m

= = =

n1 m1 + n2 m2 n1 + n2 m1 + m2 2 9.5

117

Tests : Moyennes et Variances

A. El Mossadeq

Exercice 17 On étudie l’effet d’une substance sur la croissance d’une tumeur greffée. Les résultats sont consignés sur le tableau ci-dessous donnant la surface de la tumeur au 20e`me jour après sa greffe : Surf ace 5.5 6 6.5 7 7.5 8 T e´moins 1 2 3 8 4 3 T rait´ es 4 4 8 3 1 1 Le traitement a-t-il un effet significatif sur la surface tumorale ? On suppose que la surface tumorale est distribuée selon des lois normales N (μ1 , σ 21 ) et N (μ2 , σ 22 ) chez les témoins et les traités respectivement.

Solution 17 Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ). On a : ⎧ 6 ⎪ 1 X ⎪ ⎪ m1 = n1i xi = 7 ⎪ ⎪ ⎪ 21 ⎨ i=1

et :

⎪ 6 ⎪ ⎪ 1 X ⎪ 2 ⎪ n1i (xi − m1 )2 = .45 ⎪ ⎩ s1 = 20 i=1

⎧ 6 ⎪ 1 X ⎪ ⎪ m2 = n2i xi = 6.4048 ⎪ ⎪ ⎪ 21 i=1 ⎨

⎪ 6 ⎪ ⎪ 1 X ⎪ 2 ⎪ n2i (xi − m2 )2 = .87972 ⎪ ⎩ s2 = 20 i=1

Testons d’abord, au seuil α = 2%, l’hypothèse nulle d’égalité des variances des surfaces tumorales chez les populations des témoins et des traités. Sous cette hypothèse, la quantité : s22 f= 2 s1 est une réalisation d’une variable aléatoire de Fisher à : (n2 − 1, n1 − 1) = (20, 20) degrés de liberté.

118

A. El Mossadeq

Tests : Moyennes et Variances

Pour α = 2%, on a : F20,20;.99 = 2.94 et comme : f

= =

s22 s21 1.9549

on accepte donc l’hypothèse d’égalité des variances des deux populations. Calculons maintenant l’estimation commune s2 de cette variance : s2

= =

(n1 − 1) s21 + (n2 − 1) s22 n1 + n2 − 2 .66486

et testons l’hypothèse nulle : H0 : ”le traitement est sans effet sur la croissance de la surface tumorale” Sous cette hypothèse, la quantité : m1 − m2 t= r 1 1 s + n1 n2 est une réalisation de la variable aléatoire de Student à : n1 + n2 − 2 = 40 degrés de liberté. Pour α = 2%, on a : t40;.99 = 2.42 et comme : t

= =

m − m2 r1 1 1 s + n1 n2 2.831

on rejette l’hypothèse nulle H0 à 98%, c’est à dire, le traitement a une influence sur la croissance de la surface tumorale.

119

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF