Cours de Statistiques

March 13, 2017 | Author: Kara Vous Aime | Category: N/A
Share Embed Donate


Short Description

Download Cours de Statistiques...

Description

STATISTIQUE DESCRIPTIVE

§1 Introduction La statistique désigne l’ensemble des méthodes mathématiques relatives à la collecte, à la présentation, à l’analyse et à l’utilisation de données numériques. Ces opérations permettent de tirer des conclusions et de prendre des décisions dans les situations d’incertitude qu’on rencontre dans le domaine économique, dans celui des a¤aires ou dans d’autres sciences sociales..... On distingue la statistique descriptive et la statistique inductive. La première résume, récapitule, analyse un ensemble de données . La seconde conclut sur le tout aprés examen d’une partie. Le tout est alors appelé population et une partie est appelée un échantillon . §2 Terminologie : - La population est l’ensemble de tous les individus concernés par une étude statistique Exemple 1: Si l’on veut étudier la qualité des allumettes fabriquées par une usine, la population sera l’ensemble de toutes les allumettes fabriquées par cette usine. - On appelle échantillon toute partie de la population. - On appelle individu chaque élément de la population. - La taille représente le nombre d’individus d’un échantillon ou d’une population. Elle est notée n dans le cas d’un échantillon et N dans le cas d’une population. - Le caractère est l’aspect particulier que l’on désire étudier. Exemple 2: Concernant un groupe de personnes, on peut s’intéresser au caractère âge, ou au caractère sexe ou encore à leur taille . 1

- On appelle modalités les di¤érentes possibilités que peut présenter un caractère. Exemple 3: - Le sexe est un caractère à deux modalités : féminin ou masculin - Le caractère nombre d’enfants par famille peut être égal à 0; 1; 2; ::: - On dira d’un caractère qu’il est qualitatif si ses modalités ne s’expriment pas par un nombre. Exemple 4 : La religion , la marque d’une lessive et la couleur des yeux sont des caractères qualitatifs. - On dit d’un caractère qu’il est quantitatif si ses modalités sont numériques. Exemple 5 : L’âge , le poids , le salaire , . . . sont des caractères quantitatifs. - On appelle série statistique l’ensemble des di¤érentes données associées aux individus d’un échantillon ou d’une population. Exemple 6: - La série suivante représente les notes (sur 20 ) obtenues par 10 étudiants en statistique : 10

15

9

7

6

5

8

13

11

19

- La série suivante représente le sexe de 10 étudiants de première année de l0ISIAM : F

F

M

M

F

F

2

F

M

M

F

§3 Traitement des données - D’une façon générale , on distingue 3 étapes dans le traitement d’une série statistique : A) La synthèse des résultats à l’aide d’un tableau; B) La représentation graphique du phénomène étudié; C) Le calcul des mesures caractéristiques. Expliquons maintenant comment il faut procéder dans chaque étape. A) Tableaux statistiques 1) Cas d’un caractère qualitatif - La taille de l’échantillon est n - Les di¤érentes modalités sont x1; x2; :::; xk . - Chaque modalité constitue une classe . - Le nombre d’individus qui appartiennent à la classe xi s’appelle l’e¤ectif (ou la fréquence absolue ) de cette classe . Il est noté fi. On a toujours f1 + f2 + ::: + fk = n - La fréquence relative de la classe xi est

fi . n

- Souvent on préfère exprimer la fréquence relative en pourcentage ; pour fi cela, il su¢ t de multiplier par 100 . n Exemple : La série statistique suivante représente l’état-civil d’un

3

groupe de 20 personnes . M C M V M M D V D M C V V V V C C C M M où M; D; C et V représentent respectivement marié(e), divorcé(e), célibataire et veuf(ve). Repartition d0un groupe de 20 personnes selon leur etat

Etat-civil e¤ectifs fréq.relatives 7 5 6 2 20

M C V D Total

0; 35 0; 25 0; 30 0; 10 1

civil

fi fi pourcentages 100 n n 35 25 30 10 100

2) Cas d’un caractère quantitatif discret : - Un caractère quantitatif est discret si l’ensemble des valeurs qu’il peut prendre est …ni. Exemple 1: - Le nombre d’enfants par famille et le nombre de téléviseurs fabriqués par une usine par jour sont des caractères quantitatifs discrets , par contre le caractère poids n’est pas discret . Pour l’élaboration du tableau , il faut voir si le caractère présente beaucoup de valeurs di¤erentes ou non . Dans le deuxième cas on procède comme dans le cas d’un caractère qualitatif et dans le premier cas on regroupe les données comme dans le cas d’un caractère continu qui sera traité ultérieurement . Exemple 2: La série suivante donne le nombre d’enfants à charge dans 16 familles . 0

1

0

0

2

1

3

0

1 4

2

0

1

2

2

2

4

Repartition de 16 familles selon le nombre d0enfants a charge

fi fi pourcent n n 0; 3125 31; 25 0; 25 25 0; 3125 31; 25 0; 0625 6; 25 0; 0625 6; 25 1 100

nb.d’enf e¤ fi freq.rel. 0 1 2 3 4 Total

5 4 5 1 1 16

100

e¤. cumul Fi

5 9 14 15 16 ///////////////////////////

- La colonne des e¤ectifs cumulés Fi s’obtient en additionnant à l’e¤ectif d’une classe l’e¤ectif de chacune des classes qui la pécède , ainsi on a : Fi = f1 + f2 + ::: + fi

F1 = f1 , F2 = f1 + f2 , . . . ,

Fi correspond au nombre de données de la série dont la valeur est inférieure à la classe xi. 2) Cas d’un caractère quantitatif continu : Un caractère quantitatif est continu s’il peut prendre théoriquement n’importe quelle valeur dans un intervalle donné . Exemple 1 :La taille des individus et leur poids sont des caractères quantitatifs continus . Dans ce cas (ou dans le cas d’un caractère discret avec beaucoup de valeurs di¤erentes) la construction du tableau passe par les étapes suivantes : Etape 1 : Déterminer l’étendu de la série Notée e, l’étendu de la série est la di¤érence entre la plus grande valeur et la plus petite valeur observée. Etape 2 : Déterminer le nombre de classes Noté k, le nombre de classe doit se situer entre 5 et 15 , et s’il n’a pas 5

été imposé on peut le déterminer à partir de la formule de Sturges : k = la valeur entière la plus rapprochée de 1 + 3; 322 log10(n) où n est le nombre de données de la série. Exemple 2 : - Pour n = 12 classes - Pour n = 15 - Pour n = 25 classes

on a 1 + 3; 322log10(12) = 4; 585::: on a 1 + 3; 322log10(15) = 4; 906:::

donc k = 5

donc k = 5 classes

on a 1 + 3; 322log10(25) = 5; 643:::

donc k = 6

- Pour n = 1000 on a 1 + 3; 322log10(1000) = 10; 966::. donc k = 11 classes. Etape 3 : Déterminer l’amplitude des classes Notée c, l’amplitude des classes ne doit pas contenir plus de chi¤res après la virgule que les données de la série . Ainsi après avoir calculé le quotient e , il faut tronquer le résultat pour éliminer les décimales non utiles et k additionner 1 au dernier chi¤re. e Exemple 3: Si = 0; 9361 alors pour des données à 2 chi¤res après la k virgule c = 0; 94 mais pour des données entières c = 1. Etape 4 : Construire les intervalles En procédant avec la même unité de mesure que les données de la série , on …xe tout d’abord la limite inférieure du premier intervalle . La valeur choisie peut être soit la plus petite mesure de la série , soit une valeur qui lui est assez voisine mais inférieure . En additionnant l’amplitude à cette valeur , on obtient la limite supérieure de la classe . Pour les classes suivantes , la limite inférieure coincide avec la limite supérieure de la classe précédente . L’addition à la limite inférieure de l’amplitude permet encore d’établir la limite supérieure . Par convention ,pour que toute donnée appartienne à une seule classe, 6

les intervalles seront fermés à gauche et ouverts à droite . Exemple (voir plus loin ) Etape 5 : Etablir la fréquence des classes Pour compléter le tableau, il reste à déterminer limite inférieure + limite supérieure - le centre des classes mi = (Les 2 centres des classes serviront dans le calcul des mesures caractéristiques ) - Les e¤ectifs fi . - Les e¤ectifs cumulés Fi . - Les fréquences relatives

fi . n

- Les fréquences relatives en pourcentages

fi n

100.

Exemple 4 : La série suivante représente le poids réel , en grammes , d’un échantillon de 23 boites de con…ture de marques di¤érentes : 271 516 414 242 510 190 490 450 390 430 360 360 450 460 453 509 489 412 410 453 460 405 373 Construire le tableau de fréquences de cette série. Solution : - L’étendue

e = 516

190 = 326

- Le nombre de classes k : on a 1 + 3; 322log10(23) = 5; 523::: donc k = 6 classes . - L’amplitude des classes : on a

e 326 = = 54; 33::: donc c = 55 k 6

7

- Le premier intervalle : [190; 245[ fi fi (%) 100 n n 0; 0869 8; 69 0; 0434 4; 34 0 0 0; 2173 21; 73 0; 4347 43; 47 0; 2173 21; 73

Poids P (en g ) centres mi e¤ectifs fi e¤.cumulés Fi freq.rel. 190 245 300 355 410 465

P P P P P P

< 245 < 300 < 355 < 410 < 465 < 520

217; 5 272; 5 327; 5 382; 5 437; 5 492; 5

2 1 0 5 10 5

2 3 3 8 18 23

Exemple 2 : Le salaire horaire (en DH ) de 20 employés d’un magasin est donné par la série suivante : 6; 80 6; 30 8; 25 6; 45 6; 30 6; 80 8; 30 5; 55 6; 00 5; 60 6; 75 8; 35 5; 75 6; 80 7; 30 6; 85 5; 70 5; 55 7; 25 7; 25 Construire la distribution de fréquences de cette série . Solution : - L’étendue : e = 8; 35

5; 55 = 2; 8

- Le nombre de classes k : on a 1 + 3; 322 log10(20) = 5; 322::: donc k = 5 classes - L’amplitude des classes c :

on a

e 2; 8 = = 0; 56 donc c = 0; 57 k 5

- Le premier intervalle : [5; 55 ; 6; 12 [ .

8

Salaire S (en DH) centres mi e¤ fi e¤.cum Fi freq.rel. 5; 55 6; 12 6; 69 7; 26 7; 83

S < 6; 12 S < 6; 69 S < 7; 26 S < 7; 83 S < 8; 4

5; 835 6; 405 6; 975 7; 545 8; 115

6 3 7 1 3

6 9 16 17 20

0; 30 0; 15 0; 35 0; 05 0; 15

fi % n 30 15 35 5 15

B) Représentation graphique Il existe plusieurs façons de représenter graphiquement les résultats d’une série statistique. Nous verrons ici les formules les plus utilisées. 1) Diagramme à bandes rectangulaires. Ce diagramme est adapté à la représentation d’un caractère qualitatif ou quantitatif discret. Il est constitué par la juxtaposition de bandes verticales ou la superposition de bandes horizontales; la hauteur ou la longueur d’une bande, sera proportionnelle à la fréquence de la modalité. Exemple 1. 2) Histogramme. Il convient bien à la représentation d’un caractère quantitatif continu, l’histogramme est constitué par la juxtaposition de bandes rectangulaires verticales, mais adjacentes. De plus chaque rectangle doit présenter une largeur équivalente à l’amplitude de la classe qu’il représente et la hauteur proportionnelle à la fréquence. Exemple 2.

C) Le calcul des mesures caractéristiques. 9

Il est souvent nécessaire de résumer de façon très concise l’ensemble des informations qu’on possède sur une série statistique .Pour cela , on a recours à quelques mesures donnant une idée sur l’ordre de grandeur des données ou sur l’étalement de la série . On distingue deux types de mesures : les mesures de tendance centrale et les mesures de dispersion . 1) les mesures de tendances centrales : Les mesures de tendance centrales les plus importantes sont : la moyenne arithmétique , la médiane et le mode . a) La moyenne arithmétique : Pour calculer la moyenne arithmétique (on dira dans la suite moyenne tout court ) d’un ensemble de données, il su¢ t de faire la somme de celles-ci et de diviser par le nombre de données . Notation Dans le cas d’une population la moyenne sera notée

=

N P

xi

i=1

N

et dans le cas d’un échantillon elle sera notée x :

x=

n P

xi

i=1

n

Exemple 1 Les notes ( sur 20 ) obtenues par 10 étudiants en statistique sont : 2

2

8 10

9

10

12

8

13

12

13

On a donc x =

2 + 2 + 8 + 9 + 10 + 12 + 8 + 13 + 12 + 13 89 = = 8: 9 10 10

- Si les données sont traitées dans un tableau de fréquences : caractère xi e¤ectifs fi freq.rel. x1 x2 . . . xk

f1 f2 . . . fk

f1 n f2 n

fi n

. . . fk n

dans ce cas la formule de la moyenne devient :

x=

k P

xifi

i=1

n

Exemple 2 La distribution des notes des 10 étudiants de l’exemple précédent est :

11

Notes xi e¤ectifs fi freq.rel. 2 8 9 10 12 13 Total

x=

2

2+2

8+1

2 2 1 1 2 2 10 9+1 10

0; 2 0; 2 0; 1 0; 1 0; 2 0; 2 1 10 + 2

fi n

12 + 2

13

=

89 = 8; 9 10

- Si maintenant les données sont groupées dans des intervalles de centres mi alors une aproximation de la moyenne est donnée par

x=

k P

fimi

i=1

n

où k est le nombre de classes et n la taille de l’échantillon . Exemple 3 Le tableau suivant représente le chi¤re d’a¤aires (en DH) réalisé par 36 restaurants au cours d’une journée. Chi¤re d’a¤. C (en DH) centres mi e¤ectifs fi 2000 C < 2500 2250 11 2500 C < 3000 2750 9 3000 C < 3500 3250 10 3500 C < 4000 3750 6 Total =============== 36 12

fimi 24750 24750 32500 22500 104500

On a donc x =

104500 = 2902; 777::: = 2902; 78 36

Le chi¤re d’a¤aires moyen de ces restaurants est donc approximativement 2902; 78 DH b) La médiane - La médiane est la valeur du caractère qui partage la série en deux parties égales : 50% de données lui sont inférieures ou égales et 50% lui sont supérieures ou égales . Notation : la médiane sera notée Me - Calcul de la médiane: On distingue deux cas : 1er cas : les données ne sont pas groupées dans des intervalles. Alors dans ce cas on applique la règle suivante : - Si n est impair , la médiane est la valeur de la série dont le rang est n+1 dans le classement par ordre croissant . 2 n - Si n est pair , la médiane est la moyenne des valeurs de rang et 2 n + 1 dans le classement par ordre croissant . 2 Exemple 1: Soit la série 3

1

4

5

Le classement par ordre croissant est

1

1 1

2 2

6 3

On a n = 9 donc Me = la cinquième valeur = 4 Exemple 2 : Soit la série 3

1

4

7

5

1 13

2

6

8

6

8 4

6: 5

6

6

8

Le classement par ordre croissant est 1

1

2

3

4

5

6

6

7

8

On a n = 10 ; la 5eme valeur est 4 et la 6eme valeur est 5 donc la médiane 4+5 est Me = = 4; 5 2 Exercice 1 :Calculer la médiane de la série suivante : xi 0 2 5 7 9 Total fi 5 7 9 4 5 30 Solution On a n = 30 donc la médiane est la moyenne entre la 15eme et la 16eme valeur dans le classement par ordre croissant . la 15eme valeur est 5 et la 16eme valeur est 5 aussi, donc la médiane 5+5 =5 est Me = 2 Ici

2emecas : Si les données sont groupées dans des intervalles : Dans ce cas , on ne se préoccupe pas du fait qu’il y a un nombre pair ou impair de données dans la série . On détermine d’abord la classe qui contient la médiane : c’est la première n . classe dont l’e¤ectif cumulé est supérieur ou égal à 2 Si [Li , Li + c[ est la classe qui contient la médiane , et si Fi est son e¤ectif cumulé et Fi 1 l’e¤ectif cumulé de la classe qui la précède alors on a : n Me Li = 2 (Li + c) Li Fi

14

Fi

1

Fi

1

donc

0n

M e = Li + @ 2 Fi

Fi

1

Fi

1

1

Ac

Exemple 3: Reprenons l’exemple du chi¤re d’a¤aires des 36 restaurants . Chi¤re d’a¤. C en DH e¤ectifs fi e¤ectifs cumulés Fi 2000 C < 2500 11 11 2500 C < 3000 9 20 3000 C < 3500 10 30 3500 C < 4000 6 36 n On a n = 36 donc = 18; la classe qui contient la médiane est la 2 deuxième donc 18 11 Me 2500 = donc 3000 2500 20 11 7 2500 + 500 = 2888; 88::: 9

Me

2500 7 = et par suite Me = 500 9

Me = 2888; 89 DH c) Le mode . Le mode d’une série de données est la valeur du caractère la plus fréquente . Le symbole utilisé pour le noter est Mo , qu’il s’agisse d’un échantillon ou d’une population . Lorsque les données sont groupées dans des intervalles, on utilise le centre de la classe ayant la plus grande fréquence comme approximation du mode ou on parle tout simplement de la classe modale, c’est-à-dire la classe ayant la plus grande fréquence 15

Exemple 1. Le mode de la série 2 3 4 2 2 est la valeur 2 La série 2 2 3 4 3 2 3 a deux modes : 2 et 3 La série 1 2 3 4 5 n’a pas de mode 2) Les mesures de dispersion -La variance Pour un échantillon de taille n , la variance, notée s2 , est dé…nie par

s2 =

n P

x)2

(xi

i=1

n _

où xi représente la ième données et x la moyenne . Exemple 1 Calculer la variance de la série suivante : 8 8 + 8 + 10 + 12 + 12 On a x = = 5 4+4+0+4+4 = 3; 2 5 _

50 5

8

10 2

= 10 d’où s =

12 (8

12 .

10)2 + (8

10)2 + (10

Exemple 2 Calculer la variance de la série 6 _

x=

On a 2

d’où s = 50 = 10 10

(6

7

10

13

14.

6 + 7 + 10 + 13 + 14 50 = = 10 5 5 10)2 + (7

10)2 + (10

16

10)2 + (13 5

10)2 + (14

10)2

=

Remarque: les séries 8 8 10 12 12 et 6 7 10 13 14 ont la même moyenne 10, mais les écarts des données par rapport à la moyenne sont plus grands dans la deuxième série que dans la première. Ceci se traduit par une variance plus grande dans la deuxième série. - En général le calcul de la variance à l’aide de sa formule est fastidieux, c’est pour cela qu’il est parfois intéressant d’appliquer la formule équivalente suivante : frame s2 = x 2

(x)2

Cette formule se retient facilement en disant que la variance est la moyenne des carrés moins le carré de la moyenne. Exemple 3 Pour la série 8 516 = 103: 2 5

8

10

12

12 on a

et (x)2 = 102 = 100 d’où s2 = 103; 2

x2

82 + 82 + 102 + 122 + 122 = = 5

100 = 3; 2

- Dans le cas où les données sont données dans un tableau de fréquences caractére xi e¤ectifs fi fréquences relatives f1 x1 f1 n f2 x2 f2 n . . . . . . . . . fk xk fk n 17

fi n

alors

f1x21 + f2x22 + ::: + fk x2k s = n 2

( f1x1+f2xn2:::+fk xk )2

On peut écrire encore s2 =

f1 2 f2 2 fk x1 + x2 + ::: + x2k n n n

(x)2

Exercice 1 Calculer la variance de la distribution suivante: caractére xi e¤ectifs fi fréquences 2 8 9 10 12 13 Total

2 2 1 1 2 2 10

0; 2 0; 2 0; 1 0; 1 0; 2 0; 2 1

fi n

Solution Pour le calcul de la variance , on organise le tableau comme suit :

18

xi 2 8 9 10 12 13 Total x=

On a 15; 09

89 10

= 8; 9

fix2i 8 128 81 100 288 338 943

fi fixi 2 4 2 16 1 9 1 10 2 24 2 26 10 89 s2 =

et

943 10

(8; 9)2 = 94; 3

79; 21 =

- Lorsque les données sont groupées dans des intervalles , on se contente d’obtenir une approximation de la variance en remplaçant dans la formule les xi par les centres mi

f1m21 + f2m22 + ::: + fk m2k s = n 2

(

f1m1 + f2m2::: + fk mk 2 ) n

Exercice 2 Calculer la variance de la distribution suivante:

19

REGRESSION ET CORRELATION

§ 1 Introduction Dans ce chapitre, on va étudier les relations, lorsqu’elles existent, entre deux variables statistiques. Par exemple la relation entre publicité et vente, ou entre le revenu et les dépenses. § 2 : Régression linéaire simple Nuage statistique : Considérons deux caractères numériques x et y. Si à partir d’une étude menée sur un échantillon de taille n on obtient les valeurs xi et yi , la représentation graphique dans le plan de l’ensemble des points de coordonnées (xi; yi) pour i = 1; 2; ::::; n s’appelle nuage statistique. A partir de ce nuage, il faut chercher à exprimer la relation entre les deux variables à l’aide d’une équation mathématique . On pourrait le faire de plus d’une façon, mais on va se limiter ici à la plus simple, c’est-à-dire l’équation linéaire de la forme y = ax + b

- On appelle régression linéaire, l’ajustement d’une droite au nuage statistique (xi; yi) - Le problème consiste donc à trouver une droite d’équation y = ax + b qui traduit , avec le plus de …délité, le lien entre x et y. Pour cela nous allons utiliser une technique appelée : la méthode des moindres carrés, qui consiste à minimiser la somme des carrés des distances Di verticales entre la droite et chacun des points (xi; yi). Tout calcul fait (pour voir ces calculs consulter votre livre) on trouve : 20

a=

n P

i=1 n P

i=1

et

xi yi x2i

b= y

nx:y n (x)2

ax:

où x et y sont respectivement les moyennes arithemétiques de x et de y: Exemple : Une entreprise veut mener une étude pour connaître la relation entre les dépenses hebdomadaires en publicité et le volume des ventes qu’elle réalise. On a recueilli au cours des dix dernières semaines les données suivantes : X=Coût pub en103 DH 4 2 2.5 2 3 5 1 5.5 3.5 4.5 Y=Ventes en 103 DH 49.5 41 43 39 46 53 38 54 48.5 51.5 1) Trouver l’équation de la droite de régression des moindres carrés 2) Estimer le volume des ventes si la semaine prochaine on compte dépenser 3500 DH en publicité . §3 : Séries chronologiques. Lorsque la variable indépendante x représente le temps et la variable y représente un facteur quelconque on dit qu’on a a¤aire à une série chronologique . Dans ce cas la droite de régression s’appelle la droite de tendance ou le trend Méthode d’ajustement : Lorsque les di¤érentes valeurs de x (le temps) se suivent par le même intervalle , on associe à chaque valeur de x un code comme suit : - Si n est impair , les codes seront , 3; 2; 1; 0; 1; 2; 3, . Où le code 0 est associé à la valeur de x de rang n +2 1 - Si n est pair , les codes seront , 5; 3; 1; 1; 3; 5; où le code 1 est associé à la valeur de x de rang n2 + 1 21

Exemple 1 Donner les codes pour représenter la variable indépendante temps si on a 1) 1975; 1976; 1977; 1978; 1979; 1980 2) lundi mardi mercredi jeudi vendredi samedi dimanche 3) janvier , février , ., décembre. Exercice 1 Une nouvelle pâtisserie vient d’ouvrir ses portes . La série statistique suivante donne le nombre de milliers de pains vendus au cours des dix premières semaines :

Semaine x 1ère 2ère 3ère 4ère 5ère 6ère 7ère 8ère 9ère 10ère Nb de pains(103) y 1,71 1.74 1.73 1.75 1.78 1.77 1.81 1.80 1.84 1.83 1) Trouver l’équation de tendance. 2) Déterminer le nombre de pains qui va etre vendus la semaine prochaine. § 4 : Coe¢ cient de corrélation . Ce coe¢ cient va nous permettre d’aborder le problème du degré de dépendance entre les deux variables x et y. Considérons la série statistique à deux caractères : x x1 x2 . . . . . . . xn y y1 y2 . . . . . . . yn Dé…nissons la covariance de x et y par : Cov(x; y) = xy

x:y

Le coe¢ cient de corrélation r est donné par la formule suivante r=

Cov(x; y) s(x):s(y) 22

Où s(x) et s(y) sont les écart-types des variables x et y . Interprétation de r 1) On a toujours :

16r61

2) Si r > 0 alors il y a corrélation positive entre x et y , c-à-d si x augmente alors y augmente . 3) Si r < 0 alors il y a corrélation négative entre x et y , c-à-d si x augmente alors y diminue . 4) Si r = 0 alors il n’y a aucune corrélation entre x et y , les variables x et y sont indépendantes. 5) Si r est voisin de et y .

1 ou de 1, il y a une très forte dépendance entre x

6) Si r = +1 ou 1, la droite de régression s’ajuste parfaitement aux données recueillies . Exercice 1 : Intra 2000 La série suivante représente le prix d’une boite de sardines, fabriquée par une usine marocaine, au cours des dix dernières années. Années 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Prix y en DH 2.00 2.20 2.25 2.35 2.50 2.70 2.70 2.80 3.00 3.00 1) Trouver l’équation de la droite de régression. 2) Si la tendance continue estimer le prix d’une boite pour l’an 2001 et pour l’an 2002. 3) Calculer le coe¢ cient de corrélation linéaire r. 4) Que peut-on dire des estimations de la question 2 5) En quelle année le prix d’une boite atteindra les 4 DH 23

Solution On a n = 10 donc le code 1 sera attribué à la sixième année 1996 Année Code xi Prixyi en Dh 1991 -9 2.00 1992 -7 2.20 1993 -5 2.25 1994 -3 2.35 1995 -1 2.50 1996 1 2.70 1997 3 2.70 1998 5 2.80 1999 7 3.00 2000 9 3.00 Total 0 25,50

x2i yi2 81 4.00 49 4.84 25 5.06 9 5.52 1 6.25 1 7.29 9 7.29 25 7.84 49 9.00 81 9.00 330 66.095

xi:yi -18.00 -15.40 -11.25 -7.05 -2.50 2.70 8.10 14.00 21.00 27.00 18.60

1) L’équation de la droite de régression : On a : et Donc l’équation de la droite est y = 2:55 + 0:056

x

2) - L’an 2001 a pour code x = 11, donc l’estimation du prix est y = 2:55 + 0:056 11 = 3:166 DH. - L’an 2002 a pour code x = 13, donc l’estimation du prix est y = 2:55 + 0:056 13 = 3:278 DH. 3) Coe¢ cient de corrélation : On a Cov(x; y) = xy

x:y = xy car donc x = 0

18:6 = 1:86 , s2(x) = x2 10 2 (y) = 0:107

Cov(x; y) = y2

24

(x)2 = 33 et s2(y) =

Le coe¢ cient de corrélation r =

Cov(x; y) 1:86 = ' 0; 98 s(x):s(y) 5:74 0:33

4) Puisque le coe¢ cient de corrélation r est proche de 1 alors il y a une forte dépendance linéaire entre x et y , donc si la tendance continue , les estimations de la question 2 seront bonnes . 5) Si le prix est de 4 DH , alors le code de l’année est donné par c-à-d Or l’an 2008 a pour code 25 et l’an 2009 a pour code 27, donc le prix atteindra les 4 DH vers la …n de 2008. Exercice 2 :( intra 2000) Dans une entreprise on veut étudier la relation entre le revenu mensuel et les dépenses mensuelles pour le transport. Pour cela , on a choisi un échantillon de dix employés. Les résultats de l’enquête sont dans le tableau suivant : X = Rev mes en Dh 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Y= Dép en trans en Dh 500 500 475 450 570 525 725 300 625 800 1) Calculer l’équation de la droite de régression . 2) Estimer les dépenses en transport pour quelqu’un qui a un revenu mensuel de 2500 DH. 3) Calculer le coe¢ cient de corrélation . 4) Que peut-on dire de l’estimation de la question 2 . Solution : Total

25

xi 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 52.5

yi 500 500 475 450 570 525 725 300 625 800 5470

x2i 9 12.5 16 20.25 25 30.25 36 42.25 49 56.25 266.25

yi2 xi yi 25000 1500 25000 1750 225625 1900 202500 2025 324900 2850 275625 2887.5 275625 4350 90000 1950 390625 4375 640000 6000 3174900 29587.5

L’équation de la droite est donc y = 325:56 + 42:18 2) Si x = 2; 5 alors y = 325; 56 + 42; 18

2; 5 = 431; 01 DH

cov (x; y) : Où cov(x; y) = xy s (x) s (y) (x)2 et s2 (y) = y 2 (y)2 :

3) Le coe¢ cient de corrélation : r = x:y , s2 (x) = x2

x

donc il y a une faible corrélation linéaire entre x et y .

26

LES PROBABILITES

Introduction. Après avoir appris à traiter les résultats d’une enquête sur un échantillon ( la première partie) nous allons maintenant passer à la question importante, à savoir, comment généraliser les résultats obtenus sur un échantillon à toute la population (statistique inductive). Pour cela nous avons besoin de quelques notions en calcul des probabilités. Le présent chapitre sera donc juste un outil pour pouvoir aborder la statistique inductive. §1 : Notions fondamentales. Une expérience aléatoire est un processus caracterisé par: - i) on ne peut prédire son résultat, - ii) on peut décrire à priori l’ensemble de tous ses résultat possibles. Exemple 1 - Un investissement est une expérience aléatoire dont les résultats possibles sont, soit R=rentable, soit N=non rentable. - Lancer un dé est une expérience aléatoire dont les résultats sont 1,2,3,4,5 ou 6. L’espace échantionnal S associé à une expérience aléatoire est l’ensemble de tous les résultats possibles de cette expérience. Exemple 2 - Dans le cas d’un investissement

S=

n

o

N,R

- Dans le cas du dé, on a S = f1; 2; 3; 4; 5; 6g Un événement est un sous-ensemble de l’espace S 27

On dira qu’un événement A s’est réalisé lorsque le résultat de expérience aléatoire est un élément de A: Exemple 3 - Dans le cas du dé, considèrons l’événement A = ”obtenir une face paire”. On a A = f2; 4; 6g, et l’événement A sera réalisé si le résultat est 2 ou 4 ou 6. L’événement S est appelé l’événement sûr ( ou certain ) L’événement ; est appelé l’événement impossible. Lorsqu’un événement est composé d’un seul élément, il est dit simple ou élémentaire. Si A et B sont deux événements alors, - A[B est l’événement qui se réalise si au moins un de ces deux événements se réalise - A \ B est l’événement qui se réalise les deux événements se realisent. - A (lire non A) est l’événement qui se réalise si l’événement A ne se réalise pas. §2 : Probabilité d’un evenement. On dit qu’on a dé…ni une probabilité p sur un espace échantionnal lorsqu’à chaque événement A on peut associé un nombre p(A) tel que : i)

0

p(A)

S

1

ii)

p(S) = 1

iii)

p(A [ B) = p(A) + p(B)

pour tous les événements A et B tels que A \ B = ;:

§ 2.1 Conséquences immédiates. a) Pour tout événement A on a

_

p(A) = 1

p(A)

b) On a toujours p(;) = 0 c) On a toujours p(A[B) = p(A)+p(B)

p(A\B) 28

quels que soient les événements

A

et B: § 2.2 Cas particulier d’équiprobabilité.

Lors d’une expérience aléatoire, il arrive souvent (pour des raisons physiques) que les événements élémentaires aient la même chance de se réaliser. Dans ce cas on dit qu’il y a équiprobabilité des événements élémentaires. Si l’espace échantionnal est S = fr1; r2; :::; rng et si A est un événement quelconque, p(A) est dé…ni, dans le cas d’équiprobabilité, par

p(A) =

card(A) = card(S)

nombre de cas favorables à la réalisation de A nombre de cas possibles

On véri…e facilement que i) 0

p(A)

1

ii) p(S) = 1 iii) p(A [ B) = p(A) + p(B) si A \ B = ; Donc on a bien une probabilité sur S et

p(fri g) =

1 1 = : card S n

Exemple 1. On lance un dé équilibré. 1) Calculer la probabilité d’avoir un résultat pair. 2) Calculer la probabilité d’avoir un résultat impair. Solution : On a S = f1; 2; 3; 4; 5; 6g : Puisque le dé est équilibré, alors on peut supposer qu’il ya équiprobabilité des événements élémentaires. Appelons A l’événement ”avoir un résultat pair”et B l’événement ”avoir un résultat impair”. On a A = f2; 4; 6g et B = f1; 3; 5g 29

p(A) =

3 1 card A = = card S 6 2

et

p(B) =

card B 3 1 = = : card S 6 2

Exercice 1 On lance une pièce de monnaie équilibrée 3 fois d’a¢ lée, et on observe chaque fois le côté qu’elle présente lorsqu’elle tombe. 1) Calculer la probabilité d’obtenir au moins une fois le côté face. 2) Calculer la probabilité d’obtenir exactement deux fois le côté face. Solution : L’espace échantonnal est S = fF F F; F F P; F P F; F P P; P F F; P F P; P P F; P P P g Comme la pièce est équilibrée, on peut supposer qu’il y a équiprobabilité des événements élémentaires. 1) Appelons A l’événement ”obtenir au moins une fois le côté face” On a A = fF F F; F F P; F P F; F P P; P F F; P F P; P P F g et

p(A) =

card A 7 = : card S 8

Remarque 1 Pour_ calculer p(A) il est parfois plus simple d’utiliser la proprieté p(A) = _ 1 7 1 p(A). En e¤et; dans le cas présent on a A = fP P P g donc p(A) = 1 = 8 8 2) Appelons B l’événement ”avoir exactement 2 fois le côté face” On a

B = fF F P; F P F; P F F g

donc p(B) = 38 :

§3:Analyse combinatoire: Le cardinal de certains événements complexes est souvent di¢ cile à calculer. Les téchniques d’analyse combinatoire, que nous allons voir maintenant, vont nous faciliter cette tâche dans beaucoup de cas. §3.1 Principe de multiplication Si une première opération peut être executée de n1 façons, et si pour chacun des cas précédent, une deuxième opération peut être executée de 30

façons,...., et si pour chacun des cas précédent une k-ième opération peut être executée de nk façons, alors il y aura n1:n2::::nk façons d’executer toutes ces opérations.

n2

Exemple 1. Vous interroger trois personnes au hasard. Calculer la probabilité que toutes les trois soient nées un dimanche. Solution Notons le résultat de l’experience par (x; y; z) où x est le jour de naissance de la première personne, y celui de la deuxième personne et z celui de la troisième personne. Il y a 7 réponses possibles pour la première personne, et pour chaque réponse de la première personne il y a 7 réponses possibles pour la deuxième personne, et quelle que soit la réponse des deux premières personnes, il y a 7 réponses possibles pour la troisième personne. Au total , d’après le principe de multiplication, il y a 7 7 7 = 343 réponses possibles . card S = 343

Si on appelle A l’événement ”les 3 personnes sont nées un dimanche”alors 1 A = f(d; d; d)g, donc p(A) = 343 §3.2 Les arragements Considérons un ensemble …ni E à n éléments, et un entier p n: On appelle arrangement de p éléments pris parmi n, toute suite ordonnée de p éléments di¤erents formée à partir des n éléments de E: Exemple 2. Soit E = fa; b; c; dg : Les di¤erents arrangements de 2 éléments pris parmi les 4 éléments sont : ab ac ad ba bc bd ca cb cd da db dc.

Il y en a 12.

Théorème 1 : Le nombre d’arrangements de p éléments pris parmi n , noté Apn , est donné par : 31

Apn =

où n! = 1

2

:::

n

n! (n

p)!

et par convention on pose 0! = 1

Exemple 3. A24

est le nombre d’arrangements de 2 éléments pris parmi 4.

A24 =

4! (4

2)!

=

4! =3 2!

4 = 12

c’est ce qu’on atrouvé dans l’exemple précédent.

Exercice 2. Au tiercé, supposons qu’il ya aequo.

12

partants et qu’il ne peut y avoir d’ex

1) Calculer la probabilité de gagner dans l’ordre si l’on a parié une seule fois sur 3 numéros 2) Calculer la probabilité de gagner dans l’ordre ou dans le désordre si l’on a parié une seule fois sur 3 numéros. Solution Le résultat de la course est un arrangement de 3 numéros pris parmi 12. = 12 11 10 = 1320 Donc card(S) = A312 = 12! 9! Supposons qu’il y a équiprobabilité des événements élémentaires. 1) Posons A l’événement ”gagner dans l’ordre”, on a card(A) = 1 ( il y a un 1 = 0; 00075 seul arrangement gagnant) , donc p(A) = 1320 2) Si abc est le résultat dans l’ordre alors acb; bac; bca; cab et cba sont gagnant dans le désordre . Au total il y a 6 arrangements gagnant dans l’ordre ou 6 dans le désordre. La probabilité cherchée est donc égale à 1320 = 0; 0045: §3.3 Les pérmutations - On appelle pérmutation de

n

éléments de 32

E

, tout arrangement de

n

éléments pris parmi les n éléments de E . = n! - Le nombre de pérmutations de n éléments est donc Ann = (n n! n)! = n! 0!

§3.4 Les combinaisons. - Considérons un ensemble …ni E à n éléments, et un entier p n: On appelle combinaison de p éléments pris parmin, tout ss-ensemble de p éléments di¤erents formé à partir des n éléments de E: Exemple 4. Soit E = fa; b; c; dg Les di¤erentes combinaisons de 2 éléments pris parmi les 4 éléments de E sont : fa; bg

,

fa; cg

, fa; dg , fb; cg , fb; dg , fc; dg

Rappelons que dans un ensemble l’ordre dans lequel on écrit les éléments n’a aucune importance. Théorème 2 : Le nombre de combinaisons de p éléments pris parmi n , noté donné par Cnp =

Cnp ;

est

n! p!(n p)!

Exemple 5. Au jeu Loto, le parieur doit faire une sélection de 6 numéros parmi les nombres de 1 à 49. De combien de façons peut-il faire une mise? Solution : Une sélection est une combinaison de 6 éléments pris parmi les 49 ( car l’ordre n’a aucune importance) . Il y a donc C496 = 6!(4949! 6)! = 13983816 façons 33

de faire une mise. La probabilité de gagner avec une mise est

1 = 0; 000000071 13983816

§4: Probabilité conditionnelle Soit A un événement dans le cadre d’une expérience aléatoire, et B un événement non impossible ( i.e p(B) 6= 0 ) ; alors la probabilité de l’événement A sachant que l’événement B est déjà réaliser , notée p(A=B) , est donnée par p(A=B) =

p(A=B)

p(A \ B) p(B)

s’appelle la probabilité de A par rapport à B:

Exemple 1 1) Quelle est la probabilité qu’une famille de 2 enfants n’ait que des …lles sachant que l’aînée est une …lle. 2) Quelle est la probabilité qu’une famille de 2 enfants n’ait que des …lles sachant qu’elle a au moins une …lle. Solution: L’espace echantionnal de cette expérience est S = fF F; F G; GF; GGg Appelons A l’événement ”la famille n’a que des …lles” B

l’événement ”l’ainée est une …lle”

C

l’événement ”la famille a au moins une …lle”

On a A = fF F g , B = fF F; F Gg ; 1) On doit calculer p(B) =

2 , 4

d’où

p(A=B):

C = fF F; F G; GF g

Pour cela on a A \ B = fF F g donc

1 p(A=B) 1 p(A=B) = = 4 = 2 p(B) 2 4

p(A \ B) =

1 4

et

2) On doit calculer ici p(A=C). pour cela on a A \ C = fF F g donc p(A \ C) = 14 34

et

p(C) =

3 4

d’où

p(A=C) =

p(A \ C) = p(C)

1 4 3 4

1 = : 3

Exercice 1 Le tableau suivant présente le comportement d’un échantillon de consommateurs par rapport à une compagne publicitaire en faveur d’une lessive. les consommateurs qui ont acheté n’ont pas acheté total ont vu la pub 15 30 45 n’ont pas vu la pub 15 60 75 total 30 90 120 Si l’on considére au hasard une personne de cette échantillon : 1) Quelle est la probabilité qu’elle ait acheté la lessive ? 2) Quelle est la probabilité qu’elle ait acheté la lessive si elle a vu la publicité? 3) Est-ce que la publicité a eu des e¤ets positifs sur les consommateurs? Solution - L’échantillon contient 120 personnes au total; parmi elles 30 ( au total ) ont acheté la lessive. 1) Si on choisit une personne au hasard ( sans aucune information sup30 1 plémentaire) la probabilité qu’elle ait acheté la lessive est 120 = 4 2) Si on choisit une personne au hasard et si on sait qu’elle a vu la publicité (il y en a 45 au total qui ont vu la pub parmi lesquelles 15 ont acheté ) alors la probabilité qu’elle ait acheté est 1545 = 13 3) Puisque 31 > 14 donc la probabilité qu’une personne achéte la lessive après avoir vu la pub est supérieur à la probabilité qu’une personne prise au hasard achète la lessive; donc la publicité a eu des e¤ets positifs sur les consommateurs. §5 Les variables aléatoires (v.a) 35

Soit S l’espace échantionnal associé à une expérience aléatoire. Une variable aléatoire est une fonction de S dans R . Généralement une v.a sera désigné par X; Y; Z ou T: Exemple 1 On lance une pièce de monnaie trois fois, alors on a vu que S = fF F F; F F P; F P F; F P P; P F F; P F P; P P F; P P P g

On peut considérer la v.a X qui compte le nombre de faces, on alors X(F F F ) = 3 ; X(F F P ) = 2 ; X(F P F ) = 2; ::::X(P F P ) = 1 ; X(P P P ) = 0

Les valeurs possibles de X sont 0; 1; 2 et 3 §5.1 Nouvelle notation pour les événements Soit X une v.a . l’écriture (X = a) désignera l’événement fs 2 S : X(s) = ag Exemple 2 Dans le cadre de l’exemple précédent on a : (X = 3) = fF F F g ; (X = 2) = fF F P; F P F; P F F g ; (X = 1) = fP F P; P P F; F P P g (X = 0) = fP P P g :

et

- On peut donc parler de p(X = a); par exemple on a p(X = 3) = 81 ; p(X = 2) = 83 ; p(X = 1) = 38 et p(X = 0) = 18 - De même on note par suivants: (X (a (X

a) = fs 2 S : X(s) X

b) = fs 2 S : a

a) = fs 2 S : X(s)

(X

a); (a

X

b)

ou

(a

ag X(s)

bg

ag :

Exemple 3 Toujours dans le cadre de l’exemple précédent on a 36

X)

les événements

(X

1) = fP P P; P F P; P P F; F P P g

et

p(X

1) =

4 1 = : 8 2

§5.2 Remarque : Comme pour les variables statistiques quantitatives, il y a deux types de v.a : discrètes et continues. a)

Une v.a est discrète si l’ensemble des valeurs qu’elle peut prendre est …ni ou dénombrable, par contre si l’ensemble des ses valeurs est un intervalle, elle sera dite continue. b)

37

LES LOIS D0USAGE COURANT

Dans ce chapitre, nous allons étudier trois exemples importants de variables aléatoires obéissant aux lois suivantes: binomiale, de Poisson et la loi normale. §1 Variable aléatoire discrète Soit

X une p(X = xi ) = pi

v.a discrète pouvant prendre les valeurs pour i = 1; 2; :::; n .

On appelle loi de la variable tableau suivant:

X

x1 ; x2 ; :::; xn

. Posons

(ou distribution de probabilité de X ) le

X x1 p(X = xi ) p1

x2 p2

.... xn .... pn

Remarquons que cela est identique à une distribution de fréquences pour une variable statistique où les probabilités pi remplacent les fréquences relatives fni : De même que pour une variable statistique, on peut calculer la moyenne, la variance et l’écart-type d’une v.a. - La moyenne, appelée aussi l’espérance mathématique et notée E(X);d’une v.a X est dé…nie par E(X) =

n P

pi xi

i=1

où les xi sont les valeurs de X et pi = p(X = xi) pour i = 1; 2; :::; n . - La variance de X , notée V ar(X), est dé…nie par : V ar(X) = E(X 2 )

- L’écart-type de variance:

X

, noté

(X);

(E(X))2

est dé…ni comme la racine carrée de la (X) =

38

p

V ar(X)

§2 La loi binomiale. Considérons une expérience qui n’a que deux résultats possibles dont l’un est appelé R (réussite) et l’autre est appelé E (échec), avec p(R) = p et p(E) = 1

p = q:

Ce genre d’expérience s’appelle expérience de Bernoulli. Répétons cette expérience n fois et considérons la variable aléatoire X qui compte le nombre de réussites au cours des n essais. Alors les valeurs possibles pour X sont 0; 1; 2; :::; n; et on démontre que la loi de probabilité de X est donnée par : p(X = k) = Cnk pk q n

k

pour

k = 0; 1; 2; :::; n:

représente la probabilité d’avoir k réussites après n essais . Cette v.a est dite suivre la loi binomiale de paramétres n et p, et pour dire cela en abrégé on note X B(n; p)

p(X = k)

On montre que si

X

B(n; p)

E(X) = np

alors ,

V ar(X) = npq

et

(X) =

p

npq

Exemple 1. Calculer la probabilité d’obtenir 6 bonnes réponses dans un test de 10 questions où il y a 4 choix de réponses pour chacune d’elles, si l’on choisit les réponses tout à fait au hasard. Solution Lexperience ”répondre à une question au hasard” n’a que deux résultats:ou bien la réponse est juste R (réussite) avec la probabilité 41 ; ou bien la réponse est fausse E (échec) avec la probabilité 34 : Cette experience se répète 10 fois dans le test. Considérons maintenant la v.a X qui compte le nombre de bonnes réponses. Il est clair que X

1 B(n = 10; p = ): 4 39

La probabilité d’avoir 6 bonnes réponses est donc donnée par p(X = 6): On a alors

6 1 6 3 10 p(X = 6) = C10 ( )( ) 4 4

6

= 0; 0162

Exercice 1 Dans le cadre de l’exemple précédent , calculer : 1) la probabilité de n’avoir aucune bonne réponse, 2) la probabilité d’avoir au moins cinq bonnes réponses. Solution 1) la probabilité de n’avoir aucune bonne réponse est donnée par p(X = 0): On a

0 1 0 3 10 p(X = 0) = C10 ( ) ( ) = 0; 0563: 4 4

2) la probabilité d’avoir au moins 5 bonnes réponses est donnée par p(X 5):

Or p(X

5) = p(X = 5) + p(X = 6) + p(X = 7) + p(X = 8) + p(X = 9) + p(X = 10)

Pour accélérer ces calculs, on dispose d’une table (à la …n du livre) donnant les valeurs numériques de p(X = k) pour certaines valeurs de n et p. Après lecture de la table , on trouve p(X

5) = 0; 0584 + 0; 0162 + 0; 0031 + 0; 0004 + 0; 000 + 0; 000 = 0; 0781

§3 La loi de Poisson Considérons un événement R dont on sait (par expérience) qu’il se réalise en moyenne fois dans un intervalle de temps t (ou dans une région D) donné. Alors la v.a X qui compte le nombre de réalisation de l’événement R dans l’intervalle de temps t (ou dans la région D) a pour loi de probabilité : k

p(X = k) = e p(X = k)

:

k!

pour k = 0; 1; 2; :::

est la probabilité que l’événement R se réalise k-fois dans l’intervalle 40

de temps

t

(ou dans la région D)

Une telle v.a est dite suivre la loi de Poisson de paramètre exprimer cela on écrit X Po( ): On montre que si X

Po ( )

alors

E(X) = V ar(X) =

et

(X) =

;

et pour

p

Exemple 2 Dans une grande usine, on sait, par expérience, qu’il se produit en moyenne 1; 8 accident de travail par semaine. 1) Calculer la probabilité qu’il se produise, dans cette usine, trois accidents en une semaine. 2) Calculer la probabilité qu’il se produise, dans cette usine, au plus deux accidents en une semaine. Solution L’événement R ici est ”un accident de travail”. On sait qu’il se réalise en moyenne 1; 8 fois par semaine. Donc t = une semaine, et = 1; 8 La v.a X qui compte le nombre d’accidents par semaine suit alors une loi de Poisson de paramètre 1; 8: X Po (1; 8) 1) La probabilité d’avoir trois accidents par semaine est donnée donc par p(X = 3) = e

3 1;8 (1; 8)

3!

= 0; 1607

2) La probabilité de voir se produire au plus 2 accidents par semaine est donnée par p(X 2) = p(X = 0) + p(X = 1) + p(X = 2) =e

0 1;8 (1; 8)

0!

+e

1 1;8 (1; 8)

1!

+e

2 1;8 (1; 8)

2!

Pour calculer rapidement des expressions de ce genre, une table est fournie en annexe à la …n du livre. On lit sur la table p(X = 0) = 0; 1653; d’où

p(X

p(X = 1) = 0; 2975

et p(X = 2) = 0; 2678

2) = 0; 1653 + 0; 2975 + 0; 2678 = 0; 7306

Exemple 3 41

Le nombre moyen de défauts mineurs par mètre carré de tissu produit par une usine de textile est 0; 3. Si les défauts sont distribués au hasard dans la production, quelle est la probabilité qu’un mètre carré de tissu contienne plus d’un défaut. Solution L’événement R ici est ”un défaut mineur”. On sait qu’il se réalise en moyenne 0; 3 fois par mètre carré. Donc la région D=un mètre carré, et = 0; 3

La v.a X qui compte le nombre de défauts mineurs par mètre carré, suit donc une loi de Poisson de paramètre 0; 3: X Po(0; 3) la probabilité qu’un mètre carré de tissu contienne plus d’un défaut est donnée par p(X > 1) = p(X = 2) + p(X = 3) + :::::: Pour faciliter ce calcul , il vaut mieux passer par l’événement contraire comme suit: p(X > 1) = 1

p(X

1)

=1

[p(X = 0) + p(X = 1)]

=1

(0; 7408 + 0; 2222)

= 0; 037

§3.1 Remarque importante Soit X Po( ) . Il arrive souvent qu’on cherche la probabilité de voir se réaliser l’événement R en question pendant n t (ou dans la région nD). Alors dans ce cas la v.a Y qui compte le nombre de réalisation de R pendant n t ( ou nD) suit la loi Po(n ): Exemple 4. Dans le cadre de l’exemple précédent, quelle est la probabilité qu’une pièce de tissu de 10 mètres carrés ne contienne aucun défaut. Solution On sait qu’en moyenne, il y a 0; 3 défauts par mètre carré, donc il y a en moyenne 10 0; 3 = 3 défauts par 10 m2: 42

La v.a Y qui compte le nombre de défauts par Poisson de paramètre 3: Y Po(3)

10 m2

suit donc la loi de

la probabilité qu’une pièce de tissu de 10 mètres carrés ne contienne aucun 0 = 0; 0498 défaut est donnée par p(Y = 0) = e 3 (3) 0! Exercices Exercice 1 (…nal 2000) Par expérience, on sait qu’une personne sur huit parmi celles qui entrent dans un supermarché n’achète aucun article. Parmi les culer:

12

prochaines personnes qui vont entrer au supermarché, cal-

1) la probabilité qu’il s’en trouve au moins une personne qui n’achète rien ; 2) la probabilité que les 12 achètent chacun au moins un article. Exercice 2 L’expérience montre que 61 des cosommateurs contactés par un vendeur d’aspirateurs achètent un des produits o¤erts.Calculer la probabilité que parmi les 15 prochaines personnes contactées, il s’en trouve 5 qui accéptent d’acheter le produit. Exercice 3 Des relevés récents montrent qu’il entre en moyenne 1; 6 clients par minute dans une agence banquaire. 1) Quelle est la probabilité qu’il n’entre, dans cette agence, aucun client pendant un intervalle d’une minute 2) Quelle est la probabilité qu’il entre, dans cette agence, au moins un client pendant un intervalle de deux minutes 3) Quelle est la probabilité qu’il entre, dans cette agence, au plus 5 clients pendant un intervalle de 5 minutes. 43

Solutions Exercice 1 Une personne qui entre au supermarché est une expérience qui n’a que deux résultats : ou bien la personne n’achète aucun article R (réussite) avec p(R) = 81 ; ou bien la personne achète au moins un article E (échec) avec p(E) = 87 : Pour les 12 prochaines personnes qui entrent au supermarché, cette expérience se répéte 12 fois . Considérons la v.a X qui compte le nombre de personnes qui n’achètent aucun article. Alors X B(n = 12; p = 18 ) 1) la probabilité que parmi les 12 au moins une personne n’achète rien est donnée par p(X 1) = 1 p(X < 1) = 1 p(X = 0) = 1 C120 ( 18 )0( 87 )12 = 0; 798 58 2) Considérons la v.a Y qui compte le nombre de personnes qui achètent au moins un article. Il est clair que cette v.a suit une loi binomiale de paramétres n = 12, et p = 78 : La probabilité que les 12 achètent chacun au moins un article est donnée par p(Y = 12): 12 7 12 1 0 ( 8 ) ( 8 ) = ( 78 )12 = 0; 201 4 p(Y = 12) = C12

Exercice 2 Contacter un client est une expérience à deux résultats : ou bien le client achète (Réussite) , avec p(R) = 16 , ou bien il n’achète pas (Echec) , avec 5 p(E) = : 6

Lorsque le vendeur cotacte 15 clients, il répète l’expérience 15 fois. Donc la v.a X qui compte le nombre de clients qui achètent , suit la loi binomiale 1 B(n = 15; p = ): 6

La probabilité que parmi les 15 clietns contactés, il s’en trouve 5 qui achètent, est donnée par p(X = 5) = C155 ( 61 )5( 56 )10 = 0; 0623 (n’existe pas dans 44

la table) Exercice 3 1) L’événement R ”un client entre dans l’agence”se produit en moyenne 1; 6 fois par minute. Donc la v.a X qui compte le nombre de clients qui entrent, par minute, dans l’agence suit une loi de Poisson de paramètre 1; 6:

La probabilité qu’il n’entre aucun client dans l’agence pendant un inter0 valle d’une minute est donnée par p(X = 0) = e 1;6 (1;0!6) = 0; 2019 2) De même si on considére la v.a Y qui compte le nombre de clients qui entrent dans l’agence pendant un intervalle de deux minutes, alors Y Po (3; 2) car 2 1; 6 = 3; 2 la probabilité qu’il entre, dans cette agence, au moins un client pendant un intervalle de deux minutes est donnée par : p(Y

1) = 1

p(Y < 1) =1 = 1

p(Y = 0) 0; 0408

= 0; 9592

3) Soit Z la v.a qui compte le nombre de clients qui entrent dans l’agence pendant un intervalle de 5 minutes. On a Z Po(8) car 5 1; 6 = 8. la probabilité qu’il entre, dans cette agence, au plus 5 clients pendant un intervalle de 5 minutes est donnée par : p(Z

5) = p(Z = 0) + p(Z = 1) + :::: + p(Z = 5)

(la lecture de la table donne)

= 0; 0003 + 0; 0027 + 0; 0107 + 0; 0286 + 0; 0573 + 0; 0916 = 0; 1912:

§4 Variable aléatoire continue Pour une v.a aléatoire X continue, sa loi de probabilité est donnée par une fonction f appelée densité de probabilité de X: Elle est représentée par une courbe continue et la probabilité p(a X b) est donnée par la 45

surface comprise entre la courbe de et x = b

, l’axe

f

Ox

et les droites verticales

x=a

La surface totale entre la courbe de égale à 1

f

et l’axe des x est évidemment

On dé…nit l’espérance mathématique, la variance et l’écart type d’une variable continue comme suit: E(X) =

R

V ar(x) = (X) =

xf (x)dx R

x2 f (x)dx

(E(x))2 = E(X 2 )

(E(X))2

p

V ar(X)

Dans la suite on va avoir besoin de la dé…nition suivante: Une variable aléatoire est dite centée si E(X) = 0 et elle est dite réduite si V ar(X) = 1:

Si on a à la fois E(X) = 0 et V ar(X) = 1 , elle sera dite centrée réduite. On montre que si X est une v.a telle que E(X) = et (X) = alors la est une variable centrée réduite c’est-àdire que E(Z) = 0 variable Z = X et (Z) = 1 §4.1 La loi normale centée réduite Une variable Z est dite normale centée réduite si sa densité de probabilité est donnée par : x2 1 f (x) = p e 2 2

Pour dire qu’une variable aléatoire réduite, on écrit Z N (0; 1)

Z

suit une loi est normale centrée

§4.2 Proprietés La courbe de f est symétrique par rapport à l’axe des y La surface comprise entre la courbe et l’axe des x est comme on l’a déjà dit est égale à 1, donc l’axe des y divise cette surface en deux parties 46

égales chacune à 0; 5 Pour calculer une probabilité, lorsque Z N (0; 1) , on se sert d’une table construite pour cela. Cette table donne seulement p(Z z0) pour z0 > 0 . c’est-à-dire elle donne la surface hachurée. Pour comprendre comment lire la table voici un exemple Exemple 1. Soit

Z

N (0; 1):

Calculer p(Z

1; 65):

On utilise la table comme suit: on écrit 1; 65 = 1; 6+0; 05. Puis au croisement de la ligne 1; 6 et la colonne 0; 05 on lit la probabilité p(Z 1; 65) = 0; 9505: Pour calculer toutes les probabilités, même celles qui ne sont pas données par la table, par exemple p(Z 1; 65) ou p(Z 1; 36) , on utilise les proprietés de f . Voici comment : §4.2 Calcul de

p(Z

z0 )

avec z0 négatif.

Bien sûr cette probabilité n’est pas donnée par la table, mais en utilisant les proprietés de la densité, on peut la calculer en se ramenant à ce que donne la table c’est-à-dire p(Z x) où x est positif. La surface S1 est égale à la surface S2 à cause de la symétrie de la courbe par rapport à l’axe des y. On a donc p(Z

z0 ) =surface =1

p(Z

totale

p(Z

(avec

z0 )

z0 ):

La table nous donne p(Z

z0 )

car

z0

47

0.

z0

0)

ECHANTILLONNAGE ET ESTIMATION

Dans ce chapitre on va aborder le problème fondamental de la statistique, à savoir développer des procédés permettant de généraliser à toute une population des résultats observés sur un échantillon, tout en étant capable de mesurer les chances que ces généralisations s’avèrent exactes. §1: Echantillon aléatoire Dans la pratique, il est souvent impensable de faire porter notre étude statistique sur l’ensemble de tou les individus de la population. On procède alors par échantillonnage, c’est-à-dire que l’on restreint notre étude à une partie de la population. Pour que les conclusions de notre étude soient valables, les échantillons doivent être représentatifs. Une des façons d’obtenir un échantillon représentatif est de procéder à un échantillonnage aléatoire, ce qui revient à considérer que les individus de la population ont la même chance d’appartenir à un même échantillon. En…n, pour obtenir un échantillon aléatoire , on attribue un numéro à chaque individu de la population; on inscrit ces numéros sur des petits morceaux de papier que l’on place dans une urne, puis on procéde à un tirage dans l’urne. Quand on a extrait un individu d’une urne, avant de procéder à un nouveau tirage, on peut soit l’y remettre (tirage avec remise), soit ne pas l’y remettre(tirage sans remise). Dans le deuxième cas, un individu ne peut sortir qu’une seule fois. Quand chaque individu d’une population peut être tiré plus d’une fois, l’échantillonnage est dit non exhaustif, dans le cas contraire il est dit exhaustif. §2 Distribution d’échantillonnage des moyennes Supposons qu’un certain caractère numérique dans une population a pour moyenne et d’écart-type : Considérons tous les échantillons de taille n, qui peuvent être extrait au hasard (avec ou sans remise). Désignons par x1; x2; ::: les moyennes du caractère dans l’échantillon 1,2,...etc. 48

Considérons la variable aléatoire X dont les valeurs possibles sont x1; x2; ::: La variable aléatoire X s’appelle distribution d’échantillonnage des moyennes. On montre les deux théorèmes suivants : Théorème 1: Les caractéristiques de X a) Si le tirage est exhaustif dans une population de taille N, on a : E( X) =

et

( X) = p

E( X) =

et

n

r

N N

n 1

b) Sinon on a : ( X) = p

n

Théorème 2: La loi de X Dans une population distribuée normalement (c-à-d le caractère suit la loi normale dans la population) ou dans une population quelconque mais avec n 30 on a : X N ( ; 2(X)) Remarque. Le facteur

r

N N

n 1

qui s’appelle facteur d’exhaustivité peut être pris égal

à 1 si n 0; 05N: Autrement dit inférieur à 5% de la population.

r

N N

n =1 1

si la taille de l’échantillon est

Exemple 1 Supposons que le poids d’une population de 60 étudiants d’une université est normalement distibué avec une moyenne = 64 kg et une variance 2 = 20 kg2 : Un échantillon de 20 étudiants a été tiré. 1) Trouver les caractéristiques et la loi de probabilité de la distribution d’échantillonnage des moyennes X si le tirage a été e¤ectué avec remise. 2) Même question pour un tirage sans remise. 49

3) Trouver la probabilité qu’un échantillon de taille ait une moyenne supérieure ou égale à 66 kg.

20

tiré avec remise

4) Trouver deux valeurs L1 et L2 situées à distance égale de part et d’autres de = 64 telles que la probabilité que la moyenne d’un échantillon non exhaustif de 20 étudiants tombe entr ces deux valeurs soit 0; 95. Solution. 1) On est dans le cas non exhaustif, donc les caractéristiques de X sont ( voir théorème 1) E( X) =

= 64

kg

p 20 ( X) = p = p = 1 n 20

et

Puisque la population est distribuée normalement alors (voir théorème 2) Donc ici

X

X

N(

;

2

(X))

N (64 ; 1)

2) Si le tirage est exhaustif alors le théorème 1 nous dit que kg et

E( X) = 64

p r 20 60 20 ( X) = p 20 60 1

ce qui donne

( X) = 0; 8234

Le théorème 2 nous dit que X

N (64 ;

2

(X) = 0; 6779)

3) Puisque le tirage est avec remise alors on est dans le cadre de la question 1) donc X N (64; 1): La probabilité demandée est P (X 66): Pour la calculer faisons le changement de variable habituel Z=

X (X)

=

X

64 1

donc

On sait que dans ce cas P (X

66) = P (Z + 64

Z

X = Z + 64 N (0; 1)

66) 50

= P (Z

2)

=1

P (Z

2)

=1

0; 9772

= 0; 0228:

4) La question signi…e qu’il faut chercher L1 et L2 telles que L2 ) = 0; 95 avec X N (64; 1) puisque le tirage est avec remise.

P (L1

X

X

On a

0; 95 =

Pour cela posons encore P (L1

X

L2 ) = P (L1

Z =

=

X 1 64

(X) L2 ) = P (L1

Z + 64

64

donc Z

L2

X = Z + 64

64)

Puisque L1 et L2 doivent être symétriques par rapport à la moyenne = 64 de X alors pour la variable aléatoire Z ceci revient à chercher t > 0 tel que P( t

Z

t) = 0; 95:

Dans ce cas on a : P( t

donc, P (Z

Z t) =

t) =

P (Z

1+0;95 2

= 0; 975

t)

P (Z

t) = P (Z

t)

[1

P (Z

t)] = 0; 95

La table de la loi normale nous donne t = 1; 96 et par suite On peut écrire donc

P (62; 04

X

65; 96) = 0; 95

Autrement dit l’intervalle [62; 04 ; 65; 95] possède 95% de chance de contenir la moyenne d’un échantillon non exhaustif de taille 20. Exercice 1 La durée de vie moyenne des ampoules électriques produites par une usine est de 800 heures avec un écart-type =40 heures: De cette population on tire un échantillon de taille 25 pris sans remise(exhaustif). Trouver, en supposant que la durée de vie des ampoules est distribuée normalement: 1) P (X 2) P (790

785) X

810)

3) L1et L2 symétriques par rapport à 51

= 800

telles que P (L1

X

L2 ) = 0; 90:

Exercice 2 Les résultats de 200 étudiants à un test de mathématiques présentent une moyenne de 75 sur 100 et un écart-type de 10 . De cette population , on préléve , sans remise, un échantillon de taille 50. Trouver: 1) La probabilité que le résultat moyen de cet échantillon se situe entre 74 et 76. 2) Les limites L1 et L2 d’un intervalle symétrique par rapport à la moyenne qui posséde 99% des chances de contenir la moyenne de cet échantillon. Solutions Exercice 1 On a

= 800 h et

= 40 h

Le tirage est exhaustif, donc on doit tenir compte du facteur d’exhaustivité puisque n = 25 < 30 . Mais on peut considérer que la population est très grande, donc n < 0; 05N (ce qui est logique puisque 25 ampoules représente certainement moins de 5% de la production de l’usine) et par suite le facteur d’exhaustivité peut être pris égal à 1. D’où 40 (X) = p = p = 8 n 25

et

E(X ) = 800 h

La population est supposée normale donc X

X

800

Posons

Z=

1)

P (X

785) = P (8Z + 800

2)

P (790

X

(X)

=

donc

8

X = 8Z + 800

785) = P (Z

810) = P (790

1; 88) = 1

8Z + 800

= P ( 1; 25 = P (Z = P (Z

X

N (800 ; 64)

avec

P (Z

810) Z

1; 25)

1; 25)

P (Z

1; 25)

[1

= 2P (Z

1; 25)

= 2(0; 8944)

1 52

P (Z 1

1; 25) 1; 25)]

Z

N (0 ; 1)

1; 88) = 1

0; 9699 = 0; 0301:

= 0; 7888

Cette probabilité signi…e qu’il y a 78; 88% de chances que la moyenne d’un échantillon exhaustif de taille 25 soit dans l’intervalle [790 ; 785] 3) De la même façon que dans l’exemple du cours, on a : X

P (L1

L2 ) = P (L1

8Z + 800

Cherchons t > 0 tel que

L2 ) = P (

P( t

Ceci est équivalent à P (Z dans la table est t = 1; 65 L1

800 8

=

1; 65

et

L2

Z t) =

800

= 1; 65

8

L1

800 8

Z

L2

800 8

) = 0; 90

t) = 0; 90 1 + 0; 90 = 0; 95: 2

la valeur de t la plus proche

Donc L1 = 786; 8 et L2 = 813; 2

Ceci signi…e qu’il y a 90% de chances que la moyenne d’un échantillon de taille 25 soit dans l’intervalle [786; 8 ; 813; 2] : Exercice 2 On a

= 75

;

= 10

;

n = 50

Le tirage est exhaustif donc

et

N = 200

E(X) = 75

(X) = p

et

1; 23

Puisque

n = 50 > 30

alors

Posons comme toujours 1) P (74

X

76) = P (74

Z=

X 75 1; 23

74 75 1; 23

= P ( 0; 81 = P (Z = P (Z = 2P (Z

N N

n 10 =p 1 50

r

200 50 ' 200 1

N (75 ; (1; 23)2 )

X

1; 23Z + 75

= P(

n

r

donc

X = 1; 23Z + 75

76) 76 75 ) 1; 23

Z Z

0; 81) 0; 81) 0; 81)

0; 81) P (Z [1

P (Z 1 53

0; 81) 0; 81)]

et

Z

N (0 ; 1)

= 2(0; 7910)

1

= 0; 5820

2) P (L1 P (L1

X

L2 ) = 0; 99

1; 23Z + 75

L2 = 0; 99

On cherche t > 0 tel que résoudre l’équation P (Z

t) =

1 + 0; 99 = 0; 995 2

=) P (

L1 75 1; 23

P( t

Z

Z

t) = 0; 99

L2 75 ) = 0; 99 1; 23

et comme avant ceci revient à

. La table de la loi normale nous donne t = 2; 58 (la

valeur la plus proche) Donc L1 75 = 1; 23

2; 58 et

L2 75 = 2; 58 =) L1 = 1; 23( 2; 58) + 75 = 71; 83L2 = 1; 23(2; 58) + 75 = 78; 17 1; 23

L’intervalle [L1 ; L2] a 99% de chances de contenir la moyenne d’un échantillon exhaustif de taille 50. §3 Estimation par intervalle de con…ance de la moyenne Lors d’une étude statistique, en général la moyenne de la population est inconnue. Le problème qui nous interésse ici est de trouver un intervalle [L1 ; L2 ] tel que la probabilité que appartienne à cet intervalle soit …xée d’avance. Dé…nition 1 On appelle intervalle de con…ance, un intervalle de la forme [L1 ; L2] symétrique par rapport à ayant une certaine probabilité de contenir la moyenne : Dé…nition 2 On appelle niveau de con…ance, noté 1 , la probabilité qu’à l’intervalle de con…ance de contenir la moyenne : Le nombre s’appelle le risque d’erreur. Méthode de calcul de L1 et L2 Si n 30 , ou si la population est distribuée normalement avec connu, on sait que dans ce cas que X N ( ; 2(X)):

54

Posons

Z=

X (X)

, on sait qu’alors

1ereétape: on cherche d’abord comment: On a

P (Z

P (Z

t) t)

[1

P (Z

t > 0

Z

N (0; 1)

tel que

P( t

Z

. Voici

t) = 1

t) = 1

P (Z

donc

t)] = 1

P (Z

t) = 1

la table de la loi normale.

2

et

t

sera donné par

2emeétape: Une fois que t est connu, on peut écrire que P ( 1 donc P (X

t (X)

t

X (X)

t) =

X + t (X)) = 1

Pour un échantillon, la variable aléatoire X prend la valeur x, donc L1 = x

t (X)

L2 = x + t (X)

Si est inconnu, alors on peut prendre une valeur estiméé ponctuelle pour ; c’est-à-dire l’écart-type trouvé dans l’échantillon. Remarque Pour le calcul de l’intervalle de con…ance [L1; L2] on prendra les valeurs de t suivantes: t = 2; 58

si

= 1%

t = 1; 96

si

= 5%

t = 1; 65

si

= 10%

Exemple Une machine est réglée pour verser un certain mélange dans une boite avec un écart-type de 3; 2 grammes. Parmi l’ensemble de la production, on prélève au hasard, avec remise, 30 boites pour chacune d’elles on a noté le poids. Sachant que le poids moyen obtenu à partir de l’échantillon est 165 grammes, construire un intervalle de con…ance à 95% pour le poids moyen des boites remplies par cette machine. Solution : 55

On a et L1 = x t (X) et tirage est non exhaustif alors Comme 1 Donc

= 0; 95 L1 = 165

alors

L2 = x + t (X) avec x = 165g 3; 2 (X) = p = p = 0; 584:: n 30

= 0; 05 = 5%

donc

et puisque le

t = 1; 96

(1; 96)(0; 584) = 163; 86

L2 = 165 + (1; 96)(0; 584) = 166; 14

On a donc

P ( 2 [163; 86 ; 166; 14]) = 0; 95

Autrement dit, on a 95% de chances que la moyenne appartienne à l’intervalle [163; 86 ; 166; 14] :

Exercice 1 Etan donné que la moyenne et l’écart-type de la durée de vie d’un tube écran de télévision fabriqué par une compagnie sont inconnus, on a prelevé au hasard dans la production un échantillon de taille 36 pour lequel on a obtenu une moyenne de 6 ans et un écart-type de 0; 8 an . Construire un intervalle de con…ance à 95% pour puis un intervalle de con…ance à 99%: Exercice 2 Dans le but de se faire une idée sur l’e¢ cacité d’un nouveau médicament devant prolonger la durée du sommeil des gens, on a administré une dose de ce médicament à 40 individus choisis au hasar. On a obtenu un temps supplémentaire moyen de sommeil de 1; 6 heures avec un écart-type de 0; 4 heure pour ces individus. Construire un intervalle de con…ance à 99% pour’ , le temps moyen de prolongation de sommeil causé par le médicament. Solution : Exercice 1 On a

n = 36

;

L1 = x

t (X)

et

x=6

et

L2 = x + t

l’écart-type de l’échantillon s = 0; 8: On a aussi s 0; 8 (X) où (X) = p = p = 0; 133:: n 36

Ici on a pas tenu compte du facteur d’exhaustivité car on peut considérer que la population est très grande, et par suite la taille de l’échantillon représente moins de 5% de la taille de la population. 56

- Si

= 5%

L1 = 6

alors t = 1; 96 donc

(1; 96)(0; 133) = 5; 74

et L2 = 6 + (1; 96)(0; 133) = 6; 26

D’où - Si

P ( 2 [5; 74 ; 6; 26]) = 0; 95 = 1%

L1 = 6

alors t = 2; 58 donc

(2; 58)(0; 133) = 5; 66

L2 = 6 + (2; 58)(0; 133) = 6; 34

D’où

P ( 2 [5; 66 ; 6; 34]) = 0; 99

Exercice 2 On a Pour L1 = x

n = 40 ; x = 1; 6 = 1%

on a

t (X) = 1; 6

et

t = 2; 58

s = 0; 4

donc

s 0; 4 (X) = p p = 0; 06 n 40

donc

(2; 58)(0; 06) = 1; 45

L2 = x + t (X) = 1; 6 + (2; 58)(0; 06) = 1; 75

Donc

P ( 2 [1; 45 ; 1; 75]) = 0; 99

§4 Distribution d’échantillonnage des proportions Considérons une population dans laquelle chaque individu posséde ou ne posséde pas un caractère. Supposons que la proportion de ceux qui possédent le caractère est p ( donc la proportion de ceux qui ne possédent pas le caractère est 1 p) Considérons tous les échantillons de taille n qui peuvent être extrait de la population . Pour chaque échantillon i déterminons la proportion fi de ceux qui posséedent le caractère. La variable aléatoire F dont les valeurs sont ution d’échantillonnage des proportions.

57

f1 ; f2 ; :::

est appelée distrib-

On a les théorèmes suivants: Théorème 1 Si le tirage est sans remise (exhaustif) dans une population de taille alors E(F ) = p

et

(F ) =

r

p(1

p) n

r

N N

N

n 1

Sinon on a E(F ) = p

et

(F ) =

r

p(1

p) n

Théorème 2 Si n

30

alors

F

N (p ;

2

(F ))

Remarque Si

n < 0; 05N

le facteur d’exhaustivité

r

N N

n 1

peut être pris égal à 1:

Exercice 1 Une certaine machine usine des pièces. D’une façon générale, elle produit 3% de pièces mauvaises. Un client reçoit une caisse de 500 pièces, en provenance directe de la machine. 1) Quelle est la probabiulité qu’il trouve moins de 1% de pièce mauvaises à l’interieur de la caisse. 2) Quelle est la probabiulité qu’il trouve plus de 5% de pièce mauvaises à l’interieur de la caisse Exercice 2 Calculer la probabilité pour que sur les 200 prochains accidentés de voiture sur les routes, il existe: 1) moins de30% d’hommes, 2) plus de 80% d’hommes 58

3) entre 40% et 60% d’hommes sachant que, généralement, sur cinq personnes accidentées il y a une femme. Solution : Exercice 1 D’une façon générale, la proportion de pièces mauvaises est p = 3% = 0; 03: On peut considérer que l’échantillon provient d’une population très grande (donc n 0; 05N ) . La distibution d’échantillonnage des proportions F a donc les caractéristiques suivantes: E(F ) = p = 0; 03

;

(F ) = F

r

p(1

p) n

0; 03(1 0; 03) ' 0; 0076 500

N (0; 03 ; (0; 0076)2 )

1) On doit calculer P (F < 0; 01); Pour cela posons On a

=

r

P (F < 0; 01) = P (0; 0076Z + 0; 03 < 0; 01) = P (Z <

Z=

F 0; 03 0; 0076

2; 63) = 1

P (Z < 2; 63) = 0; 0043:

2) La probabilité que le client trouve plus de 5% de pièces mauvaises est donnée par P (F > 0; 05): On a P (F > 0; 05) = P (0; 0076Z + 0; 03 > 0; 05) = P (Z >

2; 63) = 1

P (Z < 2; 63) = 0; 0043:

Exercice 2 Désignons par p la proportion d’hommes accidentés. On a

p=

4 5

= 0; 8:

On peut considérer que l’échantillon de taille n = 200 provient d’une population très grande (donc n < 0; 05N ), ce qui permet de prendre le facteur d’exhaustivité égal à 1. La distribution d’échantillonnage des proportions a donc les caractéristiques suivantes: E(F ) = 0; 8

;

(F ) =

r

p(1

Et comme n = 200 > 30 alors

p) n F

=

r

0; 8(1 0; 8) ' 0; 028 200

N (0; 8 ; (0; 028)2 )

1) La probabilité demandée est donnée par P (F < 0; 3): Posons

Z=

F 0; 8 0; 028

donc

F = 0; 028Z + 0; 8 59

et

Z

N (0; 1)

P (F < 0; 3) = P (0; 028Z + 0; 8 < 0; 3) = P (Z <

0; 3 0; 8 ) = P (Z < 0; 028

17; 85) ' 0

2) De même calculons P (F > 0; 8): P (F > 0; 8) = P (0; 028Z + 0; 8 > 0; 8) = P (Z > 0) = 0; 5

3) Il faut calculer P (0; 4 < F < 0; 6): P (0; 4 < F < 0; 6) = P (0; 4 < 0; 028Z + 0; 8 < 0; 6) = P ( 14 < Z <

7) ' 0

§ 5 Estimation par intervalle de con…ance de la proportion Comme pour la moyenne, nous allons chercher deux valeurs telles que la probabilité que p apparetienne à [L1; L2] soit égale à 1 est le risque d’erreur …xé d’avance. Si n 30 nous savons que la distribution d’échantillonnage normale N (p ; (F ) ): Posons Z = F (F )p , on sait que

Z

Cherchons t > 0 tel que

Z

P( t

P( t

F

p (F )

et L2 où

suit la loi

N (0; 1) t) = 1

On a vu (voir §3 ) que ceci est equivalent à par la table de la loi normale. On a donc

F

L1

donc

t) = 1

P (Z

P (F

t) = 1

t (F )

2

p

et

t

est donné

F + t (F )) = 1

Pour un échantillon la variable aléatoire prend la valeur f , donc L1 = f

t (F )

L2 = f + t (F )

Il reste pour calculer L1 et L2 à estimer On prend

(F ) =

r

f (1

f) n

r

d’exhaustivité, ou on prend

N N

(F ) :

n si l’on 1 r f (1 f ) (F ) = n 60

doit tenir compte du facteur sinon .

Rappelons que f est la valeur de la proportion trouvée dans l’échantillon. Exercice 1 des 150 personnes interrogées sont des consommateurs d’une marque de lessive. 90%

Construire un intervalle de con…ance à 95% pour la proportion de l’ensemble des consommateurs de cette lessive Exercice 2 Dans un certain lac, un échantillon de 350 poissons pris à l’aide d’un …let comprend 70 truites. Construire un intervalle de con…ance pour la proportion des truites dans ce lac. 1) avec un niveau de con…ance de 90% 2) avec un risque de 1% Solution : Exercice 1 Dans l’échantillon de taille 150 on a trouvé que la proportion est f = 0; 9: On peut supposer que la population est très grande (donc n < 0; 05N ), donc le d’exhaustivité peut être pris égal à 1, et par suite (F ) = r facteur r f (1

f)

n

Ici

1

=

0; 9(1 0; 9) = 0; 024 150

= 0; 95

Donc

donc

= 0; 05 = 5% L1 = 0; 9

et par suite

t = 1; 96

(1; 96)(0; 024) = 0; 85

L2 = 0; 9 + (1; 96)(0; 024) = 0; 95

D’où

P (p 2 [0; 85 ; 0; 95]) = 0; 95

Avec un niveau de con…ance de 95%, la proportion des consommateurs se situe entre 85% et 95%: Exercice 2 61

70 Dans l’échantillon de taille n = 350 , la proportion des truites est f = 350 = 0; 2:

On peut supposer que la taille de rla population (les poissons du lac) est r très grande donc (F ) = f (1 n f ) = 0; 2(1350 0; 2) = 0; 0213::: ' 0; 021 1) Si

= 10%

( c-à-d

1

= 0; 90)

alors

t = 1; 65

L1 = 0; 2

donc

(1; 65)(0; 021) = 0; 165 ' 0; 17

L2 = 0; 2 + (1; 65)(0; 021) = 0; 234 ' 0; 23

Avec un risque d’erreur de situe entre 17% et 23%. 2) Si

= 1%

alors

t = 2; 58

10%

, la proportion des truites dans le lac se

donc

L1 = 0; 2

(2; 58)(0; 021) = 0; 1458 ' 0; 15

et

L2 = 0; 2 + (2; 58)(0; 021) = 0; 254 ' 0; 25

Avec un niveau de con…ance de 99%, la proportion des truites dans le lac se situe entre 15% et 25%:

62

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF