Statistiques décisionnelles

July 29, 2017 | Author: Akira CM | Category: Confidence Interval, Sampling (Statistics), Probability Distribution, Average, Probability
Share Embed Donate


Short Description

Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage statistique, tant du point de vue ...

Description

Adil ELMARHOUM

Mohamed DIOURI

Docteur en statistique et informatique appliquée

Docteur Ingénieur Président Fondateur de l’IGA

STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours

COLLECTION SCIENCES TECHNIQUES ET MANAGEMENT

STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours

Tous les droits sont réservés Dépôt légal N° 2003/2163 I.S.B.N. 1954-409-51-3 Première édition 2003 Deuxième édition 2008

Les livres de la collection Sciences, Techniques et Management sont co-édités par les éditions TOUBKAL et l’Institut supérieur du Génie Appliqué, IGA.

A la mémoire de Myriam Pour que la mémoire demeure Lorsque une âme Pleure Une autre âme Est-il plus grand malheur ! M. DIOURI

A ma fille Zineb A. ELMARHOUM

SOMMAIRE

LIMINAIRE

7

PARTIE 1 : ECHANTILLONNAGE STATISTIQUE

9

CH. 1. DETERMINATION DE L’ECHANTILLON 1.1. Position du problème. 1.2. Détermination de la taille de l’échantillon. 1.3. Méthodes d’échantillonnage. 1.4. Enoncés des exercices d’application. 1.5. Solutions des exercices d’application.

11 11 11 15 19 22

PARTIE 2 : LOI DE PROBABILITE D’ECHANTILLON

35

CH. 2. LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON 2.1. Position du problème. 2.2. Population avec moyenne, variance et loi de probabilité. Connues. 2.3. Population avec moyenne et loi de probabilité. Connues. 2.4. Population avec moyenne, variance et loi de probabilité. Inconnues. 2.5. Loi de probabilité de la différence de deux moyennes. 2.6. Enoncés des exercices d’application. 2.7. Solutions des exercices d’application.

37 37 38 39 39 40 41 43

CH. 3. LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON 3.1. Position du problème. 3.2. Enoncés des exercices d’application. 3.3. Solutions des exercices d’application.

55 55 56 58

CH. 4. LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON 4.1. Position du problème. 4.2. Loi de probabilité selon l’échantillon. 4.3. Enoncés des exercices d’application. 4.4. Solutions des exercices d’application.

71 71 72 73 74

PARTIE 3 : PRINCIPE DE L’ESTIMATION

89

CH. 5. ESTIMATION DE LA MOYENNE D’UNE POPULATION 5.1. Estimation d’une moyenne. 5.2. Estimation de la somme de moyennes.

91 91 93

5.3. Enoncés des exercices d’application. 5.4. Solutions des exercices d’application.

94 98

CH. 6. ESTIMATION DE LA VARIANCE D’UNE POPULATION 6.1. Estimation d’une variance. 6.2. Estimation de la somme de variances. 6.3. Enoncés des exercices d’application. 6.4. Solutions des exercices d’application.

115 115 117 117 118

CH. 7. ESTIMATION DE LA PROPORTION D’UNE POPULATION 7.1. Estimation ponctuelle. 7.2. Estimation par intervalle de confiance. 7.3. Enoncés des exercices d’application. 7.4. Solutions des exercices d’application.

129 129 129 130 131

PARTIE 4 : TESTS STATISTIQUES

137

CH. 8. TESTS SUR LES MOYENNES 8.1. Test sur un échantillon. 8.2. Test sur deux échantillons. 8.3. Test sur plusieurs échantillons : analyse de la variance (ANOVA). 8.4. Enoncés des exercices d’application. 8.5. Solutions des exercices d’application.

143 143 145 150 156 161

CH. 9. TESTS SUR LES VARIANCES 9.1. Test sur un échantillon. 9.2. Test sur deux échantillons. 9.3. Enoncés des exercices d’application. 9.4. Solutions des exercices d’application.

183 183 184 186 188

CH. 10. TESTS SUR LES PROPORTIONS 10.1. Test sur un échantillon. 10.2. Test sur deux échantillons. 10.3. Test sur plusieurs échantillons. 10.4. Enoncés des exercices d’application. 10.5. Solutions des exercices d’application.

199 199 201 203 206 208

CH. 11. TESTS NON PARAMETRIQUES 11.1. Test de validité de loi de probabilité d’une distribution. 11.2. Test d’indépendance. 11.3. Enoncés des exercices d’application. 11.4. Solutions des exercices d’application.

223 223 225 226 230

TABLES STATISTIQUES

245

BIBLIOGRAPHIE

259

LIMINAIRE

Ce livre est sa 2ème édition, il est le 3e d’une trilogie des mêmes auteurs, dont 2 livres ont déjà été édités, à savoir : « Statistique descriptive » et « Probabilités ». Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage statistique, tant du point de vue des méthodes d’échantillonnage que de celui des estimations et de tests statistiques. Lorsqu’on souhaite collecter des informations sur une population, deux possibilités s’offrent : - La première solution consiste à observer ou interroger tous les éléments de la population, c’est ce qu’on appelle une enquête complète ou enquête exhaustive ou recensement ; - La seconde solution consiste à observer ou interroger une partie de la population, c’est ce qu’on appelle enquête partielle ou sondage. Les éléments de la population qui sont réellement observés constituent l’échantillon et l’opération qui consiste à choisir ces éléments est appelée échantillonnage. L’alternative décrite ci-dessus se présente dans beaucoup de situations et le recours à la deuxième solution c’est-à-dire l’enquête partielle est la pratique la plus courante. Par rapport à l’enquête complète, l’enquête partielle offre une série d’avantages : - Le coût global de l’enquête partielle est en général plus réduit que le coût global d’une enquête complète ; - L’enquête par sondage est plus rapide que l’enquête complète, surtout lorsque la caractéristique étudiée présente des modifications assez importantes au cours du temps ; - Les erreurs d’observations sont plus réduites que dans l’enquête exhaustive, du fait qu’il y a moins de données à manipuler ; - L’enquête partielle est, dans certaines situations particulières, la seule solution possible, c’est le cas lorsque l’observation présente un caractère destructif.

7

Ainsi, la problématique des statistiques décisionnelles sera étudiée sous ses 3 aspects : - D’abord, la détermination de l’échantillon (en taille et en qualité), en vue d’avoir les informations sur la population mère à étudier. Ceci fera l’objet de la partie 1 avec son unique chapitre 1. - Ensuite, la détermination des lois de probabilité suivie par les paramètres de l’échantillon (moyenne, variance et proportion). Ceci fera l’objet de la partie 2 et de ses chapitres 2, 3 et 4. - Enfin, une fois l’échantillon et les lois de probabilité des paramètres déterminés, réalisation des calculs sur les paramètres de la population mère étudiée. Ceci fera l’objet de la partie 3 avec ses chapitres 5, 6 et 7 et de la partie 4 avec ses chapitres 8, 9, 10 et 11.

8

Statistiques décisionnelles

Partie 1. Echantillonnage statistique

PARTIE 1 ECHANTILLONNAGE STATISTIQUE

Dans cette 1ère partie, nous nous proposons de résoudre tous les cas types de problèmes d’échantillons extraits d’une population mère en respectant un certain nombre de contraintes. - Contraintes de précision ; - Contrainte de budget. Nous aurons ainsi à déterminer la taille et la nature de l’échantillon qui donne les informations souhaitées sur la population mère à étudier, avec la précision, fixée, au préalable et tout en veillant à ne pas dépasser le budget alloué à l’étude.

9

Statistiques décisionnelles

Partie 1. Echantillonnage statistique

10

Statistiques décisionnelles

1. Détermination de l’échantillon

CHAPITRE 1 DETERMINATION DE L’ECHANTILLON

1.1. POSITION DU PROBLEME. La détermination d’un échantillon nécessite la détermination : - de sa taille : nombre d’éléments à extraire de la population mère ; - de la qualité de ses éléments : nature des éléments à extraire. Les objectifs essentiels que doit remplir un échantillon sont de 2 sortes : - Il doit être représentatif de la population mère, c’est-à-dire qu’il doit donner des informations sur cette population avec la précision exigée ; - Il doit avoir un coût compatible avec le budget disponible. 1.2. DETERMINATION DE LA TAILLE DE L’ECHANTILLON. La détermination de la taille d’un échantillon dépend essentiellement de deux facteurs : - La précision souhaitée : plus on souhaite des résultats précis, plus l’échantillon nécessaire est important. - Le budget disponible : plus on augmente la taille de l’échantillon, plus le coût de l’enquête s’accroît. La taille de l’échantillon doit être celle qui permet d’atteindre le meilleur équilibre entre le risque d’erreurs d’échantillonnage, le coût induit par ces erreurs, et le coût de l’échantillonnage lui-même.

11

Statistiques décisionnelles

1. Détermination de l’échantillon

1.2.1. Cas ou la loi de probabilité de la variable aléatoire n’est pas connue. Dans ce cas on utilise l’inégalité de Bienaymé Tchebycheff, elle aboutit, en général, à des échantillons de tailles élevées. 1.2.1.1. Taille d’échantillon pour estimer une moyenne. - La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats. - La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle représente la largeur de l’intervalle de confiance de la moyenne. Soit  la moitié de cette largeur. Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de la moyenne de la population de plus de . Ceci s’écrit : 

P( X  m < )  1-

Ce qui donne :

n

2 2 . 

avec : n 

: Taille de l’échantillon ; : Précision souhaitée ;  : Définit le seuil de confiance (1 -  )  : Ecart- type d’échantillon, il est souvent inconnu, il faut avoir des informations antérieures ou mener une étude pilote. 1.2.1.2. Taille d’échantillon pour estimer une proportion. - La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats. - La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle représente la largeur de l’intervalle de confiance de la proportion. Soit  la moitié de cette largeur. 12

Statistiques décisionnelles

1. Détermination de l’échantillon

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de la proportion dans la population de plus de . Ceci s’écrit : P( f n  p < )  1- Ce qui donne : n 

p.q 2 . 

avec : n : Taille de l’échantillon ;  : Précision souhaitée ;  : Définit le seuil de confiance (1 -  ) p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %. 1.2.2. Cas ou la loi de probabilité de la variable aléatoire est une loi normale. Dans ce cas, on utilise la loi normale. 1.2.2.1. Taille d’échantillon pour estimer une moyenne. 1.2.2.1.1. Cas des prélèvements dans une population finie avec remise ou dans une population infinie sans remise.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de la moyenne de la population de plus de . Ceci s’écrit : P( X  m < )  1- Ce qui donne : n  Z 2

1

 2

2 2

13

Statistiques décisionnelles

1. Détermination de l’échantillon

1.2.2.1.2. Cas des prélèvements dans une population finie sans remise.

De la même manière, on trouve :

Z² n

1-

 2

² N

 ² N  Z² 1-

 2

²

1.2.2.2. Taille d’échantillon pour estimer une proportion. Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de la proportion dans la population de plus de . Ceci s’écrit : P(

f n  p < )  1-

1.2.2.2.1. Cas des prélèvements dans une population finie avec remise ou dans une population infinie sans remise.

On trouve : n  Z 2

1

 2

p.q 2

avec : n : Taille de l’échantillon ;  : Précision souhaitée ; p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %. 1.2.2.2.2. Cas des prélèvements dans une population finie sans remise.

Z² On trouve : n 

1-

 2

pq N

² N  Z² 1-

 2

pq

14

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3. METHODES D’ECHANTILLONNAGE. Pour que les résultats d’une enquête par sondage puissent être extrapolés à l’ensemble de la population faisant l’objet de l’étude, il est indispensable que cette enquête soit conduite selon des règles bien définies et que les calculs conduisant à ces extrapolations soient conformes à la procédure d’échantillonnage utilisée. L’échantillon choisi doit être le plus représentatif possible de la population étudiée, c’est-à-dire le degré de correspondance entre l’information recueillie et ce que nous apprendrait un recensement complet de la population dépend en grande partie de la façon dont l’échantillon a été choisi. La théorie moderne de l’échantillonnage nous propose une distinction fondamentale entre échantillons basés sur la probabilité : échantillons probabilistes et échantillons non basés sur la probabilité : échantillons non probabilistes ou empiriques. 1.3.1. METHODES D’ECHANTILLONNAGE PROBABILISTES. 1.3.1.1. Echantillonnage aléatoire simple. Un échantillonnage est aléatoire si tous les individus de la population ont la même chance de faire partie de l’échantillon ; il est simple si les prélèvements des individus sont réalisés indépendamment les uns des autres. En particulier, si la population est finie, cette définition correspond au tirage aléatoire avec remise, qui permet de traiter les populations finies comme des populations infinies. Pour prélever un échantillon aléatoire et simple il faut : - Constituer la base de sondage qui correspond à la liste complète et sans répétition des éléments de la population ; - Numéroter ces éléments de 1 à N ; - Procéder, à l’aide d’une table de nombres aléatoires ou d’un générateur de nombres pseudo aléatoires à la sélection des unités différentes qui constitueront l’échantillon. 1.3.1.2. Echantillonnage stratifié. L’échantillonnage stratifié est une technique qui consiste à subdiviser une population hétérogène, d’effectif N, en P sous populations ou « strates » plus homogènes d’effectif Ni de telle sorte que N= N1+N2+……. +Np. Un échantillon, d’effectif ni, est par la suite, prélevé indépendamment au sein de chacune des strates en appliquant un plan d’échantillonnage au choix de l’utilisateur. Le plus souvent, on procédera par un échantillonnage aléatoire et simple à l’intérieur de chaque strate. 15

Statistiques décisionnelles

1. Détermination de l’échantillon

La stratification peut entraîner des gains de précision appréciables, elle facilite en outre les opérations de collecte des données et fournit des informations pour différentes parties de la population. Pour la répartition de l’effectif total, n, de l’échantillon dans les différentes strates, la première solution, dite proportionnelle, consiste à conserver la même fraction d’échantillonnage dans chaque strate. Une seconde solution, dite optimale, tient compte du budget de l’enquête. 1.3.1.2.1. Répartition proportionnelle. La répartition proportionnelle consiste à répartir la taille de l’échantillon n en utilisant la même fraction de sondage f dans chacune des strates. Cette solution tient compte d’un seul facteur qui est le poids de chaque strate. Désignons par wi le poids de la strate et par f la fraction de sondage constante.

f 

n N

wi 

Ni N

Le nombre d’unités à choisir dans chacune des strates est donc :

n i  w i .n  f .N i 1.3.1.2.2. Répartition optimale. Cette deuxième solution consiste à répartir l’effort d’échantillonnage de façon inégale dans les différentes strates. Elle tient compte de quatre facteurs : - Budget total de l’enquête, G - Poids de la strate, wi - Coût de la collecte de l’information dans la strate, ci - Dispersion à l’intérieur de la strate, mesurée par l’écart type i. Le nombre d’unités à choisir dans chacune des strates est :

ni  k

w i i

avec

ci

16

k 

G  w i i

ci

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3.1.3. Echantillonnage par degrés.

L’échantillonnage par degrés regroupe toute une série de plans d’échantillonnage caractérisés par un système ramifié et hiérarchisé d’unités. Dans le cas de deux degrés, par exemple, on considère que la population est constituée d’un certain nombre d’unités de sondage du premier degré (unités primaires), chacune de ces unités étant constituée d’un certain nombre d’unités du second degré. (Unités secondaires). On réalise d’abord un échantillonnage d’unités du premier degré. Ensuite, dans chaque unité sélectionnée au premier degré, on prélève un échantillon d’unités du second degré. Le mode de sélection pouvant varier d’un degré à l’autre. L’échantillonnage par degrés s’impose lorsqu’il est impossible d’inventorier les éléments de toute la population et qu’il est possible d’énumérer les unités prélevées au premier degré. Il permet une concentration du travail sur le terrain et donc une réduction des coûts. Pour un même nombre total d’observations, il faut indiquer que l’échantillonnage aléatoire et simple est plus précis que l’échantillonnage par degré. 1.3.1.4. Echantillonnage systématique. L’échantillonnage systématique est une technique qui consiste à prélever des unités d’échantillonnage situées à intervalles égaux. Le choix du premier individu détermine la composition de tout l’échantillon. Si on connaît l’effectif total de la population N et qu’on souhaite prélever un échantillon d’effectif n, l’intervalle entre deux unités successives à sélectionner est donné par :

k

N (arrondi à l’entier le plus proche) n

Connaissant k, on choisit le plus souvent, pour débuter, un nombre aléatoire, i, compris entre 1 et k. Le rang des unités sélectionnées est alors i, i+k, i+2k, i+3k, … L’échantillonnage systématique est facile à préparer et, en général facile à exécuter, il réduit le temps consacré à la localisation des unités sélectionnées. Si les éléments de la population se présentent dans un ordre aléatoire (pas de tendance) l’échantillonnage systématique est équivalent à l’échantillonnage aléatoire et simple. Par contre si les éléments de la population présentent une tendance, l’échantillonnage systématique est plus précis que l’échantillonnage aléatoire.

17

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3.2. METHODES D’ECHANTILLONNAGE EMPIRIQUES. 1.3.2.1 Echantillonnage accidentel (ou de convenance). Il s’agit d’un échantillon constitué d’individus qui se trouvaient accidentellement à l’endroit et au moment où l’information a été collectée. Les échantillons accidentels ne peuvent être considérés représentatifs d’aucune population. Il est risqué de généraliser à une population donnée des résultats obtenus par un échantillon accidentel. 1.3.2.2. Echantillonnage à priori. C’est un échantillonnage par jugement à priori. Il consiste à sélectionner des individus dont on pense, avant de les interroger, qu’ils peuvent détenir l’information. Le risque de ce type d’échantillonnage est de considérer des individus, apparemment représentatifs de la population étudiée. 1.3.2.3. Echantillonnage « Boule de neige » Cette méthode est réservée aux populations composées d’individus dont l’identification est difficile ou qui possèdent des caractéristiques rares. La méthode consiste à faire construire l’échantillon par les individus eux-mêmes. Il suffit d’en identifier un petit nombre initial et de leur demander de faire appel à d’autres individus possédant les mêmes caractéristiques. 1.3.2.4. Echantillonnage par Quotas. L’échantillonnage par quotas est l’échantillonnage non probabiliste le plus connu, et finalement le mieux accepté comme substitut aux méthodes probabilistes dans le cas où ces dernières rencontreraient des contraintes de base de sondage. Mais la représentativité de la population étudiée reste douteuse. L’échantillonnage par quotas consiste à étudier la structure de la population selon des critères choisis (quotas) empiriquement. L’échantillon est ensuite construit de manière à constituer une reproduction en miniature de la population sur ces critères. L’échantillonnage par quotas est une forme simplifiée de l’échantillonnage stratifié à fraction de sondage constante. Les quotas représentent les variables de stratification. Une fois les quotas fixés, les individus sont sélectionnés à la convenance de l’enquêteur. 18

Statistiques décisionnelles

1. Détermination de l’échantillon

Les critères servant de base à la définition des quotas ne doivent pas être nombreux. Au-delà de 3 critères, la démarche devient complexe. Les quotas doivent être construits sur une base de données fiables (statistiques disponibles) indiquant la répartition de la population sur les critères choisis. Les critères les plus utilisés dans les études de marché sont économiques et sociodémographiques en particulier l’âge, le sexe, la catégorie socioprofessionnelle, etc. 1.4. ENONCES DES EXERCICES D’APPLICATION. 1.4.1. Une enquête sur l'emploi a pour but d’estimer le taux d'activité dans un pays. Dans les statistiques disponibles, la population active du pays est estimée à 10 millions de personnes sur une population totale de 40 millions de personnes. Déterminer la taille de l'échantillon si l'on accepte une erreur de 1%, avec une probabilité de 0,95. 1.4.2. On désire estimer le revenu mensuel moyen dans un secteur de production. Quelle doit être la taille de l’échantillon de salariés à interroger pour que la moyenne empirique ne s’éloigne pas de la moyenne de la population de 100 DH avec une probabilité au moins égale à 0,95 sachant que l’écart type est de 500 DH par salarié ? 1.4.3. On souhaite réaliser une enquête sur la consommation des ménages afin d’estimer la dépense moyenne par ménage. Quelle doit être la taille de l’échantillon de ménages si la population est composée de 5 millions de ménages et que l’erreur admise ne doit pas dépasser 10 DH avec une probabilité de 0,99 ? L’écart type de la dépense des ménages est de 2000 DH. 1.4.4. On souhaite réaliser une enquête sur l’emploi afin d’estimer le taux de chômage. La population active est de 5 millions de personnes. Quelle doit être la taille de l’échantillon pour que la fréquence empirique ne s’éloigne pas du vrai taux de chômage de plus de 2% et ce avec une probabilité de 0,95 ? Une enquête récente avait donné un taux de chômage de 12 %. 1.4.5. Dans le cadre d'une étude socio-économique, on s'intéresse aux habitants de 18 unités urbaines, réparties en deux régions. a) En supposant que la variable aléatoire à laquelle nous nous intéressons suive une loi normale et que l’enquête se déroule, au sein d’une population finie et n’exclut pas la possibilité de sonder la même personne plusieurs fois, déterminer la taille n de l’échantillon. On donne comme hypothèses de travail : une marge d’erreur admissible égale à 1% avec une probabilité de 95% et un écart type du revenu égal à 0,114 calculé d’après un 1 er échantillon.

19

Statistiques décisionnelles

1. Détermination de l’échantillon

b) L'enquête doit donc comporter n interviews. Comme on dispose de 10 enquêteurs et qu'on souhaite que chaque enquêteur n'opère que dans une seule unité urbaine et donc dans la même région, on souhaite se limiter à l'étude de 10 unités urbaines. On suppose qu'un enquêteur peut réaliser 10 interviews dans la même journée et que tous les enquêteurs ne réalisent pas nécessairement le même nombre d’enquêtes. En fonction de la répartition des unités urbaines par région et de leurs nombres d'habitants, déterminer le nombre n1 et n2 d’unités par région à sonder (voir tableau page suivante). c) En nous limitant aux unités les plus importantes dans chaque région, déterminer les unités à sonder ainsi que le nombre d’interviews à réaliser dans chacune d’entre elles. Quel est le nombre de jours nécessaire à une telle opération ? Région 1 N° Unités urbaines N° 1 N° 2 N° 3 N° 4 N° 5 N° 6 N° 7 N° 8

Région 2

Nombres d’habitants

N° Unités urbaines

Nombres d’habitants

93600 45400 38900 36500 35100 32900 28100 26400

N° 09 N° 10 N° 11 N° 12 N° 13 N° 14 N° 15 N° 16 N° 17 N° 18

117100 107100 61200 51000 43800 38900 37800 33500 25800 25300

1.4.6. Dans une région regroupant environ 3 millions d’habitants réunis en 1530 communes, on désire réaliser une enquête relative à la consommation moyenne des ménages pour le poste alimentation. a) Déterminer la taille de l'échantillon si l'on accepte une erreur de 1,16, avec une probabilité de 0,95 et que l’on estime l’écart type égal à 10. b) En effectuant une stratification basée sur la distribution de fréquences donnée dans le tableau ci-dessous, combien d’interviews devrait-on réaliser dans chacune des catégories de communes ? c) Si de plus pour des raisons de facilité, on décidait de ne pas effectuer moins de 10 interviews par commune, dans combien de communes différentes de chacune des catégories les enquêteurs devraient-ils se rendre ?

20

Statistiques décisionnelles

1. Détermination de l’échantillon

Nombre d’habitants Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [10000 – 20000[ plus de 20000 Total

Nombre de communes 900 300 200 80 40 10 1530

1.4.7. Un sondage vise à étudier la notoriété d’une marque. Pour cela on dispose de 12 enquêteurs durant un mois. a) Sachant que le rendement par jour et par enquêteur est distribué selon une loi normale de moyenne 5, et d’écart type 1, déterminer la taille n o de l'échantillon retenu tel que : p(n > no) = 0,025. b) On propose de stratifier la population selon l’âge. Sachant que la population se répartit comme indiqué, dans le tableau ci-dessous, déterminer la répartition de l'échantillon : Age Effectifs

Moins de 20 ans 5500000

Entre 20 et 30 Entre 30 et 60 ans ans 2500000 1250000

Plus de 60 ans 250000

1.4.8. On s’intéresse au pourcentage de fusibles défectueux dans un lot de 50 sacs contenant chacun 10000 fusibles. Les sacs proviennent de différents fournisseurs qui affirment en général que la proportion de fusibles défectueux ne dépasse pas 1%. L’erreur acceptée sur ce pourcentage est de 0,1% avec un niveau de confiance 0,95. a) Déterminer la taille de cet échantillon en utilisant l'inégalité de Bienaymé Tchebycheff, et en supposant la normalité de la variable. Laquelle de ces deux tailles doit-on retenir ? et pourquoi ? b) Préciser dans chaque cas, le type de sondage dont il s'agit : b1) Si on tire n fusibles en prélevant n/50 par sac. b2) Si on choisit d'abord k sacs et on tire ensuite ni fusibles par sac. b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles. c) Quel est le procédé de tirage, le mieux adapté ? 1.4.9. Un sondage vise une population d’entreprises réparties en quatre régions contenant respectivement 360, 840, 600 et 1200 entreprises. Le budget réservé pour cette enquête est de 44 320 DH. Les écart-types sont estimés à 0,2 ; 0,1 ; 0,2 ; 0,4 respectivement pour les quatre régions. Les coûts de réalisation par questionnaire sont respectivement de 225 DH, 196 DH, 400H et 324 DH. a) Etablir une stratification optimale de l’échantillon à déterminer. b) Préciser le niveau d’erreur que l’on doit accepter avec la taille de l’échantillon calculée, en admettant un niveau de confiance de 0,99 et une proportion de 0,3.

21

Statistiques décisionnelles

1. Détermination de l’échantillon

1.4.10. Le budget alloué à une enquête est de 132500 DH. Cette enquête est destinée à estimer le taux de chômage qu’on pense être à priori égal à 10 %. Les frais de déplacement quotidien sont évalués à 1000 DH par enquêteur. La rémunération d’un enquêteur est de 170 DH par jour. Les charges fixes sont de 20000 DH. a) Déterminer la taille de l’échantillon si on tolère une erreur de moins de 1 % avec un niveau de confiance de 95% b) Déterminer la taille maximale permise par le budget alloué si le rendement par enquêteur est de 6 questionnaires par jour. c) Quel niveau d’erreur faut-il accepter si on réalise l’enquête avec le budget alloué ? 1.4.11. Nous disposons d’un montant de 10 000 dh pour enquêter auprès d’une population stratifiée en deux strates ayant les caractéristiques suivantes :

Strates

Effectif

Poids de la strate

Ecart type

Coût de l’observation

Strate 1 Strate 2

2000 3000

0,4 0,6

2 0,7

25 36

Etablir la répartition optimale de l’échantillon. 1.4.12. Une machine automatique fabrique des entretoises destinées à un montage de roulements. La longueur de ces entretoises doit être comprise, au sens large, entre 37,45 et 37,55 mm. La variable aléatoire X, qui associe à chaque entretoise sa longueur, est une variable gaussienne de moyenne 37,50 mm. a) Quel doit être l’écart type de la variable aléatoire X pour que 998 sur 1000 des pièces fabriquées soient bonnes ? b) On prélève un échantillon non exhaustif dans la production. Quel doit être l’effectif de cet échantillon pour que la moyenne des longueurs des pièces prélevées appartienne à l’intervalle fermé [37,495 ; 37,505] avec une probabilité de 0,95 ? 1.5. SOLUTIONS DES EXERCICES D’APPLICATION. 1.5.1. Solution de l’exercice 1.4.1. Nous sommes dans le cas où la loi de probabilité du taux d’activité n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

p.q 2 .  p = 0,25

q = 0,75

 = 1% et  = 5%

ce qui donne n = 37 500 22

Statistiques décisionnelles

1. Détermination de l’échantillon

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit à des échantillons de tailles élevées. 1.5.2. Solution de l’exercice 1.4.2. Nous sommes dans le cas où la loi de probabilité des revenus mensuels n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

2 2 . 

n

 = 500

avec

 = 100

et

 = 5%

ce qui donne n = 500 1.5.3. Solution de l’exercice 1.4.3. Nous sommes dans le cas où la loi de probabilité de la dépense des ménages n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

2 2 . 

avec

 = 2 000

 = 10

et

 = 1%

ce qui donne n = 4 000 000 Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille trop élevée, puisqu’il fait 4 millions pour une population de 5 millions. Nous devons, par conséquent recourir au théorème central limite et accepter l’hypothèse vraisemblable que la loi de probabilité que suit la variable aléatoire, dépense moyenne des ménages, peut être approchée par une loi normale du fait que la population concernée est de 5 millions d’âmes. Dans ce cas, on utilise l’égalité relative aux prélèvements sans remise dans une population finie.

Z² n

1-

 2

² N

 ² N  Z² 1-

 2

²

23

Statistiques décisionnelles

 = 2 000

avec

 = 10

1. Détermination de l’échantillon

 = 1%

N = 5 millions

et

Z  = 2,58 1-

2

ce qui donne n = 252 795. Un tel échantillon représente environ 6,3 % de la taille de l’échantillon trouvée grâce à l’inégalité de Bienaymé Tchebycheff et donc une très grande économie, dans son traitement, par rapport au 1er échantillon. 1.5.4. Solution de l’exercice 1.4.4. Nous sommes dans le cas où la loi de probabilité du taux de chômage n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

p.q 2 . 

avec

p = 0,12

q = 0,88

 = 2%

et

 = 5%

ce qui donne n = 5 280 un tel échantillon représente environ 1 pour mille de la population totale de 5 millions. Dans ce cas il n’est pas nécessaire de recourir au théorème central limite pour essayer de réduire la taille de l’échantillon. 1.5.5. Solution de l’exercice 1.4.5. a) Nous sommes dans le cas où la loi de probabilité de la variable aléatoire est la loi normale, la population est finie et le tirage se fait avec remise. On utilise donc l’égalité :

n  Z2

1

avec

 2

2 2

 = 0,05

 = 0,114

 = 0,01

et

Z

1  2

= 1,96

ce qui donne n = 500 b) Considérons les 2 régions et essayons de déterminer, au prorata des nombres d’unités de chaque région, les 10 unités qui seront concernées par les interviews.

24

Statistiques décisionnelles

Régions Nombre d’unités total % Nombre d’unités de l’échantillon

1. Détermination de l’échantillon

CHOIX DES 10 UNITES R1 R2

Total

8

10

18

44,44%

55,56%

100%

4

6

10

c) Considérons les 2 régions et essayons de répartir, au prorata de leurs nombres d’habitants, les 500 interviews. REPARTITION DES 500 INTERVIEWS Régions R1 R2 Total Nombre d’habitants 336900 541500 878400 total % 38,35% 61,65% 100% Nombre d’habitants 192 308 500 de l’échantillon Arrondi à 10 près 190 310 500 Nous avons arrondi à 10 près pour que chacun des enquêteurs puissent réaliser 10 enquêtes par jour. Nous devons, d’abord choisir les 4 unités de la 1ère région et ensuite choisir les 190 personnes dans ces 4 unités. On choisira les 4 plus grandes unités comme indiqué dans l’énoncé, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 4 unités choisies. Région N°1 : Répartition des 190 interviews sur 4 unités et leurs habitants Nombre Nombre Arrondis à Unités d’habitants % d’habitants 10 près total interviewés U1 93600 44,67% 85 90 U2 45400 21,17% 40 40 U3 38900 18,14% 34 30 U4 36500 16,03% 31 30 Total 211400 100% 190 190

25

Statistiques décisionnelles

1. Détermination de l’échantillon

De même, nous devons, d’abord choisir les 6 unités de la 2ème région et ensuite choisir les 310 personnes dans ces 6 unités. On choisira les 6 plus grandes unités, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 6 unités choisies. Région N°2 : Répartition des 300 interviews sur 6 unités et leurs habitants Nombre Nombre Arrondis à Unités d’habitants % d’habitants 10 près total interviewés U09 117100 27,94% 87 90 U10 107100 25,55% 80 80 U11 61200 14,60% 45 40 U12 51000 12,17% 39 40 U13 43800 10,45% 32 30 U14 38900 9,29% 27 30 Total 419100 100% 310 310 Ainsi, on mobilisera 4 enquêteurs pour la 1ère région, 1 enquêteur pour chaque unité, celui de l’unité 1 passera plus de temps, 9 jours (10 interviews par jour) ; de même, on mobilisera 6 enquêteurs pour la 2ème région, 1 enquêteur pour chaque unité, celui de l’unité 09 passera plus de temps, 9 jours (10 interviews par jour). L’opération durera donc 9 jours. 1.5.6. Solution de l’exercice 1.4.6. a) Nous sommes dans le cas où la loi de probabilité de la consommation moyenne n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n avec

2 2 . 

 = 10

 = 1,16

et

 = 5%

ce qui donne n = 1487 qu’on peut arrondir à 1500 b) Effectuons une stratification où les catégories de commune constituent les strates. L’échantillon de 1500 interviews sera réparti de façon proportionnelle sur les différentes strates. En conservant la même fraction de sondage de chaque strate. On détermine le nombre d’habitants dans chaque strate en se basant sur les centres de classes.

26

Statistiques décisionnelles

Nombre d’habitants Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [10000 – 20000[ plus de 20000 Total La fraction de sondage : f =

1. Détermination de l’échantillon

Centre de classe 500 1500 3500 7500 15000 30000

Nombre de communes 900 300 200 80 40 10 1530

Nombre d’habitants 450000 450000 700000 600000 600000 300000 3100000

Nombre d’interviews 218 218 339 290 290 145 1500

1500 = 0,00048387 3100000

c) Pour visiter le plus grand nombre de communes, on fixe le nombre d’interviews à réaliser par commune à 10 sauf pour la dernière catégorie de communes car elle ne contient que 10 communes qui seront toutes visitées, on réalisera alors 14 interviews par commune. Pour déterminer le nombre de communes à visiter dans chacune des catégories de communes, il suffit de diviser le nombre d’interviews par 10. Catégories de communes Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [ 10000 – 20000[ plus de 20000 Total

Nombre de Nombre Nombre communes d’interviews d’interviews à visiter 218 22 220 218 22 220 339 34 340 290 29 290 290 29 290 145 10 140 1500 1500

1.5.7. Solution de l’exercice 1.4.7. a) Le rendement de chaque enquêteur pendant 1 mois est de 150 interviews avec un écart type de 5,5 interviews. Pour les 12 enquêteurs ce rendement est en moyenne de 1800 interviews avec un écart type de 19 interviews. p(n >no ) = 0,025 => p(n

 = 0,016

32

Statistiques décisionnelles

1. Détermination de l’échantillon

b) La moyenne des longueurs des pièces prélevées appartient à l’intervalle fermé [37,495 ; 37,505] et signifie que :  = (37,505 – 37,495) / 2 = 0,005 Nous sommes dans le cas où la loi de probabilité est la loi normale, on utilise donc l’égalité :

n  Z2

1

avec

 2

2 2

 = 0,05

ce qui donne

 = 0,016

 = 0,005

et Z

1

n = 40

33

 2

= 1,96

Statistiques décisionnelles

1. Détermination de l’échantillon

34

Statistiques décisionnelles

Partie 2. Loi de probabilité d’échantillon

PARTIE 2 LOI DE PROBABILITE D’ECHANTILLON

La notion de distribution d’échantillonnage est à la base des méthodes d’inférence statistique dont les deux principales applications sont les problèmes d’estimation et ceux des tests d’hypothèses. Les premiers ont pour but d’estimer, à partir d’un échantillon, la valeur numérique d’un ou de plusieurs paramètres de la population, et de déterminer la précision de cette ou de ces estimations. Cela fera l’objet de la 3e partie avec ses chapitres 5, 6 et 7. Les seconds ont pour but de vérifier la véracité d’une hypothèse, émise au départ, au sujet d’une ou de plusieurs populations. Cela fera l’objet de la 4e partie avec ses chapitres 8, 9, 10 et 11. Mais avant d’aborder les calculs d’estimation et de tests statistiques, il nous faudra déterminer les lois de probabilités des paramètres d’échantillon, en effet : A tout paramètre de population , on peut associer une série infinie de valeurs observées t, t’, t ‘’, …, calculées à partir d’échantillons successifs de même effectif, prélevés dans des conditions identiques. Ces valeurs peuvent être considérées comme des valeurs observées d’une même variable aléatoire T et cette variable est fonction des différentes variables aléatoires correspondant à chacun des individus de l’échantillon : T = f (X1, X2, …, Xn) En supposant que l’échantillon est aléatoire et simple, la variable aléatoire T possède une distribution de probabilité, dite distribution d’échantillonnage. On peut donc calculer l’espérance E(T) et la variance V(T) de cette distribution. La distribution d’échantillonnage est donc la distribution des différentes valeurs que peut prendre la variable aléatoire T, pour les différents échantillons possibles. Son écart type T est appelé erreur standard.

35

Statistiques décisionnelles

Partie 2. Loi de probabilité d’échantillon

Les principales distributions d’échantillonnage sont : - la distribution d’échantillonnage de la moyenne, - la distribution d’échantillonnage de la variance, - la distribution d’échantillonnage de la proportion. Cette partie sera consacrée à la détermination, chapitre après chapitre, des lois de distribution d’échantillonnage sus-citées.

36

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

CHAPITRE 2 LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON

2.1. POSITION DU PROBLEME. Dans ce chapitre, nous considérons une population mère d’où l’on extrait, successivement, des échantillons de n éléments dont on détermine les moyennes : n



a) x1, x2, x3, ………., xn

x 

avec

x i 1

i

n n

x' 

avec

x'

i



b) x1’, x2’, x3’, ………., xn’

i 1

n

n

Les moyennes

x '' i



c) x1’’, x2’’, x3’’, ………., xn’’ avec

x'' 

i 1

n

x , x' et x' ' sont généralement différentes.

On peut considérer la suite des premières observations x1, x1’, x1’’, … des différents échantillons comme des valeurs observées d’une même variable aléatoire X1, la suite des deuxièmes observations des différents échantillons comme des valeurs observées d’une même variable aléatoire X2, etc. 

Les moyennes observées





x , x ' , x ' ' , … sont alors des valeurs observées d’une même variable



aléatoire

X qui est fonction de X1, X2, …, Xn. n

X

X i 1

n 37

i

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon



Comme X1, X2, …, Xn, la variable aléatoire X possède une distribution de probabilité, dite distribution d’échantillonnage de la moyenne. On peut donc calculer l’espérance et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est désignée par m et la variance par ². E(Xi) = m

et

V(Xi) = ²

2.2. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE, LA VARIANCE ET LA LOI DE PROBABILITE. 2.2.1. Echantillon exhaustif. Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire simple d’effectif n, l’espérance mathématique et la variance de la moyenne sont : n

Xi



E( X ) = E(

i 1

n

)=

n

1  E(Xi) = 1 nm = m n  n i 1



V( X ) = L’erreur standard est alors :

N  n 2 N 1 n

X   N n n N 1

Dans ce cas, la loi de probabilité de la moyenne est normale de moyenne m et d’écart type

 





X

n

Nn . N 1

2.2.2. Echantillon non exhaustif. n

Xi



E( X ) = E(

i 1

n

)=

n 1  E(Xi) = 1 nm = m n n i 1

n

Xi



V( X ) = V(

i 1

L’erreur standard est alors :  

)=

n

n 1  V(Xi) = 1 n ² = ² n² n n² i 1





X

n 38

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type    . X n 

2.3. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE ET LA LOI DE PROBABILITE. 

^



E( X ) = m

et

V( X ) = ² n 

n

^

²  n v(x) = n 1

Avec :

(x i x)² i 1

n 1

^

L’erreur standard est alors :  X   n 

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type ^

X   . n 

2.4. CAS D’UNE POPULATION DONT ON NE CONNAIT NI LA MOYENNE, NI LA VARIANCE NI LA LOI DE PROBABILITE. 



E( X ) = m 

n

^

avec :

²  n v(x) = n 1

et

(x i x)² i 1

n 1 ^

L’erreur standard est alors :  X   n 

39

^

V( X ) = ² n

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Si la distribution de la population mère est inconnue, le théorème central limite permet d’affirmer que la distribution de la moyenne est asymptotiquement normale. Pour un effectif suffisamment élevé, la moyenne d’un échantillon peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n  30), la moyenne d’un échantillon peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 2.5. LOI DE PROBABILITE DE LA DIFFERENCE DE DEUX MOYENNES D’ECHANTILLONS INDEPENDANTS. 

La différence entre les moyennes observées des deux échantillons indépendants est :



x1 - x 2

Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux populations de variances égales. 2.5.1. Cas de deux populations de variances inégales 

E( x1 -





x 2 ) = m1-m2

V( x1 -

 x 2 ) = ²1  ² 2 n1 n 2

Pour des populations normales (variances connues), les variables

  x1 , x2 sont des variables

normales de moyennes respectivement m1 et m2 et d’écarts types respectivement

1 et n1

2 . La différence entre les moyennes observées des deux échantillons indépendants est ellen2 même normale de moyenne (m1-m2) et d’écart type

²1  ² 2 . n1 n 2

Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degrés de liberté. 2.5.2. Cas de deux populations de variances égales Dans le cas où les populations sont de variances égales, une estimation de la variance commune aux deux populations est donnée par :

40

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

^

² 

 (x



 x 1 )² 

i

 x 2 )²



E( x1 



i

n1  n 2  2 



 (x

^

x 2 ) = m1 - m2 ^

^ V( x1 - x 2 ) = ²  ² = ² ( 1  1 ) n1 n 2 n1 n 2

Pour des populations normales, la différence entre les moyennes observées des deux échantillons indépendants est elle-même normale de moyenne (m1-m2) et d’écart type ^ ² ( 1  1 ) . n1 n 2

Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degrés de liberté. 2.6. ENONCES DES EXERCICES D’APPLICATION. 2.6.1. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en calcule la moyenne, en supposant que chacun des nombres de 1 à 9 a une même probabilité d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ? 2.6.2. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les échantillons non exhaustifs possibles de taille deux de cette population. Trouver : a) La moyenne de la population. b) L’écart type de la population. c) La moyenne de la distribution d'échantillonnage des moyennes. d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur quadratique moyenne des moyennes. e) Reprendre les mêmes questions dans le cas d’un échantillon exhaustif. 2.6.3. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de 25 têtes chacun, quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des moyennes pour : a) Un échantillonnage non exhaustif ? b) Un échantillonnage exhaustif ?

41

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

c) Pour combien d'échantillons peut-on s'attendre à trouver une moyenne comprise entre 36,8 et 38,3 kilogrammes ? 2.6.4. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30 gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait un poids total : a) Compris entre 496 et 500 grammes. b) Plus grand que 510 grammes. 2.6.5. Les batteries d'un fabricant A ont une durée de vie moyenne de 1400 heures avec un écart-type de 200 heures, et celles d'un fabricant B ont une durée de vie moyenne de 1200 heures avec un écart-type de 100 heures. Si l'on teste des échantillons de 125 batteries pour chaque marque, quelle est la probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de : a) 160 heures ? b) 250 heures ? 2.6.6. Les piles d'une marque donnée pèsent 0,50 gramme avec un écart-type de 0,02 gramme. Quelle est la probabilité pour que deux lots de 1000 piles chacun diffèrent entre eux de plus de 2 grammes ? 2.6.7. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une loi de Laplace Gauss, quelle est la probabilité pour que l’éclairage fonctionne, en moyenne : a) Au moins pendant 5000 heures ? b) Au plus pendant 4200 heures ? 2.6.8. Les poids de 1500 pièces suivent une loi de probabilité normale de moyenne 22,40 kg et d’écart type 0,048 kg Déterminer pour 300 échantillons aléatoires de taille 36 de cette population la moyenne et l'écart type théorique de la distribution d'échantillonnage des moyennes : a) L'échantillonnage étant non exhaustif. b) L’échantillonnage étant exhaustif. c) Combien d'échantillons aléatoires ont leur moyenne comprise entre 22,39 et 22,41 kg ? 2.6.9. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart type de 50 kg, Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes.

42

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

2.6.10. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives 4000 et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100 câbles de la marque A et 50 câbles de la marque B, quelle est la probabilité pour que la résistance de rupture moyenne de B ait : a) Au moins 600 kilogrammes de plus que A ? b) Au moins 450 kilogrammes de plus que A ? 2.6.11. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un écart type de 200 heures. a) Trouver la probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie supérieure à 1825. b) Trouver la probabilité qu'un échantillon aléatoire de 100 Unités de ce bien ait une moyenne de vie de pas plus de 1775 et pas moins de 1760. 2.7. SOLUTIONS DES EXERCICES D’APPLICATION. 2.7.1. Solution de l’exercice 2.6.1. Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est non exhaustif. 

E( X ) = m =

1 23 45 6 7 89 = 5 9

 x i  x 2 = 1²  2² 3²  4² 5² 6² 7² 8² 9² 2

² =

9

n



V( X ) =

² = 6,67 = 0,667 n 10

L’erreur standard est alors :

X   = 0,667 = 0,82 n

2.7.2. Solution de l’exercice 2.6.2. a) La moyenne de la population. m=

- 5² = 6,67

23 6811 = 6 5

43

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

b) L’écart type de la population.

 x i  x 2 = 2² 3² 6² 8² 11² 2

² =

5

n

- 6² = 10,80

c) La moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 6 d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur standard. Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est non exhaustif. 

V( X ) =

² = 10,80 = 5,40 n 2

L’erreur standard est alors :

X   = 5,40 = 2,32 n

e) Cas d’un échantillon exhaustif. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 6 - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

N  n ² = 5 2 10,80 = 4,05 N 1 n 51 2

L’erreur standard est alors :

4,05 = 2,01

2.7.3. Solution de l’exercice 2.6.3. Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5 kg. La taille de l’échantillon est n = 25 44

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

a) Cas d’un échantillon non exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 38 kg - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) = ² =

n

5² = 1 25

L’erreur standard est alors :

1 = 1 kg.

b) Cas d’un échantillon exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 38 kg - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

Nn N 1

² = 3000  25 5² = 0,992 n 3000  1 25

L’erreur standard est alors :

0,992 = 0,996 kg.

c) Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes. Calculons la probabilité que la moyenne soit comprise entre 36,8 et 38,3 kg. La moyenne suit une loi normale de moyenne 38 et d’écart type 1 kg. 

38,338 36,838 ) - ( ) 1 1

p(36,8 <

x < 38,3) = (

p(36,8 <

x < 38,3) = (0,3) - (-1,2)

p(36,8 <

x < 38,3) = 0,6179 – 0,1151 = 0,5028





45

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes = 0,5028x80 = 40,22. On peut s’attendre à avoir 40 à 41 échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes. 2.7.4. Solution de l’exercice 2.6.4. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 5,02 g - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

Nn N 1

² = 500  100 0,3² = 0,0007 n 500  1 100

L’erreur standard est alors :

0,0007 = 0,027 g.

a) Un poids total compris entre 496 et 500 g est équivalent à une moyenne comprise entre 4,96 et 5 g. 

5  5,02 4,96  5,02 ) - ( ) 0,027 0,027

p(4,96 <

x < 5) = (

p(4,96 <

x < 5) = (-0,74) - (-2,22)

p(4,96 <

x < 5) = 0,2296 – 0,0132 = 0,2164





b) Un poids total plus grand que 510 g est équivalent à une moyenne plus grande que 5,10 g. 

p( x > 5,10) = 1 - (

5,10  5,02 ) 0,027



p( x > 5,10) = 1 - (2,96) = 1 – 0,9985 = 0,0015 46

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

2.7.5. Solution de l’exercice 2.6.5. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les durées de vie moyennes observées des deux échantillons indépendants ² 1 ² 2 suit une loi normale de moyenne (m1-m2) et d’écart type .  n1 n2 

E( x1 

V( x1 -



x 2 ) = m1 - m2 = 1400 – 1200 = 200 h 

x2 ) =

² 1 ² 2 200² 100²   = = 400 125 125 n1 n2

L’écart type est donc

400 = 20 h

La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne 200 heures et d’écart type 20 heures. a) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de 160 heures. 

p( x1 

p( x1 -



x 2 > 160) = 1 - ( 160 200 ) 20 

x 2 > 160) = 1 - (-2) = 0,9772

b) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de 250 heures. 

p( x1 

p( x1 -



x 2 > 250) = 1 - ( 250 200 ) 20 

x 2 > 250) = 1 - (2,5) = 0,0062

47

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

2.7.6. Solution de l’exercice 2.6.6. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les poids moyens observés des deux échantillons indépendants suit une loi ² 1 ² 2 normale de moyenne (m1-m2) et d’écart type .  n1 n2 



E( x1 -

x 2 ) = m1 - m2 = 0,5 – 0,5 = 0 g





V( x1 -

x2 ) =

² 1 ² 2 0,02² 0,02²   = = 0,0000008 1000 1000 n1 n2

L’écart type est donc 0,00089 g. La différence entre les poids moyens observés des deux échantillons indépendants suit une loi normale de moyenne nulle et d’écart type 0,00089 gramme. Les deux lots de 1000 pièces chacune différents de plus de 2 g ce qui donne un écart absolu entre les moyennes de plus de 0,002 g. 

p( x1 -







x 2  > 0,002) = p(-0,002 < x1 - x 2 < 0,002) 

p(-0,002 < x1 

p(-0,002 < x1 

p(-0,002 < x1 -



x 2 < 0,002) = (

0,002 0,002 ) - () 0,00089 0,00089



x 2 < 0,002) = 2. (2,25) – 1 

x 2 < 0,002) = 2. 0,9878 – 1 = 0,9756

2.7.7. Solution de l’exercice 2.6.7. Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500 heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des trois ampoules.

48

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Désignons par Y la durée de vie totale. Y=X+X+X E(Y) = E(X) + E(X) + E(X) = 4500 h V(Y) = V(X) + V(X) + V(X) = 150²+150²+150² = 67500 L’écart type de Y est donc

67500 = 259,81 h.

L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 259,81 heures. a) Probabilité que l’éclairage fonctionne, en moyenne, au moins pendant 5000 heures. p(Y >5000) = 1 - ( 5000 4500 )

259,81

p(Y >5000) = 1 - (1,92) = 0,0274 b) Probabilité que l’éclairage fonctionne, en moyenne, au plus pendant 4200 heures. p(Y < 4200) = ( 4200 4500 )

259,81

p(Y < 4200) = (-1,15) = 0,1251 2.7.8. Solution de l’exercice 2.6.8. Désignons par X le poids des pièces. X suit une loi normale de moyenne 22,40 kg et d’écart type 0,048 kg. La taille de l’échantillon est n = 36 a) Cas d’un échantillon non exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 22,40 kg

49

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

- Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) = ² =

n

0,048² = 0,0001 36

L’erreur standard est alors :

0,0001 = 0,008 kg.

b) Cas d’un échantillon exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 22,40 kg - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

N  n ² = 150036 0,048² = 0,00006 N 1 n 15001 36

L’erreur standard est alors :

0,00006 = 0,00791 kg.

c) Nombre d'échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes. Calculons la probabilité pour que la moyenne soit comprise entre 22,39 et 22,41 kg. La moyenne suit une loi normale de moyenne 22,40 et d’écart type 0,008 kg. 

22,41 22,40 22,39 22,40 ) - ( ) 0,008 0,008

p(22,39 <

x < 22,41) = (

p(22,39 <

x < 22,41) = (1,25) - (-1,25)

p(22,39 <

x < 22,41) = 0,8944 – 0,1056 = 0,7888 = 78,88 %





Ce qui veut dire que 78,88 % des 300 échantillons qui ont leur moyenne comprise entre 22,39 kg et 22,41 kg soit : 0,7888 x 300 = 236,64. On peut s’attendre à avoir 236 ou 237 échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes. 50

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

2.7.9. Solution de l’exercice 2.6.9. Le poids des 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes si le poids moyen d’un colis dépasse 328 kg. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 300 kg - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

² = 50² = 100 n 25

L’erreur standard est alors :

100 = 10 kg.



p( x > 328) = 1 - ( 328300 )

10



p( x > 328) = 1 - (2,80) = 1 – 0,9974 = 0,0026 = 0,26 % 2.7.10. Solution de l’exercice 2.6.10. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne (m2-m1) et d’écart type 

E( x 2 

V( x 2 -



x1 ) = m2 - m1 = 4500 – 4000 = 500 kg  x1 ) = ²1  ² 2 = 300²  200² = 1700 n1 n 2 100 50

51

²1  ² 2 . n1 n 2

Statistiques décisionnelles

L’écart type est donc

2. Loi de probabilité de la moyenne d’échantillon

1700 = 41,23 kg

La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne 500 kg et d’écart type 41,23 kg. a) Probabilité pour que la marque B ait une charge de rupture d’au moins 600 kg de plus que la marque A. 

p( x 2 

p( x 2 -



x1 > 600) = 1 - ( 600500 ) 41,23 

x1 > 600) = 1 - (2,43) = 0,0075

b) Probabilité pour que la marque B ait une charge de rupture d’au moins 450 kg de plus que la marque A. 

p( x 2 

p( x 2 -



x1 > 450) = 1 - ( 450500 ) 41,23 

x1 > 450) = 1 - (-1,21) = 0,8869

2.7.11. Solution de l’exercice 2.6.11. Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance. - Moyenne de la distribution d'échantillonnage des moyennes. 

E( X ) = m = 1800 h - Ecart type de la distribution d'échantillonnage des moyennes. 

V( X ) =

² = 200² = 400 n 100

L’erreur standard est alors :

400 = 20 h.

52

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

a) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie supérieure à 1825. 

p( x > 1825) = 1 - ( 18251800 )

20



p( x > 1825) = 1 - (1,25) = 0,1056 b) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie de pas plus de 1775 et pas moins de 1760. 

p(1760 <

x < 1775) = ( 17751800 ) - ( 17601800 ) 20 20

p(1760 <

x < 1775) = (-1,25) - (-2)

p(1760 <

x < 1775) = 0,1056 – 0,0228 = 0,0828





53

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

54

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

CHAPITRE 3 LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON

3.1. POSITION DU PROBLEME. De la même manière que pour la moyenne, chacun des échantillons possède une variance : 

n

(x i  x)²

v(x)  i 1

n



n

(x i' x')²

v(x')  i 1

n



n

(x " x")² i

v(x")  i 1

n

Ces variances peuvent être considérées comme des valeurs observées d’une même variable aléatoire : 

n

(Xi X)²

V(X)  i 1

n

Comme X1, X2, …, Xn, la variable aléatoire V(X) possède une distribution de probabilité, dite distribution d’échantillonnage de la variance. On peut donc calculer l’espérance mathématique et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est désignée par m et la variance par ². E(Xi) = m

et

V(Xi) = ²

on peut démontrer alors :

E(V(X)) =

n 1  σ² n

55

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

Pour la variance de la distribution d’échantillonnage de la variance, on démontre, dans le cas d’une population normale : V(V(X)) =

2(n 1) 4 . n²

Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire est simple d’effectif n, l’espérance mathématique de la variance est :

E(V(X)) =

N n 1   σ² N 1 n

En ce qui concerne la forme de la distribution d’échantillonnage de la variance, on peut démontrer que dans le cas particulier d’une population normale, la variable aléatoire 

n

 (Xi  X)² i 1

²

possède une distribution khi deux à (n-1) degré de liberté.

3.2. ENONCES DES EXERCICES D’APPLICATION. 3.2.1. Calculez la moyenne et l'écart type de la variance S², ainsi que la probabilité p(10 < S² Z =

2.39,06  2.351 = 0,53

p(² < 39,06)  p(Z < 0,53) = (0,53) = 0,7019 Pour p(² < 31,64) => Z =

2.31,64  2.351 = 0,35

p(² < 31,64)  p(Z < 0,35) = (0,35) = 0,6368 p(0,045² 40²) = 1 - p(V(X) < 40²) p(V(X) > 40²) = 1 - p(

25.V(X) 25.40² < ) 50² 50²

p(V(X) > 40²) = 1 - p(² < 16) En consultant la table de la fonction de répartition de la loi Khi deux, à 24 degrés de liberté on trouve : 0,1 < p(² < 16) < 0,5 après interpolation linéaire on trouve : p(² < 16) = 0,1178 p(V(X) > 40²) = 1 – 0,1178 = 0,8822 3.3.9. Solution de l’exercice 3.2.9. Il s’agit de la différence de résistance de rupture entre les deux échantillons indépendants. La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne (m2-m1) et d’écart type

²1  ² 2 .

E(X2 – X1) = m2 - m1 = 4500 – 4000 = 500 kg V(X2 – X1) =

²1  ² 2 = 300² + 200² = 130000

L’écart type est donc

130000 = 361 kg

La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne 500 kg et d’écart type 361 kg.

66

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

a) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un écart type de moins de 350 kg p(V(X2 – X1) < 350²) = p(

100.V(X 2  X 1 ) 100.350² < ) 361² 361²

p(V(X2 – X1) < 350²) = p(² < 94) Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type p(² < 94) =

2.99 =14.

(9499) = (0,36) = 0,3594 14

p(V(X2 – X1) < 350²) = 0,3594 b) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un écart type de moins de 300 kg. p(V(X2 – X1) < 300²) = p(

100.V(X 2  X1) 100.300² < ) 361² 361²

p(V(X2 – X1) < 300²) = p(² < 69,06) Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type p(² < 69,06) =  (

2.99 =14.

69,06  99 ) =  (2,14) = 0,0162 14

p(V(X2 – X1) < 300²) = 0,0162 3.3.10. Solution de l’exercice 3.2.10. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance.

67

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des échantillons de taille 20. Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures.  = 200 h

m = 1800 h

et

n = 20

- Moyenne de la distribution d'échantillonnage des variances

E(V(X)) =

n 1  σ² = 20  1 x 200 2 = 38000 n 20

- Ecart type de la distribution d'échantillonnage des variances

V(V(X)) = 2.(n1) σ² = 2.(201) 200² = 12329 n 20 b) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des échantillons de taille 50.  = 200 h

m = 1800 h

et

n = 50

- Moyenne de la distribution d'échantillonnage des variances

E(V(X)) =

n 1 50  1  σ² =  200² = 40000 50 n

- Ecart type de la distribution d'échantillonnage des variances

V(V(X)) = 2.(n 1) ² = 2.(501) 200² = 7920 n 50 On remarque qu’en augmentant la taille de l’échantillon, l’erreur standard de la variance baisse. c) Probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de vie supérieur à 220. p(V(X) > 220²) = 1 - p(V(X) < 220²) p(V(X) > 220²) = 1 - p(

20.V(X) 20.220² < ) 200² 200² 68

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

p(V(X) > 220²) = 1 - p(² < 24,2) En consultant la table de la fonction de répartition de la loi Khi deux, à 19 degrés de liberté on trouve : 0,5 < p(² < 24,2) < 0,9 après interpolation linéaire on trouve : p(² < 24,2) = 0,7645 p(V(X) > 220²) = 1 – 0,7645 = 0,2355 d) Probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de vie supérieur à 220. p(V(X) > 220²) = 1 - p(V(X) < 220²) p(V(X) > 220²) = 1 - p(

50.V(X) 50.220² < ) 200² 200²

p(V(X) > 220²) = 1 - p(² < 60,5) Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et

2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la transformation : Z=

2²  2k  1

Z=

2.60,5  2.491 = 1,15

p(² < 60,5)  p(Z < 1,15) = (1,15) = 0,8749 p(V(X) > 220²) = 1 – 0,8749 = 0,1251

69

Statistiques décisionnelles

3. Loi de probabilité de la variance d’échantillon

3.3.11. Solution de l’exercice 3.2.11. m = 6 m  = 0,10 et

n = 40

- Moyenne de la distribution d’échantillonnage des variances

E(V(X)) =

n 1  σ² = 401 . 0,102 = 0,00975 n 40

- Ecart type de la distribution d’échantillonnage des variances

2 0,12 V (V(X))  2 (n  1) x  2 x 39 x  0,0022 n 40 b) Pour des échantillons de taille 60 on a : - Moyenne de la distribution d’échantillonnage des variances

E(V(X)) =

n 1  σ² = 60  1 x 0,102  0,00983 n 60

- Ecart type de la distribution d’échantillonnage des variances

V (V(X))  2 (n  1) x

2 0,12  2 x 59 x  0,0018 n 60

c) On peut élasticités demandées, en effet pour une variation de 50 % de la taille des échantillons on a : - Une élasticité des moyennes de distribution d’échantillonnage des variances égale à :

0,00983  0,00975   0,82 % 0,00975 - Une élasticité des écart-types de distribution d’échantillonnage des variances égale à :

0,0018  0,0022   18,18 % 0,0022 70

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

CHAPITRE 4 LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON

4.1. POSITION DU PROBLEME. De même que pour la moyenne et pour la variance, si l’on considère une population infinie et que l’on y prélève un échantillon aléatoire et simple d’effectif n, on désigne par Xn le nombre d’individus possédant, dans chaque échantillon, le caractère étudié.

f n  X n est la fréquence ou proportion des individus possédant, dans l’échantillon, le n caractère étudié. On désigne par p la proportion des individus possédant, dans la population, le caractère étudié. Les échantillons successifs possèdent les fréquences :

fn  Xn n

f n' X n' n

fn" Xn" n

Ces fréquences peuvent être considérées comme des valeurs observées d’une même variable aléatoire :

fn  Xn n La variable aléatoire Fn possède une distribution de probabilité, dite distribution d’échantillonnage de la proportion. On peut donc calculer l’espérance et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple.

71

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

4.2. LOI DE PROBABILITE SELON L’ECHANTILLON. 4.2.1. Echantillon non exhaustif. E(Fn) = E( X n ) =

n

V(Fn) = V(

σ Fn 

1 E( X n ) = 1 n p = p n n

Xn pq 1 1 n ) = n² V( X n ) = n² n p q = n

pq n

est appelé erreur standard de la fréquence d’un échantillon aléatoire et simple.

En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la proportion suit une loi normale de moyenne p et d’écart type σ Fn 

pq

à condition que la n taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit n p  5. 4.2.2. Echantillon exhaustif. Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire et simple d’effectif n, l’espérance mathématique et la variance de la fréquence sont : E(Fn) = E( X n ) =

n

V(Fn) = V( X n ) =

n

L’erreur standard est alors :  Fn 

1 E( X n ) = 1 n p = p n n

1 V( X n ) = 1 N  n n p q = N  n pq n² n² N 1 N 1 n pq Nn  N 1 n

En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la proportion suit une loi normale de moyenne p et d’écart type  Fn 

pq Nn  à N 1 n

condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit n p  5. 72

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

4.3. ENONCES DES EXERCICES D’APPLICATION. 4.3.1. Lors d’élections, les résultats ont montré qu’un des candidats a obtenu 46 % des voix. Déterminer la probabilité pour que le vote donne une majorité de voix en faveur de ce candidat pour un échantillon de : a) 200 personnes choisies au hasard parmi le corps électoral. b) 1000 personnes choisies au hasard parmi le corps électoral . 4.3.2. Trouver la probabilité pour que parmi les 200 prochains enfants à naître : a) Il y ait moins de 40 % de garçons. b) Il y ait entre 43 % et 57 % de filles. c) Il y ait plus de 54 % de garçons. On supposera que la naissance d'un garçon et la naissance d'une fille sont équiprobables. 4.3.3. Etant donné 1000 échantillons de 200 enfants chacun, pour combien d'échantillons a-t-on une chance de trouver : a) Moins de 40 % de garçons. b) Entre 40 % et 60 % de filles. c) 53 % ou plus de filles ? 4.3.4. Les résultats d'une élection montrent qu'un des candidats a obtenu 65 % des voix. Trouver la probabilité pour que deux échantillons aléatoires, chacun correspondant à 200 votants, indiquent plus de 10 % de différence dans les proportions de gens qui ont voté pour ce candidat. 4.3.5. On s’intéresse au taux de réussite au sein d’une école. a) On considère un échantillon de 35 étudiants, quelle est la probabilité d’avoir plus de 70 % d’admis ? b) On considère deux échantillons indépendants de 100 étudiants chacun, quelle est la probabilité d’avoir plus de 15 % de différence dans les taux de réussite ? 4.3.6. On considère une élection municipale dans laquelle deux candidats ont obtenu respectivement 34 % et 14 % des suffrages. Le nombre de votants est 12000. On prend un échantillon de 100 personnes, quelle est la probabilité pour que le candidat 1 ait plus de 25 % des suffrages et le candidat 2 ait plus de 20 % ? 4.3.7. Un 1er test a donné un taux de pièces défectueuses égal à 5 %. On réalise un test de qualité sur un échantillon de 1000 pièces mécaniques. a) Quelle est la probabilité pour que ce dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % ? b) Quelles sont ces probabilités avec un échantillon de 100 pièces seulement au lieu de 1000. Interpréter ces résultats. 73

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

c) Quelle est la taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égale à 4 % avec une probabilité de 98 % ? Interpréter ces résultats. 4.3.8. Une étude sur la notoriété d’une marque a porté sur un échantillon aléatoire de 400 personnes. a) Quelle est la probabilité d’avoir un taux de notoriété qui dépasse 55 % ? b) Calculer cette probabilité si on pense que la notoriété est de 60 %. 4.3.9. Un fournisseur affirme que le risque de vendre une pièce défectueuse est de 5 %. Pour vérifier l’affirmation du fournisseur, un contrôle a porté sur un échantillon aléatoire de 300 pièces. L’affirmation du fournisseur est-elle plausible ? 4.3.10. 80 % des clients sont satisfaits, c’est ce que pense le directeur d’une société de service. a) Quelle est la probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits ? b) Un deuxième échantillon aléatoire de 300 clients est choisi indépendamment du premier échantillon. Quelle est la probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès des deux échantillons ? 4.4. SOLUTIONS DES EXERCICES D’APPLICATION. 4.4.1. Solution de l’exercice 4.3.1. Soit F la variable aléatoire qui désigne la fréquence des électeurs qui voteront pour ce candidat. La distribution d’échantillonnage de F suit une loi normale de moyenne p et d’écart type

pq n

à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n30) et le produit n p5. E(F) = p V(F) =

pq n

σF 

pq n

a) 200 personnes choisies au hasard parmi le corps électoral.

E(F) = 0,46 V(F) =

0,46.0,54 = 0,0012 200

σ Fn  0,0012 = 0,035 74

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

n = 200 > 30 et le produit n p = 200 . 0,46 = 92 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,46 et d’écart type 0,035. Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %. p(F  0,5) = 1 – p(F < 0,5) = p(Z <

0,50,46 ) 0,035

p(F  0,5) = 1 – (1,14) = 1 – 0,8729 = 0,1271 = 12,71 % b) 1000 personnes choisies au hasard parmi le corps électoral. E(F) = 0,46 V(F) =

0,46.0,54 = 0,0002484 1000

σ Fn  0,0002484 = 0,016

n = 1000 > 30 et le produit n p = 1000.0,46 = 460 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,46 et d’écart type 0,016. Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %. p(F  0,5) = 1 – p(F < 0,5) = p(Z <

0,50,46 ) 0,016

p(F  0,5) = 1 – (2,5) = 1 – 0,9938 = 0,0062 = 0,62 % 4.4.2. Solution de l’exercice 4.3.2. Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 prochains enfants à naître. E(F) = p = 0,5 V(F) =

pq 0,5.0,5 = = 0,0013 σ F  n 200

0,0013 = 0,0354

n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0354. 75

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

a) Probabilité pour que parmi les 200 prochains enfants à naître il y ait moins de 40 % de garçons. p(F < 0,4) = p(Z <

0,40,5 ) = (-2,82) = 1 – 0,9976 = 0,0024 0,0354

b) Probabilité pour que parmi les 200 prochains enfants à naître il y ait entre 43 % et 57 % de filles. p(0,43 < F < 0,57) = p(Z <

0,57 0,5 0,430,5 ) - p(Z < ) 0,0354 0,0354

p(0,43 < F < 0,57) = (1,98) - (-1,98) p(0,43 < F < 0,57) = 0,9761 – 0,0239 = 0,9522 c) Probabilité pour que parmi les 200 prochains enfants à naître il y ait plus de 54 % de garçons. p(F > 0,54) = 1 - p(Z <

0,540,5 ) 0,0354

p(F > 0,4) = 1 - (1,13) = 1 – 0,8708 = 0,1292 4.4.3. Solution de l’exercice 4.3.3. Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 enfants de l’échantillon. E(F) = p = 0,5 V(F) =

pq 0,5.0,5 = = 0,0013 n 200

σ F  0,0013 = 0,0354

n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0354. a) Nombre d’échantillon de moins de 40 % de garçons. 76

Statistiques décisionnelles

p(F < 0,4) = p(Z <

4. Loi de probabilité de la proportion d’échantillon

0,40,5 ) 0,0354

p(F < 0,4) = (-2,82) = 1 – 0,9976 = 0,0024 Nombre d’échantillon de moins de 40 % de garçons est : 1000 . 0,0024 = 2,4. On peut s’attendre à 2 ou 3 échantillons qui auront moins de 40 % de garçons. b) Nombre d’échantillon qui auront entre 40% et 60% de garçons. p(0,40 < F < 0,60) = p(Z <

0,600,5 0,400,5 ) - p(Z < ) 0,0354 0,0354

p(0,40 < F < 0,60) = (2,82) - (-2,82) p(0,40 < F < 0,60) = 0,9976 – 0,0024 = 0,9952 Nombre d’échantillon qui auront entre 40% et 60% de garçons est : 1000 . 0,9952 = 995,2. On peut s’attendre à 995 échantillons qui auront entre 40 % et 60 % de garçons. c) Nombre d’échantillon de 53 % ou plus de filles. 53 % ou plus de filles est équivalente à 47 % de garçons ou moins.

p(F < 0,47) = p(Z <

0,47 0,5 ) 0,0354

p(F < 0,47) = (-0,85) = 1 – 0,8023 = 0,1977 Nombre d’échantillon qui auront 53 % ou plus de filles est : 1000 . 0,1977 = 197,7 On peut s’attendre à 198 échantillons qui auront 53 % ou plus de filles.

77

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

4.4.4. Solution de l’exercice 4.3.4. Soit F1 la variable aléatoire qui désigne la fréquence des gens du premier échantillon qui ont voté pour ce candidat. E(F1) = p = 0,65 V(F1) =

pq 0,65.0,35 = = 0,0011 n 200

σ F1  0,0011 = 0,0337

n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,65 et d’écart type 0,0337. Soit F2 la variable aléatoire qui désigne la fréquence des gens du deuxième échantillon qui ont voté pour ce candidat. E(F2) = p = 0,65 V(F2) =

pq 0,65.0,35 = = 0,0011 n 200

σ F2  0,0011 = 0,0337

n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F2 suit donc une loi normale de moyenne 0,65 et d’écart type 0,0337. Désignons par F la différence entre les fréquences des gens qui ont voté pour ce candidat dans chaque échantillon. E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,65-0,65 = 0 V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0011+0,0011 = 0,0022

σ F  0,0022 = 0,0469 La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,0469. p(

F1  F2 > 0,1) = p( F > 0,1) = 1 - p( F  0,1)

p(

F1  F2 > 0,1) = 1 – p(-0,1  F  0,1) 78

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

0,10 0,10 ) - p(Z  )] 0,0469 0,0469

p(

F1  F2 > 0,1) = 1 – [p(Z 

p(

F1  F2 > 0,1) = 1 – [(2,13) - (-2,13)]

p(

F1  F2 > 0,1) = 1 – (0,9834 – 0,0166) = 0,0332

4.4.5. Solution de l’exercice 4.3.5. a) Probabilité d’avoir plus de 70 % d’admis dans un échantillon de 35 étudiants. Soit F la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 35 étudiants de l’échantillon. Puisqu’on n’a pas d’information sur le taux de réussite dans cette école, on le considère égal à 50 %. E(F) = p = 0,5 V(F) =

pq 0,5.0,5 = = 0,0071 σ F  0,0071 = 0,0845 n 35

n = 35 > 30 et le produit n p = 35.0,5 = 17,5 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0845. p(F > 0,7) = 1 - p(Z <

0,7 0,5 ) 0,0845

p(F > 0,7) = 1 - (2,37) = 1 – 0,9911 = 0,0089 b) Probabilité d’avoir plus de 15 % de différence dans les taux de réussite de deux échantillons indépendants de 100 étudiants chacun. Soit F1 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100 étudiants du premier échantillon. E(F1) = p = 0,5 V(F1) =

pq 0,5.0,5 = = 0,0025 σ F1  0,0025 = 0,05 n 100

79

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,5 et d’écart type 0,05. Soit F2 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100 étudiants du deuxième échantillon. E(F2) = p = 0,5 V(F2) =

pq 0,5.0,5 = = 0,0025 σ F2  0,0025 = 0,05 n 100

n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 2 suit donc une loi normale de moyenne 0,5 et d’écart type 0,05. Désignons par F la différence dans les taux de réussite des deux échantillons indépendants de 100 étudiants chacun. E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,5-0,5 = 0 V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0025+0,0025 = 0,005

σ F  0,005

= 0,0707

La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,0707. p(

F1  F2 > 0,15) = p( F > 0,15) = 1 - p( F  0,15)

p(

F1  F2 > 0,15) = 1 – p(-0,15  F  0,15)

p(

F1  F2 > 0,15) = 1 – [p(Z 

p(

F1  F2 > 0,15) = 1 – [(2,12) - (-2,12)]

p(

F1  F2 > 0,15) = 1 – (0,9830 – 0,0170) = 0,0340

0,150 0,150 ) - p(Z  )] 0,0707 0,0707

4.4.6. Solution de l’exercice 4.3.6. - Probabilité pour que le candidat 1 ait plus de 25 % des suffrages. Soit F1 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le candidat 1. 80

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

E(F1) = p = 0,34 V(F1) =

N  n pq = 12000100 0,34.0,66 = 0,0022 N 1 n 120001 100

σ F1  0,0022 = 0,0472 n = 100 > 30 et le produit n p = 100.0,34 = 34 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,34 et d’écart type 0,0472. p(F1 > 0,25) = 1 - (

0,250,34 ) 0,0472

p(F1 > 0,25) = 1 - (-1,91) = 0,9719 - Probabilité pour que le candidat 2 ait plus de 20 % des suffrages. Soit F2 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le candidat 2. E(F2) = p = 0,14 V(F2) =

N  n pq = 12000100 0,14.0,86 = 0,0012 N 1 n 120001 100

σ F2  0,0012

= 0,0346

n = 100 > 30 et le produit n p = 100.0,14 = 14 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,14 et d’écart type 0,0346. p(F2 > 0,20) = 1 - (

0,200,14 ) 0,0346

p(F2 > 0,20) = 1 - (1,73) = 0,0418 4.4.7. Solution de l’exercice 4.3.7. a) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 1000 pièces. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon.

81

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

E(F) = p = 0,05 V(F) =

pq 0,05.0,95 = = 0,0000475 n 1000

σ F  0,0000475 = 0,00689 n = 1000 > 30 et le produit n p = 1000.0,05 = 50 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,00689. p(F  0,01) = p(Z < p(F  0,02) = p(Z < p(F  0,03) = p(Z < p(F  0,04) = p(Z < p(F  0,05) = p(Z <

0,010,05 ) = (-5,8) = 0 0,00689 0,020,05 ) = (-4,35) = 0 0,00689 0,030,05 ) = (-2,90) = 0,0019 0,00689 0,040,05 ) = (-1,45) = 0,0735 0,00689 0,050,05 ) = (0) = 0,5 0,00689

b) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 100 pièces. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon. E(F) = p = 0,05 V(F) =

pq 0,05.0,95 = = 0,000475 n 100

σ F  0,000475 = 0,02179 n = 100 > 30 et le produit n p = 100.0,05 = 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,02179. p(F  0,01) = p(Z <

0,010,05 ) = (-1,84) = 0,0329 0,02179

82

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

0,020,05 ) = (-1,38) = 0,0838 0,02179 0,030,05 p(F  0,03) = p(Z < ) = (-0,92) = 0,1788 0,02179 0,040,05 p(F  0,04) = p(Z < ) = (-0,46) = 0,3228 0,02179 0,050,05 p(F  0,05) = p(Z < ) = (0) = 0,5 0,02179 p(F  0,02) = p(Z <

On constate que pour un échantillon de taille plus petite, les probabilités sont plus grandes. Plus la taille de l’échantillon est grande plus le risque d’avoir des pièces défectueuses est grand. c) Taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égal à 4 % avec une probabilité de 98 %. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon de taille n. E(F) = p = 0,05 V(F) =

pq 0,05.0,95 0,0475 = = n n n

F 

0,0475 0,2179  n n

p(F  0,04) = 0,98

p(Z <

(

0,040,05 ) = 0,98 0,2179 n

0,040,05 ) = 0,98 0,2179 n

83

Statistiques décisionnelles

0,040,05 = Z0,98 = 2,05 0,2179 n

4. Loi de probabilité de la proportion d’échantillon

=>

n = 1996 pièces

Un échantillon de 1996 pièces peut garantir 98 % de chances d’avoir moins de 4 % de pièces défectueuses. 4.4.8. Solution de l’exercice 4.3.8. a) Probabilité d’avoir un taux de notoriété qui dépasse 55 % Soit F la variable aléatoire qui désigne la fréquence des personnes de l’échantillon qui connaissent la marque. Puisqu’on n’a pas d’information sur le taux de notoriété dans la population, on le considère égal à 50 %. E(F) = p = 0,5 V(F) =

pq 0,5.0,5 = = 0,000625 n 400

σ F  0,000625  0,025

n = 400 > 30 et le produit n p = 400.0,5 = 200 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,025. p(F > 0,55) = 1 - p(Z <

0,550,5 ) 0,025

p(F > 0,55) = 1 - (2) = 0,0228 b) Probabilité d’avoir un taux de notoriété qui dépasse 60 % si on pense que la notoriété est de 60 %. E(F) = p = 0,6

pq 0,6.0,4 = = 0,0006 σ F n 400 0,550,6 p(F > 0,55) = 1 - p(Z < ) 0,02449 V(F) =

 0,0006  0,02449

p(F > 0,55) = 1 - (-2,04) = 0,9793

84

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

4.4.9. Solution de l’exercice 4.3.9. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon. E(F) = p = 0,05 V(F) =

pq 0,05.0,95 = = 0,00016 n 300

σ F  0,00016  0,01258 n = 300 > 30 et le produit n p = 300.0,05 = 15 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,01258. L’affirmation du fournisseur est plausible si la probabilité d’avoir plus de 5 % de pièces défectueuses est faible. p(F  0,06) = 1 - p(Z <

0,060,05 ) 0,01258

p(F  0,06) = 1 - (0,79) = 0,2148 Le contrôle de 300 pièces donne 21,48 % de chances d’avoir 6 % ou plus de pièces défectueuses. L’affirmation du fournisseur est probable à 78,52 %. 4.4.10. Solution de l’exercice 4.3.10. a) Probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits. Soit F la variable aléatoire qui désigne la fréquence des clients de l’échantillon qui sont satisfaits. E(F) = p = 0,8 V(F) =

pq 0,8.0,2 = = 0,0008 n 200

σ F  0,0008  0,02828 85

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

n = 200 > 30 et le produit n p = 200.0,8 = 160 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,8 et d’écart type 0,02828. p(F < 0,7) = p(Z <

0 ,7  0 ,8 ) 0,02828

p(F < 0,7) = (-3,54) = 0,0002 b) Probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès des deux échantillons. Soit F’ la variable aléatoire qui désigne la fréquence des clients du deuxième échantillon qui sont satisfaits. E(F’) = p = 0,8 V(F’) =

pq 0,8.0,2 = = 0,00053 n 300

σ F '  0,00053  0,02309 n = 300 > 30 et le produit n p = 300.0,8 = 240 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,8 et d’écart type 0,02309. Désignons par F la différence dans les taux de satisfaction des deux échantillons indépendants. E(F) = E(F – F’) = E(F) – E(F’) = 0,8-0,8 = 0 V(F) = V(F – F’) = V(F) + V(F’) = 0,0008+0,00053 = 0,00133

σ F  0,00133  0,03647 La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,03647. p(

F F' > 0,02) = p( F > 0,02) = 1 - p( F  0,02)

p(

F F' > 0,02) = 1 – p(-0,02  F  0,02)

86

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

0,020 0,020 ) - p(Z  )] 0,03647 0,03647

p(

F F' > 0,02) = 1 – [p(Z 

p(

F F' > 0,02) = 1 – [(0,55) - (-0,55)]

p(

F F' > 0,02) = 1 – (0,7088 – 0,2912) = 0,5824

87

Statistiques décisionnelles

4. Loi de probabilité de la proportion d’échantillon

88

Statistiques décisionnelles

Partie 3. Principe de l’estimation

PARTIE 3 PRINCIPE DE L’ESTIMATION

Les premiers problèmes d’inférence statistique auxquels s’applique la théorie des distributions d’échantillonnage sont les problèmes d’estimations. Le but poursuivi est d’estimer, à partir d’un échantillon, la ou les valeurs numériques d’un ou de plusieurs paramètres de la population considérée et de déterminer la précision de cette ou de ces estimations. DEFINITION D’UN ESTIMATEUR. Soient une population quelconque, dont la distribution de probabilité L(X) est fonction d’un paramètre  : L(X) = f(X, ) et un échantillon aléatoire et simple d’effectif n extrait de cette population. On appelle estimateur du paramètre , toute fonction aléatoire des valeurs observées, X1, X2, X3,…, Xn, susceptibles de servir à estimer  Tn = f (X1, X2, …, Xn) On appelle estimation les valeurs numériques t1, t2, …de cette variable aléatoire Tn. QUALITES D’UN ESTIMATEUR.

Absence de biais La première qualité d’un bon estimateur est l’absence d’erreur systématique ou de biais. Cette qualité implique que la vraie valeur  doit être retrouvée en moyenne : E(Tn) =  Tout estimateur qui satisfait cette condition est dit sans biais ou non biaisé.

89

Statistiques décisionnelles

Partie 3. Principe de l’estimation

Variance minimale Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante. Cette précision peut être mesurée par le moment d’ordre deux par rapport à . E[(Tn - )²] Pour les estimateurs non biaisés, ce moment se confond avec la variance : E[(Tn - )²] = V(Tn) On peut démonter qu’à tout paramètre  correspond une valeur minimum de E[(Tn - )²]. La fonction qui correspond à ce minimum, définit l’estimateur de variance minimum.

90

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

CHAPITRE 5 ESTIMATION DE LA MOYENNE D’UNE POPULATION

5.1. ESTIMATION D’UNE MOYENNE. 5.1.1. Estimation ponctuelle. La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la moyenne de l’échantillon. _

^

m=X La dispersion des différentes estimations possibles autour de cette moyenne générale, est mesurée par l’erreur standard de la moyenne :

x 



n

Signalons dès à présent, comme nous le verrons, dans le chapitre suivant, que l’estimation ponctuelle et sans biais de la variance d’une population mère, à partir des résultats obtenus d’un échantillon simple et aléatoire est : 

n

^

² 

n  v( x ) = n -1

(x x)² i

i 1

n 1

5.1.2. Estimation par intervalle de confiance. 5.1.2.1. Cas d’une population normale. Si on s’intéresse à la moyenne inconnue m d’une population normale d’écart type connu , l’estimation, par intervalle de confiance, consiste à déterminer, de part et d’autre de 

l’estimateur contenir m.





X , les bornes X1 et X 2 d’un intervalle qui a un niveau de confiance (1-) de 91

Statistiques décisionnelles.



Les limites

5. Estimation de la moyenne d’une population



X1 et X 2 sont telles que :



p ( X1  m 





X2 ) = 1 - 

Si on désigne par



p (m < X1 ) = p (m > X 2 ) = /2

ou

Z1 la valeur de la variable normale centrée et réduite lue dans la table,

2 les limites de confiances sont : 



X1 = X - Z



σ  12

et

n



X2 = X + Z

σ  1 2

n

On notera l’intervalle de confiance : 

X Z

σ  1 2

n

ou

    ;xZ   x  Z1    1 n n 2 2 

C’est un intervalle symétrique par rapport à la moyenne. Dans le cas d’une population normale dont on ne connaît pas l’écart type, on utilise l’estimation ponctuelle et sans biais de l’écart type, à savoir :

ˆ 

n V( x ) n 1

5.1.2.2. Cas d’une population de distribution inconnue. Pour une population de distribution de probabilité inconnue (écart type  inconnu), on utilise la quasi-variance comme estimation de la variance de la population. L’estimation ponctuelle et sans biais de l’écart type est :

ˆ 

n V( x ) n 1

L’intervalle de confiance de la moyenne sera défini selon les cas.

92

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

5.1.2.2.1. Cas d’un échantillon d’effectif inférieur à 30 (n < 30) Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T de Student à (n-1) degré de liberté. La valeur

Z 1-

 2

sera remplacée par la valeur

T 1-

 2

à (n-1) degrés de liberté.

L’intervalle de confiance est alors : ^



X T

 12

σ

ou

n

 ˆ ˆ  ;xT   x  T1    1 n n 2 2 

5.1.2.2.2. Cas d’un échantillon d’effectif supérieur ou égal à 30 (n  30). Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable approximativement normale. L’intervalle de confiance est alors : ^



σ

X Z 1-

 2

n

ou

 ˆ ˆ  ;xZ   x  Z1    1 n n 2 2 

5.2. ESTIMATION DE LA SOMME DE MOYENNES. La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit des échantillons indépendants. Désignons par : N = Taille de la population Ni = Taille de la strate i n = Taille de l’échantillon global ni = Taille de l’échantillon prélevé dans la strate i 5.2.1. Estimation ponctuelle. La moyenne de chaque strate est estimée par la moyenne de l’échantillon de la strate.

ˆ i  xi m

93

Statistiques décisionnelles.

avec une erreur standard  x  i

5. Estimation de la moyenne d’une population

i ni

Ni  ni Ni  1

 i est l’écart type de la strate i La moyenne globale de la population est estimée par :

ˆ x m

La variance de

x est :

L’erreur standard est :

V (x) 

x 

1 N

 Ni xi  Ni

2 Ni  n i 1  ( N i2 i ) 2 N ni Ni  1 ( N i2

 i2 N i  n i ) ni Ni  1

5.2.2. Estimation par intervalle de confiance. L’estimation par intervalle de confiance de la moyenne globale d’une population stratifiée lorsque n  30, est donnée par :

X  Z1 / 2  x Où

Z1 / 2 est tel que p (

ˆ xm   Z1 / 2 )  1  lu dans la table de la loi de probabilité ˆ 2

normale centrée réduite. 5.3. ENONCES DES EXERCICES D’APPLICATION. 5.3.1. Le tableau suivant donne la distribution du nombre de pannes observées dans le fonctionnement d’une machine au cours de 100 journées de travail. a) Déduisez-en une estimation du nombre moyen de pannes par jour, en supposant que la distribution théorique du nombre de pannes est une loi de poisson. b) Donnez l’erreur standard du résultat obtenu.

94

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

Nombres de pannes par jour Nombres de jours 0 53 1 32 2 11 3 3 4 1 Total 100 5.3.2. Lors d’un concours radiophonique, on note X le nombre de réponses reçues chaque jour. On suppose que X suit une loi normale de paramètres m et . Durant les 10 premiers jours, on a obtenu : x1 = 200 ; x2 = 240 ; x3 = 190 ; x4 = 150 ; x5 = 220 ; x6 = 180 ; x7 = 170 ; x8 = 230 ; x9 = 210 et x10 = 210. Déterminer une estimation ponctuelle de m. 5.3.3. Un échantillon de 15 étudiants d'une faculté a obtenu les notes suivantes : 13 ; 06 ; 12 ; 10 ; 10 ; 16 ; 02 ; 04 ; 11 ; 12 ; 12 ; 05 ; 07 ; 08 ; 13 a) Estimer la note moyenne pour l'ensemble des étudiants de la faculté. b) Donner des estimations par intervalle de confiance pour la moyenne avec un risque d’erreur de 5 %. 5.3.4. Dans une entreprise produisant un article déterminé, on veut estimer la durée de vie de cet article en heures. À cette fin on a observé un échantillon de 16 unités dont les résultats sont (en 1000 heures) : 1,10 1,30

1,05 1,35

1,25 1,15

1,08 1,32

1,35 1,05

1,15 1,25

1,30 1,10

1,25 1,15

a) Estimer la durée de vie moyenne d'un article. b) Donner une estimation par intervalle de confiance pour la moyenne. ( α =5%). c) Donner une estimation par intervalle de confiance pour la moyenne. ( α =10%). d) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation du risque d’erreur. 5.3.5. Dans une station service, on suppose que le montant des chèques essence suit une loi normale de paramètres m et . On considère un échantillon de taille n = 50 et on obtient une moyenne de 130 Dh et un écart-type de 28 Dh. Donner une estimation de m par un intervalle de confiance au niveau de confiance 95%.

95

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

5.3.6. On donne la répartition des masses de 35 ressorts provenant d’une même fabrication : masses (g) [82 ; 84[ [84 ; 86[ [86 ; 88[ [88 ; 90[ [90 ; 92[ [92 ; 94[ [94 ; 96[ [96 ; 98[

Nombre de Ressorts 4 6 6 6 8 2 2 1

X donnant le poids d’un ressort provenant de cette fabrication, a) Donner une estimation ponctuelle de la moyenne des poids des ressorts fabriqués b) Donner pour cette moyenne un intervalle de confiance au niveau de confiance 96%. 5.3.7. On veut estimer l’espérance mathématique m d’une variable aléatoire gaussienne X dont on connaît l’écart type = 2,3. Quelle est la taille minimum de l’échantillon de X qui està prendre si l’on veut obtenir pour m un intervalle de confiance de seuil 0,95 et dont la longueur ne dépasse pas 0,1 ? 5.3.8. Un confiseur vend des boites de bonbons d’un certain modèle. On note X la masse d’une boite pleine. Les pesées de 8 boites ont conduit aux masses (en kg) : 1,22 ; 1,23 ; 1,21 ; 1,19 ; 1,23 ; 1,24 ; 1,18 ; 1,21. a) Donner pour m un intervalle de confiance au risque de 10 %. b) En supposant que la variance de X soit connue et égale à la variance observée, donner pour m un intervalle de confiance au seuil de confiance 95% et comparer avec le a). c) On suppose maintenant que l’on a trouvé la même moyenne et la même variance qu’observées mais avec 5 observations au lieu de 8. Reprendre les questions a) et b). 5.3.9. Après avoir pesé 12 pamplemousses d’une même provenance, on donne pour l’espérance mathématique m du poids X d’un pamplemousse, l’intervalle de confiance au niveau de confiance 95% : 390 g  m  520 g. En déduire la moyenne observée et l’écart type observé. 5.3.10. Un échantillon aléatoire de 50 notes (sur 100) dans une population de 200 a donné une moyenne de 75 et un écart type de 10. a) Quelles sont les limites de confiance à 94 % pour estimer la moyenne des 200 notes ? b) Avec quel degré de confiance peut-on dire que la moyenne des 200 notes est de 75 plus ou moins 1 ? 5.3.11. Un échantillon de 150 lampes de marque A a donné une durée de vie moyenne de 1400 heures et un écart type de 120 heures. Un échantillon de 200 lampes de marque B a donné une 96

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

durée de vie moyenne de 1200 heures et un écart type de 80 heures. Déterminer les limites de confiance à 95 % de la différence des durées de vie moyennes des marques A et B. 5.3.12. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 Kg et un écart type de 0,012 Kg. Calculer les limites de confiance des poids de lots comprenant 100 roulements chacun. a) Avec un risque d’erreur de 1 %. b) Avec un risque d’erreur de 10 %. c) Discuter la sensibilité de la largeur de l’intervalle de confiance par rapport au risque d’erreur. 5.3.13. Dans une population de 579 individus, divisée en quatre strates comprenant respectivement 53 ; 190 ; 231 ; et 105 individus, on a prélevé un échantillon de 58 individus, dont 10 dans la première strate, 14 dans la deuxième, 21 dans la troisième et 13 dans la quatrième. En fonction des résultats suivants, estimer la moyenne de la population globale et l’erreur standard de cette moyenne, en considérant l’échantillon comme : a) Aléatoire et simple ; b) Stratifié. Strates Sommes Sommes des carrés 1 54 1004 2 127 3081 3 388 13270 4 553 39667 5.3.14. En vue d’estimer la note moyenne des élèves d’une école, on a choisi de façon aléatoire et simple six classes, et dans chacune de ces classes on a choisi aléatoirement 4 élèves. En fonction des résultats obtenus et repris ci-dessous : a) Estimer la note moyenne des élèves de l’école ; b) Déterminer l’intervalle de confiance à 95 % de cette estimation. Classes Elèves 1 2 3 4

1

2

3

4

5

6

11,69 12,32 12,32 11,90

11,79 11,97 12,07 12,06

11,84 11,59 11,25 11,80

12,30 11,91 12,05 12,23

11,83 11,77 12,15 11,66

11,95 11,87 11,65 11,87

97

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

5.4. SOLUTIONS DES EXERCICES D’APPLICATION. 5.4.1. Solution de l’exercice 5.3.1. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : xi

ni xi

x i2

n i x i2

0 53 0 1 32 32 2 11 22 3 3 9 4 1 4 Somme 100 67 Somme / n 0,67 V(x)

0 1 4 9 16 30 -

0 32 44 27 16 119 1,19 0,7411 0,86

ni

σ ^

m = 0,67 Avoir 0,67 panne par jour peut sembler bizarre du fait que le nombre de pannes doit être un entier, mais le résultat que nous avons obtenu veut dire qu’en moyenne il y a un peu plus d’une panne, tous les deux jours (exactement 2x0,67= 1,34). b) L’écart type  de la population est inconnu, on utilise comme estimation ponctuelle est sans biais de l’écart type :

σˆ 

n 100 V(X)  x 0,7411  0,87 n 1 100  1

L’erreur standard est mesurée par

x 

ˆ n



0,87 100

 8,7 %

5.4.2. Solution de l’exercice 5.3.2. L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs :

98

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

^

m = 200 réponses par jour. L’erreur standard de l’estimation est :

x 

 n

L’écart type de la population est estimé par :

ˆ 

 (x i x) 2 σˆ 27,89  27,89 soit σ x    8,82 n 1 n 10

Somme Somme / n

xi

x i2

200 240 190 150 220 180 170 230 210 210 2 000 200

40 000 57 600 36 100 22 500 48 400 32 400 28 900 52 900 44 100 44 100 407 000 40 700 700

V(x)

ˆ 

n x V( x ) n 1

99

27,89

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

5.4.3. Solution de l’exercice 5.3.3. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : ^

m = 9,4 x 

ˆ n



3,92 15

 1,01

Somme Somme / n

xi

x i2

13 6 12 10 10 16 2 4 11 12 12 5 7 8 13 141 9,40

169 36 144 100 100 256 4 16 121 144 144 25 49 64 169 1541 102,73 14,37 3,79

V(x) σ (x)

ˆ 

n x V( x ) n 1

3,92

b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30, la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à (n-1) degrés de liberté, soit 14. T 0,05 à 14 degrés de liberté lu sur la table de Student est : 2,145 1-

2

100

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

Les limites de l’intervalle de confiance sont : ^





X T 1 -

0 , 05 2

= 9,4

n

 2,17

L’intervalle de confiance est alors : [7,23 ; 26,03] 5.4.4. Solution de l’exercice 5.3.4. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : xi x i2

Somme Somme / n V(x) σ (x)

ˆ 

1,1 1,05 1,25 1,08 1,35 1,15 1,3 1,25 1,3 1,35 1,15 1,32 1,05 1,25 1,1 1,15 19,20 1,2

n x V( x ) n 1

^

m = 1,2 soit une durée de vie de 1200 heures. L’erreur standard est :

x 

ˆ n



0,11 16

 0,03 101

1,21 1,1025 1,5625 1,1664 1,8225 1,3225 1,69 1,5625 1,69 1,8225 1,3225 1,7424 1,1025 1,5625 1,21 1,3225 23,21 1,45 0,01 0,10 0,11

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30, la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à 15 degrés de liberté, (n – 1).

T 1-

0,05 2

à 15 degrés de liberté lu sur la table de Student est : 2,131

Les limites de l’intervalle de confiance sont : ^



σ

X T 1 -

0 , 05 2

n

= 1,2

 0,06

L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,14 ; 1,26] soit [1140 h ; 1260 h] c) L’intervalle de confiance à 10% seulement de risque est :

T 1-

0,10

à 15 degrés de liberté lu sur la table de Student est : 1,753

2

Les limites de l’intervalle de confiance sont : ^



σ

X T 1 -

0 , 05 2

n

= 1,2

 0,05

L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,15 ; 1,25] soit [1150 h ; 1250 h] d) On voit bien qu’en doublant le risque d’erreur, l’intervalle de confiance ne varie pas tellement (une variation de 16,7 %) puisque sa largeur varie de 0,12 à 0,10. 5.4.5. Solution de l’exercice 5.3.5. Dans le cas d’une population normale les limites de l’intervalle de confiance à 95% sont :





X Z

0 , 05 12

n

102

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

La lecture de la table normale centrée réduite donne Z 1-

0 , 05 2

 1,96

De même, l’estimation ponctuelle et sans biais de l’écart type est donnée par :

ˆ 

n . V( x )  28,28 n 1





X Z 1

0 , 05 2

= 130  7,84

n

L’intervalle est alors : [130-7,84 ; 130+7,84] = [122,16 ; 137,84] 5.4.6. Solution de l’exercice 5.3.6. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : ^

m = 88,5 g x 

ˆ n

 0,063 xi

ni

ni xi

83 4 85 6 87 6 89 6 91 8 93 2 95 2 97 1 35 Somme Somme / n V(x) σ (x)

ˆ 

332 51 522 534 728 186 190 97 3099 88,5

n x V( x ) n 1 103

ni

x i2

27556 43350 45414 47526 66248 17298 18050 9409 274851 7852,90 13,6 3,68 3,74

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

b) L’estimation par intervalle de confiance de la moyenne : Comme nous ne connaissons pas la loi de probabilité de la variable aléatoire : poids du ressort et comme l’échantillon a une taille de 36 > 30, cette loi de probabilité peut être approchée par une normale. La lecture de la table normale centrée réduite donne Z

1

0 , 04 2

 2,05

Les limites de l’intervalle de confiance sont : ^





X± Z 1 -

0 , 04 2

= 88,5  1,30

n

L’intervalle de confiance est alors : [87,2 ; 89,8]. 5.4.7. Solution de l’exercice 5.3.7. Nous utiliserons les limites de l’intervalle de confiance à 95% avec les données suivantes :

Z

2,3 0 , 05 1 2

n

= 0,05 =>

Z

0 , 05 1 2

= 0,05

n = 1,960 2,3

Ce qui donne pour n = 8129 5.4.8. Solution de l’exercice 5.3.8. a) L’estimation ponctuelle et sans biais de la moyenne des boîtes fabriquées par le confiseur est la moyenne de l’échantillon considéré, à savoir après calcul :

Somme Somme / n

xi

x i2

1,22 1,23 1,21 1,99 1,23 1,24 1,18 1,21 9,71 1,214

1,4884 1,5129 1,4641 1,4161 1,5129 1,5376 1,3924 1,4641 11,7885 1,4736

104

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

V(x)

ˆ 

0,0004

n x V( x ) n 1

0,021

ˆ ˆ = 1,214 kg par boite avec  x    0,007 m n

Comme la loi de distribution des poids des boîtes n’est pas connue, elle peut être approchée par une loi de Student à 7 degrés de liberté (n – 1). La lecture de la table

T

1

0 ,10 2

 1,895

L’intervalle de confiance à 10 % est : 1,214  0,014

ou

[1,2 ; 1,228]

b) Si la variance de la population est exactement celle de l’échantillon, alors l’intervalle de ˆ par  ( x ) : confiance est, en remplaçant l’estimateur 

1,214  0,013

ou

1,201 ; 1,227

c1) Si la taille de l’échantillon varie, l’estimateur sans biais de la moyenne varie aussi :

ˆ 

n . V( x )  0,022 n 1

La lecture de la table de Student avec 4 degrés de liberté donne :

T

1

0,1 2

 2,132 .

L’intervalle de confiance devient :

1,214  0,021

ou

1,193 ; 1,235

c2) Dans le cas où la variance de la population mère est exactement celle de l’échantillon, l’intervalle de confiance devient :

1,214  0,018

ou

1,196 ; 1,232 105

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

5.4.9. Solution de l’exercice 5.3.9. En supposant, comme d’habitude que l’intervalle de confiance est symétrique par rapport à la moyenne on peut donner la moyenne observée :

E (x) 

390  520  455 g 2

La demi largeur de l’intervalle de confiance est égale, en prenant pour loi de probabilité de la distribution des poids de pamplemousse, la loi de Student à 11 degrés de liberté (n – 1).

455  390  65  T

1

Avec

T

1

0 , 05 2

0 , 05 2

.

ˆ n

 2,201 lu sur la table de Student, ce qui donne pour ˆ :

ˆ  102,30 et pour

n 1 ˆ  97,94 n

 (x) 

5.4.10 Solution de l’exercice 5.3.10. Comme il s’agit de plus de 30 d’effectifs, nous pouvons considérer que la loi de distribution des notes est une loi normale. a) On lit sur la table normale centrée réduite : L’estimation sans biais de

ˆ 

n V( x ) x n 1

Z

1

 est :

Nn  8,77 N 1

L’intervalle de confiance à 94 % est :

75  2,33

ou

72,67 ; 77,33 106

0 , 06 2

 1,88

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

b) Pour avoir une moyenne comprise entre 74 et 76, on doit avoir :

Z

1

 2

.

8,77 50

1  Z

1

 2

 0,81

Correspond pour la table normale centrée réduite à

1

  0,791    0,42 . 2

Le degré de confiance est donc de 58 %. 5.4.11. Solution de l’exercice 5.3.11. Il s’agit d’échantillons de tailles > 30, les lois de probabilités de distribution des durées de vie peuvent être approchées par des lois normales. Il en est de même de la loi de distribution de la différence des durées de vie. L’estimateur sans biais de la moyenne des différences de durées de vie est :

ˆ m ˆ1 m ˆ 2  1400 h  1200 h  200 h m ˆ 1 

n1 150 x 1  x 120  120,4 n1  1 150  1

ˆ 2 

n2 x 2  n2  1

L’écart

type

de

200 x 80  80,2 200  1 la

différence

des

durées

de

vie

moyenne

est

estimé

par :

ˆ ˆ 120,4 80,2     11,35 n1 n 2 150 200 2 1

2 2

2

2

L’intervalle de confiance à 95 % de la différence des durées de vie moyennes des deux marques A et B est : 200  1,96 x 11,35

ou

[177,75 ; 222,25]

5.4.12. Solution de l’exercice 5.3.12. Comme il s’agit de lots comprenant 100 roulements, on peut valablement approcher la loi de probabilité des poids des roulements par une loi normale.

107

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

a) L’intervalle de confiance à 99 % est, après lecture sur la table normale centrée réduite :

Z

1

 2

 2,58

0,638  0,0031

ou

0,635 ; 0,641

L’intervalle de confiance du poids du lot est : [63,5 kg ; 64,1 kg] b) L’intervalle de confiance à 90 % est, après lecture sur la table normale centrée réduite :

Z

1

 2

 1,64

L’écart type de la population est connu :

  0,012

L’intervalle de confiance du poids moyen est :

0,638  0,002

ou

0,636 ; 0,64

L’intervalle de confiance du poids du lot est : [63,6 kg ; 64 kg] c) Pour une variation du risque d’erreur de :

0,99  0,90 9% 0,99 Nous obtenons une variation de l’intervalle de confiance de : 0,002  0,0031   35 % 0,0031 On voit bien qu’une faible variation du risque d’erreur induit une forte variation de l’intervalle de confiance. 5.4.13. Solution de l’exercice 5.3.13. a) Echantillon aléatoire simple La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la moyenne de l’échantillon. 108

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

58

xi

ˆ X = m

i 1

54  127  388  553 = 19,34 58

=

n

La dispersion des différentes estimations possibles autour de cette moyenne générale, est mesurée par l’erreur standard de la moyenne : ^

 =  X

Nn N 1



n

L’écart type de la population peut être estimé par : ^

 

n.V(X) n -1 58

V(X)  V(X) 

^

 

xi² i 1

-

- x²

n

1004  3081  13270  39667 - 19,34² = 609,10 58

58.609,10 =24,90 58 - 1

 = 24,90 X 

58

579  58 = 3,10 579  1

La moyenne de la population globale peut être estimée à 19,34 avec une erreur standard de 3,10. b) Echantillon stratifié On estime la moyenne de chaque strate par la moyenne calculée de l’échantillon de la strate. ni

ˆ i  Xi = m

xi i 1

ni 109

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

L’erreur standard de la moyenne : ^

Ni n i N i 1

Xi = i

ni

L’écart type de la strate peut être estimé par : ^

i 

n i.V(X) n i -1 ni

xi²

V(X) 

i 1

-

- xi ²

ni

Le tableau suivant regroupe les résultats des calculs pour chaque strate. 

Strate

Ni

ni

V(X)

^

xi

i

Xi

1 2 3 4 Total

53 190 231 105 579

10 14 21 13 58

5,4 9,07 18,48 42,54

71,24 137,78 290,54 1241,79

8,9 12,18 17,47 36,68

2,56 3,14 3,64 9,57

La moyenne de la population globale peut être estimée par : 

Ni x i m   Ni ^

=

53.5,4190.9,07  231.18,48105.42,54 579

^

m = 18,56 L’erreur standard de l’estimation est :

Xi



=

V(x) 

avec V( x ) = 

V( x ) =

1 N i ²V(x i )  N²

1 (53².2,56² + 190².3,14² + 231².3,64² + 105².9,57²) 579²



V( x ) = 6,24 110

Statistiques décisionnelles.

Xi

=

5. Estimation de la moyenne d’une population

6,24 = 2,5

La moyenne de la population globale peut être estimée à 18,56 avec une erreur standard de 2,5. On peut constater que l’échantillonnage stratifié est plus précis que l’échantillonnage aléatoire et simple. 5.4.14. Solution de l’exercice 5.3.14. a) Estimation de la note moyenne de la classe. On estime la moyenne de chaque classe par la moyenne calculée de l’échantillon de la classe. ni

xi

ˆ i  Xi = m

i 1

ni

L’erreur standard de la moyenne : ^

Xi = i

ni

L’écart type de la classe peut être estimé par : ^

i 

n i.V(X) n i -1 ni

V(X) 

xi² i 1

ni

-

- xi ²

111

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

Le tableau suivant regroupe les résultats des calculs pour chaque classe. 

Classe

V(X)

^

xi

i

Xi

1 2 3 4 5 6

12,06 11,97 11,62 12,12 11,85 11,84

0,07 0,01 0,05 0,02 0,03 0,01

0,32 0,13 0,27 0,18 0,21 0,13

0,16 0,06 0,13 0,09 0,11 0,06

En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par : 

xi m  ^

6

=

12,0611,97 11,6212,1211,8511,84 6

^

m = 11,91 L’erreur standard de l’estimation est :

Xi



V(x)

= 

avec V( x ) = 

V( x ) =

1 V(x i )  6²

1 (0,16² + 0,06² + 0,13² + 0,09² + 0,11² + 0,06²) 36



V( x ) = 0,0019

Xi

=

0,0019 = 0,044

La note moyenne de l’école peut être estimée à 11,91 avec une erreur standard de 0,044. b) Intervalle de confiance de la note moyenne de l’école.

112

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

La loi de la population est inconnue, la taille de l’échantillon est inférieure à 30. L’intervalle de confiance est : ^

 X  T1   2 n

Au seuil de 5 %, la valeur de T0,975 avec 23 degrés de liberté lue dans la table de Student est : T0,975 = 2,07 L’intervalle de confiance est : 11,91

 2,07 . 0,044 = [11,82 ; 12].

113

Statistiques décisionnelles.

5. Estimation de la moyenne d’une population

114

Statistiques décisionnelles

6. Estimation de la variance d’une population

CHAPITRE 6 ESTIMATION DE LA VARIANCE D’UNE POPULATION

6.1. ESTIMATION D’UNE VARIANCE. 6.1.1. Estimation ponctuelle. Contrairement à la moyenne, la meilleure estimation de la variance ² d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, n’est pas la variance de l’échantillon v(x). En effet, pour l’ensemble des échantillons qui peuvent être rencontrés, on ne retrouve pas, en moyenne, la vraie valeur de la population, on obtient ainsi, en moyenne, une valeur inférieure à la variance de la population. Le biais est :

E(V(X)) - ² =

 σ² n

Ce biais peut être corrigé en multipliant la variance de l’échantillon par le facteur

n . On n1

obtient alors l’estimation : 

n

^

² 

n  v( x ) = n 1

 (x

i

 x )²

i 1

n 1

dont l’espérance mathématique est bien ². ^

E(  ² ) = E(

n n 1 n n  v( x ) ) =  ² = ² E(v(x)) = n 1 n 1 n 1 n

^ ²  n v(x) est appelée quasi-variance, c’est un estimateur sans biais de la variance ² de n 1

la population. La quasi-variance est désignée par 115

σ² n 1

Statistiques décisionnelles

6. Estimation de la variance d’une population

L’erreur standard de cette estimation est, dans le cas d’une population normale : ^

v( ²)  2 (n  1)

2 n

6.1.2. Estimation par intervalle de confiance. Si on s’intéresse à la variance ² d’une population normale, l’estimation par intervalle de confiance consiste à déterminer les bornes ²1 et ²2 d’un intervalle qui a un niveau de confiance (1-) de contenir ². Les limites ²1 et ²2 sont telles que : p(²1  ²  ²2) = 1 -  

n

(x i  x)² i 1

Comme, pour une population normale, la variable aléatoire

²

distribution khi deux à (n-1) degrés de liberté, on peut alors écrire : 

n

p(

i 1



n

(x i  x)²



² 2

(x i x)² i 1

²



n



(x i x)² i 1

²1

)=1-

Les limites de confiances sont alors : 

n

i

²1 =

i 1

²1 

(x  x)² i

et

2

Les valeurs de



n

(x  x)²

²2 =

i 1

²  2

²  et ²1  sont à (n-1) degré de liberté, lus sur la table du  2 . 2

2

116

possède une

Statistiques décisionnelles

6. Estimation de la variance d’une population

6.2. ESTIMATION DE LA SOMME DE VARIANCES. La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit des échantillons indépendants. Désignons par : N = Taille de la population Ni = Taille de la strate i n = Taille de l’échantillon global ni = Taille de l’échantillon prélevée dans la strate i La variance de chaque strate est estimée par la quasi-variance :

ˆ i2 



 xi  xi ni  1



La variance globale de la population est estimée par :



N i ˆ i2 N i x i  x ˆ   N N 2



2

6.3. ENONCES DES EXERCICES D’APPLICATION. 6.3.1. On reprend les données de l’exercice 5.3.1. a) Déduire une estimation de l’écart type du nombre de pannes par jour. b) Donner l’erreur standard du résultat obtenu. 6.3.2. On reprend les données de l’exercice 5.3.2. Déterminer une estimation ponctuelle de . 6.3.3. On reprend les données de l’exercice 5.3.3. a) Estimer l’écart type des notes de l'ensemble des étudiants de la faculté. b) Donner une estimation par intervalle de confiance pour l’écart type. ( = 5 %). c) Donner une estimation par intervalle de confiance pour l’écart type   1 %  . d) Donner la sensibilité de la largeur de l’intervalle de confiance par rapport à une variation du risque d’erreur  . 6.3.4. On reprend les données de l’exercice 5.3.4. a) Estimer l’écart type de la durée de vie d'un article. b) Donner une estimation par intervalle de confiance pour l’écart type avec  = 2 pour mille. 117

Statistiques décisionnelles

6. Estimation de la variance d’une population

6.3.5. On reprend les données de l’exercice 5.3.5. Donner une estimation de  par un intervalle de confiance au niveau de confiance 90 %. 6.3.6. On reprend les données de l’exercice 5.3.6. X donnant le poids d’un ressort provenant de cette fabrication, a) Donner une estimation ponctuelle de V(X). b) Donner pour V(X) un intervalle de confiance au niveau de confiance 95%. 6.3.7. On reprend les données de l’exercice 5.3.8. a) Donner pour V(X) un intervalle de confiance au risque de 5%. b) On suppose maintenant que l’on a trouvé la même variance observée mais avec 5 observations au lieu de 8. Reprendre la question a). c) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation de la taille de l’échantillon. 6.3.8. On reprend les données de l’exercice 5.3.10. Quelles sont les limites de confiance à 95 % pour estimer l’écart type des 200 notes ? 6.3.9. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 kg et un écart type de 0,012 kg. Calculer les limites de confiance de l’écart type des poids de lots comprenant 100 roulements chacun. a) Avec un risque d’erreur de 1 %. b) Avec un risque d’erreur de 5 %. c) Discuter la sensibilité de l’intervalle de confiance en fonction de la variation du risque d’erreur. 6.3.10. En fonction des données et résultats de l’exercice 5.3.13., estimer la variance de la population globale en considérant l’échantillon comme : a) Aléatoire et simple ; b) Stratifié. 6.3.11. On reprend les données de l’exercice 5.3.14. Estimer l’écart type des notes des élèves de l’école ; 6.4. SOLUTIONS DES EXERCICES D’APPLICATION. 6.4.1. Solution de l’exercice 6.3.1. Nous reprenons les résultats des tableaux des calculs de la solution de l’exercice 5.3.1., page 127.

118

Statistiques décisionnelles

6. Estimation de la variance d’une population

a) L’estimation ponctuelle de l’écart type est, après calcul :

ˆ 

n x V( x )  0,87 n 1

b) L’erreur standard est, après calcul :

V(ˆ 2 )  2 n  1

ˆ 2 0,87 2  2 100  1  0,1065 n 100

V(σˆ)  0,1065  0,33 6.4.2. Solution de l’exercice 6.3.2. On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.2., page 128. L’estimation ponctuelle, sans biais, de l’écart type est, après calcul :

ˆ 

n x V( x )  27,89 n 1

L’erreur standard est :

V(ˆ ) 

2 x 10  1

27,89 2  18,16 10

6.4.3. Solution de l’exercice 6.3.3. On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.3. page 129. a) L’estimation ponctuelle, sans biais, de l’écart type des votes est, après calcul :

ˆ 

n x V( x )  3,92 n 1

b) L’estimation par intervalle de confiance de 5 % est comme suit : La lecture de la table du

 2 à 14 degrés de liberté donne  2

1

119

0 , 05 2

 26,119 .

Statistiques décisionnelles

Soit 12 

6. Estimation de la variance d’une population

 (x i  x) 2  8,25  2 0 , 05 1

et

1  2,87

et

 2  6,19

2

 20 , 05  5,629 2

Soit  22 

 (x i  x) 2  38,29  0 , 05 2

L’intervalle de confiance à 5 % de risque est [2,87 ; 6,19]. c) L’estimation par intervalle de confiance à 1 % de risque d’erreur est comme suit : De même la lecture de table du

 2 à 14 degrés de liberté donne 12  0, 01  31,319 2

Soit 12 

 (x i  x) 2  6,88  2 0 , 01 1

et

1  2,62

2

 20 , 01  4,075 2

Soit 12 

 (x i  x) 2  52,90  20 , 01

et

 2  7,27

2

L’intervalle de confiance est [2,62 ; 7,27] à 1 % de risque d’erreur. d) On voit qu’une variation de 5 % à 1 % (soit – 80 %) induit une variation de la largeur de l’intervalle de confiance de 3,32 (= 6,19 – 2,87) à 4,65 (= 7,27 – 2,62) soit + 40 %. 6.4.4. Solution de l’exercice 6.3.4. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.4. page 131.

120

Statistiques décisionnelles

6. Estimation de la variance d’une population

a) L’estimation ponctuelle, sans biais, de la durée de vie est, après calcul :

n x V( x )  0,11 soit 110 h. n 1

ˆ 

b) L’estimation par intervalle de confiance à 2 pour 1000 est comme suit : La lecture de la table du

2

1

0 , 002 2

 2 à 15 degrés de liberté donne :

 37,698

Soit σ 12 

Σ(x i  x ) 2 χ2

1

 0,0046

et

1  0,068

0,002 2

 20 , 002  3,483 2

Soit σ 22 

Σ (x i  x ) 2  0,0499 χ 20,002

et

 2  0,223

2

L’intervalle de confiance à 2 % de risque est [0,068 ; 0,223]. 6.4.5. Solution de l’exercice 6.3.5. L’estimation ponctuelle sans biais de l’écart type est donnée par :

n V( x )  28,28 n 1

ˆ 

Le nombre de degrés de liberté 49 est grand, on peut utiliser l’approximation de transformation :

2  2

1

0 ,1 2

Z 

2 x k 1



2



1,64 

2 x 49  1 2



2

 65,997

121

 2 par la

Statistiques décisionnelles

 20 ,1  2

12 

 1,64  

 xi  x  2 0 ,1 1

 22 

2



 xi  x  20 ,1

2 x 49  1

6. Estimation de la variance d’une population



2

 33,693

2





28 2 x 50  593,97 et 1  24,37 65,997





28 2 x 50  1163,446 et  2  34,11 33,693

2

2

2

L’intervalle de confiance à 10 % de risque est [24,37 ; 34,11]. 6.4.6. Solution de l’exercice 6.3.6. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.6. page 133. a) L’estimation ponctuelle de V(x) est :

σˆ 2 

n x V(x)  14 n 1

b) L’intervalle de confiance en risque de 5 % est comme suit : Les valeurs de

χ2 

 

Z 



2

1,96  

2 x 34  1

 1,96  

2 x 34  1

0 , 05 2

2 0 , 05 2

2k  1 2

2 1

 2 à 34 degrés de liberté peuvent être approximées par la transformation :

Soit 12 

2

2

2



 51,46

2

 19,38

 ( x i  x ) 2 14 x 34   9,25  2 0 , 05 51,46 1

Soit  22 



et

1  3,04

et

 2  4,96

2

 ( x i  x ) 2 14 x 34   24,56  20 , 05 19,38 2

L’intervalle de confiance de l’écart type [3,04 ; 4,96] à 5 % de risque d’erreur.

122

Statistiques décisionnelles

6. Estimation de la variance d’une population

6.4.7. Solution de l’exercice 6.3.7. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.8. page 135. a) L’intervalle de confiance en risque de 5 % est donné comme suit : La lecture de la table du

2

1

0 , 05 2

 2 à 7 degrés de liberté donne :

 16,013

Soit 12 

 (x i x) 2  0,0002  2 0 , 05 1

et

σ 1  0,014

et

 2  0,044

2

 20 , 05  1,690 2

Soit  22 

 (x i  x) 2  0,0019  20 , 05 2

L’intervalle de confiance à 5 % du risque est [0,014 ; 0,044] à 5 % de risque d’erreur. b) Si l’on n’a fait que 5 observations au lieu de 8, les résultats deviennent, après lecture de la table de

2

1

0 , 05 2

 2 à 4 degrés de liberté :

 11,143

Soit 12 

 (x i  x) 2  0,0003  2 0 , 05 1

et

1  0,017

et

 2  0,081

2

 20 , 05  0,484 2

Soit  22 

 (x i  x) 2  0,0066  20 , 05 2

L’intervalle de confiance est [0,017 ; 0,081] à 5 % de risque d’erreur. 123

Statistiques décisionnelles

6. Estimation de la variance d’une population

c) La sensibilité de l’intervalle de confiance est : Pour une variation de l’échantillon de 8 à 5 (soit – 37,5 %) la largeur de l’intervalle varie de 0,030 (= 0,044 – 0,014) à 0,064 (= 0,081 – 0,017) soit + 113 %. 6.4.8. Solution de l’exercice 6.3.8. On reprend les résultats des calculs de la solution de l’exercice 5.3.10. page 138.

ˆ  8,77 La valeur

 2 à 199 degrés de liberté peut être approximée par la loi normale de moyenne 199 2 x 199  19,95 .

et d’écart type

2

1

0 , 05 2

 199 Z

19,95

2

1

0 , 05 2

1

0 , 05 2

 1,96 x 19,95  199  238,10

 20 , 05  199  Z 0 , 05

2

19,95

2

 20 , 05   1,96 x 19,95  199  159,90 2

12 



 xi  x  2 0 , 05 1



8,77 2 x 199  64,28 238,10

et

1  8,02





8,77 2 x 199  95,72 159,90

et

 2  9,78

2

2



 xi  x    20 , 05 2 2



2

2

L’intervalle de confiance est [8,02 ; 9,78] à 5 % de risque d’erreur.

124

Statistiques décisionnelles

6. Estimation de la variance d’une population

6.4.9. Solution de l’exercice 6.3.9.

  0,012 kg

 2 à 99 degrés de liberté peuvent être approximées par la loi normale de

Les valeurs de

2 x 99  14 .

moyenne 99 et d’écart type a) Risque d’erreur de 1 % :

2

1

0 , 01 2

 99 Z

14

1

0 , 01 2

 2

1

0 , 01 2

 2,58 x 14  99  135,12

Z 20 , 01  99  Z 0 , 01   20 , 01   2,58 x 14  99  62,88

2

14

12 



 xi  x  2 0 , 01 1

 22 

2

2





0,012 2 x 100  0,0001 et 135,12

1  0,0103





0,012 2 x 100  0,0002 et 62,88

 2  0,0151

2

2



 xi  x  20 , 01

2

2

L’intervalle de confiance est [0,0103 ; 0,0151] à 1 % de risque d’erreur. b) Risque d’erreur de 5 % :

2

1

0 , 05 2

 99 Z

14

1

0 , 05 2

 2

1

0 , 05 2

 1,96 x 14  99  126,44

 20 , 05  99  Z 0 , 05   20 , 05   1,96 x 14  99  71,56

2

14



 xi  x    2 0 , 05 2 1

2

2

1



2



0,012 2 x 100  0,00011 et 126,44

2

125

1  0,0107

Statistiques décisionnelles

 22 



 xi  x  20 , 05



2



6. Estimation de la variance d’une population

0,012 2 x 100  0,0002 et 71,56

 2  0,0142

2

L’intervalle de confiance est [0,0107 ; 0,0142] à 5 % de risque d’erreur. c) La sensibilité de l’intervalle de confiance est : Pour une variation du risque d’erreur de 1 % à 5 % (soit une augmentation de 400 %) la largeur de l’intervalle de confiance varie de 0,0048 (= 0,0151 – 0,0103) à 0,0035 (= 0,0142 – 0,0107) soit – 27 %. 6.4.10. Solution de l’exercice 6.3.10. a) Echantillon aléatoire simple : La variance de la population peut être estimée par : ^ n.V(X) ²  n -1 58

x ² i

V(X) 



x=

^

n

-

-x²

58

x i 1

n

V(X) 

² 

i 1

i

=

54  127  388  553 = 19,34 58

1004  3081  13270  39667 - 19,34² = 609,10 58

58.609,10 =619,79 58 - 1

b) Echantillon stratifié : La variance de la strate peut être estimée par :

σˆ 12 

n i .V(X) ni -1

126

Statistiques décisionnelles

6. Estimation de la variance d’une population

ni

x ² i

V(X) 



xi =

i 1

ni

-

- xi ²

ni

x

i

i 1

ni

Le tableau suivant regroupe les résultats des calculs pour chaque strate. 

^

Strate

Ni

ni

xi

V(X)

² i

1 2 3 4 Total

53 190 231 105 579

10 14 21 13 58

5,4 9,07 18,48 42,54

71,24 137,78 290,54 1241,79

79,2 148,4 305,1 1614,3

La moyenne de la population globale peut être estimée par :    N xi 53.5, 4  190.9,07  231.18, 48  105.42,54 i x = = 18,56  Ni 579

La variance de la population globale peut être estimée par : ^   ^  N i  ² i  N i ( x i  x )² ²   N N ^ 53.79,2  190.148,4  231.305,1  105.1614,3 + ²  579

53.(5, 4  18,56)²  190.(9,07  18,56)²  231.(18, 48  18,56)²  105.( 42,54  18,56)² 579

^  ² = 620,11

127

Statistiques décisionnelles

6. Estimation de la variance d’une population

6.4.11. Solution de l’exercice 6.3.11. La variance de la classe peut être estimée par : ^

² i 

n i .V(X) ni -1 ni

x ² i

V(X) 

i 1

-

- xi ²

ni

ni



xi =

x

i

i 1

ni

Le tableau suivant regroupe les résultats des calculs pour chaque classe. 

^

Classe

xi

V(X)

² i

1 2 3 4 5 6

12,06 11,97 11,62 12,12 11,85 11,84

0,07 0,01 0,05 0,02 0,03 0,01

0,1024 0,0169 0,0729 0,0324 0,0441 0,0169

En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par : 

x x 

i

6

=

12,06  11,97  11,62  12,12  11,85  11,84 6



x = 11,91 La variance de la population globale peut être estimée par : ^

² 

N

^

i

N

 ²i





 N (x  x)²  i

i

N

= 0,07 ^

L’écart type de la population globale peut être estimée par :  = 0,27. 128

Statistiques décisionnelles

7. Estimation de la proportion d’une population

CHAPITRE 7 ESTIMATION DE LA PROPORTION D’UNE POPULATION

7.1. ESTIMATION PONCTUELLE. La meilleure estimation de la proportion p d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la fréquence de l’échantillon fn.

pˆ  f n La dispersion des différentes estimations possibles autour de cette proportion générale, est mesurée par l’erreur standard de la proportion :

f  n

f n 1  f n  n

7.2. ESTIMATION PAR INTERVALLE DE CONFIANCE. Si on s’intéresse à la proportion p, l’estimation par intervalle de confiance consiste à déterminer de part et d’autre de l’estimateur fn les bornes p1 et p2 d’un intervalle qui a un niveau de confiance (1-) de contenir p. Les limites p1 et p2 sont telles que : p(p1  p  p2) = 1 - 

ou

p(p < p1) = p(p > p2) = /2

Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type

 Fn 

pq

à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le

n

produit np  5, on peut écrire si on désigne par

Z1 la valeur de la variable normale réduite

2 lue dans la table que les limites de l’intervalle de confiance sont : 129

Statistiques décisionnelles

p1= fn - Z

1

7. Estimation de la proportion d’une population

 2

p(1  p) n

et

p2 = fn + Z

1

 2

p(1  p) n

On notera l’intervalle de confiance : fn  Z

ou

1

 2

p(1  p) n

 f n  Z 1   2 

p (1  p) ; fn  Z  1 n 2

p (1  p)   n 

On obtient ainsi un intervalle symétrique par rapport à fn. 7.3. ENONCES DES EXERCICES D’APPLICATION. 7.3.1. Dans une population d’étudiants en sociologie, on a prélevé, indépendamment, deux échantillons de taille n1 = 120 et n2 = 150. On constate que 48 étudiants de l’échantillon 1 et 66 étudiants de l’échantillon 2 ont une formation secondaire scientifique. Soit p la proportion d’étudiants de la population ayant une formation scientifique ; calculer trois estimations ponctuelles de p. 7.3.2. Un promoteur désire étudier le nombre de garage qu'il est souhaitable de construire avec un ensemble de logements, afin que les occupants puissent y ranger leur voiture. Pour cela il fait effectuer une enquête par sondage auprès d'un échantillon de ménages susceptibles d'habiter ces appartements. a) On interroge un échantillon de 3238 ménages. On trouve parmi eux 1943 possesseurs d'une voiture. Estimez, à partir de cet échantillon, la proportion des ménages ayant une voiture. Degré de confiance 99 %. b) À partir de la proportion estimée, combien de ménages faudrait-il interroger pour construire, avec un risque d'erreur de 5 %, un intervalle de confiance d'amplitude 0,04 ? 7.3.3. On étudie le pourcentage d'utilisation d'une machine. 400 observations ont été effectuées qui ont donné le résultat suivant :  Machine marche : 320 observations.  Machine arrêtée : 80 observations. a) Entre quelles limites peut-on fixer le taux d'utilisation de la machine avec un degré de confiance de 94 % ? b) Combien doit-on faire d'observations pour obtenir le même pourcentage d'utilisation tout en ayant, avec un risque d'erreur de 6 %, l’intervalle de confiance à [78,4 % ; 81,6 %] ?

130

Statistiques décisionnelles

7. Estimation de la proportion d’une population

7.3.4. Sur un échantillon de 400 adultes et de 600 adolescents ayant regardé un certain programme de télévision, 100 adultes et 300 adolescents l’ont apprécié. Calculer les limites de confiance à 99 % de la différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le programme. 7.3.5. On considère 2 échantillons tirés d’une même population et l’on désire calculer le taux de participation à un vote. Le 1er échantillon de taille 100 a donné 45 personnes ayant voté. Le 2e échantillon de taille 200 a donné 96 personnes ayant voté. a) Donner les 2 estimations ponctuelles des taux de participation au vote. b) Donner pour chaque échantillon un intervalle de confiance de taux de participation au vote avec un risque d’erreur de 1 %. c) Donner la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon. 7.3.6. Sur 100 clients d’un café, 85 demandent un café au petit déjeuner. a) Donner une estimation ponctuelle de la proportion de clients qui prennent un café. b) Donner l’intervalle de confiance à 1 % de risque d’erreur de cette proportion. c) Donner l’intervalle de confiance à 5 % de risque d’erreur de cette proportion. d) Discuter la sensibilité de l’intervalle de confiance en fonction du risque d’erreur. 7.4. SOLUTIONS DES EXERCICES D’APPLICATION. 7.4.1. Solution de l’exercice 7.3.1. On se propose de déterminer 3 estimations ponctuelles de p. a) Estimation à partir du 1er échantillon :

p1 

48  0,40 120

L’erreur standard est :

p  1

0,40 x 0,60  0,045 120

b) Estimation à partir du 2e échantillon :

p2 

66  0,44 150

131

Statistiques décisionnelles

L’erreur standard est  p  2

7. Estimation de la proportion d’une population

0,44 x 0,56  0,040 150

c) Estimation à partir de la sommation des 2 échantillons :

P3 

48  66 114   0,42 120  150 270

0,42 x 0,58  0,030 270 On trouve bien 3 résultats qui ne sont pas trop différents. L’erreur standard est :  p  3

7.4.2. Solution de l’exercice 7.3.2. a) L’estimation ponctuelle de la proportion des personnes ayant une voiture, d’après les données du 1er échantillon est :

p

1943  0,60 3238

L’estimation par intervalle de confiance au risque de 1 % de la proportion des personnes qui ont une voiture est comme suit : On utilisera la loi normale puisque l’échantillon a une taille de 3238 > 30 et que np = 1943 > 5.

Z

1

0 , 01 2

Soit Z

 2,575

1

0 , 01 2

p (1  p)  0,022 n

L’intervalle de confiance est [0,578 ; 0,622] à 1 % de risque d’erreur. b) On suppose que la taille de l’échantillon qu’on va trouver est supérieure à 30 et que np > 5 pour que nous puissions utiliser la lecture de la table normale centrée réduite.

Z

1

0 , 05 2

 1,960

132

Statistiques décisionnelles

7. Estimation de la proportion d’une population

Pour avoir un intervalle de confiance à 5 % de risque d’erreur d’amplitude 0,04, on doit avoir :

Z

1

p (1  p) 0,04   0,02 n 2

0 , 05 2

n  Z2

1

0 , 05 2

.

p (1  p)  2305 0,02 2

On trouve bien n > 30 et np = 1383 > 5. 7.4.3. Solution de l’exercice 7.3.3. a) L’estimation ponctuelle de taux d’utilisation de la machine est :

p

320  0,80 400

On utilisera la loi normale puisque l’échantillon a une taille de 400 et que np = 320 > 5.

Z

Z

1

0 , 06 2

1

0 , 06 2

 1,88

p (1  p)  0,038 n

L’intervalle de confiance à 6 % de risque est [0,762 ; 0,838]. b) Le nouvel intervalle de confiance à 6 % du risque d’erreur a une amplitude de 81,6 % - 78,4 % = 3,2 % = 0,032. Donc :

Z

1

0 , 06 2

n  Z2

p (1  p) 0,032   0,016 n 2

.

1

0 , 06 2

:

p (1  p)  2209 0,016 2

On voit bien que n = 2209 est supérieur à 30 et que np = 1767 > 5 ce qui justifie notre utilisation de la loi normale. 133

Statistiques décisionnelles

7. Estimation de la proportion d’une population

7.4.4. Solution de l’exercice 7.3.4. La fréquence des adultes qui ont regardé et apprécié le programme est :

p1 

100  0,25 400

L’erreur standard de cette estimation est :

0,25 x 0,75  0,0217 400

p  1

La fréquence des adolescents qui ont regardé et apprécié le programme est :

p2 

300  0,5 600

L’erreur standard de cette estimation est :

p  2

0,5 x 0,5  0,0204 600

La différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le programme :

p 2  p 1  0,5  0,25  0,25 L’erreur standard est :

0,0217 2  0,0204 2  0,0298 Au seuil de 99 % Z

1

0 , 01 2

 2,575

L’intervalle de confiance est :

0,25  2,575 x 0,0298  0,25  0,08  0,17 ; 0,33

134

Statistiques décisionnelles

7. Estimation de la proportion d’une population

7.4.5. Solution de l’exercice 7.3.5. a) Les estimations ponctuelles du taux de participation sont : p1 = 0,45 p2 = 0,48 b) Les intervalles de confiance à 1 % de risque d’erreur sont, après lecture sur la table normale centrée réduite puisque pour les 2 échantillons n > 30 et np > 5.

Z

Z

Z

 2,575

1

0 , 01 2

1

0 , 01 2

p 1 (1  p 1 )  0,128 n1

1

0 , 01 2

p 2 (1  p 2 )  0,091 n2

L’intervalle de confiance du 1er échantillon est : [0,322 ; 0,578]. L’intervalle de confiance du 2e échantillon est : [0,389 ; 0,571]. c) Il est difficile de parler de sensibilité de l’intervalle de confiance puisque les proportions diffèrent d’un échantillon à un autre. Pour ce faire, nous allons supposer qu’en ayant augmenté la taille de l’échantillon de 100 à 200 la proportion p est restée inchangée, ce qui modifie quelque peu l’intervalle relatif au 2 e échantillon puisqu’il devient :

Z

1

0 , 01 2

p 1 (1  p 1 )  0,091 n2

On voit qu’aux erreurs d’approximation près, on retrouve le même résultat qu’avec p 2. Donc la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon est comme suit : On fait passer la taille de l’échantillon de 100 à 200 (soit + 100 %) l’amplitude de l’intervalle de confiance varie de 0,256 (2 x 0,128) à 0,182 (2 x 0,091) soit – 28,8 %.

135

Statistiques décisionnelles

7. Estimation de la proportion d’une population

7.4.6. Solution de l’exercice 7.3.6. a) p 

85  0,85 100

b) L’intervalle de confiance à 1 % de risque d’erreur est, puisque n > 30 et np > 5.

Z

1

0 , 01 2

 2,575

et

Z

1

0 , 01 2

p (1  p)  0,092 n

L’intervalle de confiance est : [0,758 ; 0,942] à 1 % de risque d’erreur. c) L’intervalle de confiance à 5 % de risque d’erreur est, puisque n > 30 et np > 5.

Z

1

0 , 05 2

 1,960

et

Z

1

0 , 05 2

p (1  p)  0,070 n

L’intervalle de confiance est : [0,78 ; 0,92] de risque d’erreur. d) Ainsi en faisant varier le risque d’erreur de 1 % à 5 %, soit + 400 %, l’amplitude de l’intervalle de confiance varie de 0,184 (2 x 0,092) à 0,140 (2 x 0,070) soit – 23,9 %.

136

Statistiques décisionnelles

Partie 4. Tests statistiques

PARTIE 4 TESTS STATISTIQUES

PROBLEMATIQUE DES TESTS STATISTIQUES. Un test statistique est une méthode permettant de prendre une décision à partir d’informations fournies par un échantillon. Les tests statistiques ou les tests d’hypothèses ont pour but de vérifier, à partir de données observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une ou plusieurs populations. On peut distinguer différents types de tests, en fonction des hypothèses qu’on peut faire. - Les tests de comparaison à une norme ou tests de conformité sont destinés à comparer entre eux une population théorique et un échantillon observé. Ils servent à vérifier si un échantillon donné peut être considéré comme extrait d’une population possédant telle caractéristique particulière (moyenne, variance, …). Le test se fait en vérifiant si la différence entre la valeur observée et la valeur théorique du paramètre considéré peut être attribuée au hasard ou non. - Les tests d’homogénéité ou d’égalité ont pour but de comparer entre elles un certain nombre de populations, à l’aide d’un même nombre d’échantillons. - Les tests d’ajustement sont destinés à vérifier si un échantillon observé peut être extrait d’une population donnée. - Les tests d’indépendance ont pour but de contrôler, à partir d’un échantillon, l’indépendance de deux ou plusieurs critères de classification, généralement qualitatifs.

137

Statistiques décisionnelles

Partie 4. Tests statistiques

PRINCIPE GENERAL D’UN TEST STATISTIQUE. Pour commencer, on émet une certaine hypothèse à tester, appelée hypothèse nulle, généralement désignée par H0. Celle-ci suppose toujours l’égalité des caractéristiques comparées. L’hypothèse qui diffère de H0 est dite hypothèse alternative, généralement désignée par H1. On mesure ensuite l’écart observé entre les caractéristiques comparées, et on calcule la probabilité d’observer, si l’hypothèse nulle est vraie, un écart aussi important. Si cette probabilité est relativement élevée, on considère l’hypothèse nulle comme plausible et on l’accepte. Par contre si la probabilité calculée est faible, l’écart observé apparaît comme peu compatible avec l’hypothèse nulle et on rejette celle-ci. L’ensemble des valeurs observées pour lesquelles l’hypothèse H0 est admissible forme la région d’acceptation. Les autres valeurs constituent la région de rejet. Les valeurs limites sont appelées valeurs critiques. La décision dépend donc de l’échantillon. Ainsi quelle que soit la décision prise, le hasard de l’échantillonnage peut fausser les conclusions. Quatre situations doivent donc être envisagées : - L’acceptation de l'hypothèse nulle alors qu'elle est vraie ; - Le rejet de l'hypothèse nulle alors qu'elle est vraie ; - L'acceptation de l'hypothèse nulle alors qu'elle est fausse ; - Le rejet de l'hypothèse nulle alors qu'elle est fausse. Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais il n'en est malheureusement pas de même dans les deux cas intermédiaires. - L'erreur qui consiste à rejeter une hypothèse vraie est appelée erreur de première espèce et désignée par RH0/H0. - Accepter une hypothèse fausse est une erreur de seconde espèce, elle est désignée par AH0/H1. Les probabilités d’aboutir à de telles conclusions erronées sont les risques de première et de deuxième espèce, désignés respectivement par  et .  = p (RH0/H0)

 = p (AH0/H1)

Le risque de première espèce  est appelé aussi seuil de signification du test, fixé très souvent à 5 %. La probabilité complémentaire de  désigne le niveau de confiance du test.

138

Statistiques décisionnelles

Partie 4. Tests statistiques

1- = p(AH0/H0) La probabilité complémentaire de  désigne la puissance du test. 1- = p (RH/H1) On peut présenter une table de décision comme suit :

H0 Hypothèse vraie

H1

Décisions prises Accepter H0 Accepter H1 1-  Niveau de confiance erreur de première espèce  1- erreur de deuxième Puissance du test espèce

La détermination des valeurs limites de la région d’acceptation de l’hypothèse nulle dépend de l’hypothèse alternative H1, ainsi on distingue le test bilatéral et le test unilatéral. a) Test bilatéral Un test est dit bilatéral si la condition de rejet est indépendante du signe de l’écart observé entre les caractéristiques comparées. Les hypothèses formulées du test bilatéral sont : H 0 :  = t0

et

H1 :   t0

 et t0 sont les caractéristiques comparées. La règle de décision peut être représentée ainsi :  < t0  = t0  > t0 Région de rejet de H0 Région d’acceptation de H0 Région de rejet de H0 A1 A2 A1 et A2 sont les valeurs critiques qui délimitent la région d’acceptation. La région d’acceptation est donc l’intervalle [A1 ; A2]. p (A1  t0  A2) = 1 -  p (t0 < A1) = p(t0 > A2) = /2 b) Test unilatéral

139

Statistiques décisionnelles

Partie 4. Tests statistiques

Un test est dit unilatéral si l’hypothèse alternative désigne qu’une caractéristique est strictement supérieure ou inférieure à l’autre. On parle respectivement de test unilatéral à droite ou à gauche. - Test unilatéral à droite Les hypothèses formulées du test unilatéral à droite sont : H 0 :  = t0

H 1 :  > t0

et

La règle de décision peut être représentée ainsi :   t0 Région d’acceptation de H0

 > t0 Région de rejet de H0 A

A désigne la valeur critique qui délimite la région d’acceptation. La région d’acceptation est donc l’intervalle - ; A]. p (t0  A) = 1 - 

p(t0 > A) = 

- Test unilatéral à gauche Les hypothèses formulées du test unilatéral à gauche sont : H 0 :  = t0

et

H 1 :  < t0

La règle de décision peut être représentée ainsi :  < t0 Région de rejet de H0

  t0 Région d’acceptation de H0 A

A désigne la valeur critique qui délimite la région d’acceptation. La région d’acceptation est donc l’intervalle [A ; + [. p(t0 < A) = 

p(t0  A) = 1 - 

140

Statistiques décisionnelles

Partie 4. Tests statistiques

RECAPITULATIF. Pour récapituler, la démarche d’un test statistique se compose des étapes suivantes : 1. Formuler les hypothèses H0 et H1 ; 2. Fixer le seuil de signification  ; 3. Préciser la loi de probabilité de l’écart observé, appelé aussi variable de décision ; 4. Calculer la valeur numérique de la variable de décision ; 5. Déterminer les valeurs critiques qui délimitent la région d’acceptation ; 6. Prendre la décision et conclure.

141

Statistiques décisionnelles

Partie 4. Tests statistiques

142

Statistiques décisionnelles

8. Tests sur les moyennes

CHAPITRE 8 TESTS SUR LES MOYENNES

8.1. TEST SUR UN ECHANTILLON. 8.1.1. Formulation de l’hypothèse nulle. On attribue la valeur m0 pour la moyenne d’une population dont la vraie moyenne m est inconnue, et on veut juger la validité de cette hypothèse. Ce test a pour but de vérifier si la moyenne m d’une population est ou n’est pas égale à une valeur donnée m0, appelée norme. L’hypothèse nulle est donc :

H0

m = m0

8.1.2. Variable de décision. On extrait de la population un échantillon aléatoire et simple pour lequel la moyenne observée 

x est, en général, différente de m0, il s’agit d’expliquer cette différence. La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : 

VD = x Pour une population normale d’écart type  connu, la variable de décision est elle-même  normale de moyenne m0 et d’écart type . n

143

Statistiques décisionnelles

8. Tests sur les moyennes

La variable de décision centrée réduite est donc : x - m0 VDR  σ

n VDR est alors une variable normale réduite N(0 ; 1). Si la distribution de la population parent est inconnue, la quasi-variance sera utilisée comme estimation de la variance de la population. Pour un effectif suffisamment élevé, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n < 30), la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 8.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : m = m0

H1 : m  m0

et

Les valeurs critiques qui délimitent la région d’acceptation sont, pour une distribution normale réduite ou asymptotiquement normale réduite, Z1 et Z2 telles que : p(Z1  VDR  Z2) = 1 -  p(VDR < Z1) = /2



Z1 =

Z 2

p(VDR > Z2) = /2

 p(VDR  Z2) = 1-/2 

La région d’acceptation est donc l’intervalle [ Z  ; Z 2

1

Z2 = Z

 2

1

 2

].

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

VDR  Z

1

144

 2

Statistiques décisionnelles

8. Tests sur les moyennes

b) Test unilatéral à droite : H0 : m = m0

et

H1 : m > m0

La valeur critique qui délimite la région d’acceptation est, pour une distribution normale réduite ou asymptotiquement normale réduite, Z telle que : p(VDR  Z) = 1 - 



Z=

Z1

La région d’acceptation est donc l’intervalle ]- ;

Z1 ].

c) Test unilatéral à gauche : H0 : m = m0

et

H1 : m < m0

La valeur critique qui délimite la région d’acceptation est, pour une distribution normale réduite ou asymptotiquement normale réduite, Z telle que : p(VDR < Z) =  

Z=

Z

La région d’acceptation est donc l’intervalle [ Z  ; +[. Remarque : Pour une distribution de probabilité inconnue, et lorsque l’effectif de l’échantillon est inférieur à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté. 8.2. TEST SUR DEUX ECHANTILLONS. 8.2.1. Test de comparaison des moyennes de deux échantillons indépendants. Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons. Soient deux échantillons aléatoires et non exhaustifs prélevés respectivement dans une population 1 de moyenne inconnue m1 et dans une population 2 de moyenne inconnue m2.

145

Statistiques décisionnelles

8. Tests sur les moyennes

8.2.1.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la moyenne m1 d’une population est ou n’est pas égale à la moyenne m2 d’une autre population. L’hypothèse nulle est donc :

H0

m1 = m2

8.2.1.2. Variable de décision. La variable de décision du test correspond à la différence entre les moyennes observées des deux échantillons : 



VD = x 1 - x 2 Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux populations de variances égales. a) Cas de deux populations de variances inégales : 

Pour des populations normales (variances connues), les variables



x 1 - x 2 sont des variables

normales de moyennes respectivement m1 et m2 et d’écarts type respectivement

1 n1

et

2

.

n2

La variable de décision est elle-même normale de moyenne (m1-m2) et d’écart type ² 1 ² 2 .  n1 n2 Sous l’hypothèse nulle, (m1-m2)=0. La variable de décision centrée réduite : 

VDR =



(x 1  x 2 ) ² 1 ² 2  n1 n2

VDR est donc une variable normale réduite N(0 ; 1). Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment élevés, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degré de liberté.

146

Statistiques décisionnelles

8. Tests sur les moyennes

b) Cas de deux populations de variances égales : Dans le cas où les populations sont de variances égales, une estimation de la variance commune aux deux populations est donnée par : ^

² 

 (x



i

 x 1 )² 

 (x



i

 x 2 )²

n1  n 2  2

La variable de décision réduite devient : 

VDR =





(x 1  x 2 ) ^

=

^

^

² ²  n1 n 2

² (



VDR =



(x 1  x 2 ) 1 1  ) n1 n 2



(x 1  x 2 )

 (x



i

 x 1 )² 

 (x



 x 2 )² 1 1 (  ) n1  n 2  2 n1 n 2 i

Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment élevés, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degré de liberté. 8.2.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : m1 = m2

et

H1 : m1  m2

Les valeurs critiques qui délimitent la région d’acceptation sont, pour des distributions normales réduites ou asymptotiquement normales réduites, Z1 et Z2 telles que : p(Z1  VDR  Z2) = 1 -  p(VDR < Z1) = /2



Z1 =

Z 2

147

Statistiques décisionnelles

8. Tests sur les moyennes

p(VDR > Z2) = /2  p(VDR  Z2) = 1-/2 

Z2 = Z

La région d’acceptation est donc l’intervalle [ Z  ; Z 2

1

 2

1

 2

].

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région l’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si : VDR > Z  1

2

b) Test unilatéral à droite : H0 : m1 = m2

et

H1 : m1 > m2

La valeur critique qui délimite la région d’acceptation est, pour des distributions normales réduites ou asymptotiquement normales réduites, Z telle que : p(VDR  Z) = 1 - 



Z=

Z1

La région d’acceptation est donc l’intervalle ]- ;

Z1 ].

c) Test unilatéral à gauche : H0 : m1 = m2

et

H1 : m1 < m2

La valeur critique qui délimite la région d’acceptation est, pour des distributions normales réduites ou asymptotiquement normales réduites, Z telle que : p(VDR < Z) =  

Z=

Z

La région d’acceptation est donc l’intervalle [ Z  ; +[. Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n1 + n2 - 2) degré de liberté.

148

Statistiques décisionnelles

8. Tests sur les moyennes

8.2.2. Test de comparaison des moyennes de deux échantillons appariées. Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons associés par paires. C’est le cas où on soumet les mêmes individus, choisis dans une population donnée, à deux types d’observations. 8.2.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la moyenne m1 d’une population sous une forme donnée est ou n’est pas égale à la moyenne m2 de la même population sous une autre forme. L’hypothèse nulle est donc :

H0

m1 = m2

8.2.2.2. Variable de décision. Soient deux séries de n observations chacune, x1, x2, …, xn, et y1, y2, …, yn . On travaille avec la série des différences : di = xi – yi La variable de décision du test correspond à la moyenne des différences : 

VD = d Pour une population normale, la variable de décision est elle-même normale et la variable de décision centrée réduite est donc : 

VDR =

d ^

d

n VDR est alors une variable normale réduite N(0 ; 1). Remarque : Si la distribution de la population parent est inconnue, pour un effectif suffisamment élevé, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n < 30), la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 8.2.2.3. Région d’acceptation. La région d’acceptation est identique à celle du test précédent. Elle dépend toujours de l’hypothèse alternative H1. a) Test bilatéral : 149

Statistiques décisionnelles

8. Tests sur les moyennes

H0 : m1 = m2

H1 : m1  m2

et

La région d’acceptation est l’intervalle [ Z  ; Z 2

1

 2

].

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

VDR > Z

1

 2

b) Test unilatéral à droite : H0 : m1 = m2 La région d’acceptation est l’intervalle ]- ;

et

H1 : m1 > m2

Z1 ].

c) Test unilatéral à gauche : H0 : m1 = m2

et

H1 : m1 < m2

La région d’acceptation est l’intervalle [ Z  ; +[. Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté. 8.3. TEST SUR PLUSIEURS ECHANTILLONS : ANALYSE DE LA VARIANCE (ANOVA). C’est une méthode statistique pour tester l'égalité de plusieurs moyennes. La méthode repose sur les postulats suivants : les échantillons aléatoires proviennent de populations distribuées normalement et ayant la même variance.

150

Statistiques décisionnelles

8. Tests sur les moyennes

Formulation de l’hypothèse nulle : L'analyse de variance, sert à effectuer le test de l'égalité de plusieurs moyennes. On écrit comme suit les hypothèses : Ho: m1 = m2 = ... = mJ H1: au moins une des moyennes est différente des autres. En effet, l'analyse de variance est une technique d'analyse statistique qui permet de tester globalement l'égalité des moyennes de J populations normales dans lesquelles on suppose que les variances sont égales (12   22     2j   2 ) même si elles demeurent inconnues. L'analyse de variance constitue une extension à J populations normalement distribuées, J  2, du test de comparaison des moyennes de deux échantillons indépendants. Modèles d'analyse de variance : Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un facteur, le modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction. 8.3.1. ANOVA à un facteur. On essaie de découvrir si un seul facteur peut expliquer ou non les variations constatées dans les observations Yij. Au départ, on dispose d'échantillons prélevés aléatoirement dans des populations normales dans lesquelles les variances sont supposées égales

(12   22   32     2j ) . Le tableau suivant illustre la notation indicée: par exemple, Y21 représente la deuxième observation prélevée de la première population. Dans chaque échantillon, on a aussi calculé le total des observations, la moyenne et la variance. Matrice des données Observation 1

POPULATION P1: N(m1,1) P2 : N(m2,2) … Pj : N(mj,j) Y11 Y12 Y1j

2

Y21

Y22









n

yn1

yn2

ynj

151



Y2j

Statistiques décisionnelles

8. Tests sur les moyennes

T1

Total

T2







Tj

Yj S² j

Moyenne

Y1

Y2



Variance

S²1

S² 2



N  n 1  n 2  ...  n J



Grand total = T

Moyenne générale = Y 8.3.1.1. Equation fondamentale de l'analyse de la variance. L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs de la variance commune aux J populations normales. L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre les observations en une part due aux différences entre les modalités du facteur (SCF) et une part de variabilité résiduelle (SCE).

STC = SCF + SCE Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes : nj

J

STC   Yij2  ji i 1

J

Tj2

j i

nj

SCF  



T2 N

T2 N

SCE = STC - SCF 8.3.1.2. Tableau d'analyse de variance à un seul facteur. Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un tableau comme celui-ci : Analyse de variance à un facteur Source de variation Facteur

Somme des carrés

Degrés de liberté

Moyenne des carrés

SCF

J-1

MCF

F observé

MCF MCE

152

Statistiques décisionnelles

8. Tests sur les moyennes

Erreur Totale

SCE SCT

N-J N-1

MCE

MCF obéit à une loi de Fisher avec (J-1) et (N-J) degrés de MCE liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes Ho : µ1 = µ2 = ... = µJ MCF au seuil  si et seulement si la valeur de est plus grande que la valeur critique de la MCE table de Fisher au seuil  et avec (J-1) et (N-J) degrés de liberté. Quand Ho est vraie, le rapport

8.3.2. ANOVA à deux facteurs sans répétition. Le but est de découvrir si deux facteurs A et B peuvent expliquer ou non les variations constatées dans les observations aléatoires Yij. Au départ, l'analyste dispose d'échantillons prélevés aléatoirement de populations normales dans lesquelles les variances sont présumées égales. Le tableau ci-dessous illustre la notation indicée. Ainsi, Y32 représente la valeur de l'observation prélevée quand le premier facteur est à son troisième niveau (ou modalité) et que le second facteur est à son deuxième niveau; par ailleurs,

T2  et Y 2  désignent le total et la moyenne des observations quand le premier

facteur est maintenu à son deuxième niveau (l'indice sur lequel la sommation a été effectuée est remplacé par un  ). Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule valeur numérique dans chacune des cellules du tableau. Matrice des données Facteur B Facteur A 1 2 3 ...... etc... I Total Moyenne

1

2



J

Total

Moyenne

Y11

Y12



Y1J

Y21 

Y22



Y2J

T1 T2

Y1 Y2

Y32

YI1

YI2

  

YIJ

TI

YI

TJ Y J

T

T1 Y1

T2 Y2

 

Tableau d'analyse de variance à deux facteurs sans répétition : 153

Y

Statistiques décisionnelles

8. Tests sur les moyennes

Les résultats d'une analyse de variance à deux facteurs sans répétition se présentent dans un tableau comme celui-ci : Analyse de variance à deux facteurs sans répétition Source de variation Facteur A Facteur B Erreur Total

Somme des carrés SCFA SCFB SCE STC

Degrés de liberté I-1 J-1 (I-1)(J-1) IJ-1

Moyenne des carrés MCFA MCFB MCE

F observé MCFA / MCE MCFB / MCE

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules suivantes : I J T2 STC  Yij2  IJ i 1 j1



Ti2 T 2  J IJ i 1 J T2j T 2 SCFB    I IJ j1 I

SCFA  

SCE  STC  SCFA  SCFB En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à MCFA MCFB savoir au moyen des statistiques et . MCE MCE 8.3.3. ANOVA à deux facteurs avec répétition. Bien des recherches ont pour but d'étudier l'impact de plusieurs facteurs sur le résultat d'une expérience. Dans ce qui suit on tentera de découvrir si deux facteurs A et B peuvent expliquer ou non les variations constatées dans les observations Yijk. On dispose de IJ échantillons de taille K (K>1) prélevés aléatoirement de populations normales dans lesquelles les variances sont présumées égales. Le tableau suivant illustre la notation indicée: par exemple, Y324 renvoie à la quatrième observation prélevée quand le facteur A est à son troisième niveau (ou modalité) et que le facteur B est à son deuxième niveau. Ainsi, T2 représente le total des observations quand le premier facteur est maintenu à son deuxième niveau, alors que Y 3 désigne la moyenne des observations quand le second facteur est maintenu à sa troisième modalité. 154

Statistiques décisionnelles

8. Tests sur les moyennes

Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules, soit K, et cette valeur est supérieure à l'unité. Matrice des données Facteur B Facteur A

1

2 ...

I Total Moyenne

1

2

J

Y111 Y112 ... Y11K Y211 Y212 ... Y21K ... YI11 YI12 ... YI1K

Y121 Y122 ... Y12K Y221 Y222 ... Y22K ... YI21 YI22 ... YI2K

...

T1 Y1

T2 Y2

...

...

Y1J1 Y1J2 ... Y1JK Y2J1 Y2J2 ... Y2JK ... YIJ1 YIJ2 ... YIJK

TJ  Y J

Total

Moyenne

T1

Y1

T2

Y2

...

...

TI

YI

T

Y

Tableau d'analyse de variance à deux facteurs avec répétitions : Les résultats d'une analyse de la variance à deux facteurs avec répétitions sont habituellement présentés dans un tableau comme celui-ci : Analyse de variance à deux facteurs avec répétitions Source de variation Facteur A Facteur B Interaction Erreur Total

Somme des carrés SCFA SCFB SCI SCE STC

Degrés de liberté I-1 J-1 (I-1)(J-1) IJ(K-1) IJK-1

155

Moyenne des carrés MCFA MCFB MCI MCE

F observé MCFA / MCE MCFB / MCE MCI / MCE

Statistiques décisionnelles

8. Tests sur les moyennes

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules suivantes :

STC 

I

J

K

i 1

j1

k 1

 i 1

T2j

J

 IK

T2 IJK



j1

SCI 

I

J

i 1

j1

Tij2

I

 K  

i 1

T2 IJK

Ti2 T2  JK IJK

I

SCFA  

SCFB 

Yijk2 

Ti2  JK

J

T2j

 IK



j1

T2 IJK

SCE  STC  SCFA  SCFB  SCI En se basant sur les résultats présentés au tableau, on déduit que les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à savoir au moyen des statistiques : MCI MCFA MCFB ; et MCE MCE MCE L'analyse de variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests disponibles dans le tableau de l'analyse de la variance. La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux d'un facteur se comportent différemment selon les différents niveaux de l'autre facteur. 8.4. ENONCES DES EXERCICES D’APPLICATION. 8.4.1. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré leur diamètre. On a trouvé :

x

i

 x ²  2462

 350

i

a) La machine est-elle bien réglée au seuil de signification de 95 % ? b) La machine est-elle bien réglée au seuil de signification de 99 % ? 156

Statistiques décisionnelles

8. Tests sur les moyennes

8.4.2. Pour savoir s’il existe une différence d’assiduité entre les filles et les garçons, on a choisi de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités (note sur 100), et en supposant que les variances des deux populations sont égales, peut-on conclure, au seuil de 5 %, à l’existence d’une différence significative entre les deux sexes ? Assiduité des filles Assiduité des garçons

72 66

67 59

52 54

54 57

46 63

58 55

59 61

54 55

58 66

63 75

8.4.3. Un chef de produit souhaite tester l’effet d’une formation sur les techniques de ventes sur les ventes d’un produit. Un échantillon aléatoire de 10 commerciaux ayant reçu la formation est constitué. Les ventes réalisées par les dix commerciaux avant et après formation sont indiquées dans le tableau ci-dessous. a) Peut-on parler d’un effet positif de la formation au seuil de 5% ? b) Peut-on parler d’un effet positif de la formation au seuil de 1 % ? N° commercial Après formation Avant formation 1 4580 3970 2 5190 4880 3 3940 4090 4 6320 5870 5 7680 6930 6 3480 4000 7 5720 5080 8 7040 6950 9 5270 4960 10 5840 5130 8.4.4. Un investisseur étranger songe à implanter une nouvelle usine au Maroc. Il hésite entre trois villes : Settat, Casablanca et Eljadida. Selon son point de vue, le critère le plus important à prendre en considération pour déterminer l'emplacement de cette nouvelle usine est l'assiduité au travail des ouvriers. L’investisseur a visité au hasard dans chacune des villes considérées cinq grandes usines de fabrication et il a obtenu des administrateurs le taux d'absentéisme par 3500 journées de travail. Les résultats sont reproduits dans le tableau ci-dessous. Données numériques Ville Echantillon Settat 141; 127 ; 111; 124 ; 144 Casablanca 157; 131; 105; 132 ; 163 Eljadida 183; 161; 145 ; 157 ; 189 Aux seuils de 5 %, puis de 1 % peut-on conclure que le taux d'absentéisme au travail est le même en moyenne dans ces 3 villes? 157

Statistiques décisionnelles

8. Tests sur les moyennes

8.4.5. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion d’un produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques. Voici les nombres d’unités vendues enregistrées lors de ces tests. Données numériques Opérateurs \ Techniques O1 O2 O3 O4 O5

T1 42 39 38 43 44

T2 45 41 39 45 45

T3 55 52 48 54 56

T4 50 46 42 48 49

Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre les quatre techniques d'autre part quant au nombre moyen d’unités vendues ? 8.4.6. On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années d’expérience. Quand le projet fut terminé, tous sans exception avaient sousestimé le temps effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de prévision (en heures). Données numériques

TYPE D’EXPERIENCE Dans une grande entreprise

NOMBRE D’ANNEES D’EXPERIENCE Moins de Entre 2 et Plus de Total 2 ans 5 ans 5 ans 25 12 10 167 22 10 9 18 14 11 20 8 8

Dans une petite entreprise

30 38 45 44

20 28 29 28

14 15 26 24

341

Total

242

149

117

508

Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il globalement des différences significatives entre les groupes (seuil 5%)?

158

Statistiques décisionnelles

8. Tests sur les moyennes

8.4.7. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen. Un laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Aux risques 5%, puis de 10 %, la durée de vie des tubes à essais est-elle différente de 1500 heures de chauffage ? 8.4.8. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie moyenne de 3000 heures avec un écart-type de 150 heures. À la suite d'une modification dans la fabrication des moteurs, le fabriquant affirme que les nouveaux moteurs ont une durée de vie supérieure à celle des anciens. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type égal à 150 heures. Les nouveaux moteurs apportent-ils une amélioration dans la durée de vie des appareils électroménagers au risque de 1% ? 8.4.9. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses mensuelles pour les loisirs. On a observé les résultats suivants : • Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en moyenne de 640 dh avec un écart-type de 120 dh. • Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en moyenne de 610 dh avec un écart-type de 100 dh. En supposant que les variances des deux populations sont inégales, peut-on dire, aux risques de 5 % puis de 1 pour 1000 que la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue ? 8.4.10. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16 cm. La machine est réglée en principe pour obtenir des tiges de 100 cm. 1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ? 2°) Reprendre la question précédente avec un risque de 1 %. 8.4.11. Un spécialiste en marketing a fait modifier la méthode traditionnellement utilisée pour effectuer la promotion d'un certain produit. A titre expérimental, il a observé dans 10 points de vente le nombre d’unités vendues en une semaine en utilisant la méthode existante. La semaine d’après, les mêmes points de vente ont utilisé la nouvelle méthode de promotion, on a observé le nombre d’unités vendues en cette semaine. Les données recueillies sont comme suit : Ancienne méthode: 48, 46, 47, 43, 46, 45, 49, 46, 47, 44. Nouvelle méthode: 56, 49, 53, 51, 48, 52, 55, 53, 49, 50. La nouvelle méthode de promotion a-t-elle un effet positif sur les ventes ( = 5%)?

159

Statistiques décisionnelles

8. Tests sur les moyennes

8.4.12. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en grammes) : É1 É2

190 210

200 204

202 203

195 189

194 194

208 195

205 206

196 205

198 200

206 201

198

197

En supposant que les variances des deux populations sont égales, ces deux résultats sont-ils significativement différents en ce qui concerne le poids moyen au seuil de 5 %. 8.4.13. 24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a enregistré les gains moyens quotidiens en poids suivants : Alim. 1 590 760 700 640

Alim. 2 460 430 540 470

Alim. 3 600 460 610 510

Alim. 4 640 660 720 580

Alim. 5 690 600 550 480

Alim. 6 690 650 680 740

Aux seuils de 5 %, puis de 1 pour 1000, existe-t-il une différence significative quant à l’effet des différentes alimentations sur le gain moyen quotidien en poids des ovins ? 8.4.14. L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à 100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est donnée dans le tableau qui suit : Sexe Féminin Masculin Total

Moins de 20 ans 27 32 59

Catégorie d'âge Entre 20 et 45 ans 39 45 84

Plus de 45 ans 54 62 116

On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances sont égales dans ces six populations. Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge, d'autre part?

160

Statistiques décisionnelles

8. Tests sur les moyennes

8.4.15. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. En supposant que les variances des deux populations sont égales, peut-on affirmer, au risque 5 % que le réglage a modifié le poids des pièces ? 8.4.16. Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3 premiers mois de 2003, du lundi au jeudi sont comme suit :

Lundi

Mardi

Mercredi

Jeudi

Janvier 2003 Février 2003 Mars 2003 13 9 7 9 5 15 8 8 14 7 12 10 8 11 17 6 4 14 6 9 12 7 5 13 6 10 6 10 2 14 7 8 12 4 3 13 1 6 10 10 10 8 7 12 4 5 9 9

En supposant les conditions de l’analyse de la variance satisfaites, peut-on dire qu’il y a une différence significative à un seuil de 5% entre les moyennes des ventes réalisées chaque mois et entre les moyennes des ventes réalisées chaque jour ? 8.5. SOLUTIONS DES EXERCICES D’APPLICATION. 8.5.1. Solution de l’exercice 8.4.1. Pour répondre à cette question, on doit vérifier si le diamètre moyen des 50 billes observées, est conforme à la norme de 6 mm. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test bilatéral H0

m=6

H1 : m  6

161

Statistiques décisionnelles

8. Tests sur les moyennes

Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : x i 350  7 VD = 50 50



La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.

 (x ²  ^



i

 x )²

n² 50 2462 (  7²) = 0,24 = n 1 49 50

=

n 1 ^

  0,24 = 0,49 

VDR =

x m0 ^



=

76 = 14,43 0.49 50

n Région d’acceptation : La région d’acceptation est l’intervalle [ Z  ; 2

Z

1

 2

].

a) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région d’acceptation sont : Z  = Z0,025 = -1,96 2

Z

1

 2

= Z0,975 = 1,96

La région d’acceptation est donc l’intervalle [-1,96 ; 1,96]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 % b) Au seuil de signification de 99 % ( = 0,01), la région d’acceptation est : [Z0,005 ; Z0,995] = [- 2,58 ; 2,58] On regrette l’hypothèse nulle. La machine n’est donc pas bien réglée au seuil de signification de 99 %. 162

Statistiques décisionnelles

8. Tests sur les moyennes

8.5.2. Solution de l’exercice 8.4.2. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si l’assiduité moyenne m1 des filles est ou n’est pas égale à l’assiduité moyenne m2 des garçons. Il s’agit d’un test bilatéral : H0 : m1 = m2

H1 : m1  m2

et

Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc: 

VDR =



(x 1  x 2 )

 (x



i

 x 1 )² 

 (x



 x 2 )² 1 1 (  ) n1  n 2  2 n1 n 2 i

Reprenons les données et calculons les caractéristiques pour chaque échantillon. Assiduité des filles Assiduité des garçons

72 66

67 59

52 54

54 57

46 63

58 55

x 2 = 61,1

x 1 = 58,3 

i

54 55





 (x

59 61

 (x

 x 1 )² = 514,1

VDR =



i

58,3  61,1 514,1  390,9 1 1 (  ) 10  10  2 10 10

Région d’acceptation :

VDR = 0,88

163

 x 2 )² = 390,9

= - 0,88

58 66

63 75

Statistiques décisionnelles

8. Tests sur les moyennes

Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi de probabilité suivie par la VDR est une loi de STUDENT de 18 (n1 + n2 – 2) degrés de liberté. Pour  = 0,05, la valeur de

t

1

 2

avec 18 degrés de liberté est : t0,975 = 2,101

VDR < t

1

 2

, on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence

significative entre l’assiduité des deux sexes. 8.5.3. Solution de l’exercice 8.4.3. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées après formation m1 sont ou ne sont pas égales aux ventes enregistrées avant formation m2. Il s’agit d’un test unilatéral à droite : H0 : m1 = m2

et

H1 : m1 > m2

Variable de décision : Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc: 

VDR =

d ^

d n Reprenons les données et calculons les différences di N° commercial Après formation Avant formation Différence (di) 1 4580 3970 610 2 5190 4880 310 3 3940 4090 -150 4 6320 5870 450 5 7680 6930 750 6 3480 4000 -520 7 5720 5080 640 164

Statistiques décisionnelles

8. Tests sur les moyennes

8 9 10

7040 5270 5840

6950 4960 5130

90 310 710



VDR =

d ^

d

=

320 = 2,462 410,96 10

n Région d’acceptation :

VDR = 2,462 Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi de probabilité suivie par la VDR est une loi de STUDENT de 9 (n-1) degrés de liberté. a) Pour  = 0,05, la valeur de t1- avec 9 degrés de liberté est : t0,95 = 1,833 VDR > t1-, on rejette donc l’hypothèse nulle. C’est à dire, on peut conclure que la formation a eu un effet positif sur les ventes. b) Pour  = 0,01, la valeur de T1 -  avec 9 degrés de liberté est : t0,99 = 2,82 VDR  t 1   , on accepte donc l’hypothèse nulle, c’est-à-dire, on peut conclure que la formation n’a pas eu un effet positif sur les ventes. 8.5.4. Solution de l’exercice 8.4.4. Pour répondre à cette question, il faut comparer le taux d’absentéisme moyen dans les trois villes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur (ANOVA1). Formulation de l’hypothèse nulle : Il s’agit de tester globalement l’hypothèse de l'égalité des moyennes des 3 populations supposées normales dans lesquelles on suppose que les variances sont égales 12   22   32  . Ho: m1 = m2 = m3 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les trois sommes des carrés:

165

Statistiques décisionnelles

8. Tests sur les moyennes

Ville Settat Casablanca Eljadida J=3

STC 

J

nj

 Y

2 ij

ji i 1

SCF 

J

Tj2

n j i

j

Echantillon 141; 127 ; 111; 124 ; 144 157; 131; 105; 132 ; 163 183; 161; 145 ; 157 ; 189 N = 15

Total T1 = 647 T2 = 688 T3 = 835 T = 2170



T² 2170²  141²  127²  ...  189²   8149,33 N 15



T² 647² 688² 835² 2170²      3908,93 N 5 5 5 15

SCE = 8149,33 - 3908,93 = 4240,40 Ce qui permet la construction du tableau de l'analyse de variance. Tableau d’analyse de variance à un facteur Source de variation Ville Erreur Total

Somme des carrés 3908,93 4240,40 8149,33

Degrés de liberté 2 12 14

Moyenne des carrés F obs 1954,467 353,367

5,53

A un seuil  = 5%, on ne peut pas conclure que l'assiduité des travailleursà leur travail soit la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est supérieure à la valeur critique F 0,95 à 2 et 12 dl = 3,89 obtenue de la distribution de Fisher à 2 et 12 degrés de liberté. A un seuil de 1 % ( = 0,01), on peut conclure que l’assiduité des travailleurs à leur travail est la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est inférieure à la valeur critique F0,99 à 2 et 12 dl = 6,93. 8.5.5. Solution de l’exercice 8.4.5. Pour répondre à cette question, il faut comparer les nombres d’unités vendues en moyenne par les 5 opérateurs assignés aux 4 techniques, soit 20 combinaisons. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 20 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m20 166

Statistiques décisionnelles

8. Tests sur les moyennes

H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les quatre sommes des carrés : Opérateurs \ Techniques O1 O2 O3 O4 O5 Total

STC 

I

J

i 1

j1

 Y

2 ij

SCFA 

I

 i 1

SCFB 

T2 45 41 39 45 45 215

T3 55 52 48 54 56 265

T4 50 46 42 48 49 235

Total 192 178 167 190 194 921

T² 921²  42²  45²  ...  49²   548,95 IJ 20

Ti2 T² 192²  ...  194² 921²     131,20 J IJ 4 20

J

T2j

j1

I





T1 42 39 38 43 44 206



T² 206²  ...  235² 921²    410,15 IJ 5 20

SCE = 548,95 - 131,20 - 410,15 = 7,60 Ce qui permet la construction du tableau de l'analyse de variance ci-dessous. Analyse de variance à deux facteurs sans répétition Source de variation Opérateurs Techniques Erreur Total

Somme des carrés 131,2 410,15 7,6 548,95

D.L. 4 3 12 19

Moyenne des carrés 32,8 136,72 0,63

F 51,79 215,87

En examinant les valeurs F observées 51,79 et 215,87 qui sont toutes deux supérieures aux valeurs théoriques F 0,95 à 4 et 12 dl = 3,26 et F 0,95 à 3 et 12 dl = 3,49 on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les cinq opérateurs quant au nombre d’unités vendues et d'autre part, des différences significatives entre les quatre techniques de vente.

167

Statistiques décisionnelles

8. Tests sur les moyennes

8.5.6. Solution de l’exercice 8.4.6. Pour répondre à cette question, il faut comparer les erreurs de prévision (en heures) moyennes pour les 6 groupes d’ouvriers. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les cinq sommes des carrés : NOMBRE D’ANNEES D’EXPERIENCE TYPE D’EXPERIENCE Moins de Entre 2 et Plus de Total 2 ans 5 ans 5 ans Dans une grande entreprise 25 12 10 167 22 10 9 18 14 11 20 8 8 Dans une petite entreprise 30 20 14 341 38 28 15 45 29 26 44 28 24 Total 242 149 117 508

I J K T² 508² STC     Y 2   25²  22²  ...  24²   2737,33 24 i1 j1 k 1 ijk IJK SCFA 

I

 i 1

Ti2 T² 167²  341² 508²     1261,50 JK IJK 12 24

2 J T j T² 242² 149² 117² 508² SCF         1054,08 B 8 8 8 24 j1 IK IJK XI 

I

J

  1 j 1

Tj K



I

  1

T2  JK

J

T2j

 IK j 1



T2 IJK 168

Statistiques décisionnelles

8. Tests sur les moyennes

85 2    79 2 167 2  3412 242 2  149 2  117 2   4 12 8 2 508   61,75 24

SCI 

SCE  2737,33  1261,50  1054,08  61,75  360 Analyse de variance à deux facteurs avec répétitions Source de variation Type d'expérience Nombre d'années d'expérience Interaction Erreur Total

Somme des carrés 1261,5 1054,08 61,75 360 2737,33

D.L. 1 2 2 18 23

Moyenne des carrés 1261,5 527,04 30,875 20

F 63,075 26,35 1,54

En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI = 1,54 est inférieure à la valeur critique de la table, soit F 0,95 à 2 et 18 dl = 3,55. On doit conclure qu'il n'y a pas d'interaction significative entre les deux facteurs Type d'expérience et Nombre d'années d'expérience. Cette constatation justifie la poursuite de l'analyse de la variance. Comme les valeurs FA= 63,075 et FB =26,35 sont supérieures respectivement aux valeurs critiques de la table F 0,95 à 1 et 18 dl = 4,41 et F 0,95 à 2 et 18 dl = 3,55, on doit conclure qu'aussi bien sous l'angle «Type d'expérience» que «Nombre d'années d'expérience», il existe globalement des différences significatives entre les groupes. 8.5.7. Solution de l’exercice 8.4.7. Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 100 tubes à essais observés, est conforme à la norme de 1500 heures de chauffage. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche : H0

m = 1500

H1 : m < 1 500

169

Statistiques décisionnelles

8. Tests sur les moyennes

Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 1485 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.

 (x ²  ^



i

 x )²

=

n 1

n² 100 = . 110² = 12222,22 n  1 99

^

  12222,22 = 110,55 

VDR =

x m 0 ^



1485  1500 = - 1,36 110,55

=

100

n Région d’acceptation : La région d’acceptation est l’intervalle [ Z  ; +[.

Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région d’acceptation est : Z0,05 = -1,64 La région d’acceptation est donc l’intervalle [-1,64 ; +[. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. Au risque 5%, la durée de vie des tubes à essais n’est pas différente de 1500 heures de chauffage. Au seuil de 10 %, la région d’acceptation est : [Z0,1 ; + ] = [- 1,28 ; + ] On rejette l’hypothèse nulle car VDR n’appartient pas à la région d’acceptation. Au risque de 10 %, la durée de vie des tubes à essai est inférieure à 1500 heures de chauffage. 170

Statistiques décisionnelles

8. Tests sur les moyennes

8.5.8. Solution de l’exercice 8.4.8. Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 50 nouveaux moteurs est conforme à la norme de 3000 heures. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test unilatéral à droite : H0

m = 3000

H1 : m > 3000

Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 3250 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.

 (x ²  ^



i

 x )²

n 1

=

n² 50 = . 150² = 22959,18 n  1 49

^

  22959,18 = 151,52 

VDR =

x m0 ^



=

3250  3000 = 11,67 151,52 50

n Région d’acceptation : La région d’acceptation est l’intervalle ]- ;

Z1 ].

Au seuil de signification de 99 % ( = 0,01), la valeur critique qui délimite la région d’acceptation est : Z0,99 = 2,33 171

Statistiques décisionnelles

8. Tests sur les moyennes

La région d’acceptation est donc l’intervalle ]- ; 2,33]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. Au risque 1%, les nouveaux moteurs apportent une amélioration dans la durée de vie des appareils électroménagers. 8.5.9. Solution de l’exercice 8.4.9. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. Il s’agit d’un test bilatéral : H0 : m1 = m2

et

H1 : m1  m2

Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances inégales, la variable de décision centrée réduite est donc: 

VDR =



(x 1  x 2 ) ² 1 ² 2  n1 n2

avec





x 1 = 640

x 2 = 610

Les variances des deux populations sont estimées par les quasi-variances.

n²1 280 = . 120² = 14451,61 n  1 279 ^ n²2 300 ² 2 = = . 100² = 10033,44 n  1 299 640  610 VDR = = 3,25 14451,61 10033,44  280 300 ^

² 1 =

172

Statistiques décisionnelles

8. Tests sur les moyennes

Région d’acceptation :

VDR = 3,25 Pour  = 0,05, la valeur de

Z

1

 2

est : Z0,975 = 1,96

VDR > Z

1

 2

, on rejette donc l’hypothèse nulle. C’est-à-dire, au risque de 5 %, la part du

budget familial consacrée aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. Pour  = 0,001, la valeur de

Z

1

 2

est : Z0,9995 = 3,29

VDR  Z

1

 2

, on accepte donc l’hypothèse nulle, c'est-à-dire, au risque de 1 %, la part du

budget familial consacré aux loisirs est le même pour les 2 milieux. 8.5.10. Solution de l’exercice 8.4.10. Pour répondre à cette question, on doit vérifier si la longueur moyenne des 100 tiges métalliques est conforme à la norme de 100 cm. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test bilatéral : H0

m = 100 H1 : m  100

Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 100,04 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.

173

Statistiques décisionnelles

8. Tests sur les moyennes

 (x ²  ^



i

 x )²

n 1

=

n² 100 = . 0,16² = 0,026 n  1 99

^

  0,026 = 0,1608 

VDR =

x m0 ^



=

100,04  100 = 2,49 0,1608 100

n Région d’acceptation : La région d’acceptation est l’intervalle [ Z  ; 2

Z

1

 2

].

1) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région d’acceptation sont :

Z  = Z0,025 = -1,96 et Z 2

1

 2

= Z0,975 = 1,96

La région d’acceptation est donc l’intervalle [-1,96 ; 1,96]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %. 2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région d’acceptation sont :

Z  = Z0,005 = -2,58 et Z 2

1

 2

= Z0,995 = 2,58

La région d’acceptation est donc l’intervalle [-2,58 ; 2,58]. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. La machine est donc bien réglée au seuil de signification de 99 %.

174

Statistiques décisionnelles

8. Tests sur les moyennes

8.5.11. Solution de l’exercice 8.4.11. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées avec la nouvelle méthode de promotion m1 sont ou ne sont pas supérieures aux ventes enregistrées avec l’ancienne méthode de promotion m2. Il s’agit d’un test unilatéral à droite : H0 : m1 = m2

et

H1 : m1 > m2

Variable de décision : Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc: 

VDR =

d ^

d n

Reprenons les données et calculons les différences di. Point de vente Nouvelle méthode Ancienne méthode Différence (di) 1 56 48 8 2 49 46 3 3 53 47 6 4 51 43 8 5 48 46 2 6 52 45 7 7 55 49 6 8 53 46 7 9 49 47 2 10 50 44 6 

VDR =

d ^

d

=

5,5 = 7,49 2,3214 10

n 175

Statistiques décisionnelles

8. Tests sur les moyennes

Région d’acceptation :

VDR = 7,49 Pour  = 0,05, la valeur de t1- avec 9 degrés de liberté est : t0,95 = 1,833

VDR > t1-, on rejette donc l’hypothèse nulle. C’est-à-dire, on peut conclure que la nouvelle méthode de promotion a un effet positif sur les ventes. 8.5.12. Solution de l’exercice 8.4.12. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si le poids moyen net des sachets m1 du premier échantillon est ou n’est pas égale au poids moyen net des sachets m2 du deuxième échantillon. Il s’agit d’un test bilatéral : H0 : m1 = m2

et

H1 : m1  m2

Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc: 

VDR =



(x 1  x 2 )

 (x



i

 x 1 )² 

 (x



 x 2 )² 1 1 (  ) n1  n 2  2 n1 n 2 i

Reprenons les données et calculons les caractéristiques pour chaque échantillon. É1 É2

190 210

200 204

202 203

195 189

194 194

208 195

205 206



206 201

x 2 = 200,1667



i

198 200



x 1 = 199,4

 (x

196 205

 (x

 x 1 )² = 306,4 176



i

 x 2 )² = 381,6667

198

197

Statistiques décisionnelles

8. Tests sur les moyennes

VDR =

199,4  200,1667 306,4  381,6667 1 1 (  ) 10  12  2 10 12

= - 0,31

Région d’acceptation :

VDR = 0,31 Pour  = 0,05, la valeur de

t

1

 2

avec 20 degrés de liberté est : t0,975 = 2,09

VDR < t

1

 2

, on accepte donc l’hypothèse nulle. C’est-à-dire, ces deux résultats ne sont pas

significativement différents en ce qui concerne le poids moyen au seuil de 5 % 8.5.13. Solution de l’exercice 8.4.13. Pour répondre à cette question, il faut comparer les gains moyens quotidiens en poids des 6 alimentations. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur (ANOVA1). Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 = m4 = m5 = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les trois sommes des carrés : Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 590 460 600 640 690 760 430 460 660 600 700 540 610 720 550 640 470 510 580 480 Total 2690 1900 2180 2600 2320

STC 

2 ij

j i

SCF 

nj

J

Y J

i 1

T j2

n j i

j





Alim. 6 690 650 680 740 2760

T² 14450²  590²  760²  ...  740²   215595,83 N 24

T² 2690² 1900² 2760² 14450²    ...    139520,83 N 4 4 4 24 177

14450

Statistiques décisionnelles

8. Tests sur les moyennes

SCE = 215595,83 - 139520,83 = 76075 Ce qui permet la construction du tableau de l'analyse de variance. Tableau d’analyse de variance à un facteur Source de variation Alimentation Erreur Totale

Somme des carrés 139520,83 76075 215595,83

Degrés de liberté 5 18 23

Moyenne des carrés 27904,17 4226,39

F obs 6,6

A un seuil  = 5%, on ne peut pas conclure que le gains quotidiens en poids soit le même en moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est supérieure à la valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de Fisher à 5 et 18 degrés de liberté. Au seuil  = 0,001, on peut conclure que les gains quotidiens en poids est le même en moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est inférieure à la valeur critique F0,999 à 5 et 18 dl = 6,8. 8.5.14. Solution de l’exercice 8.4.14. Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 = m4 = m5 = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les quatre sommes des carrés:

Sexe Féminin Masculin Total

Moins de 20 ans 27 32 59

Catégorie d'âge Entre 20 et 45 ans 39 45 84 178

Plus de 45 ans 54 62 116

Total 120 139 259

Statistiques décisionnelles

STC 

8. Tests sur les moyennes

I

J

i 1

j1

 Y



2 ij

I



SCFA 

i 1

SCFB 

Ti2 T² 120²  139² 259²     60,17 J IJ 3 6

J

T2j

j1

I



T² 259²  27²  39²  ...  62²   878,83 IJ 6



T² 59²  84²  116² 259²    816,33 IJ 2 6

SCE = 878,83 - 60,17 - 816,33 = 2,33 Ce qui permet la construction du tableau de l'analyse de variance ci-dessous. Analyse de variance à deux facteurs sans répétition Source de variation Sexe Age Erreur Total

Somme des carrés 60,17 816,33 2,33 878,83

D.L. 1 2 2 5

Moyenne des carrés 60,17 408,17 1,17

F 51,43 348,86

En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieures aux valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives entre les trois catégories d’âge. 8.5.15. Solution de l’exercice 8.4.15.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si le poids moyen des pièces m1 avant le réglage est ou n’est pas inférieur au poids moyen des pièces m2 après le réglage. Il s’agit d’un test bilatéral : H0 : m1 = m2

et 179

H1 : m1  m2

Statistiques décisionnelles

8. Tests sur les moyennes

Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc : 



(x1  x 2 )

VDR =





 (x i  x 1 )²   (x i  x 2 )² ( 1  1 ) n1  n 2  2 n1 n 2 



x1 = 68,2

x 2 = 67,5 

 (x  x )² = 2,5² . 50 = 312,5  (x  x )² = 2,8² . 50 = 392 1

i



i

VDR =

2

68,2  67,5

312,5  392 1 1 (  ) 50  50  2 50 50

= 1,3

Région d’acceptation :

VDR = 1,3 Pour  = 0,05, la valeur de

VDR < Z

1

 2

Z

1

 2

est : Z0,975 = 1,96

, on accepte donc l’hypothèse nulle. C’est-à-dire, on peut affirmer, au risque 5

% que le réglage n’a pas modifié le poids des pièces. 8.5.16. Solution de l’exercice 8.4.16. Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 12 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m12 180

Statistiques décisionnelles

8. Tests sur les moyennes

H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les cinq sommes des carrés :

Lundi

Janvier 2003 13 9 8 7

Février 2003 9 5 8 12

Mars 2003 7 15 14 10

37 8 6 6 7

34 11 4 9 5

46 17 14 12 13

112

27 6 10 7 4

29 10 2 8 3

56 6 14 12 13

95

27 1 10 7 5 23 114

23 6 10 12 9 37 123

45 10 8 4 9 31 178

Mardi

Mercredi

Jeudi

Total

Total 117

91

415

I J K T² 415² STC     Y 2   13²  9²  ...  9²   604,98 48 i1 j1 k 1 ijk IJK SCFA 

I

Ti2

 JK i 1



T² 117²  112²  95²  91² 415²    40,23 IJK 12 48

2 J T j T² 114² 123² 178² 415² SCF         150,04 B 16 16 16 48 j1 IK IJK

181

Statistiques décisionnelles

SCI 

I

j

i j

j1

Tij2

I

 K  

i 1

Ti2  JK

8. Tests sur les moyennes

j

T2j

 IK j1



T2 IJK

37 2    312 117 2  112 2  95 2  912  4 12 114 2  123 2  178 2 415 2    93,6 8 48 SCE = 604,98 – 40,23 – 150,04 – 93,96 = 320,75 SCI 

Tableau d’analyse de variance à deux facteurs avec répétitions Source de Somme des Moyenne des D.L. F variation carrés carrés Jours 40,23 3 13,41 1,51 Mois 150,04 2 75,02 8,42 Interaction 93,96 6 15,66 1,76 Erreur 320,75 36 8,91 Total 604,98 47 En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI = 1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. On doit conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois. Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur FA= 1,51 est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42 est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il existe des différences significatives entre les trois mois.

182

Statistiques décisionnelles

9. Tests sur les variances

CHAPITRE 9 TESTS SUR LES VARIANCES

9.1. TEST SUR UN ECHANTILLON. 9.1.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la variance ² d’une population est ou n’est pas égale à une valeur donnée

02 , appelée norme.

L’hypothèse nulle est donc :

H0

σ 2  σ 02

9.1.2. Variable de décision. On extrait un échantillon aléatoire non exhaustif de taille n. La variable de décision du test correspond à :

 x n

VD 

i

x



2

11

 02

La variable de décision possède une distribution khi deux à (n-1) degrés de liberté. 9.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : ² =

02

et

183

H1 : ² 

02

Statistiques décisionnelles

9. Tests sur les variances

Les valeurs critiques qui délimitent la région d’acceptation sont ²1 et ²2 telles que :

p (12  VD   22 )  1  

p (VD  12 )   / 2  12   2a 2

p (VD   22 )   / 2  p (VD   22 )  1   / 2   22   2

1

a 2

  La région d’acceptation est donc l’intervalle  2a ;  2 a  . 1 2   2 On accepte l’hypothèse nulle si la variable de décision appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. b) Test unilatéral à droite :

H 0 : σ 2  σ 02

et

H 1 : σ 2  σ 02

La valeur critique qui délimite la région d’acceptation est 2 telle que :

p (VD   2 )  1     2  12  



La région d’acceptation est donc l’intervalle 0 ; 12  



c) Test unilatéral à gauche :

H 0 : σ 2  σ 02

et

H 1 : σ 2  σ 02

La valeur critique qui délimite la région d’acceptation est ² telle que :

p (VD   2 )     2   2 La région d’acceptation est donc l’intervalle   2 ;    . 9.2. TEST SUR DEUX ECHANTILLONS. Ce test a pour but de comparer les variances de deux populations à l’aide de deux échantillons indépendants. 184

Statistiques décisionnelles

9. Tests sur les variances

9.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la variance 12 d’une population est ou n’est pas égale à la variance

 22 d’une autre population.

L’hypothèse nulle est donc : H 0

σ 12  σ 22

9.2.2. Variable de décision. Soient deux échantillons aléatoires et non exhaustifs prélevés dans les deux populations. La variable de décision du test correspond au rapport des deux variances observées des deux échantillons : ˆ 2 VD  12 ˆ 2 La variable de décision suit une loi de Fisher avec (n1-1) et (n2-1) degré de liberté. Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité. C’est la raison pour laquelle la variable de décision correspond au rapport de variances qui est supérieur à l’unité, d’où l’échantillon 1 est celui qui a la plus grande variance. 9.2.3. Région d’acceptation. Le test d’égalité de deux variances est en général un test bilatéral. Il précède généralement le test de comparaison des moyennes de deux échantillons indépendants.

H0

12   22

et

H1

12   22

Les valeurs critiques qui délimitent la région d’acceptation sont F1 et F2 telles que : p(F1  VD  F2) = 1 -  p(VD < F1) = /2



F1 =

F 2

p(VD > F2) = /2  p(VD  F2) = 1-/2 

185

F2 =

F

1

 2

Statistiques décisionnelles

9. Tests sur les variances

  La région d’acceptation est donc l’intervalle F ; F   . 1 2   2 Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité, de telle sorte que seule est possible la comparaison avec F  , et on rejette l’hypothèse nulle si la variable de 1

décision est supérieure ou égale à F

1

2

.  2

9.3. ENONCES DES EXERCICES D’APPLICATION. 9.3.1. On souhaite vérifier, au seuil de signification de 95 %, si le peuplement, dans lequel on a mesuré la hauteur d’un échantillon de 12 arbres, appartient à un type de forêt dont l’écart type est de 1,4 m. Les résultats en mètre sont : 5,1 ; 5,2 ; 5,2 ; 5,4 ; 5,9 ; 6,3 ; 6,3 ; 6,8 ; 6,9 ; 6,9 ; 7,0 ; 7,0 Ce peuplement appartient-il à ce type de forêt ? a) Au seuil de signification de 95 %. b) Au seuil de signification de 99 %. 9.3.2. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. La machine est considérée comme bien réglée si l’écart type du diamètre des billes fabriquées ne dépasse pas 0,45 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré leur diamètre. On a trouvé :

x

i

 x ²  2462

 350

i

La machine est-elle bien réglée au seuil de signification de 95 % ? 9.3.3. Pour savoir si les filles sont plus assidues que les garçons ou non, on a choisi de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités (note sur 100), peut-on supposer, au seuil de 5 %, que les variances des deux populations sont égales ? Assiduité des filles Assiduité des garçons

72 66

67 59

52 54

54 57

186

46 63

58 55

59 61

54 55

58 66

63 75

Statistiques décisionnelles

9. Tests sur les variances

9.3.4. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen avec un écart type de 100 heures. Un laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Au risque 5%, l’écart type de la durée de vie des tubes à essais est-il différent de 100 heures de chauffage ? 9.3.5. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie moyenne de 3000 heures avec un écart-type de 150 heures. A la suite d'une modification dans la fabrication des moteurs, le fabricant affirme que les nouveaux moteurs ont une durée de vie supérieure à celle des anciens avec un écart type plus réduit. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type égal à 145 heures. Les nouveaux moteurs apportent-ils une amélioration dans la dispersion de la durée de vie des appareils électroménagers au risque de 5% ? 9.3.6. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses mensuelles pour les loisirs. On a observé les résultats suivants : • Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en moyenne de 640 dh avec un écart-type de 120 dh. • Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en moyenne de 610 dh avec un écart-type de 100 dh. Peut-on dire au risque de 5 % que la variance de la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue ? 9.3.7. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16 cm. La machine est réglée en principe pour obtenir un écart type des longueurs des tiges de 0,12 cm. 1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ? 2°) Reprendre la question précédente avec un risque de 1 %. 9.3.8. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en grammes) : É1 É2

190 210

200 204

202 203

195 189

194 194

208 195

205 206

196 205

198 200

206 201

198

197

Ces deux résultats sont-ils significativement différents en ce qui concerne les écarts types des poids %.

187

Statistiques décisionnelles

9. Tests sur les variances

9.3.9. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. Peur-on affirmer, au risque 5 % que le réglage a modifié l’écart-type du poids des pièces ? 9.3.10. Un tour opérateur veut mettre un nouveau produit à son catalogue. La rentabilité de ce produit suppose, en moyenne, 50 réservations hebdomadaires au minimum par agence avec un écart type maximum de 2 réservations. A titre de test, il décide de l’inclure au catalogue d’un échantillon aléatoire de 10 de ses agences. On a noté le nombre de réservations observées durant une semaine dans les 10 agences : 51 ; 48 ; 58 ; 55 ; 52 ; 49 ; 50 ; 54 ; 53 ; 52 Peut-on conclure, au seuil de 5 %, puis de 1 % que l’écart type est effectivement inférieur à 2 réservations ? 9.4. SOLUTIONS DES EXERCICES D’APPLICATION. 9.4.1. Solution de l’exercice 9.3.1. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. H0

² = 1,4² = 1,96 H1 : ²  1,96

Variable de décision : La variable de décision du test correspond à : n

VD 

 (i  )

2

i 1

 02



6,6  3,37 1,96

La variable de décision possède une distribution khi deux à 11 degrés de liberté. Région d’acceptation : a) Les valeurs critiques qui délimitent la région d’acceptation sont :  ²  et ² 2

Au seuil de signification de 95 % ( = 0,05)

 02, 025  3,82 et 188

 02, 975  21,9

1

 2

.

Statistiques décisionnelles

9. Tests sur les variances

La région d’acceptation est donc l’intervalle [3,82 ; 21,9]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. b) Au seuil de signification de 99 % ( = 0,01)

 02, 005  2,6

 02,995  26,8

et

La région d’acceptation est donc [2,6 ; 26,8]. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. 9.4.2. Solution de l’exercice 9.3.2. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Ce test a pour but de vérifier si la variance ² de la population des billes fabriquées ne dépasse pas la norme. Il s’agit d’un test bilatéral :

H0

 2  0,45 2

et

 2  0,45 2

H1

Variable de décision : n

VD 



i  1 (x i  x ) 2

σ 02



50 (

2462 350 2 ( ) ) 50 50  59,26 0,45 2

Région d’acceptation : Il s’agit d’un test unilatéral à droite. Pour

  0,05 , la valeur critique qui délimite la région d’acceptation est 12   à 49 degrés de

liberté. Le nombre de degrés de liberté est grand (k > 30), on peut trouver l’approximation de la valeur de  2 par la loi normale. 2 χ 0,95  à 49 dl

(Z 0,95  2k  1) 2 2



189

(1,64  2 x 49  1) 2 2

 66

Statistiques décisionnelles

9. Tests sur les variances

La région d’acceptation est donc l’intervalle 0 ; 66 . On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. Au seuil de signification de 95 %, la machine est bien réglée. 9.4.3. Solution de l’exercice 9.3.3. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 de la population des filles est ou n’est pas égale à la variance ²2 de la population des garçons. Il s’agit d’un test bilatéral :

H0

12   22

et

H1

12   22

Variable de décision :

VD  Région d’acceptation : Pour  = 0,05 la valeur de F

1

 2

ˆ 12 57,12   1,31 ˆ 22 43,43

avec 9 et 9 degrés de liberté est : F0,975 = 4,03

La variable de décision est inférieure à F

1

 2

, on accepte donc l’hypothèse d’égalité des

variances des deux populations. 9.4.4. Solution de l’exercice 9.3.4. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral.

H0

12   22

et

190

H1

12   22

Statistiques décisionnelles

9. Tests sur les variances

Variable de décision : La variable de décision du test correspond à : 

100

 (x VD =

 x )²

i

i 1



2 0

=

110².100 = 121 10000

La variable de décision possède une distribution khi deux à 99 degrés de liberté. Région d’acceptation : Les valeurs critiques qui délimitent la région d’acceptation sont :  2 et  2 2

1

 2

.

Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région d’acceptation sont :

 02, 025 et  02,975 .

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type

2  99  14,07 .

En passant à la loi normale centrée réduite on obtient :  02, 025 à 99 dl  99 = Z0,025 14,07 d’où : ²0,025 à 99 dl = Z0,025 x 14,07 + 99 ²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42 de même : ²0,975 à 99 dl = Z0,975 x 14,07 + 99 ²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58 ²0,025 = 71,42

et

²0,975 = 126,58

La région d’acceptation est donc l’intervalle [71,42 ; 126,58]. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire, au risque 5%, l’écart type de la durée de vie des tubes à essais est de 100 heures de chauffage. 191

Statistiques décisionnelles

9. Tests sur les variances

9.4.5. Solution de l’exercice 9.3.5. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. ² = 150² = 22500

H0

H1 : ² < 22500

Variable de décision : La variable de décision du test correspond à : 

50

 (x VD =

i

 x )²

i 1

=

² 0

145².50 = 46,7 22500

La variable de décision possède une distribution khi deux à 49 degrés de liberté. Région d’acceptation : Il s’agit d’un test unilatéral à gauche. La valeur critique qui délimite la région d’acceptation est

 2

Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région d’acceptation est

 02, 05

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 49 et d’écart type

2  49  9,9 .

Pour améliorer l’approximation, on peut utiliser la transformation suivante :

² 

( Z  2k  1)² 2

d’où :

 02, 05 

( Z 0 , 05  2 x 49  1) 2 2



( 1,64  2 x 49  1) 2 2

 33,7

La région d’acceptation est donc l’intervalle [33,7 ; + ]. 192

Statistiques décisionnelles

9. Tests sur les variances

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire, au risque 5%, les nouveaux moteurs n’apportent aucune amélioration dans la dispersion de la durée de vie des appareils électroménagers. 9.4.6. Solution de l’exercice 9.3.6. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance 12 des dépenses mensuelles pour les loisirs en centre ville est ou n’est pas égale à la variance  22 des dépenses mensuelles pour les loisirs en banlieue. Il s’agit d’un test bilatéral :

H0

12   22

et

H1

12   22

Variable de décision :

VD 

ˆ 12 ˆ 22

Les variances des deux populations sont estimées par les quasi-variances. ^

n²1 280 = . 120² = 14451,61 n  1 279

^

n²2 300 = . 100² = 10033,44 n  1 299

² 1 =

² 2 =

VD =

14451,61 = 1,44 10033,44

Région d’acceptation : En consultant la table de Fisher pour  = 0,05, la valeur de F

1

liberté ne peut être ni inférieure à 1,19 ni supérieure à 1,32. 1,19 < F0,975 < 1,32

193

 2

avec 279 et 299 degrés de

Statistiques décisionnelles

9. Tests sur les variances

La variable de décision est supérieure à F

1

 2

, on rejette donc l’hypothèse d’égalité des

variances des deux populations. C’est-à-dire, au risque de 5 % la variance de la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. 9.4.7. Solution de l’exercice 9.3.7. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. H0

² = 0,12² = 0,0144

H1 : ²  0,0144

Variable de décision : La variable de décision du test correspond à : 

100

 (x

i

 x )²

0,16².100 = = 177,78 ² 0 0,0144 La variable de décision possède une distribution khi deux à 99 degrés de liberté. VD =

i 1

Région d’acceptation : Les valeurs critiques qui délimitent la région d’acceptation sont :

² et ²1 . 2

2

1) Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région d’acceptation sont : ² 0,025 et ² 0,975 . Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type

2  99  14,07 .

En passant à la loi normale centrée réduite on obtient :  02, 025 à 99 dl  99 = Z0,025 14,07 d’où : ²0,025 à 99 dl = Z0,025 x 14,07 + 99 ²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42 194

Statistiques décisionnelles

9. Tests sur les variances

de même : ²0,975 à 99 dl = Z0,975 x 14,07 + 99 ²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58 ²0,025 = 71,42

et

²0,975 = 126,58

La région d’acceptation est donc l’intervalle [71,42 ; 126,58]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. C’est-à-dire, au risque 5 %, la machine n’est pas bien réglée. 2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région d’acceptation sont : ² 0,005 et ² 0,995 . Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type

2  99  14,07 .

En passant à la loi normale centrée réduite on obtient : ²0,005 à 99 dl = Z0,005 x 14,07 + 99 ²0,005 à 99 dl = -2,58 x 14,07 + 99 = 62,70 de même : ²0,995 à 99 dl = Z0,995 x 14,07 + 99 ²0,995 à 99 dl = 2,58 x 14,07 + 99 = 135,30 La région d’acceptation est donc l’intervalle [62,70 ; 135,30]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. C’est-à-dire, au risque 1%, la machine n’est pas bien réglée.

195

Statistiques décisionnelles

9. Tests sur les variances

9.4.8. Solution de l’exercice 9.3.8. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 de la population du premier échantillon est ou n’est pas égale à la variance ²2 de la population du deuxième échantillon. Il s’agit d’un test bilatéral : ²1 = ²2et

H0

H1

²1  ²2

Variable de décision : ^

VD =

Région d’acceptation : Pour  = 0,05 la valeur de F

1

 2

² 1 ^

² 2

=

34,70 = 1,02 34,04

avec 11 et 9 degrés de liberté est : F0,975 = 3,91

La variable de décision est inférieure à F

1

 2

, on accepte donc l’hypothèse d’égalité des

variances des deux populations. 9.4.9. Solution de l’exercice 9.3.9. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 des poids des pièces avant le réglage est ou n’est pas égale à la variance ²2 des poids des pièces après le réglage. Il s’agit d’un test bilatéral : H0

²1 = ²2et

H1

Variable de décision : ^

VD =

² 1 ^

² 2

196

²1  ²2

Statistiques décisionnelles

9. Tests sur les variances

Les variances des deux populations sont estimées par les quasi-variances. ^

² 1 =

n²1 50 = . 2,5² = 6,38 n  1 49

^

² 2 =

n²2 50 = . 2,8² = 8 n  1 49

VD =

8 = 1,25 6,38

Région d’acceptation : En consultant la table de Fisher pour  = 0,05, la valeur de

F

1

α 2

avec 49 et 49 degrés de

liberté ne peut être ni inférieure à 1,75 ni supérieure à 2,07. 1,75 < F0,975 < 2,07 La variable de décision est inférieure à

F

1

 2

, on accepte donc l’hypothèse d’égalité des

variances des deux populations. C’est-à-dire, au risque de 5 % le réglage n’a pas modifié l’écart type du poids des pièces. 9.4.10. Solution de l’exercice 9.3.10. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche. H0 : ² = 2²

H1 : ² < 4

et

Variable de décision : La variable de décision du test correspond à : 

10

(x  x)² i

VD =

i 1

=

² 0

79,6 = 19,9 4

La variable de décision possède une distribution khi deux à 9 degrés de liberté. 197

Statistiques décisionnelles

9. Tests sur les variances

Région d’acceptation : La région d’acceptation est l’intervalle [ ²  ; +[. Au seuil de signification de 95 % ( = 0,05) ²0,05 = 3,325 La région d’acceptation est donc l’intervalle [3,325 ; +[. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire au seuil 5 %, l’écart type est effectivement inférieur à 2 réservations. Au seuil de signification de 99 % ( = 0,01)

 02, 01  2,09 La région d’acceptation est l’intervalle [2,09 ; + ] on accepte l’hypothèse nulle.

198

Statistiques décisionnelles

10. Tests sur les proportions

CHAPITRE 10 TESTS SUR LES PROPORTIONS

10.1. TEST SUR UN ECHANTILLON. 10.1.1. Formulation de l’hypothèse nulle. On attribue la valeur p0 pour proportion dans une population dont la vraie proportion p est inconnue, et on veut juger la validité de cette hypothèse. Ce test a pour but de vérifier si la proportion p d’une population est ou n’est pas égale à une valeur donnée p0, appelée norme. L’hypothèse nulle est donc : H0

p = p0

10.1.2. Variable de décision. On extrait de la population un échantillon aléatoire et simple dans lequel la proportion observée fn est en général différente de p0, il s’agit d’expliquer cette différence. La variable de décision du test correspond à l’estimation de p qui est la fréquence de l’échantillon : VD = fn Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type p(1  p) à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le n produit n np  5, la variable de décision réduite : fn  p0 VDR = p 0 (1  p 0 ) n est donc une variable normale réduite N(0 ; 1). 199

Statistiques décisionnelles

10. Tests sur les proportions

10.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : p = p 0

H1 : p  p 0

et

Les valeurs critiques qui délimitent la région d’acceptation sont les valeurs d’une variable normale réduite Z1 et Z2 telles que : p(Z1  VDR  Z2) = 1 -  p(VDR < Z1) = /2



Z1 =

Z 2

p(VDR > Z2) = /2  p(VDR  Z2) = 1-/2  Z2 =

Z1  2

La région d’acceptation est donc l’intervalle [ Z  ; 2

Z1  ]. 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

VDR > Z1  2

b) Test unilatéral à droite : H0 : p = p 0

et

H1 : p > p 0

La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale réduite Z telle que : p(VDR  Z) = 1 - 



La région d’acceptation est donc l’intervalle ]- ;

200

Z1 ].

Z=

Z1

Statistiques décisionnelles

10. Tests sur les proportions

c) Test unilatéral à gauche : H0 : p = p 0

et

H1 : p < p 0

La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale réduite Z telle que : p(VDR < Z) =   Z = Z La région d’acceptation est donc l’intervalle [ Z ; +[. 10.2. TEST SUR DEUX ECHANTILLONS. Ce test a pour but de comparer les proportions de deux populations à l’aide de deux échantillons indépendants. 10.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la proportion p1 d’une population est ou n’est pas égale à la proportion p2 d’une autre population. L’hypothèse nulle est donc : H0

p1 = p2

10.2.2. Variable de décision. Il s’agit de comparer deux proportions observées. Soient deux échantillons aléatoires de taille respectivement n1 et n2 extraits de deux populations. Les fréquences observées fn1 et fn2 sont généralement différentes, il s’agit d’expliquer cette différence. X X f n1  1 f n2  2 et n1 n2 La variable de décision du test correspond à la différence entre les fréquences observées des deux échantillons : VD = fn1 – fn2 Comme les distributions des deux proportions suivent des lois normales de moyennes p 1 (1 - p 1 ) p 2 (1 - p 2 ) respectivement p1 et p2 et d’écarts types respectifs et à condition que n2 n1 la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit np  5, la variable de décision est elle-même normale de moyenne (p1-p2) et d’écart type p 1 (1  p 1 ) p (1  p 2 ) .  2 n1 n2 201

Statistiques décisionnelles

10. Tests sur les proportions

Sous l’hypothèse nulle p1 = p2 , il y a la même proportion inconnue p dans les deux populations. Cette proportion peut être estimée par la fréquence observée fn1+n2 dans l’échantillon unique qui est la réunion des deux échantillons.

f n1  n 2 

X 1  X 2 n 1 fn 1  n 2 fn 2  n1  n 2 n1  n 2

Sous l’hypothèse nulle, la variable de décision suit une loi normale de moyenne (p 1-p2) = 0 et d’écart type :

p (1  p) p (1  p) =  n1 n2

f n1  n 2 (1  f n1  n 2 ) (

1 1  ) n1 n 2

La variable de décision centrée réduite :

f n1  f n 2

VDR 

f n1 n 2 (1  f n1 n 2 )(

1 1  ) n1 n 2

est donc une variable normale réduite N(0 ; 1). 10.2.3. Région d’acceptation. La région d’acceptation est identique à celle du test de conformité d’une proportion, elle dépend de l’hypothèse alternative H1. a) Test bilatéral : H0 : p 1 = p 2

H1 : p 1  p 2

et

La région d’acceptation est l’intervalle [ Z  ; 2

Z1  ]. 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

202

Statistiques décisionnelles

10. Tests sur les proportions

VDR > Z1  2

203

Statistiques décisionnelles

10. Tests sur les proportions

b) Test unilatéral à droite : H0 : p 1 = p 2

et

La région d’acceptation est donc l’intervalle ]- ;

H1 : p 1 > p 2

Z1 ].

c) Test unilatéral à gauche : H0 : p 1 = p 2

et

H1 : p 1 < p 2

La région d’acceptation est donc l’intervalle [ Z ; +[. 10.3. TEST SUR PLUSIEURS ECHANTILLONS. Ce test a pour but de comparer les proportions d’un certain nombre de populations à l’aide du même nombre d’échantillons indépendants. 10.3.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si les proportions p1, p2, ... pk de k populations sont égales. On écrit comme suit les hypothèses : Ho: p1 = p2 = ... = pk H1: au moins une des proportions est différente des autres. 10.3.2. Variable de décision. Soient k échantillons aléatoires de taille respectivement n1, n2 , …, nk extraits de k populations. Il s’agit de comparer les effectifs observés nij dans les k échantillons et les effectifs attendus ou théoriques sous l’hypothèse nulle. Effectifs observés

Avoir le caractère étudié Ne pas avoir le caractère étudié Total

Echantillon 1 n11 n12 n1.

204

Echantillon Echantillon … 2 k n21 nk1 … n22 nk2 … n2.



nk.

Statistiques décisionnelles

10. Tests sur les proportions

Sous l’hypothèse nulle p1 = p2 = ... = pk, il y a la même proportion inconnue p dans les k populations. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des k échantillons.

f

n 11  n 21    n k1 n1  n 2    n k

sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques

Avoir le caractère étudié Ne pas avoir le caractère étudié Total

Echantillon 1 Echantillon 2 f n1. f n2. (1 – f) n1. (1 – f) n2. n1. n2.

… Echantillon k f nk. … (1 – f) nk. … … nk.

On est amené à confronter les effectifs observés et les effectifs théoriques. On calcule la variable de décision VD : VD = (effectif observé-effectif théorique)2 / effectif théorique On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1) degré de liberté. 10.3.3. Région d’acceptation. La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs attendus, c’est-à-dire, lorsqu’il y a concordance absolue entre la distribution observée et la distribution théorique. La valeur de la variable de décision est d’autant plus grande que les écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 -  

² = ²1-

Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[. On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1- avec (k-1) degrés de liberté.

205

Statistiques décisionnelles

10. Tests sur les proportions

10.4. ENONCES DES EXERCICES D’APPLICATION. 10.4.1. Au cours des élections, un candidat est élu avec 52 % des voix. Plusieurs mois après l'élection, un institut de sondage interroge 1600 électeurs, dont 800 déclarent qu'ils voteraient en cas d'élection, pour le même candidat. Ce résultat est-il ou non significatif d'une désaffection des électeurs pour l'élu ? a) Au seuil de signification de 95 %. b) Au seuil de signification de 90 %. 10.4.2. Une enquête sur l’emploi a concerné 220 personnes dont 115 dans le milieu rural et 105 dans le milieu urbain. Sur les 115 ruraux enquêtés, 74 se sont révélés actifs, alors que pour les enquêtés urbains, 81 sont actifs. Peut-on admettre, au seuil de 5 %, qu’il n’y a pas de différence significative entre les taux d’activités dans les deux milieux ? 10.4.3. Lors d’une campagne électorale, un parti politique a effectué un sondage pour évaluer les intentions de vote en faveur de ce parti. Quatre échantillons indépendants ont été choisis dans quatre villes différentes. On a obtenu les résultats suivants :

Voteront pour le parti Ne voteront pas pour le parti Total

Rabat Tanger Oujda Agadir 94 58 60 43 240 230 252 197 334 288 312 240

Au seuil de signification de 5 % puis de 1 %, la proportion de la population des électeurs qui ont l’intention de voter pour ce parti est-elle identique dans les quatre villes ? 10.4.4. Dans une population, soit p1, la proportion d'hommes possédant le baccalauréat et p2 la proportion de femmes possédant le baccalauréat. Le tableau suivant correspond à la répartition de 200 individus choisis au hasard dans cette population.

Possèdent le bac ne possèdent pas le bac

hommes femmes 32 26 64 78

Peut-on affirmer au risque 0,05, que p1 et p2 sont significativement différents ? 10.4.5. Dans un pays M, le gouvernement a annoncé que le taux de chômage est de 15,6 %. Contestant ce chiffre, les députés de l'opposition ont fait appel à un institut de sondage. Celui ci a réalisé une étude couvrant 4900 personnes en âge d'activité et a trouvé que le taux de chômage est de 16,4 %. Avec un niveau de confiance de 0,95 ; estimez-vous que l'opposition a raison de contester le chiffre annoncé par le gouvernement ?

206

Statistiques décisionnelles

10. Tests sur les proportions

10.4.6. Dans une population, on interroge un échantillon aléatoire de 400 personnes dont 160 sont âgées de 18 à 40 ans et 240 sont âgées de plus de 40 ans. On a trouvé que le pourcentage des personnes propriétaires de leur logement dans les deux groupes sont respectivement 35% et 45%. Ces deux résultats sont-ils significativement différents au seuil de signification de 5 % puis de 1 % ? 10.4.7. Le tableau suivant donne le nombre d’étudiants qui ont été brillants et médiocres devant trois examinateurs :

Brillants Médiocres Total

Examinateur 1 50 5 55

Examinateur 2 47 14 61

Examinateur 3 56 8 64

Total 153 27 180

Au seuil de 5 % puis de 10 %, testez l’hypothèse selon laquelle le nombre d’étudiants médiocres est le même pour chaque examinateur. 10.4.8. Quelques jours avant une consultation électorale mettant deux candidats A et B en présence, deux instituts de sondage interrogent les électeurs. Pour l'institut X, qui a interrogé 1600 personnes, le candidat A ne recueillerait que 47 % des suffrages. Pour l'institut Y, qui a interrogé 2500 personnes, A recueillerait 50 % des suffrages. Ces deux résultats sont-ils significativement différents avec un degré de confiance de 95 % ? 10.4.9. L'expérience suivante a été réalisée par Weldon : il a lancé un dé 315 672 fois, il a tiré 106 602 fois l'une des faces 5 ou 6 Peut-on accepter l'hypothèse selon laquelle le dé est équilibré, au risque de 5% ? 10.4.10. Un fabricant affirme qu'au moins 95 % de l’équipement qu'il fournit à un dépositaire est conforme au cahier des charges. L’examen d'un échantillon de 200 pièces fournies montre que 18 pièces sont défectueuses. Que penser de l'affirmation du fabricant au seuil de confiance de 5 % puis de 10 % ? 10.4.11. Pour une élection, on effectue un sondage pour évaluer les intentions de vote en faveur du parti M. Dans la ville de Casablanca, sur 450 personnes interrogées, 52% ont l'intention de voter pour M. Dans la ville de Rabat, sur 300 personnes interrogées, 49 % ont l'intention de voter pour M. Au risque de 5%, y a-t-il une différence d'intention de vote dans ces deux villes? 10.4.12. Un chercheur a découvert un procédé efficace à 90 % pour prolonger la durée de vie des ballons à eau chaude. On teste son procédé sur 200 ballons. On constate qu'il est efficace pour 160 d’entre eux. L’affirmation du chercheur est-elle légitime au seuil de signification de 0,05 ?

207

Statistiques décisionnelles

10. Tests sur les proportions

10.4.13. Un laboratoire annonce que l'un de ses médicaments est efficace à 95 %. Sur un échantillon de 400 personnes le traitement s'est révélé efficace sur 368 d'entre elles. Quel risque faut-il accepter si l'on considère que l'affirmation du laboratoire est légitime ? 10.4.14. Une entreprise commerciale à succursales multiples procède à un sondage dans ses magasins de Rabat et Casablanca. A Rabat, sur 1000 clients interrogés, 350 déclarent souhaiter que le magasin reste ouvert jusqu’à 21 heures tandis qu’à Casablanca, sur 900 clients, 280 ont émis ce même vœu. L’entreprise peut-elle, au seuil de signification de 5 % puis de 10 %, considérer que sa clientèle de Rabat réagit comme celle de Casablanca ? 10.5. SOLUTIONS DES EXERCICES D’APPLICATION. 10.5.1. Solution de l’exercice 10.4.1. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas inférieur à la norme de 52 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche. H0

p = 0,52 H1 : p < 0,52

Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn =

800 = 0,50 1600

La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq n

taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =

fn  p0 p 0 (1  p 0 ) n

0,50  0,52

=

0,52(1  0,52) 1600

208

= - 1,60

(la

Statistiques décisionnelles

10. Tests sur les proportions

Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. a) Au seuil de signification de 95 % ( = 0,05) :

Z = Z0,05 = -1,65

La région d’acceptation est donc l’intervalle [-1,65 ; +[. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. Ce résultat n'est donc pas significatif d'une désaffection des électeurs pour ce candidat. b) Au seuil de signification de 90 % ( = 0,1)

Z   Z 0 ,1   1,28 La région d’acceptation est [- 1,28 ; + ]. On rejette l’hypothèse nulle. Ce résultat est donc significatif d’une désaffection des électeurs pour ce candidat. 10.5.2. Solution de l’exercice 10.4.2. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes actives dans le milieu rural est ou n’est pas égale à la proportion p2 des personnes actives dans le milieu urbain. Il s’agit d’un test bilatéral : H0 : p1 = p2

H1 : p 1  p 2

et

Variable de décision : D’après les données :

f n1 

74 = 0,64 115 f n 2 n 2 

f n2  155 = 0,70 220

209

81 = 0,77 105

Statistiques décisionnelles

10. Tests sur les proportions

La variable de décision centrée réduite est :

f n1  f n 2

VDR =

f n1  n 2(1  f n1  n 2)(

1 1  ) n1 n 2

0,64  0,77

VDR =

= -2,10

1 1 0,70(1  0,70)(  ) 115 105 Région d’acceptation : Pour  = 0,05 la valeur de

Z1  est : Z0,975 = 1,96 2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, il y a une différence 2

significative entre les taux d’activités dans les deux milieux. 10.5.3. Solution de l’exercice 10.4.3. Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions. Formulation de l’hypothèse nulle : Ho : p 1 = p 2 = p 3 = p 4 H1: au moins une des proportions est différente des autres. Variable de décision : Sous l’hypothèse nulle : p1 = p2 = p3 = p4, il y a la même proportion inconnue p dans les 4 villes. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des 4 échantillons. 94  58  60  43 f   0,22 334  288  312  240 Sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques

Voteront pour le parti Ne voteront pas pour le parti Total

Rabat 73,48 260,52 334 210

Tanger 63,36 224,64 288

Oujda 68,64 243,36 312

Agadir 52,8 187,2 240

Statistiques décisionnelles

10. Tests sur les proportions

On calcule la variable de décision VD : VD =

+

(94  73,48)² (240  260,52)² (58  63,36)²   73,48 260,52 63,36

(230  224,64)² (60  68,64)² (252  243,36)²   224,64 68,64 243,36 +

(43  52,8)² (197  187,2)²  = 11,65 52,8 187,2

La variable de décision est une variable aléatoire Khi deux avec 3 degrés de liberté. Région d’acceptation : La région d’acceptation est donc l’intervalle 0 ; 12   .





- Au seuil de signification de 5 %, la valeur ²0,95 à 3 degrés de liberté est égale à 7,81. La valeur de la variable de décision est supérieure à la valeur ²0,95 à 3 degrés de liberté, on rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, la proportion de la population des électeurs qui ont l’intention de voter pour ce parti n’est pas identique dans les quatre villes. - Au seuil de signification de 1 %, la valeur

 02,999 à 3 degrés est égale à 16,27.

La valeur de la variable de décision est inférieure à la valeur

02,999 à 3 degrés de liberté, on

acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de 1 %, l’intention de vote pour ce parti est identique dans les quatre villes. 10.5.4. Solution de l’exercice 10.4.4. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des hommes possédant le bac est ou n’est pas égale à la proportion p2 des femmes possédant le bac. Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

211

Statistiques décisionnelles

10. Tests sur les proportions

Variable de décision : D’après les données : Possèdent le bac Ne possèdent pas le bac Total 32 f n1  = 0,33 96

f n 2 n 2 

Hommes Femmes Total 32 26 58 64 78 142 96 104 200 26 f n2  = 0,25 104

58 = 0,29 200

La variable de décision centrée réduite est :

f n1  f n 2

VDR =

f n1  n 2(1  f n1  n 2)(

1 1  ) n1 n 2

0,33  0,25

VDR =

= 1,25

1 1 0,29(1  0,29)(  ) 96 104 Région d’acceptation : Pour  = 0,05 la valeur de

Z1  est : Z0,975 = 1,96 2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence 2

significative entre la proportion des hommes possédant le bac et celle des femmes possédant le bac. 10.5.5. Solution de l’exercice 10.4.5. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas supérieur à la norme de 15,6 % annoncée par le gouvernement. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à droite H0

p = 0,156

H1 : p>< 0,156

212

Statistiques décisionnelles

10. Tests sur les proportions

Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn = 0,164 La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq

(la

n taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =

fn  p0 p 0 (1  p 0 ) n

0,164  0,156

=

Région d’acceptation : La région d’acceptation est l’intervalle ]- ;

0,156(1  0,156) 4900

= 1,54

Z1  ]. Z1  = Z0,95 = 1,65

Au seuil de signification de 95 % ( = 0,05) :

La région d’acceptation est donc l’intervalle ]- ; 1,65]. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. C’est-à-dire au seuil 5 % l'opposition a tort de contester le chiffre annoncé par le gouvernement. 10.5.6. Solution de l’exercice 10.4.6. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes propriétaires de leur logement dans la tranche d’âge 18 à 40 ans est ou n’est pas égale à la proportion p 2 des personnes propriétaires de leur logement dans la tranche d’âge de plus de 40 ans. Il s’agit d’un test bilatéral : H0 : p1 = p2

et

H1 : p 1  p 2

Variable de décision : D’après les données :

f n1 = 0,35 f n 2 n 2

f n2 = 0,45 160.0,35  240.0,45  = 0,41 160  240 213

Statistiques décisionnelles

10. Tests sur les proportions

La variable de décision centrée réduite est :

f n1  f n 2

VDR =

f n1  n 2(1  f n1  n 2)(

1 1  ) n1 n 2

0,35  0,45

VDR =

= -1,99

1 1 0,41(1  0,41)(  ) 160 240 Région d’acceptation : - Pour  = 0,05 la valeur de

Z1  est : Z0,975 = 1,96 2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il y a une 2

différence significative entre les proportions de personnes propriétaires de leur logement dans les deux tranches d’âge. - Pour  = 0,01 la valeur de

VDR  Z

1



Z

1

 2

est Z0,995 = 2,58

, on accepte donc l’hypothèse nulle. C’est-à-dire au seuil de 1 % il n’y a pas

2

de différence significative entre les proportions de personnes propriétaires de leur logement dans les deux tranches d’âge. 10.5.7. Solution de l’exercice 10.4.7. Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions. Formulation de l’hypothèse nulle : Ho: p1 = p2 = p3 H1: au moins une des proportions est différente des autres. Variable de décision : Sous l’hypothèse nulle : p1 = p2 = p3, il y a la même proportion inconnue p pour les 3 examinateurs. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des 3 échantillons.

f 

27  0,15 180

214

Statistiques décisionnelles

10. Tests sur les proportions

Sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques Examinateur 1 46,75 8,25 55

Brillants Médiocres Total

Examinateur 2 51,85 9,15 61

Examinateur 3 54,40 9,60 64

On calcule la variable de décision VD : VD =

+

(50  46,75)² (47  51,85)² (56  54,40)²   46,75 51,85 54,40 (5  8,25)² (14  9,15)² (8  9,60)²   8,25 9,15 9,60 VD = 4,84

La variable de décision est une variable aléatoire Khi deux avec 2 degrés de liberté. Région d’acceptation : La région d’acceptation est donc l’intervalle [0 ; ²1-[. - Au seuil de signification de 5 %, la valeur ²0,95 à 2 degrés de liberté est égale à 5,99. La valeur de la variable de décision est inférieure à la valeur ²0,95 à 2 degrés de liberté, on acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, le nombre d’étudiants médiocres est le même pour chaque examinateur. - Au seuil de signification de 10 %, la valeur

 02,90 à 2 degrés de liberté est égale à 4,61.

La valeur de la variable de décision est supérieure à la valeur

 02,90 à 2 degrés de liberté, on

rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de 10 %, le nombre d’étudiants médiocres est le même pour chaque examinateurs. 10.5.8. Solution de l’exercice 10.4.8. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

215

Statistiques décisionnelles

10. Tests sur les proportions

Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le candidat A, estimée par l’institut X, est ou n’est pas égale à la proportion p 2 des personnes qui voteraient pour le candidat A, estimée par l’institut Y. Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2 Variable de décision : D’après les données :

f n1 = 0,47

f n2 = 0,50 1600.0,47  2500.0,50  = 0,49 1600  2500

f n 2 n 2

La variable de décision centrée réduite est :

f n1  f n 2

VDR =

f n1  n 2(1  f n1  n 2)(

1 1  ) n1 n 2

0,47  0,50

VDR =

= -1,11

1 1 0,49(1  0,49)(  ) 1600 2500 Région d’acceptation : Pour  = 0,05 la valeur de

Z1  est : Z0,975 = 1,96 2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de 2

différence significative entre les résultats obtenus par les deux instituts. 10.5.9. Solution de l’exercice 10.4.9. Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par l’expérience, est ou n’est pas égal au pourcentage théorique, c’est-à-dire la probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré. Probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré est de 2 sur 6, soit 0,333. Hypothèse nulle : Il s’agit d’un test bilatéral : H0

H1 : p  0,333

p = 0,333 216

Statistiques décisionnelles

10. Tests sur les proportions

Variable de décision : La variable de décision du test correspond à la fréquence fn de l’expérience : VD = fn =

106602 = 0,338 315672

La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq

(la

n taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est :

fn  p0

VDR =

Région d’acceptation : Pour  = 0,05 la valeur de

p 0 (1  p 0 ) n

0,338  0,333

=

0,333(1  0,333) 315672

= 5,96

Z1  est : Z0,975 = 1,96 2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % le dé n’est pas 2

équilibré. 10.5.10. Solution de l’exercice 10.4.10. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche : H0

p = 0,95 H1 : p < 0,95

Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn =

182 = 0,91 200

La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq n

taille de l’échantillon est supérieure à 30 et le produit n p > 5).

217

(la

Statistiques décisionnelles

10. Tests sur les proportions

La variable de décision réduite est : fn  p0 VDR = = p 0 (1  p 0 ) n

0,91  0,95 0,95(1  0,95) 200

= - 2,60

Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. - Au seuil de signification de 95 % ( = 0,05) :

Z = Z0,05 = -1,65

La région d’acceptation est donc l’intervalle [-1,65 ; +[. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. Au seuil 5 %, l’affirmation du fabricant n’est pas correcte. - A seuil de signification de 99,9 % ( = 0,001) :

Z  Z0, 001   3,09 La région d’acceptation est donc l’intervalle [- 3,09 ; + [. On accepte l’hypothèse nulle. Au seuil de 1 %, l’affirmation du fabricant est correcte. 10.5.11. Solution de l’exercice 10.4.11. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le parti M dans la ville de Casablanca est ou n’est pas égale à la proportion p2 des personnes qui voteraient pour le parti M dans la ville de Rabat. Il s’agit d’un test bilatéral : H0 : p1 = p2

et

H1 : p 1  p 2

Variable de décision : D’après les données :

f n1 = 0,52 f n 2 n 2 

f n2 = 0,49

450.0,52  300.0,49 = 0,51 450  300

218

Statistiques décisionnelles

10. Tests sur les proportions

La variable de décision centrée réduite est :

f n1  f n 2

VDR =

f n1  n 2(1  f n1  n 2)(

1 1  ) n1 n 2

0,52  0,49

VDR =

= 0,54

1 1 0,51(1  0,51)(  ) 450 300 Région d’acceptation : Pour  = 0,05 la valeur de

Z1  est : Z0,975 = 1,96 2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de 2

différence significative entre les intentions de vote pour le parti M dans les deux villes Casablanca et Rabat. 10.5.12. Solution de l’exercice 10.4.12. Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par le test, n’est pas inférieur à la norme de 90 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche H0

p = 0,90 H1 : p < 0,90

Variable de décision : La variable de décision du test correspond à la fréquence fn du test : VD = fn =

160 = 0,80 200

La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq n

taille de l’échantillon est supérieure à 30 et le produit n p > 5).

219

(la

Statistiques décisionnelles

10. Tests sur les proportions

La variable de décision réduite est : VDR =

fn  p0 p 0 (1  p 0 ) n

0,80  0,90

=

0,90(1  0,90) 200

= - 4,71

Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[.

Z = Z0,05 = -1,65

Au seuil de signification de 95 % ( = 0,05) :

La région d’acceptation est donc l’intervalle [-1,65 ; +[. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. L’affirmation du chercheur n’est pas légitime au seuil de signification de 0,05. 10.5.13. Solution de l’exercice 10.4.13. Pour répondre à cette question, on doit accepter que le pourcentage obtenu par le test, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche H0

p = 0,95 H1 : p < 0,95

Variable de décision : La variable de décision du test correspond à la fréquence fn du test : VD = fn =

368 = 0,92 400

La distribution de la proportion suit une loi normale de moyenne p et d’écart type

pq n

taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =

fn  p0 p 0 (1  p 0 ) n

=

220

0,92  0,95 0,95(1  0,95) 400

= - 2,75

(la

Statistiques décisionnelles

10. Tests sur les proportions

Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. Le seuil de signification  est inconnu. Pour accepter l’hypothèse nulle, la variable de décision réduite doit appartenir à la région d’acceptation. Z doit donc être inférieure ou égale à –2,75.

Z = -2,75

 = 0,003

=>

10.5.14. Solution de l’exercice 10.4.14. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes de Rabat qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures est ou n’est pas égale à la proportion p2 des personnes de Casablanca qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures. Il s’agit d’un test bilatéral : H0 : p1 = p2

H1 : p 1  p 2

et

Variable de décision : D’après les données :

f n1 = 350 = 0,35 1000

f n2 = 280 = 0,31 900

f n2  n2  350 280 = 0,33 1000900 La variable de décision centrée réduite est : VDR =

f n1  f n 2 f n1  n 2(1  f n1  n 2)(

VDR =

1 1  ) n1 n 2

0,35  0,31 1 1 0,33(1  0,33)(  ) 1000 900

221

= 1,85

Statistiques décisionnelles

Région d’acceptation : Pour  = 0,05 la valeur de Z

10. Tests sur les proportions

1

 2

est : Z0,975 = 1,96

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire l’entreprise peut, au seuil de 2

signification de 5%, considérer que sa clientèle de Rabat réagit comme celle de Casablanca. Pour  = 0,1 la valeur

VDR  Z

1

 2

Z

1

 2

est :

Z0,95  1,64

, on rejette donc l’hypothèse nulle. C’est-à-dire l’entreprise ne peut pas, au seuil

de signification de 10 %, considérer que sa clientèle de Rabat réagit comme celle de Casablanca.

222

Statistiques décisionnelles.

11. Tests non paramétriques

CHAPITRE 11 TESTS NON PARAMETRIQUES

11.1. TEST DE VALIDITE DE LOI DE PROBABILITE D’UNE DISTRIBUTION. Les tests d’ajustement sont destinés à comparer une distribution observée et une distribution théorique donnée. D’une façon générale, on considère d’une part, une population infinie dont les individus sont classés en k catégories, en fonction d’un critère qualitatif ou quantitatif, et d’autre part, un échantillon aléatoire et simple d’effectif n, dont les individus sont classés de la même manière. Le but du test est de vérifier si la population possède une distribution de probabilité donnée : k

p1, p2, p3, …, pk tel que :

p i 1

i

1

Formulation de l’hypothèse nulle : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. L’hypothèse nulle est alors : H0 : ni = npi avec

k

k

i 1

i 1

 n i =  npi = n

Variable de décision : On distingue deux cas d’application de ces tests, selon que la distribution théorique est ou n’est pas complètement définie. Dans le premier cas, la variable de décision peut être calculée immédiatement. Dans le second cas, la distribution de probabilité de la population n’est définie qu’en fonction d’un ou de plusieurs paramètres, ceux-ci doivent préalablement être estimés à partir des données de l’échantillon.

223

Statistiques décisionnelles.

11. Tests non paramétriques

11.1.1. CAS D’UNE DISTRIBUTION COMPLETEMENT DEFINIE. Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. Les effectifs attendus doivent être tous supérieurs ou égaux à 5. Quand cette condition n’est pas remplie, on peut regrouper des classes voisines, de manière à augmenter les effectifs attendus. On calcule la variable de décision VD :

VD 

k

 i 1

(n i  np i ) 2 np i

On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1) degré de liberté. k correspond au nombre de classes après regroupement. La variable de décision peut être calculée plus facilement par :

VD 

k

n i2

 np i 1

n i

11.1.2. CAS D’UNE DISTRIBUTION INCOMPLETEMENT DEFINIE. Lorsque la distribution théorique n’est pas complètement définie, le ou les paramètres qui caractérisent cette distribution doivent tout d’abord être estimés. On peut calculer ensuite les ^

probabilités estimées

^

pi , les effectifs attendus correspondants n pi , et la valeur de décision : VD 

k

n i2

 np i 1

n i

Pour déterminer le nombre de degrés de liberté, on doit déduire de (k – 1) le nombre de paramètres estimés. Région d’acceptation : La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs attendus, c’est à dire, lorsqu’il y a concordance absolue entre la distribution observée et la distribution théorique. La valeur de la variable de décision est d’autant plus grande que les écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 - 

 224

² = ²1-

Statistiques décisionnelles.

11. Tests non paramétriques





Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle 0 ; 12   . On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1-. 11.2. TEST D’INDEPENDANCE. Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux ou plusieurs critères de classification. Ils permettent également d’effectuer des comparaisons de proportions. Les tests d’indépendance concernent une population subdivisée en pq classes, en fonction de deux critères de classification. La distribution de probabilité correspondante est alors une distribution à deux dimensions, et les données relatives à tout échantillon sont présentées sous la forme d’un tableau de contingence. Pour des échantillons aléatoires et simples, si les deux critères de classification sont indépendants, les probabilités pij de la distribution à deux dimensions peuvent être estimées par : pˆ ij  f i. x f . j

fi 

nj ni et f j  sont les fréquences relatives marginales. n n

ni. et n.j sont les effectifs marginaux, et nij les effectifs conjoints. Les effectifs attendus correspondants sont donc :

npˆ ij  nfi x fj  n

ni. n. j ni. x n. j  n n n

Les effectifs attendus doivent tous être supérieurs ou égaux à 5. Formulation de l’hypothèse nulle : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter ^

les effectifs observés nij et les effectifs attendus ou théoriques correspondants n pij . L’hypothèse nulle est l’indépendance des deux critères de classification. ^

H0 : nij = n pij

225

Statistiques décisionnelles.

11. Tests non paramétriques

Variable de décision : La comparaison des effectifs observés et attendus se fait comme pour les tests d’ajustement, en calculant la variable de décision suivante :

VD =

p

q

n ij ²

i 1

j1

n p ij



^

-n

On démontre que la variable de décision est une variable aléatoire Khi deux avec (p-1)(q-1) degré de liberté. Région d’acceptation : La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 - 



² = ²1-

Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[. On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1-. 11.3. ENONCES DES EXERCICES D’APPLICATION. 11.3.1. Le tableau suivant donne la distribution de fréquences des nombres de garçons observés dans 1600 familles de 4 enfants, considérées comme choisies au hasard au sein d’une très large population. En fonction de ces résultats, peut-on affirmer, au seuil de 5 %, puis de 1 % que le nombre de garçons suit une loi binomiale ? Nombre de garçons Nombre de familles 0 113 1 367 2 576 3 426 4 118 Total 1600 11.3.2. Au concours d’entrée à une école, l’épreuve de culture générale est notée de 0 à 50. On tire au hasard un échantillon de 100 candidats et l’on relève que les notes qu’ils ont obtenues se classent en cinq tranches de la manière suivante :

226

Statistiques décisionnelles.

11. Tests non paramétriques

Tranches de notes Note  10 10 < Note  20 20 < Note  30 30 < Note  40 40 < Note  50

Nombre de candidats 10 20 30 20 20

Le jury se demande s’il est justifié de considérer que la distribution des notes suit une loi normale dans la population de tous les candidats. a) Au seuil de 5 %. b) Au seuil de 1 %. 11.3.3. Une enquête a été réalisée auprès d’un échantillon de 500 individus prélevé au sein d’une population cible de 4 millions d'individus. Les données que l'on possède sur cette population sont les suivantes : Hommes 48% soit 1,92 millions d’hommes Femmes 58% soit 2,08 millions de femmes Sexe Niveau d’instruction Aucun Primaire Secondaire Formation professionnelle Supérieur Total

Hommes % Effectifs 35 672000 30 576000 15 288000 13 249600 7 134400 100 1920000

Femmes Total % Effectifs 50 1040000 1712000 25 520000 1096000 10 208000 496000 10 208000 457600 5 104000 238400 100 2080000 4000000

Au dépouillement, on a trouvé que les individus qui ont formé l’échantillon ont les caractéristiques suivantes : Sexe Niveau d’instruction Aucun Primaire Secondaire Formation professionnelle Supérieur Total

Hommes Femmes Total % Effectifs % Effectifs 32 61 54 112 173 28 54 23 48 102 18 35 12 25 60 14 27 8 17 44 8 15 3 6 21 100 192 100 208 400

L’échantillon prélevé est-il représentatif de la population étudiée ?

227

Statistiques décisionnelles.

11. Tests non paramétriques

11.3.4. On a enregistré plusieurs fois de suite le nombre de personnes qui se sont présenté à un guichet automatique bancaire, pendant des temps de 5 minutes. Nombres d’arrivées Fréquences absolues observées

0 1

1 4

2 3 4 5 6 12 18 22 17 11

7 6

8 4

9 3

10 2

Peut-on affirmer au seuil de signification de 5 % que le nombre de personnes qui se présentent à un guichet automatique bancaire, pendant un intervalle de temps de 5 minutes suit une loi de Poisson ? 11.3.5. On a mesuré la longueur, en mm, de 75 grains de blé. Les résultats obtenus ont été répartis en neuf classes; longueur en mm Nombre de grains [5,25 ; 5,75[ 1 [5,75 ; 6,25[ 6 [6,25 ; 6,75[ 6 [6,75 ; 7,25[ 9 [7,25 ; 7,75[ 15 [7,75 ; 8,25[ 17 [8,25 ; 8,75[ 10 [8,75 ; 9,25[ 8 [9,25 ; 9,75[ 3 Peut-on ajuster à cette distribution la loi normale de moyenne 7,75 mm, et d’écart type 0,94 mm ? (seuil de signification de 5 %) 11.3.6. Le centre de transfusion à Rabat a enregistré la répartition suivante des groupes sanguins de 525 donneurs bénévoles. Groupes sanguins Effectifs observés

O 251

A 219

B 29

AB 26

La répartition des groupes sanguins dans la population marocaine est la suivante : Groupes sanguins Proportions

O 44,5%

A 44%

B 8%

AB 3,5%

Au seuil de signification de 5%, puis de 1 % les 525 donneurs sont-ils représentatifs de la population marocaine en terme de groupes sanguins ?

228

Statistiques décisionnelles.

11. Tests non paramétriques

11.3.7. Un tour opérateur souhaite segmenter son marché. Il se demande s’il existe un lien entre le choix d’une destination de vacances et le niveau d’instruction. Les données recueillies ont été structurées sous forme de tableau de contingence. Niveau d’instruction Primaire Secondaire Supérieur Total

Destination de vacances Mer Montagne Désert 300 50 100 250 80 20 50 120 30 600 250 150

Total 450 350 200 1000

11.3.8. Le directeur de ventes d’un laboratoire pharmaceutique veut savoir s’il existe des différences significatives entre les régions en terme de niveau d’accueil d’un nouveau produit. Les résultats suivants ont été obtenus auprès d’un échantillon aléatoire de clients : Régions Nord Est Sud Ouest 22 35 0 5 84 55 8 24 25 17 22 12

Niveau d’accueil Faible Modéré Elevé Le niveau d’accueil dépend-t-il de la région ?

11.3.9. Les 150 étudiants d’une école doivent choisir entre trois disciplines pour leur activité parascolaire. Le choix des étudiants selon le sexe a été comme suit : Sexe Fille Garçon Total

Sport 20 43 63

Discipline Musique 28 16 44

Théâtre 32 11 43

Total 80 70 150

Peut-on affirmer au seuil de 5 % puis de 1 % que le choix des étudiants dépend de leur sexe ? 11.3.10. Le tableau ci-dessous donne la répartition de 10000 étudiants d’une université selon la filière d’étude et la profession des parents. Filière Sciences Médecine et Droit LettresSciences PharmacieAutre Total Profession économiques dentaire Exploitant agricole 80 35 135 99 65 28 69 511 Salarié agricole 6 2 15 6 4 1 5 39 Patron 168 74 312 137 208 53 83 1035 Profession libérale 470 191 806 400 876 164 124 3031 229

Statistiques décisionnelles.

et cadre sup Cadre moyen 236 Employé 145 Ouvriers 166 Personnel de service 16 Autres 305 Total 1592

11. Tests non paramétriques

99 52 64 6 115 638

493 281 401 27 624 3094

264 133 193 11 247 1490

281 135 127 8 301 2005

56 30 23 2 47 404

123 1552 74 850 157 1131 10 80 132 1771 777 10000

D’après les données ci-dessus, peut-on affirmer au seuil de signification de 5 %, qu’il y a un lien entre la filière d’étude et la profession des parents ? 11.4. SOLUTIONS DES EXERCICES D’APPLICATION. 11.4.1. Solution de l’exercice 11.3.1. Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la distribution observée à la distribution binomiale. Hypothèse nulle : k

H0 : ni = npi

k

 n =  np

avec

i

i 1

i

=n

i 1

Variable de décision : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit calculer alors les probabilités pi en utilisant la loi binomiale. La probabilité d’avoir un garçon est supposée égale à 0,5, la loi binomiale qui caractérise le nombre de garçons dans une famille de 4 enfants a pour paramètre 4 et 0,5. En utilisant la formule de la loi binomiale, on trouve les probabilités suivantes :

p ( x )  C nx p x q n  x Distribution de la variable B(4 , 1/2) x 0 1 2 3 4 Total

p(x) 0,0625 0,2500 0,3750 0,2500 0,0625 1 230

Statistiques décisionnelles.

11. Tests non paramétriques

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. x 0 1 2 3 4 Total

ni 113 367 576 426 118 1600

npi 100 400 600 400 100 1600

Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :

n i2 n i  1 np i k

VD   VD 

113 2 367 2 576 2 426 2 118 2      1600  10,3 100 400 600 400 100

Région d’acceptation : La région d’acceptation est l’intervalle [0 ; ²1-[. Pour  = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49 La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle. C’est à dire qu’au seuil de 5%, on ne peut pas affirmer que le nombre de garçons suit une loi binomiale. Pour  = 0,01 la valeur de

12  avec 4 degrés de liberté est :  02,99  13,28

La valeur de la variable de décision est inférieure à

12  , on accepte donc l’hypothèse nulle.

C’est-à-dire qu’un seuil de 1 %, on peut affirmer que le nombre de garçons suit une binomiale. 11.4.2. Solution de l’exercice 11.3.2. Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la distribution observée à la distribution normale.

231

Statistiques décisionnelles.

11. Tests non paramétriques

Hypothèse nulle : H0 : ni = npi

k

k

i 1

i 1

n i = npi = n

avec

Variable de décision : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit calculer alors les probabilités pi en utilisant la loi normale. Pour cela, il faut estimer les paramètres de la loi normale, à savoir, la moyenne et l’écart type. La moyenne m peut être estimée par la moyenne calculée à partir de la distribution observée alors que la variance sera estimée par la quasi-variance. Reprenons les données et calculons la moyenne et la quasi-variance. Tranches de notes Note  10 10 < Note  20 20 < Note  30 30 < Note  40 40 < Note  50 

x

n x n i

i

i

=

Centres xi 5 15 25 35 45

Effectifs ni 10 20 30 20 20

10.5  20.15  30.25  20.35  20.45 = 27 10  20  30  20  20 

 n (x  x)² ²  n 1 ^

i

i

=

i

10.(5  27)²  20.(15  27)²  30.(25  27)²  20.(35  27)²  20.(45  27)² ^ ² = 157,58 100  1 ^

  157,58 = 12,55 La loi normale est de moyenne 27 et d’écart type 12,55. Calculons les probabilités :

10  27 ) =  (-1,35) = 0,0885 12,55 10  27 20  27 p(10 < X  20) = p(
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF