Statistiques décisionnelles
Short Description
Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage statistique, tant du point de vue ...
Description
Adil ELMARHOUM
Mohamed DIOURI
Docteur en statistique et informatique appliquée
Docteur Ingénieur Président Fondateur de l’IGA
STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours
COLLECTION SCIENCES TECHNIQUES ET MANAGEMENT
STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours
Tous les droits sont réservés Dépôt légal N° 2003/2163 I.S.B.N. 1954-409-51-3 Première édition 2003 Deuxième édition 2008
Les livres de la collection Sciences, Techniques et Management sont co-édités par les éditions TOUBKAL et l’Institut supérieur du Génie Appliqué, IGA.
A la mémoire de Myriam Pour que la mémoire demeure Lorsque une âme Pleure Une autre âme Est-il plus grand malheur ! M. DIOURI
A ma fille Zineb A. ELMARHOUM
SOMMAIRE
LIMINAIRE
7
PARTIE 1 : ECHANTILLONNAGE STATISTIQUE
9
CH. 1. DETERMINATION DE L’ECHANTILLON 1.1. Position du problème. 1.2. Détermination de la taille de l’échantillon. 1.3. Méthodes d’échantillonnage. 1.4. Enoncés des exercices d’application. 1.5. Solutions des exercices d’application.
11 11 11 15 19 22
PARTIE 2 : LOI DE PROBABILITE D’ECHANTILLON
35
CH. 2. LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON 2.1. Position du problème. 2.2. Population avec moyenne, variance et loi de probabilité. Connues. 2.3. Population avec moyenne et loi de probabilité. Connues. 2.4. Population avec moyenne, variance et loi de probabilité. Inconnues. 2.5. Loi de probabilité de la différence de deux moyennes. 2.6. Enoncés des exercices d’application. 2.7. Solutions des exercices d’application.
37 37 38 39 39 40 41 43
CH. 3. LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON 3.1. Position du problème. 3.2. Enoncés des exercices d’application. 3.3. Solutions des exercices d’application.
55 55 56 58
CH. 4. LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON 4.1. Position du problème. 4.2. Loi de probabilité selon l’échantillon. 4.3. Enoncés des exercices d’application. 4.4. Solutions des exercices d’application.
71 71 72 73 74
PARTIE 3 : PRINCIPE DE L’ESTIMATION
89
CH. 5. ESTIMATION DE LA MOYENNE D’UNE POPULATION 5.1. Estimation d’une moyenne. 5.2. Estimation de la somme de moyennes.
91 91 93
5.3. Enoncés des exercices d’application. 5.4. Solutions des exercices d’application.
94 98
CH. 6. ESTIMATION DE LA VARIANCE D’UNE POPULATION 6.1. Estimation d’une variance. 6.2. Estimation de la somme de variances. 6.3. Enoncés des exercices d’application. 6.4. Solutions des exercices d’application.
115 115 117 117 118
CH. 7. ESTIMATION DE LA PROPORTION D’UNE POPULATION 7.1. Estimation ponctuelle. 7.2. Estimation par intervalle de confiance. 7.3. Enoncés des exercices d’application. 7.4. Solutions des exercices d’application.
129 129 129 130 131
PARTIE 4 : TESTS STATISTIQUES
137
CH. 8. TESTS SUR LES MOYENNES 8.1. Test sur un échantillon. 8.2. Test sur deux échantillons. 8.3. Test sur plusieurs échantillons : analyse de la variance (ANOVA). 8.4. Enoncés des exercices d’application. 8.5. Solutions des exercices d’application.
143 143 145 150 156 161
CH. 9. TESTS SUR LES VARIANCES 9.1. Test sur un échantillon. 9.2. Test sur deux échantillons. 9.3. Enoncés des exercices d’application. 9.4. Solutions des exercices d’application.
183 183 184 186 188
CH. 10. TESTS SUR LES PROPORTIONS 10.1. Test sur un échantillon. 10.2. Test sur deux échantillons. 10.3. Test sur plusieurs échantillons. 10.4. Enoncés des exercices d’application. 10.5. Solutions des exercices d’application.
199 199 201 203 206 208
CH. 11. TESTS NON PARAMETRIQUES 11.1. Test de validité de loi de probabilité d’une distribution. 11.2. Test d’indépendance. 11.3. Enoncés des exercices d’application. 11.4. Solutions des exercices d’application.
223 223 225 226 230
TABLES STATISTIQUES
245
BIBLIOGRAPHIE
259
LIMINAIRE
Ce livre est sa 2ème édition, il est le 3e d’une trilogie des mêmes auteurs, dont 2 livres ont déjà été édités, à savoir : « Statistique descriptive » et « Probabilités ». Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage statistique, tant du point de vue des méthodes d’échantillonnage que de celui des estimations et de tests statistiques. Lorsqu’on souhaite collecter des informations sur une population, deux possibilités s’offrent : - La première solution consiste à observer ou interroger tous les éléments de la population, c’est ce qu’on appelle une enquête complète ou enquête exhaustive ou recensement ; - La seconde solution consiste à observer ou interroger une partie de la population, c’est ce qu’on appelle enquête partielle ou sondage. Les éléments de la population qui sont réellement observés constituent l’échantillon et l’opération qui consiste à choisir ces éléments est appelée échantillonnage. L’alternative décrite ci-dessus se présente dans beaucoup de situations et le recours à la deuxième solution c’est-à-dire l’enquête partielle est la pratique la plus courante. Par rapport à l’enquête complète, l’enquête partielle offre une série d’avantages : - Le coût global de l’enquête partielle est en général plus réduit que le coût global d’une enquête complète ; - L’enquête par sondage est plus rapide que l’enquête complète, surtout lorsque la caractéristique étudiée présente des modifications assez importantes au cours du temps ; - Les erreurs d’observations sont plus réduites que dans l’enquête exhaustive, du fait qu’il y a moins de données à manipuler ; - L’enquête partielle est, dans certaines situations particulières, la seule solution possible, c’est le cas lorsque l’observation présente un caractère destructif.
7
Ainsi, la problématique des statistiques décisionnelles sera étudiée sous ses 3 aspects : - D’abord, la détermination de l’échantillon (en taille et en qualité), en vue d’avoir les informations sur la population mère à étudier. Ceci fera l’objet de la partie 1 avec son unique chapitre 1. - Ensuite, la détermination des lois de probabilité suivie par les paramètres de l’échantillon (moyenne, variance et proportion). Ceci fera l’objet de la partie 2 et de ses chapitres 2, 3 et 4. - Enfin, une fois l’échantillon et les lois de probabilité des paramètres déterminés, réalisation des calculs sur les paramètres de la population mère étudiée. Ceci fera l’objet de la partie 3 avec ses chapitres 5, 6 et 7 et de la partie 4 avec ses chapitres 8, 9, 10 et 11.
8
Statistiques décisionnelles
Partie 1. Echantillonnage statistique
PARTIE 1 ECHANTILLONNAGE STATISTIQUE
Dans cette 1ère partie, nous nous proposons de résoudre tous les cas types de problèmes d’échantillons extraits d’une population mère en respectant un certain nombre de contraintes. - Contraintes de précision ; - Contrainte de budget. Nous aurons ainsi à déterminer la taille et la nature de l’échantillon qui donne les informations souhaitées sur la population mère à étudier, avec la précision, fixée, au préalable et tout en veillant à ne pas dépasser le budget alloué à l’étude.
9
Statistiques décisionnelles
Partie 1. Echantillonnage statistique
10
Statistiques décisionnelles
1. Détermination de l’échantillon
CHAPITRE 1 DETERMINATION DE L’ECHANTILLON
1.1. POSITION DU PROBLEME. La détermination d’un échantillon nécessite la détermination : - de sa taille : nombre d’éléments à extraire de la population mère ; - de la qualité de ses éléments : nature des éléments à extraire. Les objectifs essentiels que doit remplir un échantillon sont de 2 sortes : - Il doit être représentatif de la population mère, c’est-à-dire qu’il doit donner des informations sur cette population avec la précision exigée ; - Il doit avoir un coût compatible avec le budget disponible. 1.2. DETERMINATION DE LA TAILLE DE L’ECHANTILLON. La détermination de la taille d’un échantillon dépend essentiellement de deux facteurs : - La précision souhaitée : plus on souhaite des résultats précis, plus l’échantillon nécessaire est important. - Le budget disponible : plus on augmente la taille de l’échantillon, plus le coût de l’enquête s’accroît. La taille de l’échantillon doit être celle qui permet d’atteindre le meilleur équilibre entre le risque d’erreurs d’échantillonnage, le coût induit par ces erreurs, et le coût de l’échantillonnage lui-même.
11
Statistiques décisionnelles
1. Détermination de l’échantillon
1.2.1. Cas ou la loi de probabilité de la variable aléatoire n’est pas connue. Dans ce cas on utilise l’inégalité de Bienaymé Tchebycheff, elle aboutit, en général, à des échantillons de tailles élevées. 1.2.1.1. Taille d’échantillon pour estimer une moyenne. - La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats. - La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle représente la largeur de l’intervalle de confiance de la moyenne. Soit la moitié de cette largeur. Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de la moyenne de la population de plus de . Ceci s’écrit :
P( X m < ) 1-
Ce qui donne :
n
2 2 .
avec : n
: Taille de l’échantillon ; : Précision souhaitée ; : Définit le seuil de confiance (1 - ) : Ecart- type d’échantillon, il est souvent inconnu, il faut avoir des informations antérieures ou mener une étude pilote. 1.2.1.2. Taille d’échantillon pour estimer une proportion. - La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats. - La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle représente la largeur de l’intervalle de confiance de la proportion. Soit la moitié de cette largeur. 12
Statistiques décisionnelles
1. Détermination de l’échantillon
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de la proportion dans la population de plus de . Ceci s’écrit : P( f n p < ) 1- Ce qui donne : n
p.q 2 .
avec : n : Taille de l’échantillon ; : Précision souhaitée ; : Définit le seuil de confiance (1 - ) p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %. 1.2.2. Cas ou la loi de probabilité de la variable aléatoire est une loi normale. Dans ce cas, on utilise la loi normale. 1.2.2.1. Taille d’échantillon pour estimer une moyenne. 1.2.2.1.1. Cas des prélèvements dans une population finie avec remise ou dans une population infinie sans remise.
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de la moyenne de la population de plus de . Ceci s’écrit : P( X m < ) 1- Ce qui donne : n Z 2
1
2
2 2
13
Statistiques décisionnelles
1. Détermination de l’échantillon
1.2.2.1.2. Cas des prélèvements dans une population finie sans remise.
De la même manière, on trouve :
Z² n
1-
2
² N
² N Z² 1-
2
²
1.2.2.2. Taille d’échantillon pour estimer une proportion. Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de la proportion dans la population de plus de . Ceci s’écrit : P(
f n p < ) 1-
1.2.2.2.1. Cas des prélèvements dans une population finie avec remise ou dans une population infinie sans remise.
On trouve : n Z 2
1
2
p.q 2
avec : n : Taille de l’échantillon ; : Précision souhaitée ; p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %. 1.2.2.2.2. Cas des prélèvements dans une population finie sans remise.
Z² On trouve : n
1-
2
pq N
² N Z² 1-
2
pq
14
Statistiques décisionnelles
1. Détermination de l’échantillon
1.3. METHODES D’ECHANTILLONNAGE. Pour que les résultats d’une enquête par sondage puissent être extrapolés à l’ensemble de la population faisant l’objet de l’étude, il est indispensable que cette enquête soit conduite selon des règles bien définies et que les calculs conduisant à ces extrapolations soient conformes à la procédure d’échantillonnage utilisée. L’échantillon choisi doit être le plus représentatif possible de la population étudiée, c’est-à-dire le degré de correspondance entre l’information recueillie et ce que nous apprendrait un recensement complet de la population dépend en grande partie de la façon dont l’échantillon a été choisi. La théorie moderne de l’échantillonnage nous propose une distinction fondamentale entre échantillons basés sur la probabilité : échantillons probabilistes et échantillons non basés sur la probabilité : échantillons non probabilistes ou empiriques. 1.3.1. METHODES D’ECHANTILLONNAGE PROBABILISTES. 1.3.1.1. Echantillonnage aléatoire simple. Un échantillonnage est aléatoire si tous les individus de la population ont la même chance de faire partie de l’échantillon ; il est simple si les prélèvements des individus sont réalisés indépendamment les uns des autres. En particulier, si la population est finie, cette définition correspond au tirage aléatoire avec remise, qui permet de traiter les populations finies comme des populations infinies. Pour prélever un échantillon aléatoire et simple il faut : - Constituer la base de sondage qui correspond à la liste complète et sans répétition des éléments de la population ; - Numéroter ces éléments de 1 à N ; - Procéder, à l’aide d’une table de nombres aléatoires ou d’un générateur de nombres pseudo aléatoires à la sélection des unités différentes qui constitueront l’échantillon. 1.3.1.2. Echantillonnage stratifié. L’échantillonnage stratifié est une technique qui consiste à subdiviser une population hétérogène, d’effectif N, en P sous populations ou « strates » plus homogènes d’effectif Ni de telle sorte que N= N1+N2+……. +Np. Un échantillon, d’effectif ni, est par la suite, prélevé indépendamment au sein de chacune des strates en appliquant un plan d’échantillonnage au choix de l’utilisateur. Le plus souvent, on procédera par un échantillonnage aléatoire et simple à l’intérieur de chaque strate. 15
Statistiques décisionnelles
1. Détermination de l’échantillon
La stratification peut entraîner des gains de précision appréciables, elle facilite en outre les opérations de collecte des données et fournit des informations pour différentes parties de la population. Pour la répartition de l’effectif total, n, de l’échantillon dans les différentes strates, la première solution, dite proportionnelle, consiste à conserver la même fraction d’échantillonnage dans chaque strate. Une seconde solution, dite optimale, tient compte du budget de l’enquête. 1.3.1.2.1. Répartition proportionnelle. La répartition proportionnelle consiste à répartir la taille de l’échantillon n en utilisant la même fraction de sondage f dans chacune des strates. Cette solution tient compte d’un seul facteur qui est le poids de chaque strate. Désignons par wi le poids de la strate et par f la fraction de sondage constante.
f
n N
wi
Ni N
Le nombre d’unités à choisir dans chacune des strates est donc :
n i w i .n f .N i 1.3.1.2.2. Répartition optimale. Cette deuxième solution consiste à répartir l’effort d’échantillonnage de façon inégale dans les différentes strates. Elle tient compte de quatre facteurs : - Budget total de l’enquête, G - Poids de la strate, wi - Coût de la collecte de l’information dans la strate, ci - Dispersion à l’intérieur de la strate, mesurée par l’écart type i. Le nombre d’unités à choisir dans chacune des strates est :
ni k
w i i
avec
ci
16
k
G w i i
ci
Statistiques décisionnelles
1. Détermination de l’échantillon
1.3.1.3. Echantillonnage par degrés.
L’échantillonnage par degrés regroupe toute une série de plans d’échantillonnage caractérisés par un système ramifié et hiérarchisé d’unités. Dans le cas de deux degrés, par exemple, on considère que la population est constituée d’un certain nombre d’unités de sondage du premier degré (unités primaires), chacune de ces unités étant constituée d’un certain nombre d’unités du second degré. (Unités secondaires). On réalise d’abord un échantillonnage d’unités du premier degré. Ensuite, dans chaque unité sélectionnée au premier degré, on prélève un échantillon d’unités du second degré. Le mode de sélection pouvant varier d’un degré à l’autre. L’échantillonnage par degrés s’impose lorsqu’il est impossible d’inventorier les éléments de toute la population et qu’il est possible d’énumérer les unités prélevées au premier degré. Il permet une concentration du travail sur le terrain et donc une réduction des coûts. Pour un même nombre total d’observations, il faut indiquer que l’échantillonnage aléatoire et simple est plus précis que l’échantillonnage par degré. 1.3.1.4. Echantillonnage systématique. L’échantillonnage systématique est une technique qui consiste à prélever des unités d’échantillonnage situées à intervalles égaux. Le choix du premier individu détermine la composition de tout l’échantillon. Si on connaît l’effectif total de la population N et qu’on souhaite prélever un échantillon d’effectif n, l’intervalle entre deux unités successives à sélectionner est donné par :
k
N (arrondi à l’entier le plus proche) n
Connaissant k, on choisit le plus souvent, pour débuter, un nombre aléatoire, i, compris entre 1 et k. Le rang des unités sélectionnées est alors i, i+k, i+2k, i+3k, … L’échantillonnage systématique est facile à préparer et, en général facile à exécuter, il réduit le temps consacré à la localisation des unités sélectionnées. Si les éléments de la population se présentent dans un ordre aléatoire (pas de tendance) l’échantillonnage systématique est équivalent à l’échantillonnage aléatoire et simple. Par contre si les éléments de la population présentent une tendance, l’échantillonnage systématique est plus précis que l’échantillonnage aléatoire.
17
Statistiques décisionnelles
1. Détermination de l’échantillon
1.3.2. METHODES D’ECHANTILLONNAGE EMPIRIQUES. 1.3.2.1 Echantillonnage accidentel (ou de convenance). Il s’agit d’un échantillon constitué d’individus qui se trouvaient accidentellement à l’endroit et au moment où l’information a été collectée. Les échantillons accidentels ne peuvent être considérés représentatifs d’aucune population. Il est risqué de généraliser à une population donnée des résultats obtenus par un échantillon accidentel. 1.3.2.2. Echantillonnage à priori. C’est un échantillonnage par jugement à priori. Il consiste à sélectionner des individus dont on pense, avant de les interroger, qu’ils peuvent détenir l’information. Le risque de ce type d’échantillonnage est de considérer des individus, apparemment représentatifs de la population étudiée. 1.3.2.3. Echantillonnage « Boule de neige » Cette méthode est réservée aux populations composées d’individus dont l’identification est difficile ou qui possèdent des caractéristiques rares. La méthode consiste à faire construire l’échantillon par les individus eux-mêmes. Il suffit d’en identifier un petit nombre initial et de leur demander de faire appel à d’autres individus possédant les mêmes caractéristiques. 1.3.2.4. Echantillonnage par Quotas. L’échantillonnage par quotas est l’échantillonnage non probabiliste le plus connu, et finalement le mieux accepté comme substitut aux méthodes probabilistes dans le cas où ces dernières rencontreraient des contraintes de base de sondage. Mais la représentativité de la population étudiée reste douteuse. L’échantillonnage par quotas consiste à étudier la structure de la population selon des critères choisis (quotas) empiriquement. L’échantillon est ensuite construit de manière à constituer une reproduction en miniature de la population sur ces critères. L’échantillonnage par quotas est une forme simplifiée de l’échantillonnage stratifié à fraction de sondage constante. Les quotas représentent les variables de stratification. Une fois les quotas fixés, les individus sont sélectionnés à la convenance de l’enquêteur. 18
Statistiques décisionnelles
1. Détermination de l’échantillon
Les critères servant de base à la définition des quotas ne doivent pas être nombreux. Au-delà de 3 critères, la démarche devient complexe. Les quotas doivent être construits sur une base de données fiables (statistiques disponibles) indiquant la répartition de la population sur les critères choisis. Les critères les plus utilisés dans les études de marché sont économiques et sociodémographiques en particulier l’âge, le sexe, la catégorie socioprofessionnelle, etc. 1.4. ENONCES DES EXERCICES D’APPLICATION. 1.4.1. Une enquête sur l'emploi a pour but d’estimer le taux d'activité dans un pays. Dans les statistiques disponibles, la population active du pays est estimée à 10 millions de personnes sur une population totale de 40 millions de personnes. Déterminer la taille de l'échantillon si l'on accepte une erreur de 1%, avec une probabilité de 0,95. 1.4.2. On désire estimer le revenu mensuel moyen dans un secteur de production. Quelle doit être la taille de l’échantillon de salariés à interroger pour que la moyenne empirique ne s’éloigne pas de la moyenne de la population de 100 DH avec une probabilité au moins égale à 0,95 sachant que l’écart type est de 500 DH par salarié ? 1.4.3. On souhaite réaliser une enquête sur la consommation des ménages afin d’estimer la dépense moyenne par ménage. Quelle doit être la taille de l’échantillon de ménages si la population est composée de 5 millions de ménages et que l’erreur admise ne doit pas dépasser 10 DH avec une probabilité de 0,99 ? L’écart type de la dépense des ménages est de 2000 DH. 1.4.4. On souhaite réaliser une enquête sur l’emploi afin d’estimer le taux de chômage. La population active est de 5 millions de personnes. Quelle doit être la taille de l’échantillon pour que la fréquence empirique ne s’éloigne pas du vrai taux de chômage de plus de 2% et ce avec une probabilité de 0,95 ? Une enquête récente avait donné un taux de chômage de 12 %. 1.4.5. Dans le cadre d'une étude socio-économique, on s'intéresse aux habitants de 18 unités urbaines, réparties en deux régions. a) En supposant que la variable aléatoire à laquelle nous nous intéressons suive une loi normale et que l’enquête se déroule, au sein d’une population finie et n’exclut pas la possibilité de sonder la même personne plusieurs fois, déterminer la taille n de l’échantillon. On donne comme hypothèses de travail : une marge d’erreur admissible égale à 1% avec une probabilité de 95% et un écart type du revenu égal à 0,114 calculé d’après un 1 er échantillon.
19
Statistiques décisionnelles
1. Détermination de l’échantillon
b) L'enquête doit donc comporter n interviews. Comme on dispose de 10 enquêteurs et qu'on souhaite que chaque enquêteur n'opère que dans une seule unité urbaine et donc dans la même région, on souhaite se limiter à l'étude de 10 unités urbaines. On suppose qu'un enquêteur peut réaliser 10 interviews dans la même journée et que tous les enquêteurs ne réalisent pas nécessairement le même nombre d’enquêtes. En fonction de la répartition des unités urbaines par région et de leurs nombres d'habitants, déterminer le nombre n1 et n2 d’unités par région à sonder (voir tableau page suivante). c) En nous limitant aux unités les plus importantes dans chaque région, déterminer les unités à sonder ainsi que le nombre d’interviews à réaliser dans chacune d’entre elles. Quel est le nombre de jours nécessaire à une telle opération ? Région 1 N° Unités urbaines N° 1 N° 2 N° 3 N° 4 N° 5 N° 6 N° 7 N° 8
Région 2
Nombres d’habitants
N° Unités urbaines
Nombres d’habitants
93600 45400 38900 36500 35100 32900 28100 26400
N° 09 N° 10 N° 11 N° 12 N° 13 N° 14 N° 15 N° 16 N° 17 N° 18
117100 107100 61200 51000 43800 38900 37800 33500 25800 25300
1.4.6. Dans une région regroupant environ 3 millions d’habitants réunis en 1530 communes, on désire réaliser une enquête relative à la consommation moyenne des ménages pour le poste alimentation. a) Déterminer la taille de l'échantillon si l'on accepte une erreur de 1,16, avec une probabilité de 0,95 et que l’on estime l’écart type égal à 10. b) En effectuant une stratification basée sur la distribution de fréquences donnée dans le tableau ci-dessous, combien d’interviews devrait-on réaliser dans chacune des catégories de communes ? c) Si de plus pour des raisons de facilité, on décidait de ne pas effectuer moins de 10 interviews par commune, dans combien de communes différentes de chacune des catégories les enquêteurs devraient-ils se rendre ?
20
Statistiques décisionnelles
1. Détermination de l’échantillon
Nombre d’habitants Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [10000 – 20000[ plus de 20000 Total
Nombre de communes 900 300 200 80 40 10 1530
1.4.7. Un sondage vise à étudier la notoriété d’une marque. Pour cela on dispose de 12 enquêteurs durant un mois. a) Sachant que le rendement par jour et par enquêteur est distribué selon une loi normale de moyenne 5, et d’écart type 1, déterminer la taille n o de l'échantillon retenu tel que : p(n > no) = 0,025. b) On propose de stratifier la population selon l’âge. Sachant que la population se répartit comme indiqué, dans le tableau ci-dessous, déterminer la répartition de l'échantillon : Age Effectifs
Moins de 20 ans 5500000
Entre 20 et 30 Entre 30 et 60 ans ans 2500000 1250000
Plus de 60 ans 250000
1.4.8. On s’intéresse au pourcentage de fusibles défectueux dans un lot de 50 sacs contenant chacun 10000 fusibles. Les sacs proviennent de différents fournisseurs qui affirment en général que la proportion de fusibles défectueux ne dépasse pas 1%. L’erreur acceptée sur ce pourcentage est de 0,1% avec un niveau de confiance 0,95. a) Déterminer la taille de cet échantillon en utilisant l'inégalité de Bienaymé Tchebycheff, et en supposant la normalité de la variable. Laquelle de ces deux tailles doit-on retenir ? et pourquoi ? b) Préciser dans chaque cas, le type de sondage dont il s'agit : b1) Si on tire n fusibles en prélevant n/50 par sac. b2) Si on choisit d'abord k sacs et on tire ensuite ni fusibles par sac. b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles. c) Quel est le procédé de tirage, le mieux adapté ? 1.4.9. Un sondage vise une population d’entreprises réparties en quatre régions contenant respectivement 360, 840, 600 et 1200 entreprises. Le budget réservé pour cette enquête est de 44 320 DH. Les écart-types sont estimés à 0,2 ; 0,1 ; 0,2 ; 0,4 respectivement pour les quatre régions. Les coûts de réalisation par questionnaire sont respectivement de 225 DH, 196 DH, 400H et 324 DH. a) Etablir une stratification optimale de l’échantillon à déterminer. b) Préciser le niveau d’erreur que l’on doit accepter avec la taille de l’échantillon calculée, en admettant un niveau de confiance de 0,99 et une proportion de 0,3.
21
Statistiques décisionnelles
1. Détermination de l’échantillon
1.4.10. Le budget alloué à une enquête est de 132500 DH. Cette enquête est destinée à estimer le taux de chômage qu’on pense être à priori égal à 10 %. Les frais de déplacement quotidien sont évalués à 1000 DH par enquêteur. La rémunération d’un enquêteur est de 170 DH par jour. Les charges fixes sont de 20000 DH. a) Déterminer la taille de l’échantillon si on tolère une erreur de moins de 1 % avec un niveau de confiance de 95% b) Déterminer la taille maximale permise par le budget alloué si le rendement par enquêteur est de 6 questionnaires par jour. c) Quel niveau d’erreur faut-il accepter si on réalise l’enquête avec le budget alloué ? 1.4.11. Nous disposons d’un montant de 10 000 dh pour enquêter auprès d’une population stratifiée en deux strates ayant les caractéristiques suivantes :
Strates
Effectif
Poids de la strate
Ecart type
Coût de l’observation
Strate 1 Strate 2
2000 3000
0,4 0,6
2 0,7
25 36
Etablir la répartition optimale de l’échantillon. 1.4.12. Une machine automatique fabrique des entretoises destinées à un montage de roulements. La longueur de ces entretoises doit être comprise, au sens large, entre 37,45 et 37,55 mm. La variable aléatoire X, qui associe à chaque entretoise sa longueur, est une variable gaussienne de moyenne 37,50 mm. a) Quel doit être l’écart type de la variable aléatoire X pour que 998 sur 1000 des pièces fabriquées soient bonnes ? b) On prélève un échantillon non exhaustif dans la production. Quel doit être l’effectif de cet échantillon pour que la moyenne des longueurs des pièces prélevées appartienne à l’intervalle fermé [37,495 ; 37,505] avec une probabilité de 0,95 ? 1.5. SOLUTIONS DES EXERCICES D’APPLICATION. 1.5.1. Solution de l’exercice 1.4.1. Nous sommes dans le cas où la loi de probabilité du taux d’activité n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
n
avec
p.q 2 . p = 0,25
q = 0,75
= 1% et = 5%
ce qui donne n = 37 500 22
Statistiques décisionnelles
1. Détermination de l’échantillon
Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit à des échantillons de tailles élevées. 1.5.2. Solution de l’exercice 1.4.2. Nous sommes dans le cas où la loi de probabilité des revenus mensuels n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
2 2 .
n
= 500
avec
= 100
et
= 5%
ce qui donne n = 500 1.5.3. Solution de l’exercice 1.4.3. Nous sommes dans le cas où la loi de probabilité de la dépense des ménages n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
n
2 2 .
avec
= 2 000
= 10
et
= 1%
ce qui donne n = 4 000 000 Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille trop élevée, puisqu’il fait 4 millions pour une population de 5 millions. Nous devons, par conséquent recourir au théorème central limite et accepter l’hypothèse vraisemblable que la loi de probabilité que suit la variable aléatoire, dépense moyenne des ménages, peut être approchée par une loi normale du fait que la population concernée est de 5 millions d’âmes. Dans ce cas, on utilise l’égalité relative aux prélèvements sans remise dans une population finie.
Z² n
1-
2
² N
² N Z² 1-
2
²
23
Statistiques décisionnelles
= 2 000
avec
= 10
1. Détermination de l’échantillon
= 1%
N = 5 millions
et
Z = 2,58 1-
2
ce qui donne n = 252 795. Un tel échantillon représente environ 6,3 % de la taille de l’échantillon trouvée grâce à l’inégalité de Bienaymé Tchebycheff et donc une très grande économie, dans son traitement, par rapport au 1er échantillon. 1.5.4. Solution de l’exercice 1.4.4. Nous sommes dans le cas où la loi de probabilité du taux de chômage n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
n
p.q 2 .
avec
p = 0,12
q = 0,88
= 2%
et
= 5%
ce qui donne n = 5 280 un tel échantillon représente environ 1 pour mille de la population totale de 5 millions. Dans ce cas il n’est pas nécessaire de recourir au théorème central limite pour essayer de réduire la taille de l’échantillon. 1.5.5. Solution de l’exercice 1.4.5. a) Nous sommes dans le cas où la loi de probabilité de la variable aléatoire est la loi normale, la population est finie et le tirage se fait avec remise. On utilise donc l’égalité :
n Z2
1
avec
2
2 2
= 0,05
= 0,114
= 0,01
et
Z
1 2
= 1,96
ce qui donne n = 500 b) Considérons les 2 régions et essayons de déterminer, au prorata des nombres d’unités de chaque région, les 10 unités qui seront concernées par les interviews.
24
Statistiques décisionnelles
Régions Nombre d’unités total % Nombre d’unités de l’échantillon
1. Détermination de l’échantillon
CHOIX DES 10 UNITES R1 R2
Total
8
10
18
44,44%
55,56%
100%
4
6
10
c) Considérons les 2 régions et essayons de répartir, au prorata de leurs nombres d’habitants, les 500 interviews. REPARTITION DES 500 INTERVIEWS Régions R1 R2 Total Nombre d’habitants 336900 541500 878400 total % 38,35% 61,65% 100% Nombre d’habitants 192 308 500 de l’échantillon Arrondi à 10 près 190 310 500 Nous avons arrondi à 10 près pour que chacun des enquêteurs puissent réaliser 10 enquêtes par jour. Nous devons, d’abord choisir les 4 unités de la 1ère région et ensuite choisir les 190 personnes dans ces 4 unités. On choisira les 4 plus grandes unités comme indiqué dans l’énoncé, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 4 unités choisies. Région N°1 : Répartition des 190 interviews sur 4 unités et leurs habitants Nombre Nombre Arrondis à Unités d’habitants % d’habitants 10 près total interviewés U1 93600 44,67% 85 90 U2 45400 21,17% 40 40 U3 38900 18,14% 34 30 U4 36500 16,03% 31 30 Total 211400 100% 190 190
25
Statistiques décisionnelles
1. Détermination de l’échantillon
De même, nous devons, d’abord choisir les 6 unités de la 2ème région et ensuite choisir les 310 personnes dans ces 6 unités. On choisira les 6 plus grandes unités, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 6 unités choisies. Région N°2 : Répartition des 300 interviews sur 6 unités et leurs habitants Nombre Nombre Arrondis à Unités d’habitants % d’habitants 10 près total interviewés U09 117100 27,94% 87 90 U10 107100 25,55% 80 80 U11 61200 14,60% 45 40 U12 51000 12,17% 39 40 U13 43800 10,45% 32 30 U14 38900 9,29% 27 30 Total 419100 100% 310 310 Ainsi, on mobilisera 4 enquêteurs pour la 1ère région, 1 enquêteur pour chaque unité, celui de l’unité 1 passera plus de temps, 9 jours (10 interviews par jour) ; de même, on mobilisera 6 enquêteurs pour la 2ème région, 1 enquêteur pour chaque unité, celui de l’unité 09 passera plus de temps, 9 jours (10 interviews par jour). L’opération durera donc 9 jours. 1.5.6. Solution de l’exercice 1.4.6. a) Nous sommes dans le cas où la loi de probabilité de la consommation moyenne n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
n avec
2 2 .
= 10
= 1,16
et
= 5%
ce qui donne n = 1487 qu’on peut arrondir à 1500 b) Effectuons une stratification où les catégories de commune constituent les strates. L’échantillon de 1500 interviews sera réparti de façon proportionnelle sur les différentes strates. En conservant la même fraction de sondage de chaque strate. On détermine le nombre d’habitants dans chaque strate en se basant sur les centres de classes.
26
Statistiques décisionnelles
Nombre d’habitants Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [10000 – 20000[ plus de 20000 Total La fraction de sondage : f =
1. Détermination de l’échantillon
Centre de classe 500 1500 3500 7500 15000 30000
Nombre de communes 900 300 200 80 40 10 1530
Nombre d’habitants 450000 450000 700000 600000 600000 300000 3100000
Nombre d’interviews 218 218 339 290 290 145 1500
1500 = 0,00048387 3100000
c) Pour visiter le plus grand nombre de communes, on fixe le nombre d’interviews à réaliser par commune à 10 sauf pour la dernière catégorie de communes car elle ne contient que 10 communes qui seront toutes visitées, on réalisera alors 14 interviews par commune. Pour déterminer le nombre de communes à visiter dans chacune des catégories de communes, il suffit de diviser le nombre d’interviews par 10. Catégories de communes Moins de 1000[ [ 1000 – 2000[ [ 2000 – 5000[ [ 5000 – 10000[ [ 10000 – 20000[ plus de 20000 Total
Nombre de Nombre Nombre communes d’interviews d’interviews à visiter 218 22 220 218 22 220 339 34 340 290 29 290 290 29 290 145 10 140 1500 1500
1.5.7. Solution de l’exercice 1.4.7. a) Le rendement de chaque enquêteur pendant 1 mois est de 150 interviews avec un écart type de 5,5 interviews. Pour les 12 enquêteurs ce rendement est en moyenne de 1800 interviews avec un écart type de 19 interviews. p(n >no ) = 0,025 => p(n
= 0,016
32
Statistiques décisionnelles
1. Détermination de l’échantillon
b) La moyenne des longueurs des pièces prélevées appartient à l’intervalle fermé [37,495 ; 37,505] et signifie que : = (37,505 – 37,495) / 2 = 0,005 Nous sommes dans le cas où la loi de probabilité est la loi normale, on utilise donc l’égalité :
n Z2
1
avec
2
2 2
= 0,05
ce qui donne
= 0,016
= 0,005
et Z
1
n = 40
33
2
= 1,96
Statistiques décisionnelles
1. Détermination de l’échantillon
34
Statistiques décisionnelles
Partie 2. Loi de probabilité d’échantillon
PARTIE 2 LOI DE PROBABILITE D’ECHANTILLON
La notion de distribution d’échantillonnage est à la base des méthodes d’inférence statistique dont les deux principales applications sont les problèmes d’estimation et ceux des tests d’hypothèses. Les premiers ont pour but d’estimer, à partir d’un échantillon, la valeur numérique d’un ou de plusieurs paramètres de la population, et de déterminer la précision de cette ou de ces estimations. Cela fera l’objet de la 3e partie avec ses chapitres 5, 6 et 7. Les seconds ont pour but de vérifier la véracité d’une hypothèse, émise au départ, au sujet d’une ou de plusieurs populations. Cela fera l’objet de la 4e partie avec ses chapitres 8, 9, 10 et 11. Mais avant d’aborder les calculs d’estimation et de tests statistiques, il nous faudra déterminer les lois de probabilités des paramètres d’échantillon, en effet : A tout paramètre de population , on peut associer une série infinie de valeurs observées t, t’, t ‘’, …, calculées à partir d’échantillons successifs de même effectif, prélevés dans des conditions identiques. Ces valeurs peuvent être considérées comme des valeurs observées d’une même variable aléatoire T et cette variable est fonction des différentes variables aléatoires correspondant à chacun des individus de l’échantillon : T = f (X1, X2, …, Xn) En supposant que l’échantillon est aléatoire et simple, la variable aléatoire T possède une distribution de probabilité, dite distribution d’échantillonnage. On peut donc calculer l’espérance E(T) et la variance V(T) de cette distribution. La distribution d’échantillonnage est donc la distribution des différentes valeurs que peut prendre la variable aléatoire T, pour les différents échantillons possibles. Son écart type T est appelé erreur standard.
35
Statistiques décisionnelles
Partie 2. Loi de probabilité d’échantillon
Les principales distributions d’échantillonnage sont : - la distribution d’échantillonnage de la moyenne, - la distribution d’échantillonnage de la variance, - la distribution d’échantillonnage de la proportion. Cette partie sera consacrée à la détermination, chapitre après chapitre, des lois de distribution d’échantillonnage sus-citées.
36
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
CHAPITRE 2 LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON
2.1. POSITION DU PROBLEME. Dans ce chapitre, nous considérons une population mère d’où l’on extrait, successivement, des échantillons de n éléments dont on détermine les moyennes : n
a) x1, x2, x3, ………., xn
x
avec
x i 1
i
n n
x'
avec
x'
i
b) x1’, x2’, x3’, ………., xn’
i 1
n
n
Les moyennes
x '' i
c) x1’’, x2’’, x3’’, ………., xn’’ avec
x''
i 1
n
x , x' et x' ' sont généralement différentes.
On peut considérer la suite des premières observations x1, x1’, x1’’, … des différents échantillons comme des valeurs observées d’une même variable aléatoire X1, la suite des deuxièmes observations des différents échantillons comme des valeurs observées d’une même variable aléatoire X2, etc.
Les moyennes observées
x , x ' , x ' ' , … sont alors des valeurs observées d’une même variable
aléatoire
X qui est fonction de X1, X2, …, Xn. n
X
X i 1
n 37
i
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
Comme X1, X2, …, Xn, la variable aléatoire X possède une distribution de probabilité, dite distribution d’échantillonnage de la moyenne. On peut donc calculer l’espérance et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est désignée par m et la variance par ². E(Xi) = m
et
V(Xi) = ²
2.2. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE, LA VARIANCE ET LA LOI DE PROBABILITE. 2.2.1. Echantillon exhaustif. Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire simple d’effectif n, l’espérance mathématique et la variance de la moyenne sont : n
Xi
E( X ) = E(
i 1
n
)=
n
1 E(Xi) = 1 nm = m n n i 1
V( X ) = L’erreur standard est alors :
N n 2 N 1 n
X N n n N 1
Dans ce cas, la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
X
n
Nn . N 1
2.2.2. Echantillon non exhaustif. n
Xi
E( X ) = E(
i 1
n
)=
n 1 E(Xi) = 1 nm = m n n i 1
n
Xi
V( X ) = V(
i 1
L’erreur standard est alors :
)=
n
n 1 V(Xi) = 1 n ² = ² n² n n² i 1
X
n 38
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type . X n
2.3. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE ET LA LOI DE PROBABILITE.
^
E( X ) = m
et
V( X ) = ² n
n
^
² n v(x) = n 1
Avec :
(x i x)² i 1
n 1
^
L’erreur standard est alors : X n
Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type ^
X . n
2.4. CAS D’UNE POPULATION DONT ON NE CONNAIT NI LA MOYENNE, NI LA VARIANCE NI LA LOI DE PROBABILITE.
E( X ) = m
n
^
avec :
² n v(x) = n 1
et
(x i x)² i 1
n 1 ^
L’erreur standard est alors : X n
39
^
V( X ) = ² n
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
Si la distribution de la population mère est inconnue, le théorème central limite permet d’affirmer que la distribution de la moyenne est asymptotiquement normale. Pour un effectif suffisamment élevé, la moyenne d’un échantillon peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n 30), la moyenne d’un échantillon peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 2.5. LOI DE PROBABILITE DE LA DIFFERENCE DE DEUX MOYENNES D’ECHANTILLONS INDEPENDANTS.
La différence entre les moyennes observées des deux échantillons indépendants est :
x1 - x 2
Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux populations de variances égales. 2.5.1. Cas de deux populations de variances inégales
E( x1 -
x 2 ) = m1-m2
V( x1 -
x 2 ) = ²1 ² 2 n1 n 2
Pour des populations normales (variances connues), les variables
x1 , x2 sont des variables
normales de moyennes respectivement m1 et m2 et d’écarts types respectivement
1 et n1
2 . La différence entre les moyennes observées des deux échantillons indépendants est ellen2 même normale de moyenne (m1-m2) et d’écart type
²1 ² 2 . n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degrés de liberté. 2.5.2. Cas de deux populations de variances égales Dans le cas où les populations sont de variances égales, une estimation de la variance commune aux deux populations est donnée par :
40
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
^
²
(x
x 1 )²
i
x 2 )²
E( x1
i
n1 n 2 2
(x
^
x 2 ) = m1 - m2 ^
^ V( x1 - x 2 ) = ² ² = ² ( 1 1 ) n1 n 2 n1 n 2
Pour des populations normales, la différence entre les moyennes observées des deux échantillons indépendants est elle-même normale de moyenne (m1-m2) et d’écart type ^ ² ( 1 1 ) . n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degrés de liberté. 2.6. ENONCES DES EXERCICES D’APPLICATION. 2.6.1. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en calcule la moyenne, en supposant que chacun des nombres de 1 à 9 a une même probabilité d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ? 2.6.2. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les échantillons non exhaustifs possibles de taille deux de cette population. Trouver : a) La moyenne de la population. b) L’écart type de la population. c) La moyenne de la distribution d'échantillonnage des moyennes. d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur quadratique moyenne des moyennes. e) Reprendre les mêmes questions dans le cas d’un échantillon exhaustif. 2.6.3. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de 25 têtes chacun, quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des moyennes pour : a) Un échantillonnage non exhaustif ? b) Un échantillonnage exhaustif ?
41
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
c) Pour combien d'échantillons peut-on s'attendre à trouver une moyenne comprise entre 36,8 et 38,3 kilogrammes ? 2.6.4. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30 gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait un poids total : a) Compris entre 496 et 500 grammes. b) Plus grand que 510 grammes. 2.6.5. Les batteries d'un fabricant A ont une durée de vie moyenne de 1400 heures avec un écart-type de 200 heures, et celles d'un fabricant B ont une durée de vie moyenne de 1200 heures avec un écart-type de 100 heures. Si l'on teste des échantillons de 125 batteries pour chaque marque, quelle est la probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de : a) 160 heures ? b) 250 heures ? 2.6.6. Les piles d'une marque donnée pèsent 0,50 gramme avec un écart-type de 0,02 gramme. Quelle est la probabilité pour que deux lots de 1000 piles chacun diffèrent entre eux de plus de 2 grammes ? 2.6.7. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une loi de Laplace Gauss, quelle est la probabilité pour que l’éclairage fonctionne, en moyenne : a) Au moins pendant 5000 heures ? b) Au plus pendant 4200 heures ? 2.6.8. Les poids de 1500 pièces suivent une loi de probabilité normale de moyenne 22,40 kg et d’écart type 0,048 kg Déterminer pour 300 échantillons aléatoires de taille 36 de cette population la moyenne et l'écart type théorique de la distribution d'échantillonnage des moyennes : a) L'échantillonnage étant non exhaustif. b) L’échantillonnage étant exhaustif. c) Combien d'échantillons aléatoires ont leur moyenne comprise entre 22,39 et 22,41 kg ? 2.6.9. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart type de 50 kg, Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes.
42
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
2.6.10. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives 4000 et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100 câbles de la marque A et 50 câbles de la marque B, quelle est la probabilité pour que la résistance de rupture moyenne de B ait : a) Au moins 600 kilogrammes de plus que A ? b) Au moins 450 kilogrammes de plus que A ? 2.6.11. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un écart type de 200 heures. a) Trouver la probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie supérieure à 1825. b) Trouver la probabilité qu'un échantillon aléatoire de 100 Unités de ce bien ait une moyenne de vie de pas plus de 1775 et pas moins de 1760. 2.7. SOLUTIONS DES EXERCICES D’APPLICATION. 2.7.1. Solution de l’exercice 2.6.1. Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est non exhaustif.
E( X ) = m =
1 23 45 6 7 89 = 5 9
x i x 2 = 1² 2² 3² 4² 5² 6² 7² 8² 9² 2
² =
9
n
V( X ) =
² = 6,67 = 0,667 n 10
L’erreur standard est alors :
X = 0,667 = 0,82 n
2.7.2. Solution de l’exercice 2.6.2. a) La moyenne de la population. m=
- 5² = 6,67
23 6811 = 6 5
43
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
b) L’écart type de la population.
x i x 2 = 2² 3² 6² 8² 11² 2
² =
5
n
- 6² = 10,80
c) La moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 6 d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur standard. Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est non exhaustif.
V( X ) =
² = 10,80 = 5,40 n 2
L’erreur standard est alors :
X = 5,40 = 2,32 n
e) Cas d’un échantillon exhaustif. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 6 - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
N n ² = 5 2 10,80 = 4,05 N 1 n 51 2
L’erreur standard est alors :
4,05 = 2,01
2.7.3. Solution de l’exercice 2.6.3. Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5 kg. La taille de l’échantillon est n = 25 44
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
a) Cas d’un échantillon non exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 38 kg - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) = ² =
n
5² = 1 25
L’erreur standard est alors :
1 = 1 kg.
b) Cas d’un échantillon exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 38 kg - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
Nn N 1
² = 3000 25 5² = 0,992 n 3000 1 25
L’erreur standard est alors :
0,992 = 0,996 kg.
c) Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes. Calculons la probabilité que la moyenne soit comprise entre 36,8 et 38,3 kg. La moyenne suit une loi normale de moyenne 38 et d’écart type 1 kg.
38,338 36,838 ) - ( ) 1 1
p(36,8 <
x < 38,3) = (
p(36,8 <
x < 38,3) = (0,3) - (-1,2)
p(36,8 <
x < 38,3) = 0,6179 – 0,1151 = 0,5028
45
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes = 0,5028x80 = 40,22. On peut s’attendre à avoir 40 à 41 échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes. 2.7.4. Solution de l’exercice 2.6.4. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 5,02 g - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
Nn N 1
² = 500 100 0,3² = 0,0007 n 500 1 100
L’erreur standard est alors :
0,0007 = 0,027 g.
a) Un poids total compris entre 496 et 500 g est équivalent à une moyenne comprise entre 4,96 et 5 g.
5 5,02 4,96 5,02 ) - ( ) 0,027 0,027
p(4,96 <
x < 5) = (
p(4,96 <
x < 5) = (-0,74) - (-2,22)
p(4,96 <
x < 5) = 0,2296 – 0,0132 = 0,2164
b) Un poids total plus grand que 510 g est équivalent à une moyenne plus grande que 5,10 g.
p( x > 5,10) = 1 - (
5,10 5,02 ) 0,027
p( x > 5,10) = 1 - (2,96) = 1 – 0,9985 = 0,0015 46
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
2.7.5. Solution de l’exercice 2.6.5. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les durées de vie moyennes observées des deux échantillons indépendants ² 1 ² 2 suit une loi normale de moyenne (m1-m2) et d’écart type . n1 n2
E( x1
V( x1 -
x 2 ) = m1 - m2 = 1400 – 1200 = 200 h
x2 ) =
² 1 ² 2 200² 100² = = 400 125 125 n1 n2
L’écart type est donc
400 = 20 h
La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne 200 heures et d’écart type 20 heures. a) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de 160 heures.
p( x1
p( x1 -
x 2 > 160) = 1 - ( 160 200 ) 20
x 2 > 160) = 1 - (-2) = 0,9772
b) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure à celle de la marque B de 250 heures.
p( x1
p( x1 -
x 2 > 250) = 1 - ( 250 200 ) 20
x 2 > 250) = 1 - (2,5) = 0,0062
47
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
2.7.6. Solution de l’exercice 2.6.6. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les poids moyens observés des deux échantillons indépendants suit une loi ² 1 ² 2 normale de moyenne (m1-m2) et d’écart type . n1 n2
E( x1 -
x 2 ) = m1 - m2 = 0,5 – 0,5 = 0 g
V( x1 -
x2 ) =
² 1 ² 2 0,02² 0,02² = = 0,0000008 1000 1000 n1 n2
L’écart type est donc 0,00089 g. La différence entre les poids moyens observés des deux échantillons indépendants suit une loi normale de moyenne nulle et d’écart type 0,00089 gramme. Les deux lots de 1000 pièces chacune différents de plus de 2 g ce qui donne un écart absolu entre les moyennes de plus de 0,002 g.
p( x1 -
x 2 > 0,002) = p(-0,002 < x1 - x 2 < 0,002)
p(-0,002 < x1
p(-0,002 < x1
p(-0,002 < x1 -
x 2 < 0,002) = (
0,002 0,002 ) - () 0,00089 0,00089
x 2 < 0,002) = 2. (2,25) – 1
x 2 < 0,002) = 2. 0,9878 – 1 = 0,9756
2.7.7. Solution de l’exercice 2.6.7. Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500 heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des trois ampoules.
48
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
Désignons par Y la durée de vie totale. Y=X+X+X E(Y) = E(X) + E(X) + E(X) = 4500 h V(Y) = V(X) + V(X) + V(X) = 150²+150²+150² = 67500 L’écart type de Y est donc
67500 = 259,81 h.
L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 259,81 heures. a) Probabilité que l’éclairage fonctionne, en moyenne, au moins pendant 5000 heures. p(Y >5000) = 1 - ( 5000 4500 )
259,81
p(Y >5000) = 1 - (1,92) = 0,0274 b) Probabilité que l’éclairage fonctionne, en moyenne, au plus pendant 4200 heures. p(Y < 4200) = ( 4200 4500 )
259,81
p(Y < 4200) = (-1,15) = 0,1251 2.7.8. Solution de l’exercice 2.6.8. Désignons par X le poids des pièces. X suit une loi normale de moyenne 22,40 kg et d’écart type 0,048 kg. La taille de l’échantillon est n = 36 a) Cas d’un échantillon non exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 22,40 kg
49
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
- Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) = ² =
n
0,048² = 0,0001 36
L’erreur standard est alors :
0,0001 = 0,008 kg.
b) Cas d’un échantillon exhaustif. Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 22,40 kg - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
N n ² = 150036 0,048² = 0,00006 N 1 n 15001 36
L’erreur standard est alors :
0,00006 = 0,00791 kg.
c) Nombre d'échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes. Calculons la probabilité pour que la moyenne soit comprise entre 22,39 et 22,41 kg. La moyenne suit une loi normale de moyenne 22,40 et d’écart type 0,008 kg.
22,41 22,40 22,39 22,40 ) - ( ) 0,008 0,008
p(22,39 <
x < 22,41) = (
p(22,39 <
x < 22,41) = (1,25) - (-1,25)
p(22,39 <
x < 22,41) = 0,8944 – 0,1056 = 0,7888 = 78,88 %
Ce qui veut dire que 78,88 % des 300 échantillons qui ont leur moyenne comprise entre 22,39 kg et 22,41 kg soit : 0,7888 x 300 = 236,64. On peut s’attendre à avoir 236 ou 237 échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes. 50
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
2.7.9. Solution de l’exercice 2.6.9. Le poids des 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes si le poids moyen d’un colis dépasse 328 kg. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 300 kg - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
² = 50² = 100 n 25
L’erreur standard est alors :
100 = 10 kg.
p( x > 328) = 1 - ( 328300 )
10
p( x > 328) = 1 - (2,80) = 1 – 0,9974 = 0,0026 = 0,26 % 2.7.10. Solution de l’exercice 2.6.10. Il s’agit de la différence de deux moyennes d’échantillons indépendants. La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne (m2-m1) et d’écart type
E( x 2
V( x 2 -
x1 ) = m2 - m1 = 4500 – 4000 = 500 kg x1 ) = ²1 ² 2 = 300² 200² = 1700 n1 n 2 100 50
51
²1 ² 2 . n1 n 2
Statistiques décisionnelles
L’écart type est donc
2. Loi de probabilité de la moyenne d’échantillon
1700 = 41,23 kg
La différence entre les durées de vie moyennes observées des deux échantillons indépendants suit une loi normale de moyenne 500 kg et d’écart type 41,23 kg. a) Probabilité pour que la marque B ait une charge de rupture d’au moins 600 kg de plus que la marque A.
p( x 2
p( x 2 -
x1 > 600) = 1 - ( 600500 ) 41,23
x1 > 600) = 1 - (2,43) = 0,0075
b) Probabilité pour que la marque B ait une charge de rupture d’au moins 450 kg de plus que la marque A.
p( x 2
p( x 2 -
x1 > 450) = 1 - ( 450500 ) 41,23
x1 > 450) = 1 - (-1,21) = 0,8869
2.7.11. Solution de l’exercice 2.6.11. Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance. - Moyenne de la distribution d'échantillonnage des moyennes.
E( X ) = m = 1800 h - Ecart type de la distribution d'échantillonnage des moyennes.
V( X ) =
² = 200² = 400 n 100
L’erreur standard est alors :
400 = 20 h.
52
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
a) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie supérieure à 1825.
p( x > 1825) = 1 - ( 18251800 )
20
p( x > 1825) = 1 - (1,25) = 0,1056 b) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie de pas plus de 1775 et pas moins de 1760.
p(1760 <
x < 1775) = ( 17751800 ) - ( 17601800 ) 20 20
p(1760 <
x < 1775) = (-1,25) - (-2)
p(1760 <
x < 1775) = 0,1056 – 0,0228 = 0,0828
53
Statistiques décisionnelles
2. Loi de probabilité de la moyenne d’échantillon
54
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
CHAPITRE 3 LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON
3.1. POSITION DU PROBLEME. De la même manière que pour la moyenne, chacun des échantillons possède une variance :
n
(x i x)²
v(x) i 1
n
n
(x i' x')²
v(x') i 1
n
n
(x " x")² i
v(x") i 1
n
Ces variances peuvent être considérées comme des valeurs observées d’une même variable aléatoire :
n
(Xi X)²
V(X) i 1
n
Comme X1, X2, …, Xn, la variable aléatoire V(X) possède une distribution de probabilité, dite distribution d’échantillonnage de la variance. On peut donc calculer l’espérance mathématique et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est désignée par m et la variance par ². E(Xi) = m
et
V(Xi) = ²
on peut démontrer alors :
E(V(X)) =
n 1 σ² n
55
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
Pour la variance de la distribution d’échantillonnage de la variance, on démontre, dans le cas d’une population normale : V(V(X)) =
2(n 1) 4 . n²
Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire est simple d’effectif n, l’espérance mathématique de la variance est :
E(V(X)) =
N n 1 σ² N 1 n
En ce qui concerne la forme de la distribution d’échantillonnage de la variance, on peut démontrer que dans le cas particulier d’une population normale, la variable aléatoire
n
(Xi X)² i 1
²
possède une distribution khi deux à (n-1) degré de liberté.
3.2. ENONCES DES EXERCICES D’APPLICATION. 3.2.1. Calculez la moyenne et l'écart type de la variance S², ainsi que la probabilité p(10 < S² Z =
2.39,06 2.351 = 0,53
p(² < 39,06) p(Z < 0,53) = (0,53) = 0,7019 Pour p(² < 31,64) => Z =
2.31,64 2.351 = 0,35
p(² < 31,64) p(Z < 0,35) = (0,35) = 0,6368 p(0,045² 40²) = 1 - p(V(X) < 40²) p(V(X) > 40²) = 1 - p(
25.V(X) 25.40² < ) 50² 50²
p(V(X) > 40²) = 1 - p(² < 16) En consultant la table de la fonction de répartition de la loi Khi deux, à 24 degrés de liberté on trouve : 0,1 < p(² < 16) < 0,5 après interpolation linéaire on trouve : p(² < 16) = 0,1178 p(V(X) > 40²) = 1 – 0,1178 = 0,8822 3.3.9. Solution de l’exercice 3.2.9. Il s’agit de la différence de résistance de rupture entre les deux échantillons indépendants. La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne (m2-m1) et d’écart type
²1 ² 2 .
E(X2 – X1) = m2 - m1 = 4500 – 4000 = 500 kg V(X2 – X1) =
²1 ² 2 = 300² + 200² = 130000
L’écart type est donc
130000 = 361 kg
La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne 500 kg et d’écart type 361 kg.
66
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
a) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un écart type de moins de 350 kg p(V(X2 – X1) < 350²) = p(
100.V(X 2 X 1 ) 100.350² < ) 361² 361²
p(V(X2 – X1) < 350²) = p(² < 94) Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type p(² < 94) =
2.99 =14.
(9499) = (0,36) = 0,3594 14
p(V(X2 – X1) < 350²) = 0,3594 b) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un écart type de moins de 300 kg. p(V(X2 – X1) < 300²) = p(
100.V(X 2 X1) 100.300² < ) 361² 361²
p(V(X2 – X1) < 300²) = p(² < 69,06) Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type p(² < 69,06) = (
2.99 =14.
69,06 99 ) = (2,14) = 0,0162 14
p(V(X2 – X1) < 300²) = 0,0162 3.3.10. Solution de l’exercice 3.2.10. Déterminons la loi de probabilité de la moyenne. Il s’agit d’une population dont on connaît la moyenne et la variance.
67
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des échantillons de taille 20. Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures. = 200 h
m = 1800 h
et
n = 20
- Moyenne de la distribution d'échantillonnage des variances
E(V(X)) =
n 1 σ² = 20 1 x 200 2 = 38000 n 20
- Ecart type de la distribution d'échantillonnage des variances
V(V(X)) = 2.(n1) σ² = 2.(201) 200² = 12329 n 20 b) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des échantillons de taille 50. = 200 h
m = 1800 h
et
n = 50
- Moyenne de la distribution d'échantillonnage des variances
E(V(X)) =
n 1 50 1 σ² = 200² = 40000 50 n
- Ecart type de la distribution d'échantillonnage des variances
V(V(X)) = 2.(n 1) ² = 2.(501) 200² = 7920 n 50 On remarque qu’en augmentant la taille de l’échantillon, l’erreur standard de la variance baisse. c) Probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de vie supérieur à 220. p(V(X) > 220²) = 1 - p(V(X) < 220²) p(V(X) > 220²) = 1 - p(
20.V(X) 20.220² < ) 200² 200² 68
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
p(V(X) > 220²) = 1 - p(² < 24,2) En consultant la table de la fonction de répartition de la loi Khi deux, à 19 degrés de liberté on trouve : 0,5 < p(² < 24,2) < 0,9 après interpolation linéaire on trouve : p(² < 24,2) = 0,7645 p(V(X) > 220²) = 1 – 0,7645 = 0,2355 d) Probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de vie supérieur à 220. p(V(X) > 220²) = 1 - p(V(X) < 220²) p(V(X) > 220²) = 1 - p(
50.V(X) 50.220² < ) 200² 200²
p(V(X) > 220²) = 1 - p(² < 60,5) Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et
2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la transformation : Z=
2² 2k 1
Z=
2.60,5 2.491 = 1,15
p(² < 60,5) p(Z < 1,15) = (1,15) = 0,8749 p(V(X) > 220²) = 1 – 0,8749 = 0,1251
69
Statistiques décisionnelles
3. Loi de probabilité de la variance d’échantillon
3.3.11. Solution de l’exercice 3.2.11. m = 6 m = 0,10 et
n = 40
- Moyenne de la distribution d’échantillonnage des variances
E(V(X)) =
n 1 σ² = 401 . 0,102 = 0,00975 n 40
- Ecart type de la distribution d’échantillonnage des variances
2 0,12 V (V(X)) 2 (n 1) x 2 x 39 x 0,0022 n 40 b) Pour des échantillons de taille 60 on a : - Moyenne de la distribution d’échantillonnage des variances
E(V(X)) =
n 1 σ² = 60 1 x 0,102 0,00983 n 60
- Ecart type de la distribution d’échantillonnage des variances
V (V(X)) 2 (n 1) x
2 0,12 2 x 59 x 0,0018 n 60
c) On peut élasticités demandées, en effet pour une variation de 50 % de la taille des échantillons on a : - Une élasticité des moyennes de distribution d’échantillonnage des variances égale à :
0,00983 0,00975 0,82 % 0,00975 - Une élasticité des écart-types de distribution d’échantillonnage des variances égale à :
0,0018 0,0022 18,18 % 0,0022 70
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
CHAPITRE 4 LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON
4.1. POSITION DU PROBLEME. De même que pour la moyenne et pour la variance, si l’on considère une population infinie et que l’on y prélève un échantillon aléatoire et simple d’effectif n, on désigne par Xn le nombre d’individus possédant, dans chaque échantillon, le caractère étudié.
f n X n est la fréquence ou proportion des individus possédant, dans l’échantillon, le n caractère étudié. On désigne par p la proportion des individus possédant, dans la population, le caractère étudié. Les échantillons successifs possèdent les fréquences :
fn Xn n
f n' X n' n
fn" Xn" n
Ces fréquences peuvent être considérées comme des valeurs observées d’une même variable aléatoire :
fn Xn n La variable aléatoire Fn possède une distribution de probabilité, dite distribution d’échantillonnage de la proportion. On peut donc calculer l’espérance et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple.
71
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
4.2. LOI DE PROBABILITE SELON L’ECHANTILLON. 4.2.1. Echantillon non exhaustif. E(Fn) = E( X n ) =
n
V(Fn) = V(
σ Fn
1 E( X n ) = 1 n p = p n n
Xn pq 1 1 n ) = n² V( X n ) = n² n p q = n
pq n
est appelé erreur standard de la fréquence d’un échantillon aléatoire et simple.
En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la proportion suit une loi normale de moyenne p et d’écart type σ Fn
pq
à condition que la n taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le produit n p 5. 4.2.2. Echantillon exhaustif. Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire et simple d’effectif n, l’espérance mathématique et la variance de la fréquence sont : E(Fn) = E( X n ) =
n
V(Fn) = V( X n ) =
n
L’erreur standard est alors : Fn
1 E( X n ) = 1 n p = p n n
1 V( X n ) = 1 N n n p q = N n pq n² n² N 1 N 1 n pq Nn N 1 n
En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la proportion suit une loi normale de moyenne p et d’écart type Fn
pq Nn à N 1 n
condition que la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le produit n p 5. 72
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
4.3. ENONCES DES EXERCICES D’APPLICATION. 4.3.1. Lors d’élections, les résultats ont montré qu’un des candidats a obtenu 46 % des voix. Déterminer la probabilité pour que le vote donne une majorité de voix en faveur de ce candidat pour un échantillon de : a) 200 personnes choisies au hasard parmi le corps électoral. b) 1000 personnes choisies au hasard parmi le corps électoral . 4.3.2. Trouver la probabilité pour que parmi les 200 prochains enfants à naître : a) Il y ait moins de 40 % de garçons. b) Il y ait entre 43 % et 57 % de filles. c) Il y ait plus de 54 % de garçons. On supposera que la naissance d'un garçon et la naissance d'une fille sont équiprobables. 4.3.3. Etant donné 1000 échantillons de 200 enfants chacun, pour combien d'échantillons a-t-on une chance de trouver : a) Moins de 40 % de garçons. b) Entre 40 % et 60 % de filles. c) 53 % ou plus de filles ? 4.3.4. Les résultats d'une élection montrent qu'un des candidats a obtenu 65 % des voix. Trouver la probabilité pour que deux échantillons aléatoires, chacun correspondant à 200 votants, indiquent plus de 10 % de différence dans les proportions de gens qui ont voté pour ce candidat. 4.3.5. On s’intéresse au taux de réussite au sein d’une école. a) On considère un échantillon de 35 étudiants, quelle est la probabilité d’avoir plus de 70 % d’admis ? b) On considère deux échantillons indépendants de 100 étudiants chacun, quelle est la probabilité d’avoir plus de 15 % de différence dans les taux de réussite ? 4.3.6. On considère une élection municipale dans laquelle deux candidats ont obtenu respectivement 34 % et 14 % des suffrages. Le nombre de votants est 12000. On prend un échantillon de 100 personnes, quelle est la probabilité pour que le candidat 1 ait plus de 25 % des suffrages et le candidat 2 ait plus de 20 % ? 4.3.7. Un 1er test a donné un taux de pièces défectueuses égal à 5 %. On réalise un test de qualité sur un échantillon de 1000 pièces mécaniques. a) Quelle est la probabilité pour que ce dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % ? b) Quelles sont ces probabilités avec un échantillon de 100 pièces seulement au lieu de 1000. Interpréter ces résultats. 73
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
c) Quelle est la taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égale à 4 % avec une probabilité de 98 % ? Interpréter ces résultats. 4.3.8. Une étude sur la notoriété d’une marque a porté sur un échantillon aléatoire de 400 personnes. a) Quelle est la probabilité d’avoir un taux de notoriété qui dépasse 55 % ? b) Calculer cette probabilité si on pense que la notoriété est de 60 %. 4.3.9. Un fournisseur affirme que le risque de vendre une pièce défectueuse est de 5 %. Pour vérifier l’affirmation du fournisseur, un contrôle a porté sur un échantillon aléatoire de 300 pièces. L’affirmation du fournisseur est-elle plausible ? 4.3.10. 80 % des clients sont satisfaits, c’est ce que pense le directeur d’une société de service. a) Quelle est la probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits ? b) Un deuxième échantillon aléatoire de 300 clients est choisi indépendamment du premier échantillon. Quelle est la probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès des deux échantillons ? 4.4. SOLUTIONS DES EXERCICES D’APPLICATION. 4.4.1. Solution de l’exercice 4.3.1. Soit F la variable aléatoire qui désigne la fréquence des électeurs qui voteront pour ce candidat. La distribution d’échantillonnage de F suit une loi normale de moyenne p et d’écart type
pq n
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n30) et le produit n p5. E(F) = p V(F) =
pq n
σF
pq n
a) 200 personnes choisies au hasard parmi le corps électoral.
E(F) = 0,46 V(F) =
0,46.0,54 = 0,0012 200
σ Fn 0,0012 = 0,035 74
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
n = 200 > 30 et le produit n p = 200 . 0,46 = 92 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,46 et d’écart type 0,035. Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %. p(F 0,5) = 1 – p(F < 0,5) = p(Z <
0,50,46 ) 0,035
p(F 0,5) = 1 – (1,14) = 1 – 0,8729 = 0,1271 = 12,71 % b) 1000 personnes choisies au hasard parmi le corps électoral. E(F) = 0,46 V(F) =
0,46.0,54 = 0,0002484 1000
σ Fn 0,0002484 = 0,016
n = 1000 > 30 et le produit n p = 1000.0,46 = 460 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,46 et d’écart type 0,016. Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %. p(F 0,5) = 1 – p(F < 0,5) = p(Z <
0,50,46 ) 0,016
p(F 0,5) = 1 – (2,5) = 1 – 0,9938 = 0,0062 = 0,62 % 4.4.2. Solution de l’exercice 4.3.2. Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 prochains enfants à naître. E(F) = p = 0,5 V(F) =
pq 0,5.0,5 = = 0,0013 σ F n 200
0,0013 = 0,0354
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0354. 75
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
a) Probabilité pour que parmi les 200 prochains enfants à naître il y ait moins de 40 % de garçons. p(F < 0,4) = p(Z <
0,40,5 ) = (-2,82) = 1 – 0,9976 = 0,0024 0,0354
b) Probabilité pour que parmi les 200 prochains enfants à naître il y ait entre 43 % et 57 % de filles. p(0,43 < F < 0,57) = p(Z <
0,57 0,5 0,430,5 ) - p(Z < ) 0,0354 0,0354
p(0,43 < F < 0,57) = (1,98) - (-1,98) p(0,43 < F < 0,57) = 0,9761 – 0,0239 = 0,9522 c) Probabilité pour que parmi les 200 prochains enfants à naître il y ait plus de 54 % de garçons. p(F > 0,54) = 1 - p(Z <
0,540,5 ) 0,0354
p(F > 0,4) = 1 - (1,13) = 1 – 0,8708 = 0,1292 4.4.3. Solution de l’exercice 4.3.3. Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 enfants de l’échantillon. E(F) = p = 0,5 V(F) =
pq 0,5.0,5 = = 0,0013 n 200
σ F 0,0013 = 0,0354
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0354. a) Nombre d’échantillon de moins de 40 % de garçons. 76
Statistiques décisionnelles
p(F < 0,4) = p(Z <
4. Loi de probabilité de la proportion d’échantillon
0,40,5 ) 0,0354
p(F < 0,4) = (-2,82) = 1 – 0,9976 = 0,0024 Nombre d’échantillon de moins de 40 % de garçons est : 1000 . 0,0024 = 2,4. On peut s’attendre à 2 ou 3 échantillons qui auront moins de 40 % de garçons. b) Nombre d’échantillon qui auront entre 40% et 60% de garçons. p(0,40 < F < 0,60) = p(Z <
0,600,5 0,400,5 ) - p(Z < ) 0,0354 0,0354
p(0,40 < F < 0,60) = (2,82) - (-2,82) p(0,40 < F < 0,60) = 0,9976 – 0,0024 = 0,9952 Nombre d’échantillon qui auront entre 40% et 60% de garçons est : 1000 . 0,9952 = 995,2. On peut s’attendre à 995 échantillons qui auront entre 40 % et 60 % de garçons. c) Nombre d’échantillon de 53 % ou plus de filles. 53 % ou plus de filles est équivalente à 47 % de garçons ou moins.
p(F < 0,47) = p(Z <
0,47 0,5 ) 0,0354
p(F < 0,47) = (-0,85) = 1 – 0,8023 = 0,1977 Nombre d’échantillon qui auront 53 % ou plus de filles est : 1000 . 0,1977 = 197,7 On peut s’attendre à 198 échantillons qui auront 53 % ou plus de filles.
77
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
4.4.4. Solution de l’exercice 4.3.4. Soit F1 la variable aléatoire qui désigne la fréquence des gens du premier échantillon qui ont voté pour ce candidat. E(F1) = p = 0,65 V(F1) =
pq 0,65.0,35 = = 0,0011 n 200
σ F1 0,0011 = 0,0337
n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,65 et d’écart type 0,0337. Soit F2 la variable aléatoire qui désigne la fréquence des gens du deuxième échantillon qui ont voté pour ce candidat. E(F2) = p = 0,65 V(F2) =
pq 0,65.0,35 = = 0,0011 n 200
σ F2 0,0011 = 0,0337
n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F2 suit donc une loi normale de moyenne 0,65 et d’écart type 0,0337. Désignons par F la différence entre les fréquences des gens qui ont voté pour ce candidat dans chaque échantillon. E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,65-0,65 = 0 V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0011+0,0011 = 0,0022
σ F 0,0022 = 0,0469 La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,0469. p(
F1 F2 > 0,1) = p( F > 0,1) = 1 - p( F 0,1)
p(
F1 F2 > 0,1) = 1 – p(-0,1 F 0,1) 78
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
0,10 0,10 ) - p(Z )] 0,0469 0,0469
p(
F1 F2 > 0,1) = 1 – [p(Z
p(
F1 F2 > 0,1) = 1 – [(2,13) - (-2,13)]
p(
F1 F2 > 0,1) = 1 – (0,9834 – 0,0166) = 0,0332
4.4.5. Solution de l’exercice 4.3.5. a) Probabilité d’avoir plus de 70 % d’admis dans un échantillon de 35 étudiants. Soit F la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 35 étudiants de l’échantillon. Puisqu’on n’a pas d’information sur le taux de réussite dans cette école, on le considère égal à 50 %. E(F) = p = 0,5 V(F) =
pq 0,5.0,5 = = 0,0071 σ F 0,0071 = 0,0845 n 35
n = 35 > 30 et le produit n p = 35.0,5 = 17,5 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,0845. p(F > 0,7) = 1 - p(Z <
0,7 0,5 ) 0,0845
p(F > 0,7) = 1 - (2,37) = 1 – 0,9911 = 0,0089 b) Probabilité d’avoir plus de 15 % de différence dans les taux de réussite de deux échantillons indépendants de 100 étudiants chacun. Soit F1 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100 étudiants du premier échantillon. E(F1) = p = 0,5 V(F1) =
pq 0,5.0,5 = = 0,0025 σ F1 0,0025 = 0,05 n 100
79
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,5 et d’écart type 0,05. Soit F2 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100 étudiants du deuxième échantillon. E(F2) = p = 0,5 V(F2) =
pq 0,5.0,5 = = 0,0025 σ F2 0,0025 = 0,05 n 100
n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 2 suit donc une loi normale de moyenne 0,5 et d’écart type 0,05. Désignons par F la différence dans les taux de réussite des deux échantillons indépendants de 100 étudiants chacun. E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,5-0,5 = 0 V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0025+0,0025 = 0,005
σ F 0,005
= 0,0707
La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,0707. p(
F1 F2 > 0,15) = p( F > 0,15) = 1 - p( F 0,15)
p(
F1 F2 > 0,15) = 1 – p(-0,15 F 0,15)
p(
F1 F2 > 0,15) = 1 – [p(Z
p(
F1 F2 > 0,15) = 1 – [(2,12) - (-2,12)]
p(
F1 F2 > 0,15) = 1 – (0,9830 – 0,0170) = 0,0340
0,150 0,150 ) - p(Z )] 0,0707 0,0707
4.4.6. Solution de l’exercice 4.3.6. - Probabilité pour que le candidat 1 ait plus de 25 % des suffrages. Soit F1 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le candidat 1. 80
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
E(F1) = p = 0,34 V(F1) =
N n pq = 12000100 0,34.0,66 = 0,0022 N 1 n 120001 100
σ F1 0,0022 = 0,0472 n = 100 > 30 et le produit n p = 100.0,34 = 34 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,34 et d’écart type 0,0472. p(F1 > 0,25) = 1 - (
0,250,34 ) 0,0472
p(F1 > 0,25) = 1 - (-1,91) = 0,9719 - Probabilité pour que le candidat 2 ait plus de 20 % des suffrages. Soit F2 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le candidat 2. E(F2) = p = 0,14 V(F2) =
N n pq = 12000100 0,14.0,86 = 0,0012 N 1 n 120001 100
σ F2 0,0012
= 0,0346
n = 100 > 30 et le produit n p = 100.0,14 = 14 > 5. La distribution d’échantillonnage de F 1 suit donc une loi normale de moyenne 0,14 et d’écart type 0,0346. p(F2 > 0,20) = 1 - (
0,200,14 ) 0,0346
p(F2 > 0,20) = 1 - (1,73) = 0,0418 4.4.7. Solution de l’exercice 4.3.7. a) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 1000 pièces. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon.
81
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
E(F) = p = 0,05 V(F) =
pq 0,05.0,95 = = 0,0000475 n 1000
σ F 0,0000475 = 0,00689 n = 1000 > 30 et le produit n p = 1000.0,05 = 50 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,00689. p(F 0,01) = p(Z < p(F 0,02) = p(Z < p(F 0,03) = p(Z < p(F 0,04) = p(Z < p(F 0,05) = p(Z <
0,010,05 ) = (-5,8) = 0 0,00689 0,020,05 ) = (-4,35) = 0 0,00689 0,030,05 ) = (-2,90) = 0,0019 0,00689 0,040,05 ) = (-1,45) = 0,0735 0,00689 0,050,05 ) = (0) = 0,5 0,00689
b) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 100 pièces. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon. E(F) = p = 0,05 V(F) =
pq 0,05.0,95 = = 0,000475 n 100
σ F 0,000475 = 0,02179 n = 100 > 30 et le produit n p = 100.0,05 = 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,02179. p(F 0,01) = p(Z <
0,010,05 ) = (-1,84) = 0,0329 0,02179
82
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
0,020,05 ) = (-1,38) = 0,0838 0,02179 0,030,05 p(F 0,03) = p(Z < ) = (-0,92) = 0,1788 0,02179 0,040,05 p(F 0,04) = p(Z < ) = (-0,46) = 0,3228 0,02179 0,050,05 p(F 0,05) = p(Z < ) = (0) = 0,5 0,02179 p(F 0,02) = p(Z <
On constate que pour un échantillon de taille plus petite, les probabilités sont plus grandes. Plus la taille de l’échantillon est grande plus le risque d’avoir des pièces défectueuses est grand. c) Taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égal à 4 % avec une probabilité de 98 %. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon de taille n. E(F) = p = 0,05 V(F) =
pq 0,05.0,95 0,0475 = = n n n
F
0,0475 0,2179 n n
p(F 0,04) = 0,98
p(Z <
(
0,040,05 ) = 0,98 0,2179 n
0,040,05 ) = 0,98 0,2179 n
83
Statistiques décisionnelles
0,040,05 = Z0,98 = 2,05 0,2179 n
4. Loi de probabilité de la proportion d’échantillon
=>
n = 1996 pièces
Un échantillon de 1996 pièces peut garantir 98 % de chances d’avoir moins de 4 % de pièces défectueuses. 4.4.8. Solution de l’exercice 4.3.8. a) Probabilité d’avoir un taux de notoriété qui dépasse 55 % Soit F la variable aléatoire qui désigne la fréquence des personnes de l’échantillon qui connaissent la marque. Puisqu’on n’a pas d’information sur le taux de notoriété dans la population, on le considère égal à 50 %. E(F) = p = 0,5 V(F) =
pq 0,5.0,5 = = 0,000625 n 400
σ F 0,000625 0,025
n = 400 > 30 et le produit n p = 400.0,5 = 200 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,5 et d’écart type 0,025. p(F > 0,55) = 1 - p(Z <
0,550,5 ) 0,025
p(F > 0,55) = 1 - (2) = 0,0228 b) Probabilité d’avoir un taux de notoriété qui dépasse 60 % si on pense que la notoriété est de 60 %. E(F) = p = 0,6
pq 0,6.0,4 = = 0,0006 σ F n 400 0,550,6 p(F > 0,55) = 1 - p(Z < ) 0,02449 V(F) =
0,0006 0,02449
p(F > 0,55) = 1 - (-2,04) = 0,9793
84
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
4.4.9. Solution de l’exercice 4.3.9. Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans l’échantillon. E(F) = p = 0,05 V(F) =
pq 0,05.0,95 = = 0,00016 n 300
σ F 0,00016 0,01258 n = 300 > 30 et le produit n p = 300.0,05 = 15 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,05 et d’écart type 0,01258. L’affirmation du fournisseur est plausible si la probabilité d’avoir plus de 5 % de pièces défectueuses est faible. p(F 0,06) = 1 - p(Z <
0,060,05 ) 0,01258
p(F 0,06) = 1 - (0,79) = 0,2148 Le contrôle de 300 pièces donne 21,48 % de chances d’avoir 6 % ou plus de pièces défectueuses. L’affirmation du fournisseur est probable à 78,52 %. 4.4.10. Solution de l’exercice 4.3.10. a) Probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits. Soit F la variable aléatoire qui désigne la fréquence des clients de l’échantillon qui sont satisfaits. E(F) = p = 0,8 V(F) =
pq 0,8.0,2 = = 0,0008 n 200
σ F 0,0008 0,02828 85
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
n = 200 > 30 et le produit n p = 200.0,8 = 160 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,8 et d’écart type 0,02828. p(F < 0,7) = p(Z <
0 ,7 0 ,8 ) 0,02828
p(F < 0,7) = (-3,54) = 0,0002 b) Probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès des deux échantillons. Soit F’ la variable aléatoire qui désigne la fréquence des clients du deuxième échantillon qui sont satisfaits. E(F’) = p = 0,8 V(F’) =
pq 0,8.0,2 = = 0,00053 n 300
σ F ' 0,00053 0,02309 n = 300 > 30 et le produit n p = 300.0,8 = 240 > 5. La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0,8 et d’écart type 0,02309. Désignons par F la différence dans les taux de satisfaction des deux échantillons indépendants. E(F) = E(F – F’) = E(F) – E(F’) = 0,8-0,8 = 0 V(F) = V(F – F’) = V(F) + V(F’) = 0,0008+0,00053 = 0,00133
σ F 0,00133 0,03647 La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type 0,03647. p(
F F' > 0,02) = p( F > 0,02) = 1 - p( F 0,02)
p(
F F' > 0,02) = 1 – p(-0,02 F 0,02)
86
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
0,020 0,020 ) - p(Z )] 0,03647 0,03647
p(
F F' > 0,02) = 1 – [p(Z
p(
F F' > 0,02) = 1 – [(0,55) - (-0,55)]
p(
F F' > 0,02) = 1 – (0,7088 – 0,2912) = 0,5824
87
Statistiques décisionnelles
4. Loi de probabilité de la proportion d’échantillon
88
Statistiques décisionnelles
Partie 3. Principe de l’estimation
PARTIE 3 PRINCIPE DE L’ESTIMATION
Les premiers problèmes d’inférence statistique auxquels s’applique la théorie des distributions d’échantillonnage sont les problèmes d’estimations. Le but poursuivi est d’estimer, à partir d’un échantillon, la ou les valeurs numériques d’un ou de plusieurs paramètres de la population considérée et de déterminer la précision de cette ou de ces estimations. DEFINITION D’UN ESTIMATEUR. Soient une population quelconque, dont la distribution de probabilité L(X) est fonction d’un paramètre : L(X) = f(X, ) et un échantillon aléatoire et simple d’effectif n extrait de cette population. On appelle estimateur du paramètre , toute fonction aléatoire des valeurs observées, X1, X2, X3,…, Xn, susceptibles de servir à estimer Tn = f (X1, X2, …, Xn) On appelle estimation les valeurs numériques t1, t2, …de cette variable aléatoire Tn. QUALITES D’UN ESTIMATEUR.
Absence de biais La première qualité d’un bon estimateur est l’absence d’erreur systématique ou de biais. Cette qualité implique que la vraie valeur doit être retrouvée en moyenne : E(Tn) = Tout estimateur qui satisfait cette condition est dit sans biais ou non biaisé.
89
Statistiques décisionnelles
Partie 3. Principe de l’estimation
Variance minimale Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante. Cette précision peut être mesurée par le moment d’ordre deux par rapport à . E[(Tn - )²] Pour les estimateurs non biaisés, ce moment se confond avec la variance : E[(Tn - )²] = V(Tn) On peut démonter qu’à tout paramètre correspond une valeur minimum de E[(Tn - )²]. La fonction qui correspond à ce minimum, définit l’estimateur de variance minimum.
90
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
CHAPITRE 5 ESTIMATION DE LA MOYENNE D’UNE POPULATION
5.1. ESTIMATION D’UNE MOYENNE. 5.1.1. Estimation ponctuelle. La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la moyenne de l’échantillon. _
^
m=X La dispersion des différentes estimations possibles autour de cette moyenne générale, est mesurée par l’erreur standard de la moyenne :
x
n
Signalons dès à présent, comme nous le verrons, dans le chapitre suivant, que l’estimation ponctuelle et sans biais de la variance d’une population mère, à partir des résultats obtenus d’un échantillon simple et aléatoire est :
n
^
²
n v( x ) = n -1
(x x)² i
i 1
n 1
5.1.2. Estimation par intervalle de confiance. 5.1.2.1. Cas d’une population normale. Si on s’intéresse à la moyenne inconnue m d’une population normale d’écart type connu , l’estimation, par intervalle de confiance, consiste à déterminer, de part et d’autre de
l’estimateur contenir m.
X , les bornes X1 et X 2 d’un intervalle qui a un niveau de confiance (1-) de 91
Statistiques décisionnelles.
Les limites
5. Estimation de la moyenne d’une population
X1 et X 2 sont telles que :
p ( X1 m
X2 ) = 1 -
Si on désigne par
p (m < X1 ) = p (m > X 2 ) = /2
ou
Z1 la valeur de la variable normale centrée et réduite lue dans la table,
2 les limites de confiances sont :
X1 = X - Z
σ 12
et
n
X2 = X + Z
σ 1 2
n
On notera l’intervalle de confiance :
X Z
σ 1 2
n
ou
;xZ x Z1 1 n n 2 2
C’est un intervalle symétrique par rapport à la moyenne. Dans le cas d’une population normale dont on ne connaît pas l’écart type, on utilise l’estimation ponctuelle et sans biais de l’écart type, à savoir :
ˆ
n V( x ) n 1
5.1.2.2. Cas d’une population de distribution inconnue. Pour une population de distribution de probabilité inconnue (écart type inconnu), on utilise la quasi-variance comme estimation de la variance de la population. L’estimation ponctuelle et sans biais de l’écart type est :
ˆ
n V( x ) n 1
L’intervalle de confiance de la moyenne sera défini selon les cas.
92
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
5.1.2.2.1. Cas d’un échantillon d’effectif inférieur à 30 (n < 30) Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T de Student à (n-1) degré de liberté. La valeur
Z 1-
2
sera remplacée par la valeur
T 1-
2
à (n-1) degrés de liberté.
L’intervalle de confiance est alors : ^
X T
12
σ
ou
n
ˆ ˆ ;xT x T1 1 n n 2 2
5.1.2.2.2. Cas d’un échantillon d’effectif supérieur ou égal à 30 (n 30). Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable approximativement normale. L’intervalle de confiance est alors : ^
σ
X Z 1-
2
n
ou
ˆ ˆ ;xZ x Z1 1 n n 2 2
5.2. ESTIMATION DE LA SOMME DE MOYENNES. La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit des échantillons indépendants. Désignons par : N = Taille de la population Ni = Taille de la strate i n = Taille de l’échantillon global ni = Taille de l’échantillon prélevé dans la strate i 5.2.1. Estimation ponctuelle. La moyenne de chaque strate est estimée par la moyenne de l’échantillon de la strate.
ˆ i xi m
93
Statistiques décisionnelles.
avec une erreur standard x i
5. Estimation de la moyenne d’une population
i ni
Ni ni Ni 1
i est l’écart type de la strate i La moyenne globale de la population est estimée par :
ˆ x m
La variance de
x est :
L’erreur standard est :
V (x)
x
1 N
Ni xi Ni
2 Ni n i 1 ( N i2 i ) 2 N ni Ni 1 ( N i2
i2 N i n i ) ni Ni 1
5.2.2. Estimation par intervalle de confiance. L’estimation par intervalle de confiance de la moyenne globale d’une population stratifiée lorsque n 30, est donnée par :
X Z1 / 2 x Où
Z1 / 2 est tel que p (
ˆ xm Z1 / 2 ) 1 lu dans la table de la loi de probabilité ˆ 2
normale centrée réduite. 5.3. ENONCES DES EXERCICES D’APPLICATION. 5.3.1. Le tableau suivant donne la distribution du nombre de pannes observées dans le fonctionnement d’une machine au cours de 100 journées de travail. a) Déduisez-en une estimation du nombre moyen de pannes par jour, en supposant que la distribution théorique du nombre de pannes est une loi de poisson. b) Donnez l’erreur standard du résultat obtenu.
94
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
Nombres de pannes par jour Nombres de jours 0 53 1 32 2 11 3 3 4 1 Total 100 5.3.2. Lors d’un concours radiophonique, on note X le nombre de réponses reçues chaque jour. On suppose que X suit une loi normale de paramètres m et . Durant les 10 premiers jours, on a obtenu : x1 = 200 ; x2 = 240 ; x3 = 190 ; x4 = 150 ; x5 = 220 ; x6 = 180 ; x7 = 170 ; x8 = 230 ; x9 = 210 et x10 = 210. Déterminer une estimation ponctuelle de m. 5.3.3. Un échantillon de 15 étudiants d'une faculté a obtenu les notes suivantes : 13 ; 06 ; 12 ; 10 ; 10 ; 16 ; 02 ; 04 ; 11 ; 12 ; 12 ; 05 ; 07 ; 08 ; 13 a) Estimer la note moyenne pour l'ensemble des étudiants de la faculté. b) Donner des estimations par intervalle de confiance pour la moyenne avec un risque d’erreur de 5 %. 5.3.4. Dans une entreprise produisant un article déterminé, on veut estimer la durée de vie de cet article en heures. À cette fin on a observé un échantillon de 16 unités dont les résultats sont (en 1000 heures) : 1,10 1,30
1,05 1,35
1,25 1,15
1,08 1,32
1,35 1,05
1,15 1,25
1,30 1,10
1,25 1,15
a) Estimer la durée de vie moyenne d'un article. b) Donner une estimation par intervalle de confiance pour la moyenne. ( α =5%). c) Donner une estimation par intervalle de confiance pour la moyenne. ( α =10%). d) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation du risque d’erreur. 5.3.5. Dans une station service, on suppose que le montant des chèques essence suit une loi normale de paramètres m et . On considère un échantillon de taille n = 50 et on obtient une moyenne de 130 Dh et un écart-type de 28 Dh. Donner une estimation de m par un intervalle de confiance au niveau de confiance 95%.
95
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
5.3.6. On donne la répartition des masses de 35 ressorts provenant d’une même fabrication : masses (g) [82 ; 84[ [84 ; 86[ [86 ; 88[ [88 ; 90[ [90 ; 92[ [92 ; 94[ [94 ; 96[ [96 ; 98[
Nombre de Ressorts 4 6 6 6 8 2 2 1
X donnant le poids d’un ressort provenant de cette fabrication, a) Donner une estimation ponctuelle de la moyenne des poids des ressorts fabriqués b) Donner pour cette moyenne un intervalle de confiance au niveau de confiance 96%. 5.3.7. On veut estimer l’espérance mathématique m d’une variable aléatoire gaussienne X dont on connaît l’écart type = 2,3. Quelle est la taille minimum de l’échantillon de X qui està prendre si l’on veut obtenir pour m un intervalle de confiance de seuil 0,95 et dont la longueur ne dépasse pas 0,1 ? 5.3.8. Un confiseur vend des boites de bonbons d’un certain modèle. On note X la masse d’une boite pleine. Les pesées de 8 boites ont conduit aux masses (en kg) : 1,22 ; 1,23 ; 1,21 ; 1,19 ; 1,23 ; 1,24 ; 1,18 ; 1,21. a) Donner pour m un intervalle de confiance au risque de 10 %. b) En supposant que la variance de X soit connue et égale à la variance observée, donner pour m un intervalle de confiance au seuil de confiance 95% et comparer avec le a). c) On suppose maintenant que l’on a trouvé la même moyenne et la même variance qu’observées mais avec 5 observations au lieu de 8. Reprendre les questions a) et b). 5.3.9. Après avoir pesé 12 pamplemousses d’une même provenance, on donne pour l’espérance mathématique m du poids X d’un pamplemousse, l’intervalle de confiance au niveau de confiance 95% : 390 g m 520 g. En déduire la moyenne observée et l’écart type observé. 5.3.10. Un échantillon aléatoire de 50 notes (sur 100) dans une population de 200 a donné une moyenne de 75 et un écart type de 10. a) Quelles sont les limites de confiance à 94 % pour estimer la moyenne des 200 notes ? b) Avec quel degré de confiance peut-on dire que la moyenne des 200 notes est de 75 plus ou moins 1 ? 5.3.11. Un échantillon de 150 lampes de marque A a donné une durée de vie moyenne de 1400 heures et un écart type de 120 heures. Un échantillon de 200 lampes de marque B a donné une 96
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
durée de vie moyenne de 1200 heures et un écart type de 80 heures. Déterminer les limites de confiance à 95 % de la différence des durées de vie moyennes des marques A et B. 5.3.12. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 Kg et un écart type de 0,012 Kg. Calculer les limites de confiance des poids de lots comprenant 100 roulements chacun. a) Avec un risque d’erreur de 1 %. b) Avec un risque d’erreur de 10 %. c) Discuter la sensibilité de la largeur de l’intervalle de confiance par rapport au risque d’erreur. 5.3.13. Dans une population de 579 individus, divisée en quatre strates comprenant respectivement 53 ; 190 ; 231 ; et 105 individus, on a prélevé un échantillon de 58 individus, dont 10 dans la première strate, 14 dans la deuxième, 21 dans la troisième et 13 dans la quatrième. En fonction des résultats suivants, estimer la moyenne de la population globale et l’erreur standard de cette moyenne, en considérant l’échantillon comme : a) Aléatoire et simple ; b) Stratifié. Strates Sommes Sommes des carrés 1 54 1004 2 127 3081 3 388 13270 4 553 39667 5.3.14. En vue d’estimer la note moyenne des élèves d’une école, on a choisi de façon aléatoire et simple six classes, et dans chacune de ces classes on a choisi aléatoirement 4 élèves. En fonction des résultats obtenus et repris ci-dessous : a) Estimer la note moyenne des élèves de l’école ; b) Déterminer l’intervalle de confiance à 95 % de cette estimation. Classes Elèves 1 2 3 4
1
2
3
4
5
6
11,69 12,32 12,32 11,90
11,79 11,97 12,07 12,06
11,84 11,59 11,25 11,80
12,30 11,91 12,05 12,23
11,83 11,77 12,15 11,66
11,95 11,87 11,65 11,87
97
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
5.4. SOLUTIONS DES EXERCICES D’APPLICATION. 5.4.1. Solution de l’exercice 5.3.1. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : xi
ni xi
x i2
n i x i2
0 53 0 1 32 32 2 11 22 3 3 9 4 1 4 Somme 100 67 Somme / n 0,67 V(x)
0 1 4 9 16 30 -
0 32 44 27 16 119 1,19 0,7411 0,86
ni
σ ^
m = 0,67 Avoir 0,67 panne par jour peut sembler bizarre du fait que le nombre de pannes doit être un entier, mais le résultat que nous avons obtenu veut dire qu’en moyenne il y a un peu plus d’une panne, tous les deux jours (exactement 2x0,67= 1,34). b) L’écart type de la population est inconnu, on utilise comme estimation ponctuelle est sans biais de l’écart type :
σˆ
n 100 V(X) x 0,7411 0,87 n 1 100 1
L’erreur standard est mesurée par
x
ˆ n
0,87 100
8,7 %
5.4.2. Solution de l’exercice 5.3.2. L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs :
98
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
^
m = 200 réponses par jour. L’erreur standard de l’estimation est :
x
n
L’écart type de la population est estimé par :
ˆ
(x i x) 2 σˆ 27,89 27,89 soit σ x 8,82 n 1 n 10
Somme Somme / n
xi
x i2
200 240 190 150 220 180 170 230 210 210 2 000 200
40 000 57 600 36 100 22 500 48 400 32 400 28 900 52 900 44 100 44 100 407 000 40 700 700
V(x)
ˆ
n x V( x ) n 1
99
27,89
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
5.4.3. Solution de l’exercice 5.3.3. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : ^
m = 9,4 x
ˆ n
3,92 15
1,01
Somme Somme / n
xi
x i2
13 6 12 10 10 16 2 4 11 12 12 5 7 8 13 141 9,40
169 36 144 100 100 256 4 16 121 144 144 25 49 64 169 1541 102,73 14,37 3,79
V(x) σ (x)
ˆ
n x V( x ) n 1
3,92
b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30, la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à (n-1) degrés de liberté, soit 14. T 0,05 à 14 degrés de liberté lu sur la table de Student est : 2,145 1-
2
100
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
Les limites de l’intervalle de confiance sont : ^
X T 1 -
0 , 05 2
= 9,4
n
2,17
L’intervalle de confiance est alors : [7,23 ; 26,03] 5.4.4. Solution de l’exercice 5.3.4. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : xi x i2
Somme Somme / n V(x) σ (x)
ˆ
1,1 1,05 1,25 1,08 1,35 1,15 1,3 1,25 1,3 1,35 1,15 1,32 1,05 1,25 1,1 1,15 19,20 1,2
n x V( x ) n 1
^
m = 1,2 soit une durée de vie de 1200 heures. L’erreur standard est :
x
ˆ n
0,11 16
0,03 101
1,21 1,1025 1,5625 1,1664 1,8225 1,3225 1,69 1,5625 1,69 1,8225 1,3225 1,7424 1,1025 1,5625 1,21 1,3225 23,21 1,45 0,01 0,10 0,11
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30, la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à 15 degrés de liberté, (n – 1).
T 1-
0,05 2
à 15 degrés de liberté lu sur la table de Student est : 2,131
Les limites de l’intervalle de confiance sont : ^
σ
X T 1 -
0 , 05 2
n
= 1,2
0,06
L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,14 ; 1,26] soit [1140 h ; 1260 h] c) L’intervalle de confiance à 10% seulement de risque est :
T 1-
0,10
à 15 degrés de liberté lu sur la table de Student est : 1,753
2
Les limites de l’intervalle de confiance sont : ^
σ
X T 1 -
0 , 05 2
n
= 1,2
0,05
L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,15 ; 1,25] soit [1150 h ; 1250 h] d) On voit bien qu’en doublant le risque d’erreur, l’intervalle de confiance ne varie pas tellement (une variation de 16,7 %) puisque sa largeur varie de 0,12 à 0,10. 5.4.5. Solution de l’exercice 5.3.5. Dans le cas d’une population normale les limites de l’intervalle de confiance à 95% sont :
X Z
0 , 05 12
n
102
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
La lecture de la table normale centrée réduite donne Z 1-
0 , 05 2
1,96
De même, l’estimation ponctuelle et sans biais de l’écart type est donnée par :
ˆ
n . V( x ) 28,28 n 1
X Z 1
0 , 05 2
= 130 7,84
n
L’intervalle est alors : [130-7,84 ; 130+7,84] = [122,16 ; 137,84] 5.4.6. Solution de l’exercice 5.3.6. a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon considéré, à savoir, après calculs : ^
m = 88,5 g x
ˆ n
0,063 xi
ni
ni xi
83 4 85 6 87 6 89 6 91 8 93 2 95 2 97 1 35 Somme Somme / n V(x) σ (x)
ˆ
332 51 522 534 728 186 190 97 3099 88,5
n x V( x ) n 1 103
ni
x i2
27556 43350 45414 47526 66248 17298 18050 9409 274851 7852,90 13,6 3,68 3,74
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
b) L’estimation par intervalle de confiance de la moyenne : Comme nous ne connaissons pas la loi de probabilité de la variable aléatoire : poids du ressort et comme l’échantillon a une taille de 36 > 30, cette loi de probabilité peut être approchée par une normale. La lecture de la table normale centrée réduite donne Z
1
0 , 04 2
2,05
Les limites de l’intervalle de confiance sont : ^
X± Z 1 -
0 , 04 2
= 88,5 1,30
n
L’intervalle de confiance est alors : [87,2 ; 89,8]. 5.4.7. Solution de l’exercice 5.3.7. Nous utiliserons les limites de l’intervalle de confiance à 95% avec les données suivantes :
Z
2,3 0 , 05 1 2
n
= 0,05 =>
Z
0 , 05 1 2
= 0,05
n = 1,960 2,3
Ce qui donne pour n = 8129 5.4.8. Solution de l’exercice 5.3.8. a) L’estimation ponctuelle et sans biais de la moyenne des boîtes fabriquées par le confiseur est la moyenne de l’échantillon considéré, à savoir après calcul :
Somme Somme / n
xi
x i2
1,22 1,23 1,21 1,99 1,23 1,24 1,18 1,21 9,71 1,214
1,4884 1,5129 1,4641 1,4161 1,5129 1,5376 1,3924 1,4641 11,7885 1,4736
104
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
V(x)
ˆ
0,0004
n x V( x ) n 1
0,021
ˆ ˆ = 1,214 kg par boite avec x 0,007 m n
Comme la loi de distribution des poids des boîtes n’est pas connue, elle peut être approchée par une loi de Student à 7 degrés de liberté (n – 1). La lecture de la table
T
1
0 ,10 2
1,895
L’intervalle de confiance à 10 % est : 1,214 0,014
ou
[1,2 ; 1,228]
b) Si la variance de la population est exactement celle de l’échantillon, alors l’intervalle de ˆ par ( x ) : confiance est, en remplaçant l’estimateur
1,214 0,013
ou
1,201 ; 1,227
c1) Si la taille de l’échantillon varie, l’estimateur sans biais de la moyenne varie aussi :
ˆ
n . V( x ) 0,022 n 1
La lecture de la table de Student avec 4 degrés de liberté donne :
T
1
0,1 2
2,132 .
L’intervalle de confiance devient :
1,214 0,021
ou
1,193 ; 1,235
c2) Dans le cas où la variance de la population mère est exactement celle de l’échantillon, l’intervalle de confiance devient :
1,214 0,018
ou
1,196 ; 1,232 105
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
5.4.9. Solution de l’exercice 5.3.9. En supposant, comme d’habitude que l’intervalle de confiance est symétrique par rapport à la moyenne on peut donner la moyenne observée :
E (x)
390 520 455 g 2
La demi largeur de l’intervalle de confiance est égale, en prenant pour loi de probabilité de la distribution des poids de pamplemousse, la loi de Student à 11 degrés de liberté (n – 1).
455 390 65 T
1
Avec
T
1
0 , 05 2
0 , 05 2
.
ˆ n
2,201 lu sur la table de Student, ce qui donne pour ˆ :
ˆ 102,30 et pour
n 1 ˆ 97,94 n
(x)
5.4.10 Solution de l’exercice 5.3.10. Comme il s’agit de plus de 30 d’effectifs, nous pouvons considérer que la loi de distribution des notes est une loi normale. a) On lit sur la table normale centrée réduite : L’estimation sans biais de
ˆ
n V( x ) x n 1
Z
1
est :
Nn 8,77 N 1
L’intervalle de confiance à 94 % est :
75 2,33
ou
72,67 ; 77,33 106
0 , 06 2
1,88
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
b) Pour avoir une moyenne comprise entre 74 et 76, on doit avoir :
Z
1
2
.
8,77 50
1 Z
1
2
0,81
Correspond pour la table normale centrée réduite à
1
0,791 0,42 . 2
Le degré de confiance est donc de 58 %. 5.4.11. Solution de l’exercice 5.3.11. Il s’agit d’échantillons de tailles > 30, les lois de probabilités de distribution des durées de vie peuvent être approchées par des lois normales. Il en est de même de la loi de distribution de la différence des durées de vie. L’estimateur sans biais de la moyenne des différences de durées de vie est :
ˆ m ˆ1 m ˆ 2 1400 h 1200 h 200 h m ˆ 1
n1 150 x 1 x 120 120,4 n1 1 150 1
ˆ 2
n2 x 2 n2 1
L’écart
type
de
200 x 80 80,2 200 1 la
différence
des
durées
de
vie
moyenne
est
estimé
par :
ˆ ˆ 120,4 80,2 11,35 n1 n 2 150 200 2 1
2 2
2
2
L’intervalle de confiance à 95 % de la différence des durées de vie moyennes des deux marques A et B est : 200 1,96 x 11,35
ou
[177,75 ; 222,25]
5.4.12. Solution de l’exercice 5.3.12. Comme il s’agit de lots comprenant 100 roulements, on peut valablement approcher la loi de probabilité des poids des roulements par une loi normale.
107
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
a) L’intervalle de confiance à 99 % est, après lecture sur la table normale centrée réduite :
Z
1
2
2,58
0,638 0,0031
ou
0,635 ; 0,641
L’intervalle de confiance du poids du lot est : [63,5 kg ; 64,1 kg] b) L’intervalle de confiance à 90 % est, après lecture sur la table normale centrée réduite :
Z
1
2
1,64
L’écart type de la population est connu :
0,012
L’intervalle de confiance du poids moyen est :
0,638 0,002
ou
0,636 ; 0,64
L’intervalle de confiance du poids du lot est : [63,6 kg ; 64 kg] c) Pour une variation du risque d’erreur de :
0,99 0,90 9% 0,99 Nous obtenons une variation de l’intervalle de confiance de : 0,002 0,0031 35 % 0,0031 On voit bien qu’une faible variation du risque d’erreur induit une forte variation de l’intervalle de confiance. 5.4.13. Solution de l’exercice 5.3.13. a) Echantillon aléatoire simple La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la moyenne de l’échantillon. 108
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
58
xi
ˆ X = m
i 1
54 127 388 553 = 19,34 58
=
n
La dispersion des différentes estimations possibles autour de cette moyenne générale, est mesurée par l’erreur standard de la moyenne : ^
= X
Nn N 1
n
L’écart type de la population peut être estimé par : ^
n.V(X) n -1 58
V(X) V(X)
^
xi² i 1
-
- x²
n
1004 3081 13270 39667 - 19,34² = 609,10 58
58.609,10 =24,90 58 - 1
= 24,90 X
58
579 58 = 3,10 579 1
La moyenne de la population globale peut être estimée à 19,34 avec une erreur standard de 3,10. b) Echantillon stratifié On estime la moyenne de chaque strate par la moyenne calculée de l’échantillon de la strate. ni
ˆ i Xi = m
xi i 1
ni 109
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
L’erreur standard de la moyenne : ^
Ni n i N i 1
Xi = i
ni
L’écart type de la strate peut être estimé par : ^
i
n i.V(X) n i -1 ni
xi²
V(X)
i 1
-
- xi ²
ni
Le tableau suivant regroupe les résultats des calculs pour chaque strate.
Strate
Ni
ni
V(X)
^
xi
i
Xi
1 2 3 4 Total
53 190 231 105 579
10 14 21 13 58
5,4 9,07 18,48 42,54
71,24 137,78 290,54 1241,79
8,9 12,18 17,47 36,68
2,56 3,14 3,64 9,57
La moyenne de la population globale peut être estimée par :
Ni x i m Ni ^
=
53.5,4190.9,07 231.18,48105.42,54 579
^
m = 18,56 L’erreur standard de l’estimation est :
Xi
=
V(x)
avec V( x ) =
V( x ) =
1 N i ²V(x i ) N²
1 (53².2,56² + 190².3,14² + 231².3,64² + 105².9,57²) 579²
V( x ) = 6,24 110
Statistiques décisionnelles.
Xi
=
5. Estimation de la moyenne d’une population
6,24 = 2,5
La moyenne de la population globale peut être estimée à 18,56 avec une erreur standard de 2,5. On peut constater que l’échantillonnage stratifié est plus précis que l’échantillonnage aléatoire et simple. 5.4.14. Solution de l’exercice 5.3.14. a) Estimation de la note moyenne de la classe. On estime la moyenne de chaque classe par la moyenne calculée de l’échantillon de la classe. ni
xi
ˆ i Xi = m
i 1
ni
L’erreur standard de la moyenne : ^
Xi = i
ni
L’écart type de la classe peut être estimé par : ^
i
n i.V(X) n i -1 ni
V(X)
xi² i 1
ni
-
- xi ²
111
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
Le tableau suivant regroupe les résultats des calculs pour chaque classe.
Classe
V(X)
^
xi
i
Xi
1 2 3 4 5 6
12,06 11,97 11,62 12,12 11,85 11,84
0,07 0,01 0,05 0,02 0,03 0,01
0,32 0,13 0,27 0,18 0,21 0,13
0,16 0,06 0,13 0,09 0,11 0,06
En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :
xi m ^
6
=
12,0611,97 11,6212,1211,8511,84 6
^
m = 11,91 L’erreur standard de l’estimation est :
Xi
V(x)
=
avec V( x ) =
V( x ) =
1 V(x i ) 6²
1 (0,16² + 0,06² + 0,13² + 0,09² + 0,11² + 0,06²) 36
V( x ) = 0,0019
Xi
=
0,0019 = 0,044
La note moyenne de l’école peut être estimée à 11,91 avec une erreur standard de 0,044. b) Intervalle de confiance de la note moyenne de l’école.
112
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
La loi de la population est inconnue, la taille de l’échantillon est inférieure à 30. L’intervalle de confiance est : ^
X T1 2 n
Au seuil de 5 %, la valeur de T0,975 avec 23 degrés de liberté lue dans la table de Student est : T0,975 = 2,07 L’intervalle de confiance est : 11,91
2,07 . 0,044 = [11,82 ; 12].
113
Statistiques décisionnelles.
5. Estimation de la moyenne d’une population
114
Statistiques décisionnelles
6. Estimation de la variance d’une population
CHAPITRE 6 ESTIMATION DE LA VARIANCE D’UNE POPULATION
6.1. ESTIMATION D’UNE VARIANCE. 6.1.1. Estimation ponctuelle. Contrairement à la moyenne, la meilleure estimation de la variance ² d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, n’est pas la variance de l’échantillon v(x). En effet, pour l’ensemble des échantillons qui peuvent être rencontrés, on ne retrouve pas, en moyenne, la vraie valeur de la population, on obtient ainsi, en moyenne, une valeur inférieure à la variance de la population. Le biais est :
E(V(X)) - ² =
σ² n
Ce biais peut être corrigé en multipliant la variance de l’échantillon par le facteur
n . On n1
obtient alors l’estimation :
n
^
²
n v( x ) = n 1
(x
i
x )²
i 1
n 1
dont l’espérance mathématique est bien ². ^
E( ² ) = E(
n n 1 n n v( x ) ) = ² = ² E(v(x)) = n 1 n 1 n 1 n
^ ² n v(x) est appelée quasi-variance, c’est un estimateur sans biais de la variance ² de n 1
la population. La quasi-variance est désignée par 115
σ² n 1
Statistiques décisionnelles
6. Estimation de la variance d’une population
L’erreur standard de cette estimation est, dans le cas d’une population normale : ^
v( ²) 2 (n 1)
2 n
6.1.2. Estimation par intervalle de confiance. Si on s’intéresse à la variance ² d’une population normale, l’estimation par intervalle de confiance consiste à déterminer les bornes ²1 et ²2 d’un intervalle qui a un niveau de confiance (1-) de contenir ². Les limites ²1 et ²2 sont telles que : p(²1 ² ²2) = 1 -
n
(x i x)² i 1
Comme, pour une population normale, la variable aléatoire
²
distribution khi deux à (n-1) degrés de liberté, on peut alors écrire :
n
p(
i 1
n
(x i x)²
² 2
(x i x)² i 1
²
n
(x i x)² i 1
²1
)=1-
Les limites de confiances sont alors :
n
i
²1 =
i 1
²1
(x x)² i
et
2
Les valeurs de
n
(x x)²
²2 =
i 1
² 2
² et ²1 sont à (n-1) degré de liberté, lus sur la table du 2 . 2
2
116
possède une
Statistiques décisionnelles
6. Estimation de la variance d’une population
6.2. ESTIMATION DE LA SOMME DE VARIANCES. La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit des échantillons indépendants. Désignons par : N = Taille de la population Ni = Taille de la strate i n = Taille de l’échantillon global ni = Taille de l’échantillon prélevée dans la strate i La variance de chaque strate est estimée par la quasi-variance :
ˆ i2
xi xi ni 1
La variance globale de la population est estimée par :
N i ˆ i2 N i x i x ˆ N N 2
2
6.3. ENONCES DES EXERCICES D’APPLICATION. 6.3.1. On reprend les données de l’exercice 5.3.1. a) Déduire une estimation de l’écart type du nombre de pannes par jour. b) Donner l’erreur standard du résultat obtenu. 6.3.2. On reprend les données de l’exercice 5.3.2. Déterminer une estimation ponctuelle de . 6.3.3. On reprend les données de l’exercice 5.3.3. a) Estimer l’écart type des notes de l'ensemble des étudiants de la faculté. b) Donner une estimation par intervalle de confiance pour l’écart type. ( = 5 %). c) Donner une estimation par intervalle de confiance pour l’écart type 1 % . d) Donner la sensibilité de la largeur de l’intervalle de confiance par rapport à une variation du risque d’erreur . 6.3.4. On reprend les données de l’exercice 5.3.4. a) Estimer l’écart type de la durée de vie d'un article. b) Donner une estimation par intervalle de confiance pour l’écart type avec = 2 pour mille. 117
Statistiques décisionnelles
6. Estimation de la variance d’une population
6.3.5. On reprend les données de l’exercice 5.3.5. Donner une estimation de par un intervalle de confiance au niveau de confiance 90 %. 6.3.6. On reprend les données de l’exercice 5.3.6. X donnant le poids d’un ressort provenant de cette fabrication, a) Donner une estimation ponctuelle de V(X). b) Donner pour V(X) un intervalle de confiance au niveau de confiance 95%. 6.3.7. On reprend les données de l’exercice 5.3.8. a) Donner pour V(X) un intervalle de confiance au risque de 5%. b) On suppose maintenant que l’on a trouvé la même variance observée mais avec 5 observations au lieu de 8. Reprendre la question a). c) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation de la taille de l’échantillon. 6.3.8. On reprend les données de l’exercice 5.3.10. Quelles sont les limites de confiance à 95 % pour estimer l’écart type des 200 notes ? 6.3.9. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 kg et un écart type de 0,012 kg. Calculer les limites de confiance de l’écart type des poids de lots comprenant 100 roulements chacun. a) Avec un risque d’erreur de 1 %. b) Avec un risque d’erreur de 5 %. c) Discuter la sensibilité de l’intervalle de confiance en fonction de la variation du risque d’erreur. 6.3.10. En fonction des données et résultats de l’exercice 5.3.13., estimer la variance de la population globale en considérant l’échantillon comme : a) Aléatoire et simple ; b) Stratifié. 6.3.11. On reprend les données de l’exercice 5.3.14. Estimer l’écart type des notes des élèves de l’école ; 6.4. SOLUTIONS DES EXERCICES D’APPLICATION. 6.4.1. Solution de l’exercice 6.3.1. Nous reprenons les résultats des tableaux des calculs de la solution de l’exercice 5.3.1., page 127.
118
Statistiques décisionnelles
6. Estimation de la variance d’une population
a) L’estimation ponctuelle de l’écart type est, après calcul :
ˆ
n x V( x ) 0,87 n 1
b) L’erreur standard est, après calcul :
V(ˆ 2 ) 2 n 1
ˆ 2 0,87 2 2 100 1 0,1065 n 100
V(σˆ) 0,1065 0,33 6.4.2. Solution de l’exercice 6.3.2. On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.2., page 128. L’estimation ponctuelle, sans biais, de l’écart type est, après calcul :
ˆ
n x V( x ) 27,89 n 1
L’erreur standard est :
V(ˆ )
2 x 10 1
27,89 2 18,16 10
6.4.3. Solution de l’exercice 6.3.3. On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.3. page 129. a) L’estimation ponctuelle, sans biais, de l’écart type des votes est, après calcul :
ˆ
n x V( x ) 3,92 n 1
b) L’estimation par intervalle de confiance de 5 % est comme suit : La lecture de la table du
2 à 14 degrés de liberté donne 2
1
119
0 , 05 2
26,119 .
Statistiques décisionnelles
Soit 12
6. Estimation de la variance d’une population
(x i x) 2 8,25 2 0 , 05 1
et
1 2,87
et
2 6,19
2
20 , 05 5,629 2
Soit 22
(x i x) 2 38,29 0 , 05 2
L’intervalle de confiance à 5 % de risque est [2,87 ; 6,19]. c) L’estimation par intervalle de confiance à 1 % de risque d’erreur est comme suit : De même la lecture de table du
2 à 14 degrés de liberté donne 12 0, 01 31,319 2
Soit 12
(x i x) 2 6,88 2 0 , 01 1
et
1 2,62
2
20 , 01 4,075 2
Soit 12
(x i x) 2 52,90 20 , 01
et
2 7,27
2
L’intervalle de confiance est [2,62 ; 7,27] à 1 % de risque d’erreur. d) On voit qu’une variation de 5 % à 1 % (soit – 80 %) induit une variation de la largeur de l’intervalle de confiance de 3,32 (= 6,19 – 2,87) à 4,65 (= 7,27 – 2,62) soit + 40 %. 6.4.4. Solution de l’exercice 6.3.4. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.4. page 131.
120
Statistiques décisionnelles
6. Estimation de la variance d’une population
a) L’estimation ponctuelle, sans biais, de la durée de vie est, après calcul :
n x V( x ) 0,11 soit 110 h. n 1
ˆ
b) L’estimation par intervalle de confiance à 2 pour 1000 est comme suit : La lecture de la table du
2
1
0 , 002 2
2 à 15 degrés de liberté donne :
37,698
Soit σ 12
Σ(x i x ) 2 χ2
1
0,0046
et
1 0,068
0,002 2
20 , 002 3,483 2
Soit σ 22
Σ (x i x ) 2 0,0499 χ 20,002
et
2 0,223
2
L’intervalle de confiance à 2 % de risque est [0,068 ; 0,223]. 6.4.5. Solution de l’exercice 6.3.5. L’estimation ponctuelle sans biais de l’écart type est donnée par :
n V( x ) 28,28 n 1
ˆ
Le nombre de degrés de liberté 49 est grand, on peut utiliser l’approximation de transformation :
2 2
1
0 ,1 2
Z
2 x k 1
2
1,64
2 x 49 1 2
2
65,997
121
2 par la
Statistiques décisionnelles
20 ,1 2
12
1,64
xi x 2 0 ,1 1
22
2
xi x 20 ,1
2 x 49 1
6. Estimation de la variance d’une population
2
33,693
2
28 2 x 50 593,97 et 1 24,37 65,997
28 2 x 50 1163,446 et 2 34,11 33,693
2
2
2
L’intervalle de confiance à 10 % de risque est [24,37 ; 34,11]. 6.4.6. Solution de l’exercice 6.3.6. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.6. page 133. a) L’estimation ponctuelle de V(x) est :
σˆ 2
n x V(x) 14 n 1
b) L’intervalle de confiance en risque de 5 % est comme suit : Les valeurs de
χ2
Z
2
1,96
2 x 34 1
1,96
2 x 34 1
0 , 05 2
2 0 , 05 2
2k 1 2
2 1
2 à 34 degrés de liberté peuvent être approximées par la transformation :
Soit 12
2
2
2
51,46
2
19,38
( x i x ) 2 14 x 34 9,25 2 0 , 05 51,46 1
Soit 22
et
1 3,04
et
2 4,96
2
( x i x ) 2 14 x 34 24,56 20 , 05 19,38 2
L’intervalle de confiance de l’écart type [3,04 ; 4,96] à 5 % de risque d’erreur.
122
Statistiques décisionnelles
6. Estimation de la variance d’une population
6.4.7. Solution de l’exercice 6.3.7. On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.8. page 135. a) L’intervalle de confiance en risque de 5 % est donné comme suit : La lecture de la table du
2
1
0 , 05 2
2 à 7 degrés de liberté donne :
16,013
Soit 12
(x i x) 2 0,0002 2 0 , 05 1
et
σ 1 0,014
et
2 0,044
2
20 , 05 1,690 2
Soit 22
(x i x) 2 0,0019 20 , 05 2
L’intervalle de confiance à 5 % du risque est [0,014 ; 0,044] à 5 % de risque d’erreur. b) Si l’on n’a fait que 5 observations au lieu de 8, les résultats deviennent, après lecture de la table de
2
1
0 , 05 2
2 à 4 degrés de liberté :
11,143
Soit 12
(x i x) 2 0,0003 2 0 , 05 1
et
1 0,017
et
2 0,081
2
20 , 05 0,484 2
Soit 22
(x i x) 2 0,0066 20 , 05 2
L’intervalle de confiance est [0,017 ; 0,081] à 5 % de risque d’erreur. 123
Statistiques décisionnelles
6. Estimation de la variance d’une population
c) La sensibilité de l’intervalle de confiance est : Pour une variation de l’échantillon de 8 à 5 (soit – 37,5 %) la largeur de l’intervalle varie de 0,030 (= 0,044 – 0,014) à 0,064 (= 0,081 – 0,017) soit + 113 %. 6.4.8. Solution de l’exercice 6.3.8. On reprend les résultats des calculs de la solution de l’exercice 5.3.10. page 138.
ˆ 8,77 La valeur
2 à 199 degrés de liberté peut être approximée par la loi normale de moyenne 199 2 x 199 19,95 .
et d’écart type
2
1
0 , 05 2
199 Z
19,95
2
1
0 , 05 2
1
0 , 05 2
1,96 x 19,95 199 238,10
20 , 05 199 Z 0 , 05
2
19,95
2
20 , 05 1,96 x 19,95 199 159,90 2
12
xi x 2 0 , 05 1
8,77 2 x 199 64,28 238,10
et
1 8,02
8,77 2 x 199 95,72 159,90
et
2 9,78
2
2
xi x 20 , 05 2 2
2
2
L’intervalle de confiance est [8,02 ; 9,78] à 5 % de risque d’erreur.
124
Statistiques décisionnelles
6. Estimation de la variance d’une population
6.4.9. Solution de l’exercice 6.3.9.
0,012 kg
2 à 99 degrés de liberté peuvent être approximées par la loi normale de
Les valeurs de
2 x 99 14 .
moyenne 99 et d’écart type a) Risque d’erreur de 1 % :
2
1
0 , 01 2
99 Z
14
1
0 , 01 2
2
1
0 , 01 2
2,58 x 14 99 135,12
Z 20 , 01 99 Z 0 , 01 20 , 01 2,58 x 14 99 62,88
2
14
12
xi x 2 0 , 01 1
22
2
2
0,012 2 x 100 0,0001 et 135,12
1 0,0103
0,012 2 x 100 0,0002 et 62,88
2 0,0151
2
2
xi x 20 , 01
2
2
L’intervalle de confiance est [0,0103 ; 0,0151] à 1 % de risque d’erreur. b) Risque d’erreur de 5 % :
2
1
0 , 05 2
99 Z
14
1
0 , 05 2
2
1
0 , 05 2
1,96 x 14 99 126,44
20 , 05 99 Z 0 , 05 20 , 05 1,96 x 14 99 71,56
2
14
xi x 2 0 , 05 2 1
2
2
1
2
0,012 2 x 100 0,00011 et 126,44
2
125
1 0,0107
Statistiques décisionnelles
22
xi x 20 , 05
2
6. Estimation de la variance d’une population
0,012 2 x 100 0,0002 et 71,56
2 0,0142
2
L’intervalle de confiance est [0,0107 ; 0,0142] à 5 % de risque d’erreur. c) La sensibilité de l’intervalle de confiance est : Pour une variation du risque d’erreur de 1 % à 5 % (soit une augmentation de 400 %) la largeur de l’intervalle de confiance varie de 0,0048 (= 0,0151 – 0,0103) à 0,0035 (= 0,0142 – 0,0107) soit – 27 %. 6.4.10. Solution de l’exercice 6.3.10. a) Echantillon aléatoire simple : La variance de la population peut être estimée par : ^ n.V(X) ² n -1 58
x ² i
V(X)
x=
^
n
-
-x²
58
x i 1
n
V(X)
²
i 1
i
=
54 127 388 553 = 19,34 58
1004 3081 13270 39667 - 19,34² = 609,10 58
58.609,10 =619,79 58 - 1
b) Echantillon stratifié : La variance de la strate peut être estimée par :
σˆ 12
n i .V(X) ni -1
126
Statistiques décisionnelles
6. Estimation de la variance d’une population
ni
x ² i
V(X)
xi =
i 1
ni
-
- xi ²
ni
x
i
i 1
ni
Le tableau suivant regroupe les résultats des calculs pour chaque strate.
^
Strate
Ni
ni
xi
V(X)
² i
1 2 3 4 Total
53 190 231 105 579
10 14 21 13 58
5,4 9,07 18,48 42,54
71,24 137,78 290,54 1241,79
79,2 148,4 305,1 1614,3
La moyenne de la population globale peut être estimée par : N xi 53.5, 4 190.9,07 231.18, 48 105.42,54 i x = = 18,56 Ni 579
La variance de la population globale peut être estimée par : ^ ^ N i ² i N i ( x i x )² ² N N ^ 53.79,2 190.148,4 231.305,1 105.1614,3 + ² 579
53.(5, 4 18,56)² 190.(9,07 18,56)² 231.(18, 48 18,56)² 105.( 42,54 18,56)² 579
^ ² = 620,11
127
Statistiques décisionnelles
6. Estimation de la variance d’une population
6.4.11. Solution de l’exercice 6.3.11. La variance de la classe peut être estimée par : ^
² i
n i .V(X) ni -1 ni
x ² i
V(X)
i 1
-
- xi ²
ni
ni
xi =
x
i
i 1
ni
Le tableau suivant regroupe les résultats des calculs pour chaque classe.
^
Classe
xi
V(X)
² i
1 2 3 4 5 6
12,06 11,97 11,62 12,12 11,85 11,84
0,07 0,01 0,05 0,02 0,03 0,01
0,1024 0,0169 0,0729 0,0324 0,0441 0,0169
En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :
x x
i
6
=
12,06 11,97 11,62 12,12 11,85 11,84 6
x = 11,91 La variance de la population globale peut être estimée par : ^
²
N
^
i
N
²i
N (x x)² i
i
N
= 0,07 ^
L’écart type de la population globale peut être estimée par : = 0,27. 128
Statistiques décisionnelles
7. Estimation de la proportion d’une population
CHAPITRE 7 ESTIMATION DE LA PROPORTION D’UNE POPULATION
7.1. ESTIMATION PONCTUELLE. La meilleure estimation de la proportion p d’une population, qui puisse être déduite d’un échantillon aléatoire et simple, est la fréquence de l’échantillon fn.
pˆ f n La dispersion des différentes estimations possibles autour de cette proportion générale, est mesurée par l’erreur standard de la proportion :
f n
f n 1 f n n
7.2. ESTIMATION PAR INTERVALLE DE CONFIANCE. Si on s’intéresse à la proportion p, l’estimation par intervalle de confiance consiste à déterminer de part et d’autre de l’estimateur fn les bornes p1 et p2 d’un intervalle qui a un niveau de confiance (1-) de contenir p. Les limites p1 et p2 sont telles que : p(p1 p p2) = 1 -
ou
p(p < p1) = p(p > p2) = /2
Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type
Fn
pq
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le
n
produit np 5, on peut écrire si on désigne par
Z1 la valeur de la variable normale réduite
2 lue dans la table que les limites de l’intervalle de confiance sont : 129
Statistiques décisionnelles
p1= fn - Z
1
7. Estimation de la proportion d’une population
2
p(1 p) n
et
p2 = fn + Z
1
2
p(1 p) n
On notera l’intervalle de confiance : fn Z
ou
1
2
p(1 p) n
f n Z 1 2
p (1 p) ; fn Z 1 n 2
p (1 p) n
On obtient ainsi un intervalle symétrique par rapport à fn. 7.3. ENONCES DES EXERCICES D’APPLICATION. 7.3.1. Dans une population d’étudiants en sociologie, on a prélevé, indépendamment, deux échantillons de taille n1 = 120 et n2 = 150. On constate que 48 étudiants de l’échantillon 1 et 66 étudiants de l’échantillon 2 ont une formation secondaire scientifique. Soit p la proportion d’étudiants de la population ayant une formation scientifique ; calculer trois estimations ponctuelles de p. 7.3.2. Un promoteur désire étudier le nombre de garage qu'il est souhaitable de construire avec un ensemble de logements, afin que les occupants puissent y ranger leur voiture. Pour cela il fait effectuer une enquête par sondage auprès d'un échantillon de ménages susceptibles d'habiter ces appartements. a) On interroge un échantillon de 3238 ménages. On trouve parmi eux 1943 possesseurs d'une voiture. Estimez, à partir de cet échantillon, la proportion des ménages ayant une voiture. Degré de confiance 99 %. b) À partir de la proportion estimée, combien de ménages faudrait-il interroger pour construire, avec un risque d'erreur de 5 %, un intervalle de confiance d'amplitude 0,04 ? 7.3.3. On étudie le pourcentage d'utilisation d'une machine. 400 observations ont été effectuées qui ont donné le résultat suivant : Machine marche : 320 observations. Machine arrêtée : 80 observations. a) Entre quelles limites peut-on fixer le taux d'utilisation de la machine avec un degré de confiance de 94 % ? b) Combien doit-on faire d'observations pour obtenir le même pourcentage d'utilisation tout en ayant, avec un risque d'erreur de 6 %, l’intervalle de confiance à [78,4 % ; 81,6 %] ?
130
Statistiques décisionnelles
7. Estimation de la proportion d’une population
7.3.4. Sur un échantillon de 400 adultes et de 600 adolescents ayant regardé un certain programme de télévision, 100 adultes et 300 adolescents l’ont apprécié. Calculer les limites de confiance à 99 % de la différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le programme. 7.3.5. On considère 2 échantillons tirés d’une même population et l’on désire calculer le taux de participation à un vote. Le 1er échantillon de taille 100 a donné 45 personnes ayant voté. Le 2e échantillon de taille 200 a donné 96 personnes ayant voté. a) Donner les 2 estimations ponctuelles des taux de participation au vote. b) Donner pour chaque échantillon un intervalle de confiance de taux de participation au vote avec un risque d’erreur de 1 %. c) Donner la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon. 7.3.6. Sur 100 clients d’un café, 85 demandent un café au petit déjeuner. a) Donner une estimation ponctuelle de la proportion de clients qui prennent un café. b) Donner l’intervalle de confiance à 1 % de risque d’erreur de cette proportion. c) Donner l’intervalle de confiance à 5 % de risque d’erreur de cette proportion. d) Discuter la sensibilité de l’intervalle de confiance en fonction du risque d’erreur. 7.4. SOLUTIONS DES EXERCICES D’APPLICATION. 7.4.1. Solution de l’exercice 7.3.1. On se propose de déterminer 3 estimations ponctuelles de p. a) Estimation à partir du 1er échantillon :
p1
48 0,40 120
L’erreur standard est :
p 1
0,40 x 0,60 0,045 120
b) Estimation à partir du 2e échantillon :
p2
66 0,44 150
131
Statistiques décisionnelles
L’erreur standard est p 2
7. Estimation de la proportion d’une population
0,44 x 0,56 0,040 150
c) Estimation à partir de la sommation des 2 échantillons :
P3
48 66 114 0,42 120 150 270
0,42 x 0,58 0,030 270 On trouve bien 3 résultats qui ne sont pas trop différents. L’erreur standard est : p 3
7.4.2. Solution de l’exercice 7.3.2. a) L’estimation ponctuelle de la proportion des personnes ayant une voiture, d’après les données du 1er échantillon est :
p
1943 0,60 3238
L’estimation par intervalle de confiance au risque de 1 % de la proportion des personnes qui ont une voiture est comme suit : On utilisera la loi normale puisque l’échantillon a une taille de 3238 > 30 et que np = 1943 > 5.
Z
1
0 , 01 2
Soit Z
2,575
1
0 , 01 2
p (1 p) 0,022 n
L’intervalle de confiance est [0,578 ; 0,622] à 1 % de risque d’erreur. b) On suppose que la taille de l’échantillon qu’on va trouver est supérieure à 30 et que np > 5 pour que nous puissions utiliser la lecture de la table normale centrée réduite.
Z
1
0 , 05 2
1,960
132
Statistiques décisionnelles
7. Estimation de la proportion d’une population
Pour avoir un intervalle de confiance à 5 % de risque d’erreur d’amplitude 0,04, on doit avoir :
Z
1
p (1 p) 0,04 0,02 n 2
0 , 05 2
n Z2
1
0 , 05 2
.
p (1 p) 2305 0,02 2
On trouve bien n > 30 et np = 1383 > 5. 7.4.3. Solution de l’exercice 7.3.3. a) L’estimation ponctuelle de taux d’utilisation de la machine est :
p
320 0,80 400
On utilisera la loi normale puisque l’échantillon a une taille de 400 et que np = 320 > 5.
Z
Z
1
0 , 06 2
1
0 , 06 2
1,88
p (1 p) 0,038 n
L’intervalle de confiance à 6 % de risque est [0,762 ; 0,838]. b) Le nouvel intervalle de confiance à 6 % du risque d’erreur a une amplitude de 81,6 % - 78,4 % = 3,2 % = 0,032. Donc :
Z
1
0 , 06 2
n Z2
p (1 p) 0,032 0,016 n 2
.
1
0 , 06 2
:
p (1 p) 2209 0,016 2
On voit bien que n = 2209 est supérieur à 30 et que np = 1767 > 5 ce qui justifie notre utilisation de la loi normale. 133
Statistiques décisionnelles
7. Estimation de la proportion d’une population
7.4.4. Solution de l’exercice 7.3.4. La fréquence des adultes qui ont regardé et apprécié le programme est :
p1
100 0,25 400
L’erreur standard de cette estimation est :
0,25 x 0,75 0,0217 400
p 1
La fréquence des adolescents qui ont regardé et apprécié le programme est :
p2
300 0,5 600
L’erreur standard de cette estimation est :
p 2
0,5 x 0,5 0,0204 600
La différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le programme :
p 2 p 1 0,5 0,25 0,25 L’erreur standard est :
0,0217 2 0,0204 2 0,0298 Au seuil de 99 % Z
1
0 , 01 2
2,575
L’intervalle de confiance est :
0,25 2,575 x 0,0298 0,25 0,08 0,17 ; 0,33
134
Statistiques décisionnelles
7. Estimation de la proportion d’une population
7.4.5. Solution de l’exercice 7.3.5. a) Les estimations ponctuelles du taux de participation sont : p1 = 0,45 p2 = 0,48 b) Les intervalles de confiance à 1 % de risque d’erreur sont, après lecture sur la table normale centrée réduite puisque pour les 2 échantillons n > 30 et np > 5.
Z
Z
Z
2,575
1
0 , 01 2
1
0 , 01 2
p 1 (1 p 1 ) 0,128 n1
1
0 , 01 2
p 2 (1 p 2 ) 0,091 n2
L’intervalle de confiance du 1er échantillon est : [0,322 ; 0,578]. L’intervalle de confiance du 2e échantillon est : [0,389 ; 0,571]. c) Il est difficile de parler de sensibilité de l’intervalle de confiance puisque les proportions diffèrent d’un échantillon à un autre. Pour ce faire, nous allons supposer qu’en ayant augmenté la taille de l’échantillon de 100 à 200 la proportion p est restée inchangée, ce qui modifie quelque peu l’intervalle relatif au 2 e échantillon puisqu’il devient :
Z
1
0 , 01 2
p 1 (1 p 1 ) 0,091 n2
On voit qu’aux erreurs d’approximation près, on retrouve le même résultat qu’avec p 2. Donc la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon est comme suit : On fait passer la taille de l’échantillon de 100 à 200 (soit + 100 %) l’amplitude de l’intervalle de confiance varie de 0,256 (2 x 0,128) à 0,182 (2 x 0,091) soit – 28,8 %.
135
Statistiques décisionnelles
7. Estimation de la proportion d’une population
7.4.6. Solution de l’exercice 7.3.6. a) p
85 0,85 100
b) L’intervalle de confiance à 1 % de risque d’erreur est, puisque n > 30 et np > 5.
Z
1
0 , 01 2
2,575
et
Z
1
0 , 01 2
p (1 p) 0,092 n
L’intervalle de confiance est : [0,758 ; 0,942] à 1 % de risque d’erreur. c) L’intervalle de confiance à 5 % de risque d’erreur est, puisque n > 30 et np > 5.
Z
1
0 , 05 2
1,960
et
Z
1
0 , 05 2
p (1 p) 0,070 n
L’intervalle de confiance est : [0,78 ; 0,92] de risque d’erreur. d) Ainsi en faisant varier le risque d’erreur de 1 % à 5 %, soit + 400 %, l’amplitude de l’intervalle de confiance varie de 0,184 (2 x 0,092) à 0,140 (2 x 0,070) soit – 23,9 %.
136
Statistiques décisionnelles
Partie 4. Tests statistiques
PARTIE 4 TESTS STATISTIQUES
PROBLEMATIQUE DES TESTS STATISTIQUES. Un test statistique est une méthode permettant de prendre une décision à partir d’informations fournies par un échantillon. Les tests statistiques ou les tests d’hypothèses ont pour but de vérifier, à partir de données observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une ou plusieurs populations. On peut distinguer différents types de tests, en fonction des hypothèses qu’on peut faire. - Les tests de comparaison à une norme ou tests de conformité sont destinés à comparer entre eux une population théorique et un échantillon observé. Ils servent à vérifier si un échantillon donné peut être considéré comme extrait d’une population possédant telle caractéristique particulière (moyenne, variance, …). Le test se fait en vérifiant si la différence entre la valeur observée et la valeur théorique du paramètre considéré peut être attribuée au hasard ou non. - Les tests d’homogénéité ou d’égalité ont pour but de comparer entre elles un certain nombre de populations, à l’aide d’un même nombre d’échantillons. - Les tests d’ajustement sont destinés à vérifier si un échantillon observé peut être extrait d’une population donnée. - Les tests d’indépendance ont pour but de contrôler, à partir d’un échantillon, l’indépendance de deux ou plusieurs critères de classification, généralement qualitatifs.
137
Statistiques décisionnelles
Partie 4. Tests statistiques
PRINCIPE GENERAL D’UN TEST STATISTIQUE. Pour commencer, on émet une certaine hypothèse à tester, appelée hypothèse nulle, généralement désignée par H0. Celle-ci suppose toujours l’égalité des caractéristiques comparées. L’hypothèse qui diffère de H0 est dite hypothèse alternative, généralement désignée par H1. On mesure ensuite l’écart observé entre les caractéristiques comparées, et on calcule la probabilité d’observer, si l’hypothèse nulle est vraie, un écart aussi important. Si cette probabilité est relativement élevée, on considère l’hypothèse nulle comme plausible et on l’accepte. Par contre si la probabilité calculée est faible, l’écart observé apparaît comme peu compatible avec l’hypothèse nulle et on rejette celle-ci. L’ensemble des valeurs observées pour lesquelles l’hypothèse H0 est admissible forme la région d’acceptation. Les autres valeurs constituent la région de rejet. Les valeurs limites sont appelées valeurs critiques. La décision dépend donc de l’échantillon. Ainsi quelle que soit la décision prise, le hasard de l’échantillonnage peut fausser les conclusions. Quatre situations doivent donc être envisagées : - L’acceptation de l'hypothèse nulle alors qu'elle est vraie ; - Le rejet de l'hypothèse nulle alors qu'elle est vraie ; - L'acceptation de l'hypothèse nulle alors qu'elle est fausse ; - Le rejet de l'hypothèse nulle alors qu'elle est fausse. Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais il n'en est malheureusement pas de même dans les deux cas intermédiaires. - L'erreur qui consiste à rejeter une hypothèse vraie est appelée erreur de première espèce et désignée par RH0/H0. - Accepter une hypothèse fausse est une erreur de seconde espèce, elle est désignée par AH0/H1. Les probabilités d’aboutir à de telles conclusions erronées sont les risques de première et de deuxième espèce, désignés respectivement par et . = p (RH0/H0)
= p (AH0/H1)
Le risque de première espèce est appelé aussi seuil de signification du test, fixé très souvent à 5 %. La probabilité complémentaire de désigne le niveau de confiance du test.
138
Statistiques décisionnelles
Partie 4. Tests statistiques
1- = p(AH0/H0) La probabilité complémentaire de désigne la puissance du test. 1- = p (RH/H1) On peut présenter une table de décision comme suit :
H0 Hypothèse vraie
H1
Décisions prises Accepter H0 Accepter H1 1- Niveau de confiance erreur de première espèce 1- erreur de deuxième Puissance du test espèce
La détermination des valeurs limites de la région d’acceptation de l’hypothèse nulle dépend de l’hypothèse alternative H1, ainsi on distingue le test bilatéral et le test unilatéral. a) Test bilatéral Un test est dit bilatéral si la condition de rejet est indépendante du signe de l’écart observé entre les caractéristiques comparées. Les hypothèses formulées du test bilatéral sont : H 0 : = t0
et
H1 : t0
et t0 sont les caractéristiques comparées. La règle de décision peut être représentée ainsi : < t0 = t0 > t0 Région de rejet de H0 Région d’acceptation de H0 Région de rejet de H0 A1 A2 A1 et A2 sont les valeurs critiques qui délimitent la région d’acceptation. La région d’acceptation est donc l’intervalle [A1 ; A2]. p (A1 t0 A2) = 1 - p (t0 < A1) = p(t0 > A2) = /2 b) Test unilatéral
139
Statistiques décisionnelles
Partie 4. Tests statistiques
Un test est dit unilatéral si l’hypothèse alternative désigne qu’une caractéristique est strictement supérieure ou inférieure à l’autre. On parle respectivement de test unilatéral à droite ou à gauche. - Test unilatéral à droite Les hypothèses formulées du test unilatéral à droite sont : H 0 : = t0
H 1 : > t0
et
La règle de décision peut être représentée ainsi : t0 Région d’acceptation de H0
> t0 Région de rejet de H0 A
A désigne la valeur critique qui délimite la région d’acceptation. La région d’acceptation est donc l’intervalle - ; A]. p (t0 A) = 1 -
p(t0 > A) =
- Test unilatéral à gauche Les hypothèses formulées du test unilatéral à gauche sont : H 0 : = t0
et
H 1 : < t0
La règle de décision peut être représentée ainsi : < t0 Région de rejet de H0
t0 Région d’acceptation de H0 A
A désigne la valeur critique qui délimite la région d’acceptation. La région d’acceptation est donc l’intervalle [A ; + [. p(t0 < A) =
p(t0 A) = 1 -
140
Statistiques décisionnelles
Partie 4. Tests statistiques
RECAPITULATIF. Pour récapituler, la démarche d’un test statistique se compose des étapes suivantes : 1. Formuler les hypothèses H0 et H1 ; 2. Fixer le seuil de signification ; 3. Préciser la loi de probabilité de l’écart observé, appelé aussi variable de décision ; 4. Calculer la valeur numérique de la variable de décision ; 5. Déterminer les valeurs critiques qui délimitent la région d’acceptation ; 6. Prendre la décision et conclure.
141
Statistiques décisionnelles
Partie 4. Tests statistiques
142
Statistiques décisionnelles
8. Tests sur les moyennes
CHAPITRE 8 TESTS SUR LES MOYENNES
8.1. TEST SUR UN ECHANTILLON. 8.1.1. Formulation de l’hypothèse nulle. On attribue la valeur m0 pour la moyenne d’une population dont la vraie moyenne m est inconnue, et on veut juger la validité de cette hypothèse. Ce test a pour but de vérifier si la moyenne m d’une population est ou n’est pas égale à une valeur donnée m0, appelée norme. L’hypothèse nulle est donc :
H0
m = m0
8.1.2. Variable de décision. On extrait de la population un échantillon aléatoire et simple pour lequel la moyenne observée
x est, en général, différente de m0, il s’agit d’expliquer cette différence. La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon :
VD = x Pour une population normale d’écart type connu, la variable de décision est elle-même normale de moyenne m0 et d’écart type . n
143
Statistiques décisionnelles
8. Tests sur les moyennes
La variable de décision centrée réduite est donc : x - m0 VDR σ
n VDR est alors une variable normale réduite N(0 ; 1). Si la distribution de la population parent est inconnue, la quasi-variance sera utilisée comme estimation de la variance de la population. Pour un effectif suffisamment élevé, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n < 30), la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 8.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : m = m0
H1 : m m0
et
Les valeurs critiques qui délimitent la région d’acceptation sont, pour une distribution normale réduite ou asymptotiquement normale réduite, Z1 et Z2 telles que : p(Z1 VDR Z2) = 1 - p(VDR < Z1) = /2
Z1 =
Z 2
p(VDR > Z2) = /2
p(VDR Z2) = 1-/2
La région d’acceptation est donc l’intervalle [ Z ; Z 2
1
Z2 = Z
2
1
2
].
On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :
VDR Z
1
144
2
Statistiques décisionnelles
8. Tests sur les moyennes
b) Test unilatéral à droite : H0 : m = m0
et
H1 : m > m0
La valeur critique qui délimite la région d’acceptation est, pour une distribution normale réduite ou asymptotiquement normale réduite, Z telle que : p(VDR Z) = 1 -
Z=
Z1
La région d’acceptation est donc l’intervalle ]- ;
Z1 ].
c) Test unilatéral à gauche : H0 : m = m0
et
H1 : m < m0
La valeur critique qui délimite la région d’acceptation est, pour une distribution normale réduite ou asymptotiquement normale réduite, Z telle que : p(VDR < Z) =
Z=
Z
La région d’acceptation est donc l’intervalle [ Z ; +[. Remarque : Pour une distribution de probabilité inconnue, et lorsque l’effectif de l’échantillon est inférieur à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté. 8.2. TEST SUR DEUX ECHANTILLONS. 8.2.1. Test de comparaison des moyennes de deux échantillons indépendants. Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons. Soient deux échantillons aléatoires et non exhaustifs prélevés respectivement dans une population 1 de moyenne inconnue m1 et dans une population 2 de moyenne inconnue m2.
145
Statistiques décisionnelles
8. Tests sur les moyennes
8.2.1.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la moyenne m1 d’une population est ou n’est pas égale à la moyenne m2 d’une autre population. L’hypothèse nulle est donc :
H0
m1 = m2
8.2.1.2. Variable de décision. La variable de décision du test correspond à la différence entre les moyennes observées des deux échantillons :
VD = x 1 - x 2 Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux populations de variances égales. a) Cas de deux populations de variances inégales :
Pour des populations normales (variances connues), les variables
x 1 - x 2 sont des variables
normales de moyennes respectivement m1 et m2 et d’écarts type respectivement
1 n1
et
2
.
n2
La variable de décision est elle-même normale de moyenne (m1-m2) et d’écart type ² 1 ² 2 . n1 n2 Sous l’hypothèse nulle, (m1-m2)=0. La variable de décision centrée réduite :
VDR =
(x 1 x 2 ) ² 1 ² 2 n1 n2
VDR est donc une variable normale réduite N(0 ; 1). Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment élevés, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degré de liberté.
146
Statistiques décisionnelles
8. Tests sur les moyennes
b) Cas de deux populations de variances égales : Dans le cas où les populations sont de variances égales, une estimation de la variance commune aux deux populations est donnée par : ^
²
(x
i
x 1 )²
(x
i
x 2 )²
n1 n 2 2
La variable de décision réduite devient :
VDR =
(x 1 x 2 ) ^
=
^
^
² ² n1 n 2
² (
VDR =
(x 1 x 2 ) 1 1 ) n1 n 2
(x 1 x 2 )
(x
i
x 1 )²
(x
x 2 )² 1 1 ( ) n1 n 2 2 n1 n 2 i
Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment élevés, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n1 + n2 - 2) degré de liberté. 8.2.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : m1 = m2
et
H1 : m1 m2
Les valeurs critiques qui délimitent la région d’acceptation sont, pour des distributions normales réduites ou asymptotiquement normales réduites, Z1 et Z2 telles que : p(Z1 VDR Z2) = 1 - p(VDR < Z1) = /2
Z1 =
Z 2
147
Statistiques décisionnelles
8. Tests sur les moyennes
p(VDR > Z2) = /2 p(VDR Z2) = 1-/2
Z2 = Z
La région d’acceptation est donc l’intervalle [ Z ; Z 2
1
2
1
2
].
On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région l’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si : VDR > Z 1
2
b) Test unilatéral à droite : H0 : m1 = m2
et
H1 : m1 > m2
La valeur critique qui délimite la région d’acceptation est, pour des distributions normales réduites ou asymptotiquement normales réduites, Z telle que : p(VDR Z) = 1 -
Z=
Z1
La région d’acceptation est donc l’intervalle ]- ;
Z1 ].
c) Test unilatéral à gauche : H0 : m1 = m2
et
H1 : m1 < m2
La valeur critique qui délimite la région d’acceptation est, pour des distributions normales réduites ou asymptotiquement normales réduites, Z telle que : p(VDR < Z) =
Z=
Z
La région d’acceptation est donc l’intervalle [ Z ; +[. Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n1 + n2 - 2) degré de liberté.
148
Statistiques décisionnelles
8. Tests sur les moyennes
8.2.2. Test de comparaison des moyennes de deux échantillons appariées. Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons associés par paires. C’est le cas où on soumet les mêmes individus, choisis dans une population donnée, à deux types d’observations. 8.2.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la moyenne m1 d’une population sous une forme donnée est ou n’est pas égale à la moyenne m2 de la même population sous une autre forme. L’hypothèse nulle est donc :
H0
m1 = m2
8.2.2.2. Variable de décision. Soient deux séries de n observations chacune, x1, x2, …, xn, et y1, y2, …, yn . On travaille avec la série des différences : di = xi – yi La variable de décision du test correspond à la moyenne des différences :
VD = d Pour une population normale, la variable de décision est elle-même normale et la variable de décision centrée réduite est donc :
VDR =
d ^
d
n VDR est alors une variable normale réduite N(0 ; 1). Remarque : Si la distribution de la population parent est inconnue, pour un effectif suffisamment élevé, la variable de décision peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n < 30), la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. 8.2.2.3. Région d’acceptation. La région d’acceptation est identique à celle du test précédent. Elle dépend toujours de l’hypothèse alternative H1. a) Test bilatéral : 149
Statistiques décisionnelles
8. Tests sur les moyennes
H0 : m1 = m2
H1 : m1 m2
et
La région d’acceptation est l’intervalle [ Z ; Z 2
1
2
].
On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :
VDR > Z
1
2
b) Test unilatéral à droite : H0 : m1 = m2 La région d’acceptation est l’intervalle ]- ;
et
H1 : m1 > m2
Z1 ].
c) Test unilatéral à gauche : H0 : m1 = m2
et
H1 : m1 < m2
La région d’acceptation est l’intervalle [ Z ; +[. Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté. 8.3. TEST SUR PLUSIEURS ECHANTILLONS : ANALYSE DE LA VARIANCE (ANOVA). C’est une méthode statistique pour tester l'égalité de plusieurs moyennes. La méthode repose sur les postulats suivants : les échantillons aléatoires proviennent de populations distribuées normalement et ayant la même variance.
150
Statistiques décisionnelles
8. Tests sur les moyennes
Formulation de l’hypothèse nulle : L'analyse de variance, sert à effectuer le test de l'égalité de plusieurs moyennes. On écrit comme suit les hypothèses : Ho: m1 = m2 = ... = mJ H1: au moins une des moyennes est différente des autres. En effet, l'analyse de variance est une technique d'analyse statistique qui permet de tester globalement l'égalité des moyennes de J populations normales dans lesquelles on suppose que les variances sont égales (12 22 2j 2 ) même si elles demeurent inconnues. L'analyse de variance constitue une extension à J populations normalement distribuées, J 2, du test de comparaison des moyennes de deux échantillons indépendants. Modèles d'analyse de variance : Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un facteur, le modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction. 8.3.1. ANOVA à un facteur. On essaie de découvrir si un seul facteur peut expliquer ou non les variations constatées dans les observations Yij. Au départ, on dispose d'échantillons prélevés aléatoirement dans des populations normales dans lesquelles les variances sont supposées égales
(12 22 32 2j ) . Le tableau suivant illustre la notation indicée: par exemple, Y21 représente la deuxième observation prélevée de la première population. Dans chaque échantillon, on a aussi calculé le total des observations, la moyenne et la variance. Matrice des données Observation 1
POPULATION P1: N(m1,1) P2 : N(m2,2) … Pj : N(mj,j) Y11 Y12 Y1j
2
Y21
Y22
…
…
…
n
yn1
yn2
ynj
151
…
Y2j
Statistiques décisionnelles
8. Tests sur les moyennes
T1
Total
T2
…
Tj
Yj S² j
Moyenne
Y1
Y2
…
Variance
S²1
S² 2
…
N n 1 n 2 ... n J
Grand total = T
Moyenne générale = Y 8.3.1.1. Equation fondamentale de l'analyse de la variance. L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs de la variance commune aux J populations normales. L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre les observations en une part due aux différences entre les modalités du facteur (SCF) et une part de variabilité résiduelle (SCE).
STC = SCF + SCE Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes : nj
J
STC Yij2 ji i 1
J
Tj2
j i
nj
SCF
T2 N
T2 N
SCE = STC - SCF 8.3.1.2. Tableau d'analyse de variance à un seul facteur. Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un tableau comme celui-ci : Analyse de variance à un facteur Source de variation Facteur
Somme des carrés
Degrés de liberté
Moyenne des carrés
SCF
J-1
MCF
F observé
MCF MCE
152
Statistiques décisionnelles
8. Tests sur les moyennes
Erreur Totale
SCE SCT
N-J N-1
MCE
MCF obéit à une loi de Fisher avec (J-1) et (N-J) degrés de MCE liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes Ho : µ1 = µ2 = ... = µJ MCF au seuil si et seulement si la valeur de est plus grande que la valeur critique de la MCE table de Fisher au seuil et avec (J-1) et (N-J) degrés de liberté. Quand Ho est vraie, le rapport
8.3.2. ANOVA à deux facteurs sans répétition. Le but est de découvrir si deux facteurs A et B peuvent expliquer ou non les variations constatées dans les observations aléatoires Yij. Au départ, l'analyste dispose d'échantillons prélevés aléatoirement de populations normales dans lesquelles les variances sont présumées égales. Le tableau ci-dessous illustre la notation indicée. Ainsi, Y32 représente la valeur de l'observation prélevée quand le premier facteur est à son troisième niveau (ou modalité) et que le second facteur est à son deuxième niveau; par ailleurs,
T2 et Y 2 désignent le total et la moyenne des observations quand le premier
facteur est maintenu à son deuxième niveau (l'indice sur lequel la sommation a été effectuée est remplacé par un ). Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule valeur numérique dans chacune des cellules du tableau. Matrice des données Facteur B Facteur A 1 2 3 ...... etc... I Total Moyenne
1
2
J
Total
Moyenne
Y11
Y12
Y1J
Y21
Y22
Y2J
T1 T2
Y1 Y2
Y32
YI1
YI2
YIJ
TI
YI
TJ Y J
T
T1 Y1
T2 Y2
Tableau d'analyse de variance à deux facteurs sans répétition : 153
Y
Statistiques décisionnelles
8. Tests sur les moyennes
Les résultats d'une analyse de variance à deux facteurs sans répétition se présentent dans un tableau comme celui-ci : Analyse de variance à deux facteurs sans répétition Source de variation Facteur A Facteur B Erreur Total
Somme des carrés SCFA SCFB SCE STC
Degrés de liberté I-1 J-1 (I-1)(J-1) IJ-1
Moyenne des carrés MCFA MCFB MCE
F observé MCFA / MCE MCFB / MCE
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules suivantes : I J T2 STC Yij2 IJ i 1 j1
Ti2 T 2 J IJ i 1 J T2j T 2 SCFB I IJ j1 I
SCFA
SCE STC SCFA SCFB En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à MCFA MCFB savoir au moyen des statistiques et . MCE MCE 8.3.3. ANOVA à deux facteurs avec répétition. Bien des recherches ont pour but d'étudier l'impact de plusieurs facteurs sur le résultat d'une expérience. Dans ce qui suit on tentera de découvrir si deux facteurs A et B peuvent expliquer ou non les variations constatées dans les observations Yijk. On dispose de IJ échantillons de taille K (K>1) prélevés aléatoirement de populations normales dans lesquelles les variances sont présumées égales. Le tableau suivant illustre la notation indicée: par exemple, Y324 renvoie à la quatrième observation prélevée quand le facteur A est à son troisième niveau (ou modalité) et que le facteur B est à son deuxième niveau. Ainsi, T2 représente le total des observations quand le premier facteur est maintenu à son deuxième niveau, alors que Y 3 désigne la moyenne des observations quand le second facteur est maintenu à sa troisième modalité. 154
Statistiques décisionnelles
8. Tests sur les moyennes
Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements». A remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules, soit K, et cette valeur est supérieure à l'unité. Matrice des données Facteur B Facteur A
1
2 ...
I Total Moyenne
1
2
J
Y111 Y112 ... Y11K Y211 Y212 ... Y21K ... YI11 YI12 ... YI1K
Y121 Y122 ... Y12K Y221 Y222 ... Y22K ... YI21 YI22 ... YI2K
...
T1 Y1
T2 Y2
...
...
Y1J1 Y1J2 ... Y1JK Y2J1 Y2J2 ... Y2JK ... YIJ1 YIJ2 ... YIJK
TJ Y J
Total
Moyenne
T1
Y1
T2
Y2
...
...
TI
YI
T
Y
Tableau d'analyse de variance à deux facteurs avec répétitions : Les résultats d'une analyse de la variance à deux facteurs avec répétitions sont habituellement présentés dans un tableau comme celui-ci : Analyse de variance à deux facteurs avec répétitions Source de variation Facteur A Facteur B Interaction Erreur Total
Somme des carrés SCFA SCFB SCI SCE STC
Degrés de liberté I-1 J-1 (I-1)(J-1) IJ(K-1) IJK-1
155
Moyenne des carrés MCFA MCFB MCI MCE
F observé MCFA / MCE MCFB / MCE MCI / MCE
Statistiques décisionnelles
8. Tests sur les moyennes
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules suivantes :
STC
I
J
K
i 1
j1
k 1
i 1
T2j
J
IK
T2 IJK
j1
SCI
I
J
i 1
j1
Tij2
I
K
i 1
T2 IJK
Ti2 T2 JK IJK
I
SCFA
SCFB
Yijk2
Ti2 JK
J
T2j
IK
j1
T2 IJK
SCE STC SCFA SCFB SCI En se basant sur les résultats présentés au tableau, on déduit que les tests sur la présence d’interaction, sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à savoir au moyen des statistiques : MCI MCFA MCFB ; et MCE MCE MCE L'analyse de variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests disponibles dans le tableau de l'analyse de la variance. La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux d'un facteur se comportent différemment selon les différents niveaux de l'autre facteur. 8.4. ENONCES DES EXERCICES D’APPLICATION. 8.4.1. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré leur diamètre. On a trouvé :
x
i
x ² 2462
350
i
a) La machine est-elle bien réglée au seuil de signification de 95 % ? b) La machine est-elle bien réglée au seuil de signification de 99 % ? 156
Statistiques décisionnelles
8. Tests sur les moyennes
8.4.2. Pour savoir s’il existe une différence d’assiduité entre les filles et les garçons, on a choisi de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités (note sur 100), et en supposant que les variances des deux populations sont égales, peut-on conclure, au seuil de 5 %, à l’existence d’une différence significative entre les deux sexes ? Assiduité des filles Assiduité des garçons
72 66
67 59
52 54
54 57
46 63
58 55
59 61
54 55
58 66
63 75
8.4.3. Un chef de produit souhaite tester l’effet d’une formation sur les techniques de ventes sur les ventes d’un produit. Un échantillon aléatoire de 10 commerciaux ayant reçu la formation est constitué. Les ventes réalisées par les dix commerciaux avant et après formation sont indiquées dans le tableau ci-dessous. a) Peut-on parler d’un effet positif de la formation au seuil de 5% ? b) Peut-on parler d’un effet positif de la formation au seuil de 1 % ? N° commercial Après formation Avant formation 1 4580 3970 2 5190 4880 3 3940 4090 4 6320 5870 5 7680 6930 6 3480 4000 7 5720 5080 8 7040 6950 9 5270 4960 10 5840 5130 8.4.4. Un investisseur étranger songe à implanter une nouvelle usine au Maroc. Il hésite entre trois villes : Settat, Casablanca et Eljadida. Selon son point de vue, le critère le plus important à prendre en considération pour déterminer l'emplacement de cette nouvelle usine est l'assiduité au travail des ouvriers. L’investisseur a visité au hasard dans chacune des villes considérées cinq grandes usines de fabrication et il a obtenu des administrateurs le taux d'absentéisme par 3500 journées de travail. Les résultats sont reproduits dans le tableau ci-dessous. Données numériques Ville Echantillon Settat 141; 127 ; 111; 124 ; 144 Casablanca 157; 131; 105; 132 ; 163 Eljadida 183; 161; 145 ; 157 ; 189 Aux seuils de 5 %, puis de 1 % peut-on conclure que le taux d'absentéisme au travail est le même en moyenne dans ces 3 villes? 157
Statistiques décisionnelles
8. Tests sur les moyennes
8.4.5. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion d’un produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques. Voici les nombres d’unités vendues enregistrées lors de ces tests. Données numériques Opérateurs \ Techniques O1 O2 O3 O4 O5
T1 42 39 38 43 44
T2 45 41 39 45 45
T3 55 52 48 54 56
T4 50 46 42 48 49
Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre les quatre techniques d'autre part quant au nombre moyen d’unités vendues ? 8.4.6. On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années d’expérience. Quand le projet fut terminé, tous sans exception avaient sousestimé le temps effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de prévision (en heures). Données numériques
TYPE D’EXPERIENCE Dans une grande entreprise
NOMBRE D’ANNEES D’EXPERIENCE Moins de Entre 2 et Plus de Total 2 ans 5 ans 5 ans 25 12 10 167 22 10 9 18 14 11 20 8 8
Dans une petite entreprise
30 38 45 44
20 28 29 28
14 15 26 24
341
Total
242
149
117
508
Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il globalement des différences significatives entre les groupes (seuil 5%)?
158
Statistiques décisionnelles
8. Tests sur les moyennes
8.4.7. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen. Un laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Aux risques 5%, puis de 10 %, la durée de vie des tubes à essais est-elle différente de 1500 heures de chauffage ? 8.4.8. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie moyenne de 3000 heures avec un écart-type de 150 heures. À la suite d'une modification dans la fabrication des moteurs, le fabriquant affirme que les nouveaux moteurs ont une durée de vie supérieure à celle des anciens. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type égal à 150 heures. Les nouveaux moteurs apportent-ils une amélioration dans la durée de vie des appareils électroménagers au risque de 1% ? 8.4.9. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses mensuelles pour les loisirs. On a observé les résultats suivants : • Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en moyenne de 640 dh avec un écart-type de 120 dh. • Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en moyenne de 610 dh avec un écart-type de 100 dh. En supposant que les variances des deux populations sont inégales, peut-on dire, aux risques de 5 % puis de 1 pour 1000 que la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue ? 8.4.10. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16 cm. La machine est réglée en principe pour obtenir des tiges de 100 cm. 1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ? 2°) Reprendre la question précédente avec un risque de 1 %. 8.4.11. Un spécialiste en marketing a fait modifier la méthode traditionnellement utilisée pour effectuer la promotion d'un certain produit. A titre expérimental, il a observé dans 10 points de vente le nombre d’unités vendues en une semaine en utilisant la méthode existante. La semaine d’après, les mêmes points de vente ont utilisé la nouvelle méthode de promotion, on a observé le nombre d’unités vendues en cette semaine. Les données recueillies sont comme suit : Ancienne méthode: 48, 46, 47, 43, 46, 45, 49, 46, 47, 44. Nouvelle méthode: 56, 49, 53, 51, 48, 52, 55, 53, 49, 50. La nouvelle méthode de promotion a-t-elle un effet positif sur les ventes ( = 5%)?
159
Statistiques décisionnelles
8. Tests sur les moyennes
8.4.12. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en grammes) : É1 É2
190 210
200 204
202 203
195 189
194 194
208 195
205 206
196 205
198 200
206 201
198
197
En supposant que les variances des deux populations sont égales, ces deux résultats sont-ils significativement différents en ce qui concerne le poids moyen au seuil de 5 %. 8.4.13. 24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a enregistré les gains moyens quotidiens en poids suivants : Alim. 1 590 760 700 640
Alim. 2 460 430 540 470
Alim. 3 600 460 610 510
Alim. 4 640 660 720 580
Alim. 5 690 600 550 480
Alim. 6 690 650 680 740
Aux seuils de 5 %, puis de 1 pour 1000, existe-t-il une différence significative quant à l’effet des différentes alimentations sur le gain moyen quotidien en poids des ovins ? 8.4.14. L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à 100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est donnée dans le tableau qui suit : Sexe Féminin Masculin Total
Moins de 20 ans 27 32 59
Catégorie d'âge Entre 20 et 45 ans 39 45 84
Plus de 45 ans 54 62 116
On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances sont égales dans ces six populations. Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge, d'autre part?
160
Statistiques décisionnelles
8. Tests sur les moyennes
8.4.15. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. En supposant que les variances des deux populations sont égales, peut-on affirmer, au risque 5 % que le réglage a modifié le poids des pièces ? 8.4.16. Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3 premiers mois de 2003, du lundi au jeudi sont comme suit :
Lundi
Mardi
Mercredi
Jeudi
Janvier 2003 Février 2003 Mars 2003 13 9 7 9 5 15 8 8 14 7 12 10 8 11 17 6 4 14 6 9 12 7 5 13 6 10 6 10 2 14 7 8 12 4 3 13 1 6 10 10 10 8 7 12 4 5 9 9
En supposant les conditions de l’analyse de la variance satisfaites, peut-on dire qu’il y a une différence significative à un seuil de 5% entre les moyennes des ventes réalisées chaque mois et entre les moyennes des ventes réalisées chaque jour ? 8.5. SOLUTIONS DES EXERCICES D’APPLICATION. 8.5.1. Solution de l’exercice 8.4.1. Pour répondre à cette question, on doit vérifier si le diamètre moyen des 50 billes observées, est conforme à la norme de 6 mm. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test bilatéral H0
m=6
H1 : m 6
161
Statistiques décisionnelles
8. Tests sur les moyennes
Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : x i 350 7 VD = 50 50
La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.
(x ² ^
i
x )²
n² 50 2462 ( 7²) = 0,24 = n 1 49 50
=
n 1 ^
0,24 = 0,49
VDR =
x m0 ^
=
76 = 14,43 0.49 50
n Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; 2
Z
1
2
].
a) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région d’acceptation sont : Z = Z0,025 = -1,96 2
Z
1
2
= Z0,975 = 1,96
La région d’acceptation est donc l’intervalle [-1,96 ; 1,96]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 % b) Au seuil de signification de 99 % ( = 0,01), la région d’acceptation est : [Z0,005 ; Z0,995] = [- 2,58 ; 2,58] On regrette l’hypothèse nulle. La machine n’est donc pas bien réglée au seuil de signification de 99 %. 162
Statistiques décisionnelles
8. Tests sur les moyennes
8.5.2. Solution de l’exercice 8.4.2. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si l’assiduité moyenne m1 des filles est ou n’est pas égale à l’assiduité moyenne m2 des garçons. Il s’agit d’un test bilatéral : H0 : m1 = m2
H1 : m1 m2
et
Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc:
VDR =
(x 1 x 2 )
(x
i
x 1 )²
(x
x 2 )² 1 1 ( ) n1 n 2 2 n1 n 2 i
Reprenons les données et calculons les caractéristiques pour chaque échantillon. Assiduité des filles Assiduité des garçons
72 66
67 59
52 54
54 57
46 63
58 55
x 2 = 61,1
x 1 = 58,3
i
54 55
(x
59 61
(x
x 1 )² = 514,1
VDR =
i
58,3 61,1 514,1 390,9 1 1 ( ) 10 10 2 10 10
Région d’acceptation :
VDR = 0,88
163
x 2 )² = 390,9
= - 0,88
58 66
63 75
Statistiques décisionnelles
8. Tests sur les moyennes
Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi de probabilité suivie par la VDR est une loi de STUDENT de 18 (n1 + n2 – 2) degrés de liberté. Pour = 0,05, la valeur de
t
1
2
avec 18 degrés de liberté est : t0,975 = 2,101
VDR < t
1
2
, on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence
significative entre l’assiduité des deux sexes. 8.5.3. Solution de l’exercice 8.4.3. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées après formation m1 sont ou ne sont pas égales aux ventes enregistrées avant formation m2. Il s’agit d’un test unilatéral à droite : H0 : m1 = m2
et
H1 : m1 > m2
Variable de décision : Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:
VDR =
d ^
d n Reprenons les données et calculons les différences di N° commercial Après formation Avant formation Différence (di) 1 4580 3970 610 2 5190 4880 310 3 3940 4090 -150 4 6320 5870 450 5 7680 6930 750 6 3480 4000 -520 7 5720 5080 640 164
Statistiques décisionnelles
8. Tests sur les moyennes
8 9 10
7040 5270 5840
6950 4960 5130
90 310 710
VDR =
d ^
d
=
320 = 2,462 410,96 10
n Région d’acceptation :
VDR = 2,462 Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi de probabilité suivie par la VDR est une loi de STUDENT de 9 (n-1) degrés de liberté. a) Pour = 0,05, la valeur de t1- avec 9 degrés de liberté est : t0,95 = 1,833 VDR > t1-, on rejette donc l’hypothèse nulle. C’est à dire, on peut conclure que la formation a eu un effet positif sur les ventes. b) Pour = 0,01, la valeur de T1 - avec 9 degrés de liberté est : t0,99 = 2,82 VDR t 1 , on accepte donc l’hypothèse nulle, c’est-à-dire, on peut conclure que la formation n’a pas eu un effet positif sur les ventes. 8.5.4. Solution de l’exercice 8.4.4. Pour répondre à cette question, il faut comparer le taux d’absentéisme moyen dans les trois villes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur (ANOVA1). Formulation de l’hypothèse nulle : Il s’agit de tester globalement l’hypothèse de l'égalité des moyennes des 3 populations supposées normales dans lesquelles on suppose que les variances sont égales 12 22 32 . Ho: m1 = m2 = m3 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les trois sommes des carrés:
165
Statistiques décisionnelles
8. Tests sur les moyennes
Ville Settat Casablanca Eljadida J=3
STC
J
nj
Y
2 ij
ji i 1
SCF
J
Tj2
n j i
j
Echantillon 141; 127 ; 111; 124 ; 144 157; 131; 105; 132 ; 163 183; 161; 145 ; 157 ; 189 N = 15
Total T1 = 647 T2 = 688 T3 = 835 T = 2170
T² 2170² 141² 127² ... 189² 8149,33 N 15
T² 647² 688² 835² 2170² 3908,93 N 5 5 5 15
SCE = 8149,33 - 3908,93 = 4240,40 Ce qui permet la construction du tableau de l'analyse de variance. Tableau d’analyse de variance à un facteur Source de variation Ville Erreur Total
Somme des carrés 3908,93 4240,40 8149,33
Degrés de liberté 2 12 14
Moyenne des carrés F obs 1954,467 353,367
5,53
A un seuil = 5%, on ne peut pas conclure que l'assiduité des travailleursà leur travail soit la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est supérieure à la valeur critique F 0,95 à 2 et 12 dl = 3,89 obtenue de la distribution de Fisher à 2 et 12 degrés de liberté. A un seuil de 1 % ( = 0,01), on peut conclure que l’assiduité des travailleurs à leur travail est la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est inférieure à la valeur critique F0,99 à 2 et 12 dl = 6,93. 8.5.5. Solution de l’exercice 8.4.5. Pour répondre à cette question, il faut comparer les nombres d’unités vendues en moyenne par les 5 opérateurs assignés aux 4 techniques, soit 20 combinaisons. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 20 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m20 166
Statistiques décisionnelles
8. Tests sur les moyennes
H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les quatre sommes des carrés : Opérateurs \ Techniques O1 O2 O3 O4 O5 Total
STC
I
J
i 1
j1
Y
2 ij
SCFA
I
i 1
SCFB
T2 45 41 39 45 45 215
T3 55 52 48 54 56 265
T4 50 46 42 48 49 235
Total 192 178 167 190 194 921
T² 921² 42² 45² ... 49² 548,95 IJ 20
Ti2 T² 192² ... 194² 921² 131,20 J IJ 4 20
J
T2j
j1
I
T1 42 39 38 43 44 206
T² 206² ... 235² 921² 410,15 IJ 5 20
SCE = 548,95 - 131,20 - 410,15 = 7,60 Ce qui permet la construction du tableau de l'analyse de variance ci-dessous. Analyse de variance à deux facteurs sans répétition Source de variation Opérateurs Techniques Erreur Total
Somme des carrés 131,2 410,15 7,6 548,95
D.L. 4 3 12 19
Moyenne des carrés 32,8 136,72 0,63
F 51,79 215,87
En examinant les valeurs F observées 51,79 et 215,87 qui sont toutes deux supérieures aux valeurs théoriques F 0,95 à 4 et 12 dl = 3,26 et F 0,95 à 3 et 12 dl = 3,49 on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les cinq opérateurs quant au nombre d’unités vendues et d'autre part, des différences significatives entre les quatre techniques de vente.
167
Statistiques décisionnelles
8. Tests sur les moyennes
8.5.6. Solution de l’exercice 8.4.6. Pour répondre à cette question, il faut comparer les erreurs de prévision (en heures) moyennes pour les 6 groupes d’ouvriers. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les cinq sommes des carrés : NOMBRE D’ANNEES D’EXPERIENCE TYPE D’EXPERIENCE Moins de Entre 2 et Plus de Total 2 ans 5 ans 5 ans Dans une grande entreprise 25 12 10 167 22 10 9 18 14 11 20 8 8 Dans une petite entreprise 30 20 14 341 38 28 15 45 29 26 44 28 24 Total 242 149 117 508
I J K T² 508² STC Y 2 25² 22² ... 24² 2737,33 24 i1 j1 k 1 ijk IJK SCFA
I
i 1
Ti2 T² 167² 341² 508² 1261,50 JK IJK 12 24
2 J T j T² 242² 149² 117² 508² SCF 1054,08 B 8 8 8 24 j1 IK IJK XI
I
J
1 j 1
Tj K
I
1
T2 JK
J
T2j
IK j 1
T2 IJK 168
Statistiques décisionnelles
8. Tests sur les moyennes
85 2 79 2 167 2 3412 242 2 149 2 117 2 4 12 8 2 508 61,75 24
SCI
SCE 2737,33 1261,50 1054,08 61,75 360 Analyse de variance à deux facteurs avec répétitions Source de variation Type d'expérience Nombre d'années d'expérience Interaction Erreur Total
Somme des carrés 1261,5 1054,08 61,75 360 2737,33
D.L. 1 2 2 18 23
Moyenne des carrés 1261,5 527,04 30,875 20
F 63,075 26,35 1,54
En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI = 1,54 est inférieure à la valeur critique de la table, soit F 0,95 à 2 et 18 dl = 3,55. On doit conclure qu'il n'y a pas d'interaction significative entre les deux facteurs Type d'expérience et Nombre d'années d'expérience. Cette constatation justifie la poursuite de l'analyse de la variance. Comme les valeurs FA= 63,075 et FB =26,35 sont supérieures respectivement aux valeurs critiques de la table F 0,95 à 1 et 18 dl = 4,41 et F 0,95 à 2 et 18 dl = 3,55, on doit conclure qu'aussi bien sous l'angle «Type d'expérience» que «Nombre d'années d'expérience», il existe globalement des différences significatives entre les groupes. 8.5.7. Solution de l’exercice 8.4.7. Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 100 tubes à essais observés, est conforme à la norme de 1500 heures de chauffage. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche : H0
m = 1500
H1 : m < 1 500
169
Statistiques décisionnelles
8. Tests sur les moyennes
Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 1485 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.
(x ² ^
i
x )²
=
n 1
n² 100 = . 110² = 12222,22 n 1 99
^
12222,22 = 110,55
VDR =
x m 0 ^
1485 1500 = - 1,36 110,55
=
100
n Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[.
Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région d’acceptation est : Z0,05 = -1,64 La région d’acceptation est donc l’intervalle [-1,64 ; +[. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. Au risque 5%, la durée de vie des tubes à essais n’est pas différente de 1500 heures de chauffage. Au seuil de 10 %, la région d’acceptation est : [Z0,1 ; + ] = [- 1,28 ; + ] On rejette l’hypothèse nulle car VDR n’appartient pas à la région d’acceptation. Au risque de 10 %, la durée de vie des tubes à essai est inférieure à 1500 heures de chauffage. 170
Statistiques décisionnelles
8. Tests sur les moyennes
8.5.8. Solution de l’exercice 8.4.8. Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 50 nouveaux moteurs est conforme à la norme de 3000 heures. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test unilatéral à droite : H0
m = 3000
H1 : m > 3000
Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 3250 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.
(x ² ^
i
x )²
n 1
=
n² 50 = . 150² = 22959,18 n 1 49
^
22959,18 = 151,52
VDR =
x m0 ^
=
3250 3000 = 11,67 151,52 50
n Région d’acceptation : La région d’acceptation est l’intervalle ]- ;
Z1 ].
Au seuil de signification de 99 % ( = 0,01), la valeur critique qui délimite la région d’acceptation est : Z0,99 = 2,33 171
Statistiques décisionnelles
8. Tests sur les moyennes
La région d’acceptation est donc l’intervalle ]- ; 2,33]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. Au risque 1%, les nouveaux moteurs apportent une amélioration dans la durée de vie des appareils électroménagers. 8.5.9. Solution de l’exercice 8.4.9. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. Il s’agit d’un test bilatéral : H0 : m1 = m2
et
H1 : m1 m2
Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances inégales, la variable de décision centrée réduite est donc:
VDR =
(x 1 x 2 ) ² 1 ² 2 n1 n2
avec
x 1 = 640
x 2 = 610
Les variances des deux populations sont estimées par les quasi-variances.
n²1 280 = . 120² = 14451,61 n 1 279 ^ n²2 300 ² 2 = = . 100² = 10033,44 n 1 299 640 610 VDR = = 3,25 14451,61 10033,44 280 300 ^
² 1 =
172
Statistiques décisionnelles
8. Tests sur les moyennes
Région d’acceptation :
VDR = 3,25 Pour = 0,05, la valeur de
Z
1
2
est : Z0,975 = 1,96
VDR > Z
1
2
, on rejette donc l’hypothèse nulle. C’est-à-dire, au risque de 5 %, la part du
budget familial consacrée aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. Pour = 0,001, la valeur de
Z
1
2
est : Z0,9995 = 3,29
VDR Z
1
2
, on accepte donc l’hypothèse nulle, c'est-à-dire, au risque de 1 %, la part du
budget familial consacré aux loisirs est le même pour les 2 milieux. 8.5.10. Solution de l’exercice 8.4.10. Pour répondre à cette question, on doit vérifier si la longueur moyenne des 100 tiges métalliques est conforme à la norme de 100 cm. Il s’agit donc de faire un test de conformité de la moyenne. Hypothèse nulle : Il s’agit d’un test bilatéral : H0
m = 100 H1 : m 100
Variable de décision : La variable de décision du test correspond à l’estimation de m qui est la moyenne de l’échantillon : VD = 100,04 La variable de décision peut être considérée comme une variable approximativement normale. La variance de la population peut être estimée par la quasi-variance.
173
Statistiques décisionnelles
8. Tests sur les moyennes
(x ² ^
i
x )²
n 1
=
n² 100 = . 0,16² = 0,026 n 1 99
^
0,026 = 0,1608
VDR =
x m0 ^
=
100,04 100 = 2,49 0,1608 100
n Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; 2
Z
1
2
].
1) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région d’acceptation sont :
Z = Z0,025 = -1,96 et Z 2
1
2
= Z0,975 = 1,96
La région d’acceptation est donc l’intervalle [-1,96 ; 1,96]. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %. 2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région d’acceptation sont :
Z = Z0,005 = -2,58 et Z 2
1
2
= Z0,995 = 2,58
La région d’acceptation est donc l’intervalle [-2,58 ; 2,58]. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. La machine est donc bien réglée au seuil de signification de 99 %.
174
Statistiques décisionnelles
8. Tests sur les moyennes
8.5.11. Solution de l’exercice 8.4.11. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées avec la nouvelle méthode de promotion m1 sont ou ne sont pas supérieures aux ventes enregistrées avec l’ancienne méthode de promotion m2. Il s’agit d’un test unilatéral à droite : H0 : m1 = m2
et
H1 : m1 > m2
Variable de décision : Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:
VDR =
d ^
d n
Reprenons les données et calculons les différences di. Point de vente Nouvelle méthode Ancienne méthode Différence (di) 1 56 48 8 2 49 46 3 3 53 47 6 4 51 43 8 5 48 46 2 6 52 45 7 7 55 49 6 8 53 46 7 9 49 47 2 10 50 44 6
VDR =
d ^
d
=
5,5 = 7,49 2,3214 10
n 175
Statistiques décisionnelles
8. Tests sur les moyennes
Région d’acceptation :
VDR = 7,49 Pour = 0,05, la valeur de t1- avec 9 degrés de liberté est : t0,95 = 1,833
VDR > t1-, on rejette donc l’hypothèse nulle. C’est-à-dire, on peut conclure que la nouvelle méthode de promotion a un effet positif sur les ventes. 8.5.12. Solution de l’exercice 8.4.12. Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si le poids moyen net des sachets m1 du premier échantillon est ou n’est pas égale au poids moyen net des sachets m2 du deuxième échantillon. Il s’agit d’un test bilatéral : H0 : m1 = m2
et
H1 : m1 m2
Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc:
VDR =
(x 1 x 2 )
(x
i
x 1 )²
(x
x 2 )² 1 1 ( ) n1 n 2 2 n1 n 2 i
Reprenons les données et calculons les caractéristiques pour chaque échantillon. É1 É2
190 210
200 204
202 203
195 189
194 194
208 195
205 206
206 201
x 2 = 200,1667
i
198 200
x 1 = 199,4
(x
196 205
(x
x 1 )² = 306,4 176
i
x 2 )² = 381,6667
198
197
Statistiques décisionnelles
8. Tests sur les moyennes
VDR =
199,4 200,1667 306,4 381,6667 1 1 ( ) 10 12 2 10 12
= - 0,31
Région d’acceptation :
VDR = 0,31 Pour = 0,05, la valeur de
t
1
2
avec 20 degrés de liberté est : t0,975 = 2,09
VDR < t
1
2
, on accepte donc l’hypothèse nulle. C’est-à-dire, ces deux résultats ne sont pas
significativement différents en ce qui concerne le poids moyen au seuil de 5 % 8.5.13. Solution de l’exercice 8.4.13. Pour répondre à cette question, il faut comparer les gains moyens quotidiens en poids des 6 alimentations. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur (ANOVA1). Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 = m4 = m5 = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les trois sommes des carrés : Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 590 460 600 640 690 760 430 460 660 600 700 540 610 720 550 640 470 510 580 480 Total 2690 1900 2180 2600 2320
STC
2 ij
j i
SCF
nj
J
Y J
i 1
T j2
n j i
j
Alim. 6 690 650 680 740 2760
T² 14450² 590² 760² ... 740² 215595,83 N 24
T² 2690² 1900² 2760² 14450² ... 139520,83 N 4 4 4 24 177
14450
Statistiques décisionnelles
8. Tests sur les moyennes
SCE = 215595,83 - 139520,83 = 76075 Ce qui permet la construction du tableau de l'analyse de variance. Tableau d’analyse de variance à un facteur Source de variation Alimentation Erreur Totale
Somme des carrés 139520,83 76075 215595,83
Degrés de liberté 5 18 23
Moyenne des carrés 27904,17 4226,39
F obs 6,6
A un seuil = 5%, on ne peut pas conclure que le gains quotidiens en poids soit le même en moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est supérieure à la valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de Fisher à 5 et 18 degrés de liberté. Au seuil = 0,001, on peut conclure que les gains quotidiens en poids est le même en moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est inférieure à la valeur critique F0,999 à 5 et 18 dl = 6,8. 8.5.14. Solution de l’exercice 8.4.14. Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 = m4 = m5 = m6 H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les quatre sommes des carrés:
Sexe Féminin Masculin Total
Moins de 20 ans 27 32 59
Catégorie d'âge Entre 20 et 45 ans 39 45 84 178
Plus de 45 ans 54 62 116
Total 120 139 259
Statistiques décisionnelles
STC
8. Tests sur les moyennes
I
J
i 1
j1
Y
2 ij
I
SCFA
i 1
SCFB
Ti2 T² 120² 139² 259² 60,17 J IJ 3 6
J
T2j
j1
I
T² 259² 27² 39² ... 62² 878,83 IJ 6
T² 59² 84² 116² 259² 816,33 IJ 2 6
SCE = 878,83 - 60,17 - 816,33 = 2,33 Ce qui permet la construction du tableau de l'analyse de variance ci-dessous. Analyse de variance à deux facteurs sans répétition Source de variation Sexe Age Erreur Total
Somme des carrés 60,17 816,33 2,33 878,83
D.L. 1 2 2 5
Moyenne des carrés 60,17 408,17 1,17
F 51,43 348,86
En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieures aux valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives entre les trois catégories d’âge. 8.5.15. Solution de l’exercice 8.4.15.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes. Hypothèse nulle : Ce test a pour but de vérifier si le poids moyen des pièces m1 avant le réglage est ou n’est pas inférieur au poids moyen des pièces m2 après le réglage. Il s’agit d’un test bilatéral : H0 : m1 = m2
et 179
H1 : m1 m2
Statistiques décisionnelles
8. Tests sur les moyennes
Variable de décision : Les deux échantillons sont indépendants, les populations sont de variances égales, la variable de décision centrée réduite est donc :
(x1 x 2 )
VDR =
(x i x 1 )² (x i x 2 )² ( 1 1 ) n1 n 2 2 n1 n 2
x1 = 68,2
x 2 = 67,5
(x x )² = 2,5² . 50 = 312,5 (x x )² = 2,8² . 50 = 392 1
i
i
VDR =
2
68,2 67,5
312,5 392 1 1 ( ) 50 50 2 50 50
= 1,3
Région d’acceptation :
VDR = 1,3 Pour = 0,05, la valeur de
VDR < Z
1
2
Z
1
2
est : Z0,975 = 1,96
, on accepte donc l’hypothèse nulle. C’est-à-dire, on peut affirmer, au risque 5
% que le réglage n’a pas modifié le poids des pièces. 8.5.16. Solution de l’exercice 8.4.16. Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction. Formulation de l’hypothèse nulle : Il s’agit de tester globalement l'égalité des moyennes des 12 populations supposées normales dans lesquelles on suppose que les variances sont égales. Ho: m1 = m2 = m3 … = m12 180
Statistiques décisionnelles
8. Tests sur les moyennes
H1: au moins une des moyennes est différente des autres. Tableau d'analyse de variance : Reprenons les données et calculons les cinq sommes des carrés :
Lundi
Janvier 2003 13 9 8 7
Février 2003 9 5 8 12
Mars 2003 7 15 14 10
37 8 6 6 7
34 11 4 9 5
46 17 14 12 13
112
27 6 10 7 4
29 10 2 8 3
56 6 14 12 13
95
27 1 10 7 5 23 114
23 6 10 12 9 37 123
45 10 8 4 9 31 178
Mardi
Mercredi
Jeudi
Total
Total 117
91
415
I J K T² 415² STC Y 2 13² 9² ... 9² 604,98 48 i1 j1 k 1 ijk IJK SCFA
I
Ti2
JK i 1
T² 117² 112² 95² 91² 415² 40,23 IJK 12 48
2 J T j T² 114² 123² 178² 415² SCF 150,04 B 16 16 16 48 j1 IK IJK
181
Statistiques décisionnelles
SCI
I
j
i j
j1
Tij2
I
K
i 1
Ti2 JK
8. Tests sur les moyennes
j
T2j
IK j1
T2 IJK
37 2 312 117 2 112 2 95 2 912 4 12 114 2 123 2 178 2 415 2 93,6 8 48 SCE = 604,98 – 40,23 – 150,04 – 93,96 = 320,75 SCI
Tableau d’analyse de variance à deux facteurs avec répétitions Source de Somme des Moyenne des D.L. F variation carrés carrés Jours 40,23 3 13,41 1,51 Mois 150,04 2 75,02 8,42 Interaction 93,96 6 15,66 1,76 Erreur 320,75 36 8,91 Total 604,98 47 En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI = 1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. On doit conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois. Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur FA= 1,51 est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42 est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il existe des différences significatives entre les trois mois.
182
Statistiques décisionnelles
9. Tests sur les variances
CHAPITRE 9 TESTS SUR LES VARIANCES
9.1. TEST SUR UN ECHANTILLON. 9.1.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la variance ² d’une population est ou n’est pas égale à une valeur donnée
02 , appelée norme.
L’hypothèse nulle est donc :
H0
σ 2 σ 02
9.1.2. Variable de décision. On extrait un échantillon aléatoire non exhaustif de taille n. La variable de décision du test correspond à :
x n
VD
i
x
2
11
02
La variable de décision possède une distribution khi deux à (n-1) degrés de liberté. 9.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : ² =
02
et
183
H1 : ²
02
Statistiques décisionnelles
9. Tests sur les variances
Les valeurs critiques qui délimitent la région d’acceptation sont ²1 et ²2 telles que :
p (12 VD 22 ) 1
p (VD 12 ) / 2 12 2a 2
p (VD 22 ) / 2 p (VD 22 ) 1 / 2 22 2
1
a 2
La région d’acceptation est donc l’intervalle 2a ; 2 a . 1 2 2 On accepte l’hypothèse nulle si la variable de décision appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. b) Test unilatéral à droite :
H 0 : σ 2 σ 02
et
H 1 : σ 2 σ 02
La valeur critique qui délimite la région d’acceptation est 2 telle que :
p (VD 2 ) 1 2 12
La région d’acceptation est donc l’intervalle 0 ; 12
c) Test unilatéral à gauche :
H 0 : σ 2 σ 02
et
H 1 : σ 2 σ 02
La valeur critique qui délimite la région d’acceptation est ² telle que :
p (VD 2 ) 2 2 La région d’acceptation est donc l’intervalle 2 ; . 9.2. TEST SUR DEUX ECHANTILLONS. Ce test a pour but de comparer les variances de deux populations à l’aide de deux échantillons indépendants. 184
Statistiques décisionnelles
9. Tests sur les variances
9.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la variance 12 d’une population est ou n’est pas égale à la variance
22 d’une autre population.
L’hypothèse nulle est donc : H 0
σ 12 σ 22
9.2.2. Variable de décision. Soient deux échantillons aléatoires et non exhaustifs prélevés dans les deux populations. La variable de décision du test correspond au rapport des deux variances observées des deux échantillons : ˆ 2 VD 12 ˆ 2 La variable de décision suit une loi de Fisher avec (n1-1) et (n2-1) degré de liberté. Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité. C’est la raison pour laquelle la variable de décision correspond au rapport de variances qui est supérieur à l’unité, d’où l’échantillon 1 est celui qui a la plus grande variance. 9.2.3. Région d’acceptation. Le test d’égalité de deux variances est en général un test bilatéral. Il précède généralement le test de comparaison des moyennes de deux échantillons indépendants.
H0
12 22
et
H1
12 22
Les valeurs critiques qui délimitent la région d’acceptation sont F1 et F2 telles que : p(F1 VD F2) = 1 - p(VD < F1) = /2
F1 =
F 2
p(VD > F2) = /2 p(VD F2) = 1-/2
185
F2 =
F
1
2
Statistiques décisionnelles
9. Tests sur les variances
La région d’acceptation est donc l’intervalle F ; F . 1 2 2 Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité, de telle sorte que seule est possible la comparaison avec F , et on rejette l’hypothèse nulle si la variable de 1
décision est supérieure ou égale à F
1
2
. 2
9.3. ENONCES DES EXERCICES D’APPLICATION. 9.3.1. On souhaite vérifier, au seuil de signification de 95 %, si le peuplement, dans lequel on a mesuré la hauteur d’un échantillon de 12 arbres, appartient à un type de forêt dont l’écart type est de 1,4 m. Les résultats en mètre sont : 5,1 ; 5,2 ; 5,2 ; 5,4 ; 5,9 ; 6,3 ; 6,3 ; 6,8 ; 6,9 ; 6,9 ; 7,0 ; 7,0 Ce peuplement appartient-il à ce type de forêt ? a) Au seuil de signification de 95 %. b) Au seuil de signification de 99 %. 9.3.2. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. La machine est considérée comme bien réglée si l’écart type du diamètre des billes fabriquées ne dépasse pas 0,45 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré leur diamètre. On a trouvé :
x
i
x ² 2462
350
i
La machine est-elle bien réglée au seuil de signification de 95 % ? 9.3.3. Pour savoir si les filles sont plus assidues que les garçons ou non, on a choisi de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités (note sur 100), peut-on supposer, au seuil de 5 %, que les variances des deux populations sont égales ? Assiduité des filles Assiduité des garçons
72 66
67 59
52 54
54 57
186
46 63
58 55
59 61
54 55
58 66
63 75
Statistiques décisionnelles
9. Tests sur les variances
9.3.4. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen avec un écart type de 100 heures. Un laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Au risque 5%, l’écart type de la durée de vie des tubes à essais est-il différent de 100 heures de chauffage ? 9.3.5. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie moyenne de 3000 heures avec un écart-type de 150 heures. A la suite d'une modification dans la fabrication des moteurs, le fabricant affirme que les nouveaux moteurs ont une durée de vie supérieure à celle des anciens avec un écart type plus réduit. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type égal à 145 heures. Les nouveaux moteurs apportent-ils une amélioration dans la dispersion de la durée de vie des appareils électroménagers au risque de 5% ? 9.3.6. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses mensuelles pour les loisirs. On a observé les résultats suivants : • Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en moyenne de 640 dh avec un écart-type de 120 dh. • Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en moyenne de 610 dh avec un écart-type de 100 dh. Peut-on dire au risque de 5 % que la variance de la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue ? 9.3.7. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16 cm. La machine est réglée en principe pour obtenir un écart type des longueurs des tiges de 0,12 cm. 1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ? 2°) Reprendre la question précédente avec un risque de 1 %. 9.3.8. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en grammes) : É1 É2
190 210
200 204
202 203
195 189
194 194
208 195
205 206
196 205
198 200
206 201
198
197
Ces deux résultats sont-ils significativement différents en ce qui concerne les écarts types des poids %.
187
Statistiques décisionnelles
9. Tests sur les variances
9.3.9. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. Peur-on affirmer, au risque 5 % que le réglage a modifié l’écart-type du poids des pièces ? 9.3.10. Un tour opérateur veut mettre un nouveau produit à son catalogue. La rentabilité de ce produit suppose, en moyenne, 50 réservations hebdomadaires au minimum par agence avec un écart type maximum de 2 réservations. A titre de test, il décide de l’inclure au catalogue d’un échantillon aléatoire de 10 de ses agences. On a noté le nombre de réservations observées durant une semaine dans les 10 agences : 51 ; 48 ; 58 ; 55 ; 52 ; 49 ; 50 ; 54 ; 53 ; 52 Peut-on conclure, au seuil de 5 %, puis de 1 % que l’écart type est effectivement inférieur à 2 réservations ? 9.4. SOLUTIONS DES EXERCICES D’APPLICATION. 9.4.1. Solution de l’exercice 9.3.1. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. H0
² = 1,4² = 1,96 H1 : ² 1,96
Variable de décision : La variable de décision du test correspond à : n
VD
(i )
2
i 1
02
6,6 3,37 1,96
La variable de décision possède une distribution khi deux à 11 degrés de liberté. Région d’acceptation : a) Les valeurs critiques qui délimitent la région d’acceptation sont : ² et ² 2
Au seuil de signification de 95 % ( = 0,05)
02, 025 3,82 et 188
02, 975 21,9
1
2
.
Statistiques décisionnelles
9. Tests sur les variances
La région d’acceptation est donc l’intervalle [3,82 ; 21,9]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. b) Au seuil de signification de 99 % ( = 0,01)
02, 005 2,6
02,995 26,8
et
La région d’acceptation est donc [2,6 ; 26,8]. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. 9.4.2. Solution de l’exercice 9.3.2. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Ce test a pour but de vérifier si la variance ² de la population des billes fabriquées ne dépasse pas la norme. Il s’agit d’un test bilatéral :
H0
2 0,45 2
et
2 0,45 2
H1
Variable de décision : n
VD
i 1 (x i x ) 2
σ 02
50 (
2462 350 2 ( ) ) 50 50 59,26 0,45 2
Région d’acceptation : Il s’agit d’un test unilatéral à droite. Pour
0,05 , la valeur critique qui délimite la région d’acceptation est 12 à 49 degrés de
liberté. Le nombre de degrés de liberté est grand (k > 30), on peut trouver l’approximation de la valeur de 2 par la loi normale. 2 χ 0,95 à 49 dl
(Z 0,95 2k 1) 2 2
189
(1,64 2 x 49 1) 2 2
66
Statistiques décisionnelles
9. Tests sur les variances
La région d’acceptation est donc l’intervalle 0 ; 66 . On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. Au seuil de signification de 95 %, la machine est bien réglée. 9.4.3. Solution de l’exercice 9.3.3. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 de la population des filles est ou n’est pas égale à la variance ²2 de la population des garçons. Il s’agit d’un test bilatéral :
H0
12 22
et
H1
12 22
Variable de décision :
VD Région d’acceptation : Pour = 0,05 la valeur de F
1
2
ˆ 12 57,12 1,31 ˆ 22 43,43
avec 9 et 9 degrés de liberté est : F0,975 = 4,03
La variable de décision est inférieure à F
1
2
, on accepte donc l’hypothèse d’égalité des
variances des deux populations. 9.4.4. Solution de l’exercice 9.3.4. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral.
H0
12 22
et
190
H1
12 22
Statistiques décisionnelles
9. Tests sur les variances
Variable de décision : La variable de décision du test correspond à :
100
(x VD =
x )²
i
i 1
2 0
=
110².100 = 121 10000
La variable de décision possède une distribution khi deux à 99 degrés de liberté. Région d’acceptation : Les valeurs critiques qui délimitent la région d’acceptation sont : 2 et 2 2
1
2
.
Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région d’acceptation sont :
02, 025 et 02,975 .
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type
2 99 14,07 .
En passant à la loi normale centrée réduite on obtient : 02, 025 à 99 dl 99 = Z0,025 14,07 d’où : ²0,025 à 99 dl = Z0,025 x 14,07 + 99 ²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42 de même : ²0,975 à 99 dl = Z0,975 x 14,07 + 99 ²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58 ²0,025 = 71,42
et
²0,975 = 126,58
La région d’acceptation est donc l’intervalle [71,42 ; 126,58]. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire, au risque 5%, l’écart type de la durée de vie des tubes à essais est de 100 heures de chauffage. 191
Statistiques décisionnelles
9. Tests sur les variances
9.4.5. Solution de l’exercice 9.3.5. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. ² = 150² = 22500
H0
H1 : ² < 22500
Variable de décision : La variable de décision du test correspond à :
50
(x VD =
i
x )²
i 1
=
² 0
145².50 = 46,7 22500
La variable de décision possède une distribution khi deux à 49 degrés de liberté. Région d’acceptation : Il s’agit d’un test unilatéral à gauche. La valeur critique qui délimite la région d’acceptation est
2
Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région d’acceptation est
02, 05
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 49 et d’écart type
2 49 9,9 .
Pour améliorer l’approximation, on peut utiliser la transformation suivante :
²
( Z 2k 1)² 2
d’où :
02, 05
( Z 0 , 05 2 x 49 1) 2 2
( 1,64 2 x 49 1) 2 2
33,7
La région d’acceptation est donc l’intervalle [33,7 ; + ]. 192
Statistiques décisionnelles
9. Tests sur les variances
On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire, au risque 5%, les nouveaux moteurs n’apportent aucune amélioration dans la dispersion de la durée de vie des appareils électroménagers. 9.4.6. Solution de l’exercice 9.3.6. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance 12 des dépenses mensuelles pour les loisirs en centre ville est ou n’est pas égale à la variance 22 des dépenses mensuelles pour les loisirs en banlieue. Il s’agit d’un test bilatéral :
H0
12 22
et
H1
12 22
Variable de décision :
VD
ˆ 12 ˆ 22
Les variances des deux populations sont estimées par les quasi-variances. ^
n²1 280 = . 120² = 14451,61 n 1 279
^
n²2 300 = . 100² = 10033,44 n 1 299
² 1 =
² 2 =
VD =
14451,61 = 1,44 10033,44
Région d’acceptation : En consultant la table de Fisher pour = 0,05, la valeur de F
1
liberté ne peut être ni inférieure à 1,19 ni supérieure à 1,32. 1,19 < F0,975 < 1,32
193
2
avec 279 et 299 degrés de
Statistiques décisionnelles
9. Tests sur les variances
La variable de décision est supérieure à F
1
2
, on rejette donc l’hypothèse d’égalité des
variances des deux populations. C’est-à-dire, au risque de 5 % la variance de la part du budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la banlieue. 9.4.7. Solution de l’exercice 9.3.7. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test bilatéral. H0
² = 0,12² = 0,0144
H1 : ² 0,0144
Variable de décision : La variable de décision du test correspond à :
100
(x
i
x )²
0,16².100 = = 177,78 ² 0 0,0144 La variable de décision possède une distribution khi deux à 99 degrés de liberté. VD =
i 1
Région d’acceptation : Les valeurs critiques qui délimitent la région d’acceptation sont :
² et ²1 . 2
2
1) Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région d’acceptation sont : ² 0,025 et ² 0,975 . Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type
2 99 14,07 .
En passant à la loi normale centrée réduite on obtient : 02, 025 à 99 dl 99 = Z0,025 14,07 d’où : ²0,025 à 99 dl = Z0,025 x 14,07 + 99 ²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42 194
Statistiques décisionnelles
9. Tests sur les variances
de même : ²0,975 à 99 dl = Z0,975 x 14,07 + 99 ²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58 ²0,025 = 71,42
et
²0,975 = 126,58
La région d’acceptation est donc l’intervalle [71,42 ; 126,58]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. C’est-à-dire, au risque 5 %, la machine n’est pas bien réglée. 2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région d’acceptation sont : ² 0,005 et ² 0,995 . Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi normale de moyenne 99 et d’écart type
2 99 14,07 .
En passant à la loi normale centrée réduite on obtient : ²0,005 à 99 dl = Z0,005 x 14,07 + 99 ²0,005 à 99 dl = -2,58 x 14,07 + 99 = 62,70 de même : ²0,995 à 99 dl = Z0,995 x 14,07 + 99 ²0,995 à 99 dl = 2,58 x 14,07 + 99 = 135,30 La région d’acceptation est donc l’intervalle [62,70 ; 135,30]. On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région d’acceptation. C’est-à-dire, au risque 1%, la machine n’est pas bien réglée.
195
Statistiques décisionnelles
9. Tests sur les variances
9.4.8. Solution de l’exercice 9.3.8. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 de la population du premier échantillon est ou n’est pas égale à la variance ²2 de la population du deuxième échantillon. Il s’agit d’un test bilatéral : ²1 = ²2et
H0
H1
²1 ²2
Variable de décision : ^
VD =
Région d’acceptation : Pour = 0,05 la valeur de F
1
2
² 1 ^
² 2
=
34,70 = 1,02 34,04
avec 11 et 9 degrés de liberté est : F0,975 = 3,91
La variable de décision est inférieure à F
1
2
, on accepte donc l’hypothèse d’égalité des
variances des deux populations. 9.4.9. Solution de l’exercice 9.3.9. Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances. Hypothèse nulle : Ce test a pour but de vérifier si la variance ²1 des poids des pièces avant le réglage est ou n’est pas égale à la variance ²2 des poids des pièces après le réglage. Il s’agit d’un test bilatéral : H0
²1 = ²2et
H1
Variable de décision : ^
VD =
² 1 ^
² 2
196
²1 ²2
Statistiques décisionnelles
9. Tests sur les variances
Les variances des deux populations sont estimées par les quasi-variances. ^
² 1 =
n²1 50 = . 2,5² = 6,38 n 1 49
^
² 2 =
n²2 50 = . 2,8² = 8 n 1 49
VD =
8 = 1,25 6,38
Région d’acceptation : En consultant la table de Fisher pour = 0,05, la valeur de
F
1
α 2
avec 49 et 49 degrés de
liberté ne peut être ni inférieure à 1,75 ni supérieure à 2,07. 1,75 < F0,975 < 2,07 La variable de décision est inférieure à
F
1
2
, on accepte donc l’hypothèse d’égalité des
variances des deux populations. C’est-à-dire, au risque de 5 % le réglage n’a pas modifié l’écart type du poids des pièces. 9.4.10. Solution de l’exercice 9.3.10. Pour répondre à cette question, on doit réaliser un test de conformité de la variance. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche. H0 : ² = 2²
H1 : ² < 4
et
Variable de décision : La variable de décision du test correspond à :
10
(x x)² i
VD =
i 1
=
² 0
79,6 = 19,9 4
La variable de décision possède une distribution khi deux à 9 degrés de liberté. 197
Statistiques décisionnelles
9. Tests sur les variances
Région d’acceptation : La région d’acceptation est l’intervalle [ ² ; +[. Au seuil de signification de 95 % ( = 0,05) ²0,05 = 3,325 La région d’acceptation est donc l’intervalle [3,325 ; +[. On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation. C’est-à-dire au seuil 5 %, l’écart type est effectivement inférieur à 2 réservations. Au seuil de signification de 99 % ( = 0,01)
02, 01 2,09 La région d’acceptation est l’intervalle [2,09 ; + ] on accepte l’hypothèse nulle.
198
Statistiques décisionnelles
10. Tests sur les proportions
CHAPITRE 10 TESTS SUR LES PROPORTIONS
10.1. TEST SUR UN ECHANTILLON. 10.1.1. Formulation de l’hypothèse nulle. On attribue la valeur p0 pour proportion dans une population dont la vraie proportion p est inconnue, et on veut juger la validité de cette hypothèse. Ce test a pour but de vérifier si la proportion p d’une population est ou n’est pas égale à une valeur donnée p0, appelée norme. L’hypothèse nulle est donc : H0
p = p0
10.1.2. Variable de décision. On extrait de la population un échantillon aléatoire et simple dans lequel la proportion observée fn est en général différente de p0, il s’agit d’expliquer cette différence. La variable de décision du test correspond à l’estimation de p qui est la fréquence de l’échantillon : VD = fn Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type p(1 p) à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le n produit n np 5, la variable de décision réduite : fn p0 VDR = p 0 (1 p 0 ) n est donc une variable normale réduite N(0 ; 1). 199
Statistiques décisionnelles
10. Tests sur les proportions
10.1.3. Région d’acceptation. La région d’acceptation dépend de l’hypothèse alternative H 1. a) Test bilatéral : H0 : p = p 0
H1 : p p 0
et
Les valeurs critiques qui délimitent la région d’acceptation sont les valeurs d’une variable normale réduite Z1 et Z2 telles que : p(Z1 VDR Z2) = 1 - p(VDR < Z1) = /2
Z1 =
Z 2
p(VDR > Z2) = /2 p(VDR Z2) = 1-/2 Z2 =
Z1 2
La région d’acceptation est donc l’intervalle [ Z ; 2
Z1 ]. 2
On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :
VDR > Z1 2
b) Test unilatéral à droite : H0 : p = p 0
et
H1 : p > p 0
La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale réduite Z telle que : p(VDR Z) = 1 -
La région d’acceptation est donc l’intervalle ]- ;
200
Z1 ].
Z=
Z1
Statistiques décisionnelles
10. Tests sur les proportions
c) Test unilatéral à gauche : H0 : p = p 0
et
H1 : p < p 0
La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale réduite Z telle que : p(VDR < Z) = Z = Z La région d’acceptation est donc l’intervalle [ Z ; +[. 10.2. TEST SUR DEUX ECHANTILLONS. Ce test a pour but de comparer les proportions de deux populations à l’aide de deux échantillons indépendants. 10.2.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si la proportion p1 d’une population est ou n’est pas égale à la proportion p2 d’une autre population. L’hypothèse nulle est donc : H0
p1 = p2
10.2.2. Variable de décision. Il s’agit de comparer deux proportions observées. Soient deux échantillons aléatoires de taille respectivement n1 et n2 extraits de deux populations. Les fréquences observées fn1 et fn2 sont généralement différentes, il s’agit d’expliquer cette différence. X X f n1 1 f n2 2 et n1 n2 La variable de décision du test correspond à la différence entre les fréquences observées des deux échantillons : VD = fn1 – fn2 Comme les distributions des deux proportions suivent des lois normales de moyennes p 1 (1 - p 1 ) p 2 (1 - p 2 ) respectivement p1 et p2 et d’écarts types respectifs et à condition que n2 n1 la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le produit np 5, la variable de décision est elle-même normale de moyenne (p1-p2) et d’écart type p 1 (1 p 1 ) p (1 p 2 ) . 2 n1 n2 201
Statistiques décisionnelles
10. Tests sur les proportions
Sous l’hypothèse nulle p1 = p2 , il y a la même proportion inconnue p dans les deux populations. Cette proportion peut être estimée par la fréquence observée fn1+n2 dans l’échantillon unique qui est la réunion des deux échantillons.
f n1 n 2
X 1 X 2 n 1 fn 1 n 2 fn 2 n1 n 2 n1 n 2
Sous l’hypothèse nulle, la variable de décision suit une loi normale de moyenne (p 1-p2) = 0 et d’écart type :
p (1 p) p (1 p) = n1 n2
f n1 n 2 (1 f n1 n 2 ) (
1 1 ) n1 n 2
La variable de décision centrée réduite :
f n1 f n 2
VDR
f n1 n 2 (1 f n1 n 2 )(
1 1 ) n1 n 2
est donc une variable normale réduite N(0 ; 1). 10.2.3. Région d’acceptation. La région d’acceptation est identique à celle du test de conformité d’une proportion, elle dépend de l’hypothèse alternative H1. a) Test bilatéral : H0 : p 1 = p 2
H1 : p 1 p 2
et
La région d’acceptation est l’intervalle [ Z ; 2
Z1 ]. 2
On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée. Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :
202
Statistiques décisionnelles
10. Tests sur les proportions
VDR > Z1 2
203
Statistiques décisionnelles
10. Tests sur les proportions
b) Test unilatéral à droite : H0 : p 1 = p 2
et
La région d’acceptation est donc l’intervalle ]- ;
H1 : p 1 > p 2
Z1 ].
c) Test unilatéral à gauche : H0 : p 1 = p 2
et
H1 : p 1 < p 2
La région d’acceptation est donc l’intervalle [ Z ; +[. 10.3. TEST SUR PLUSIEURS ECHANTILLONS. Ce test a pour but de comparer les proportions d’un certain nombre de populations à l’aide du même nombre d’échantillons indépendants. 10.3.1. Formulation de l’hypothèse nulle. Ce test a pour but de vérifier si les proportions p1, p2, ... pk de k populations sont égales. On écrit comme suit les hypothèses : Ho: p1 = p2 = ... = pk H1: au moins une des proportions est différente des autres. 10.3.2. Variable de décision. Soient k échantillons aléatoires de taille respectivement n1, n2 , …, nk extraits de k populations. Il s’agit de comparer les effectifs observés nij dans les k échantillons et les effectifs attendus ou théoriques sous l’hypothèse nulle. Effectifs observés
Avoir le caractère étudié Ne pas avoir le caractère étudié Total
Echantillon 1 n11 n12 n1.
204
Echantillon Echantillon … 2 k n21 nk1 … n22 nk2 … n2.
…
nk.
Statistiques décisionnelles
10. Tests sur les proportions
Sous l’hypothèse nulle p1 = p2 = ... = pk, il y a la même proportion inconnue p dans les k populations. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des k échantillons.
f
n 11 n 21 n k1 n1 n 2 n k
sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques
Avoir le caractère étudié Ne pas avoir le caractère étudié Total
Echantillon 1 Echantillon 2 f n1. f n2. (1 – f) n1. (1 – f) n2. n1. n2.
… Echantillon k f nk. … (1 – f) nk. … … nk.
On est amené à confronter les effectifs observés et les effectifs théoriques. On calcule la variable de décision VD : VD = (effectif observé-effectif théorique)2 / effectif théorique On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1) degré de liberté. 10.3.3. Région d’acceptation. La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs attendus, c’est-à-dire, lorsqu’il y a concordance absolue entre la distribution observée et la distribution théorique. La valeur de la variable de décision est d’autant plus grande que les écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 -
² = ²1-
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[. On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1- avec (k-1) degrés de liberté.
205
Statistiques décisionnelles
10. Tests sur les proportions
10.4. ENONCES DES EXERCICES D’APPLICATION. 10.4.1. Au cours des élections, un candidat est élu avec 52 % des voix. Plusieurs mois après l'élection, un institut de sondage interroge 1600 électeurs, dont 800 déclarent qu'ils voteraient en cas d'élection, pour le même candidat. Ce résultat est-il ou non significatif d'une désaffection des électeurs pour l'élu ? a) Au seuil de signification de 95 %. b) Au seuil de signification de 90 %. 10.4.2. Une enquête sur l’emploi a concerné 220 personnes dont 115 dans le milieu rural et 105 dans le milieu urbain. Sur les 115 ruraux enquêtés, 74 se sont révélés actifs, alors que pour les enquêtés urbains, 81 sont actifs. Peut-on admettre, au seuil de 5 %, qu’il n’y a pas de différence significative entre les taux d’activités dans les deux milieux ? 10.4.3. Lors d’une campagne électorale, un parti politique a effectué un sondage pour évaluer les intentions de vote en faveur de ce parti. Quatre échantillons indépendants ont été choisis dans quatre villes différentes. On a obtenu les résultats suivants :
Voteront pour le parti Ne voteront pas pour le parti Total
Rabat Tanger Oujda Agadir 94 58 60 43 240 230 252 197 334 288 312 240
Au seuil de signification de 5 % puis de 1 %, la proportion de la population des électeurs qui ont l’intention de voter pour ce parti est-elle identique dans les quatre villes ? 10.4.4. Dans une population, soit p1, la proportion d'hommes possédant le baccalauréat et p2 la proportion de femmes possédant le baccalauréat. Le tableau suivant correspond à la répartition de 200 individus choisis au hasard dans cette population.
Possèdent le bac ne possèdent pas le bac
hommes femmes 32 26 64 78
Peut-on affirmer au risque 0,05, que p1 et p2 sont significativement différents ? 10.4.5. Dans un pays M, le gouvernement a annoncé que le taux de chômage est de 15,6 %. Contestant ce chiffre, les députés de l'opposition ont fait appel à un institut de sondage. Celui ci a réalisé une étude couvrant 4900 personnes en âge d'activité et a trouvé que le taux de chômage est de 16,4 %. Avec un niveau de confiance de 0,95 ; estimez-vous que l'opposition a raison de contester le chiffre annoncé par le gouvernement ?
206
Statistiques décisionnelles
10. Tests sur les proportions
10.4.6. Dans une population, on interroge un échantillon aléatoire de 400 personnes dont 160 sont âgées de 18 à 40 ans et 240 sont âgées de plus de 40 ans. On a trouvé que le pourcentage des personnes propriétaires de leur logement dans les deux groupes sont respectivement 35% et 45%. Ces deux résultats sont-ils significativement différents au seuil de signification de 5 % puis de 1 % ? 10.4.7. Le tableau suivant donne le nombre d’étudiants qui ont été brillants et médiocres devant trois examinateurs :
Brillants Médiocres Total
Examinateur 1 50 5 55
Examinateur 2 47 14 61
Examinateur 3 56 8 64
Total 153 27 180
Au seuil de 5 % puis de 10 %, testez l’hypothèse selon laquelle le nombre d’étudiants médiocres est le même pour chaque examinateur. 10.4.8. Quelques jours avant une consultation électorale mettant deux candidats A et B en présence, deux instituts de sondage interrogent les électeurs. Pour l'institut X, qui a interrogé 1600 personnes, le candidat A ne recueillerait que 47 % des suffrages. Pour l'institut Y, qui a interrogé 2500 personnes, A recueillerait 50 % des suffrages. Ces deux résultats sont-ils significativement différents avec un degré de confiance de 95 % ? 10.4.9. L'expérience suivante a été réalisée par Weldon : il a lancé un dé 315 672 fois, il a tiré 106 602 fois l'une des faces 5 ou 6 Peut-on accepter l'hypothèse selon laquelle le dé est équilibré, au risque de 5% ? 10.4.10. Un fabricant affirme qu'au moins 95 % de l’équipement qu'il fournit à un dépositaire est conforme au cahier des charges. L’examen d'un échantillon de 200 pièces fournies montre que 18 pièces sont défectueuses. Que penser de l'affirmation du fabricant au seuil de confiance de 5 % puis de 10 % ? 10.4.11. Pour une élection, on effectue un sondage pour évaluer les intentions de vote en faveur du parti M. Dans la ville de Casablanca, sur 450 personnes interrogées, 52% ont l'intention de voter pour M. Dans la ville de Rabat, sur 300 personnes interrogées, 49 % ont l'intention de voter pour M. Au risque de 5%, y a-t-il une différence d'intention de vote dans ces deux villes? 10.4.12. Un chercheur a découvert un procédé efficace à 90 % pour prolonger la durée de vie des ballons à eau chaude. On teste son procédé sur 200 ballons. On constate qu'il est efficace pour 160 d’entre eux. L’affirmation du chercheur est-elle légitime au seuil de signification de 0,05 ?
207
Statistiques décisionnelles
10. Tests sur les proportions
10.4.13. Un laboratoire annonce que l'un de ses médicaments est efficace à 95 %. Sur un échantillon de 400 personnes le traitement s'est révélé efficace sur 368 d'entre elles. Quel risque faut-il accepter si l'on considère que l'affirmation du laboratoire est légitime ? 10.4.14. Une entreprise commerciale à succursales multiples procède à un sondage dans ses magasins de Rabat et Casablanca. A Rabat, sur 1000 clients interrogés, 350 déclarent souhaiter que le magasin reste ouvert jusqu’à 21 heures tandis qu’à Casablanca, sur 900 clients, 280 ont émis ce même vœu. L’entreprise peut-elle, au seuil de signification de 5 % puis de 10 %, considérer que sa clientèle de Rabat réagit comme celle de Casablanca ? 10.5. SOLUTIONS DES EXERCICES D’APPLICATION. 10.5.1. Solution de l’exercice 10.4.1. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas inférieur à la norme de 52 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche. H0
p = 0,52 H1 : p < 0,52
Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn =
800 = 0,50 1600
La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq n
taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =
fn p0 p 0 (1 p 0 ) n
0,50 0,52
=
0,52(1 0,52) 1600
208
= - 1,60
(la
Statistiques décisionnelles
10. Tests sur les proportions
Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. a) Au seuil de signification de 95 % ( = 0,05) :
Z = Z0,05 = -1,65
La région d’acceptation est donc l’intervalle [-1,65 ; +[. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. Ce résultat n'est donc pas significatif d'une désaffection des électeurs pour ce candidat. b) Au seuil de signification de 90 % ( = 0,1)
Z Z 0 ,1 1,28 La région d’acceptation est [- 1,28 ; + ]. On rejette l’hypothèse nulle. Ce résultat est donc significatif d’une désaffection des électeurs pour ce candidat. 10.5.2. Solution de l’exercice 10.4.2. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes actives dans le milieu rural est ou n’est pas égale à la proportion p2 des personnes actives dans le milieu urbain. Il s’agit d’un test bilatéral : H0 : p1 = p2
H1 : p 1 p 2
et
Variable de décision : D’après les données :
f n1
74 = 0,64 115 f n 2 n 2
f n2 155 = 0,70 220
209
81 = 0,77 105
Statistiques décisionnelles
10. Tests sur les proportions
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
f n1 n 2(1 f n1 n 2)(
1 1 ) n1 n 2
0,64 0,77
VDR =
= -2,10
1 1 0,70(1 0,70)( ) 115 105 Région d’acceptation : Pour = 0,05 la valeur de
Z1 est : Z0,975 = 1,96 2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, il y a une différence 2
significative entre les taux d’activités dans les deux milieux. 10.5.3. Solution de l’exercice 10.4.3. Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions. Formulation de l’hypothèse nulle : Ho : p 1 = p 2 = p 3 = p 4 H1: au moins une des proportions est différente des autres. Variable de décision : Sous l’hypothèse nulle : p1 = p2 = p3 = p4, il y a la même proportion inconnue p dans les 4 villes. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des 4 échantillons. 94 58 60 43 f 0,22 334 288 312 240 Sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques
Voteront pour le parti Ne voteront pas pour le parti Total
Rabat 73,48 260,52 334 210
Tanger 63,36 224,64 288
Oujda 68,64 243,36 312
Agadir 52,8 187,2 240
Statistiques décisionnelles
10. Tests sur les proportions
On calcule la variable de décision VD : VD =
+
(94 73,48)² (240 260,52)² (58 63,36)² 73,48 260,52 63,36
(230 224,64)² (60 68,64)² (252 243,36)² 224,64 68,64 243,36 +
(43 52,8)² (197 187,2)² = 11,65 52,8 187,2
La variable de décision est une variable aléatoire Khi deux avec 3 degrés de liberté. Région d’acceptation : La région d’acceptation est donc l’intervalle 0 ; 12 .
- Au seuil de signification de 5 %, la valeur ²0,95 à 3 degrés de liberté est égale à 7,81. La valeur de la variable de décision est supérieure à la valeur ²0,95 à 3 degrés de liberté, on rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, la proportion de la population des électeurs qui ont l’intention de voter pour ce parti n’est pas identique dans les quatre villes. - Au seuil de signification de 1 %, la valeur
02,999 à 3 degrés est égale à 16,27.
La valeur de la variable de décision est inférieure à la valeur
02,999 à 3 degrés de liberté, on
acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de 1 %, l’intention de vote pour ce parti est identique dans les quatre villes. 10.5.4. Solution de l’exercice 10.4.4. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des hommes possédant le bac est ou n’est pas égale à la proportion p2 des femmes possédant le bac. Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1 p 2
211
Statistiques décisionnelles
10. Tests sur les proportions
Variable de décision : D’après les données : Possèdent le bac Ne possèdent pas le bac Total 32 f n1 = 0,33 96
f n 2 n 2
Hommes Femmes Total 32 26 58 64 78 142 96 104 200 26 f n2 = 0,25 104
58 = 0,29 200
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
f n1 n 2(1 f n1 n 2)(
1 1 ) n1 n 2
0,33 0,25
VDR =
= 1,25
1 1 0,29(1 0,29)( ) 96 104 Région d’acceptation : Pour = 0,05 la valeur de
Z1 est : Z0,975 = 1,96 2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence 2
significative entre la proportion des hommes possédant le bac et celle des femmes possédant le bac. 10.5.5. Solution de l’exercice 10.4.5. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas supérieur à la norme de 15,6 % annoncée par le gouvernement. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à droite H0
p = 0,156
H1 : p>< 0,156
212
Statistiques décisionnelles
10. Tests sur les proportions
Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn = 0,164 La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq
(la
n taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =
fn p0 p 0 (1 p 0 ) n
0,164 0,156
=
Région d’acceptation : La région d’acceptation est l’intervalle ]- ;
0,156(1 0,156) 4900
= 1,54
Z1 ]. Z1 = Z0,95 = 1,65
Au seuil de signification de 95 % ( = 0,05) :
La région d’acceptation est donc l’intervalle ]- ; 1,65]. On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région d’acceptation. C’est-à-dire au seuil 5 % l'opposition a tort de contester le chiffre annoncé par le gouvernement. 10.5.6. Solution de l’exercice 10.4.6. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes propriétaires de leur logement dans la tranche d’âge 18 à 40 ans est ou n’est pas égale à la proportion p 2 des personnes propriétaires de leur logement dans la tranche d’âge de plus de 40 ans. Il s’agit d’un test bilatéral : H0 : p1 = p2
et
H1 : p 1 p 2
Variable de décision : D’après les données :
f n1 = 0,35 f n 2 n 2
f n2 = 0,45 160.0,35 240.0,45 = 0,41 160 240 213
Statistiques décisionnelles
10. Tests sur les proportions
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
f n1 n 2(1 f n1 n 2)(
1 1 ) n1 n 2
0,35 0,45
VDR =
= -1,99
1 1 0,41(1 0,41)( ) 160 240 Région d’acceptation : - Pour = 0,05 la valeur de
Z1 est : Z0,975 = 1,96 2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il y a une 2
différence significative entre les proportions de personnes propriétaires de leur logement dans les deux tranches d’âge. - Pour = 0,01 la valeur de
VDR Z
1
Z
1
2
est Z0,995 = 2,58
, on accepte donc l’hypothèse nulle. C’est-à-dire au seuil de 1 % il n’y a pas
2
de différence significative entre les proportions de personnes propriétaires de leur logement dans les deux tranches d’âge. 10.5.7. Solution de l’exercice 10.4.7. Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions. Formulation de l’hypothèse nulle : Ho: p1 = p2 = p3 H1: au moins une des proportions est différente des autres. Variable de décision : Sous l’hypothèse nulle : p1 = p2 = p3, il y a la même proportion inconnue p pour les 3 examinateurs. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique qui est la réunion des 3 échantillons.
f
27 0,15 180
214
Statistiques décisionnelles
10. Tests sur les proportions
Sous l’hypothèse nulle, les effectifs théoriques sont : Effectifs théoriques Examinateur 1 46,75 8,25 55
Brillants Médiocres Total
Examinateur 2 51,85 9,15 61
Examinateur 3 54,40 9,60 64
On calcule la variable de décision VD : VD =
+
(50 46,75)² (47 51,85)² (56 54,40)² 46,75 51,85 54,40 (5 8,25)² (14 9,15)² (8 9,60)² 8,25 9,15 9,60 VD = 4,84
La variable de décision est une variable aléatoire Khi deux avec 2 degrés de liberté. Région d’acceptation : La région d’acceptation est donc l’intervalle [0 ; ²1-[. - Au seuil de signification de 5 %, la valeur ²0,95 à 2 degrés de liberté est égale à 5,99. La valeur de la variable de décision est inférieure à la valeur ²0,95 à 2 degrés de liberté, on acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, le nombre d’étudiants médiocres est le même pour chaque examinateur. - Au seuil de signification de 10 %, la valeur
02,90 à 2 degrés de liberté est égale à 4,61.
La valeur de la variable de décision est supérieure à la valeur
02,90 à 2 degrés de liberté, on
rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de 10 %, le nombre d’étudiants médiocres est le même pour chaque examinateurs. 10.5.8. Solution de l’exercice 10.4.8. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
215
Statistiques décisionnelles
10. Tests sur les proportions
Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le candidat A, estimée par l’institut X, est ou n’est pas égale à la proportion p 2 des personnes qui voteraient pour le candidat A, estimée par l’institut Y. Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1 p 2 Variable de décision : D’après les données :
f n1 = 0,47
f n2 = 0,50 1600.0,47 2500.0,50 = 0,49 1600 2500
f n 2 n 2
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
f n1 n 2(1 f n1 n 2)(
1 1 ) n1 n 2
0,47 0,50
VDR =
= -1,11
1 1 0,49(1 0,49)( ) 1600 2500 Région d’acceptation : Pour = 0,05 la valeur de
Z1 est : Z0,975 = 1,96 2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de 2
différence significative entre les résultats obtenus par les deux instituts. 10.5.9. Solution de l’exercice 10.4.9. Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par l’expérience, est ou n’est pas égal au pourcentage théorique, c’est-à-dire la probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré. Probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré est de 2 sur 6, soit 0,333. Hypothèse nulle : Il s’agit d’un test bilatéral : H0
H1 : p 0,333
p = 0,333 216
Statistiques décisionnelles
10. Tests sur les proportions
Variable de décision : La variable de décision du test correspond à la fréquence fn de l’expérience : VD = fn =
106602 = 0,338 315672
La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq
(la
n taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est :
fn p0
VDR =
Région d’acceptation : Pour = 0,05 la valeur de
p 0 (1 p 0 ) n
0,338 0,333
=
0,333(1 0,333) 315672
= 5,96
Z1 est : Z0,975 = 1,96 2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % le dé n’est pas 2
équilibré. 10.5.10. Solution de l’exercice 10.4.10. Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le sondage, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche : H0
p = 0,95 H1 : p < 0,95
Variable de décision : La variable de décision du test correspond à la fréquence fn de l’échantillon : VD = fn =
182 = 0,91 200
La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
217
(la
Statistiques décisionnelles
10. Tests sur les proportions
La variable de décision réduite est : fn p0 VDR = = p 0 (1 p 0 ) n
0,91 0,95 0,95(1 0,95) 200
= - 2,60
Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. - Au seuil de signification de 95 % ( = 0,05) :
Z = Z0,05 = -1,65
La région d’acceptation est donc l’intervalle [-1,65 ; +[. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. Au seuil 5 %, l’affirmation du fabricant n’est pas correcte. - A seuil de signification de 99,9 % ( = 0,001) :
Z Z0, 001 3,09 La région d’acceptation est donc l’intervalle [- 3,09 ; + [. On accepte l’hypothèse nulle. Au seuil de 1 %, l’affirmation du fabricant est correcte. 10.5.11. Solution de l’exercice 10.4.11. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le parti M dans la ville de Casablanca est ou n’est pas égale à la proportion p2 des personnes qui voteraient pour le parti M dans la ville de Rabat. Il s’agit d’un test bilatéral : H0 : p1 = p2
et
H1 : p 1 p 2
Variable de décision : D’après les données :
f n1 = 0,52 f n 2 n 2
f n2 = 0,49
450.0,52 300.0,49 = 0,51 450 300
218
Statistiques décisionnelles
10. Tests sur les proportions
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
f n1 n 2(1 f n1 n 2)(
1 1 ) n1 n 2
0,52 0,49
VDR =
= 0,54
1 1 0,51(1 0,51)( ) 450 300 Région d’acceptation : Pour = 0,05 la valeur de
Z1 est : Z0,975 = 1,96 2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de 2
différence significative entre les intentions de vote pour le parti M dans les deux villes Casablanca et Rabat. 10.5.12. Solution de l’exercice 10.4.12. Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par le test, n’est pas inférieur à la norme de 90 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche H0
p = 0,90 H1 : p < 0,90
Variable de décision : La variable de décision du test correspond à la fréquence fn du test : VD = fn =
160 = 0,80 200
La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
219
(la
Statistiques décisionnelles
10. Tests sur les proportions
La variable de décision réduite est : VDR =
fn p0 p 0 (1 p 0 ) n
0,80 0,90
=
0,90(1 0,90) 200
= - 4,71
Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[.
Z = Z0,05 = -1,65
Au seuil de signification de 95 % ( = 0,05) :
La région d’acceptation est donc l’intervalle [-1,65 ; +[. On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région d’acceptation. L’affirmation du chercheur n’est pas légitime au seuil de signification de 0,05. 10.5.13. Solution de l’exercice 10.4.13. Pour répondre à cette question, on doit accepter que le pourcentage obtenu par le test, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion. Hypothèse nulle : Il s’agit d’un test unilatéral à gauche H0
p = 0,95 H1 : p < 0,95
Variable de décision : La variable de décision du test correspond à la fréquence fn du test : VD = fn =
368 = 0,92 400
La distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq n
taille de l’échantillon est supérieure à 30 et le produit n p > 5). La variable de décision réduite est : VDR =
fn p0 p 0 (1 p 0 ) n
=
220
0,92 0,95 0,95(1 0,95) 400
= - 2,75
(la
Statistiques décisionnelles
10. Tests sur les proportions
Région d’acceptation : La région d’acceptation est l’intervalle [ Z ; +[. Le seuil de signification est inconnu. Pour accepter l’hypothèse nulle, la variable de décision réduite doit appartenir à la région d’acceptation. Z doit donc être inférieure ou égale à –2,75.
Z = -2,75
= 0,003
=>
10.5.14. Solution de l’exercice 10.4.14. Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions. Hypothèse nulle : Ce test a pour but de vérifier si la proportion p1 des personnes de Rabat qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures est ou n’est pas égale à la proportion p2 des personnes de Casablanca qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures. Il s’agit d’un test bilatéral : H0 : p1 = p2
H1 : p 1 p 2
et
Variable de décision : D’après les données :
f n1 = 350 = 0,35 1000
f n2 = 280 = 0,31 900
f n2 n2 350 280 = 0,33 1000900 La variable de décision centrée réduite est : VDR =
f n1 f n 2 f n1 n 2(1 f n1 n 2)(
VDR =
1 1 ) n1 n 2
0,35 0,31 1 1 0,33(1 0,33)( ) 1000 900
221
= 1,85
Statistiques décisionnelles
Région d’acceptation : Pour = 0,05 la valeur de Z
10. Tests sur les proportions
1
2
est : Z0,975 = 1,96
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire l’entreprise peut, au seuil de 2
signification de 5%, considérer que sa clientèle de Rabat réagit comme celle de Casablanca. Pour = 0,1 la valeur
VDR Z
1
2
Z
1
2
est :
Z0,95 1,64
, on rejette donc l’hypothèse nulle. C’est-à-dire l’entreprise ne peut pas, au seuil
de signification de 10 %, considérer que sa clientèle de Rabat réagit comme celle de Casablanca.
222
Statistiques décisionnelles.
11. Tests non paramétriques
CHAPITRE 11 TESTS NON PARAMETRIQUES
11.1. TEST DE VALIDITE DE LOI DE PROBABILITE D’UNE DISTRIBUTION. Les tests d’ajustement sont destinés à comparer une distribution observée et une distribution théorique donnée. D’une façon générale, on considère d’une part, une population infinie dont les individus sont classés en k catégories, en fonction d’un critère qualitatif ou quantitatif, et d’autre part, un échantillon aléatoire et simple d’effectif n, dont les individus sont classés de la même manière. Le but du test est de vérifier si la population possède une distribution de probabilité donnée : k
p1, p2, p3, …, pk tel que :
p i 1
i
1
Formulation de l’hypothèse nulle : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. L’hypothèse nulle est alors : H0 : ni = npi avec
k
k
i 1
i 1
n i = npi = n
Variable de décision : On distingue deux cas d’application de ces tests, selon que la distribution théorique est ou n’est pas complètement définie. Dans le premier cas, la variable de décision peut être calculée immédiatement. Dans le second cas, la distribution de probabilité de la population n’est définie qu’en fonction d’un ou de plusieurs paramètres, ceux-ci doivent préalablement être estimés à partir des données de l’échantillon.
223
Statistiques décisionnelles.
11. Tests non paramétriques
11.1.1. CAS D’UNE DISTRIBUTION COMPLETEMENT DEFINIE. Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. Les effectifs attendus doivent être tous supérieurs ou égaux à 5. Quand cette condition n’est pas remplie, on peut regrouper des classes voisines, de manière à augmenter les effectifs attendus. On calcule la variable de décision VD :
VD
k
i 1
(n i np i ) 2 np i
On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1) degré de liberté. k correspond au nombre de classes après regroupement. La variable de décision peut être calculée plus facilement par :
VD
k
n i2
np i 1
n i
11.1.2. CAS D’UNE DISTRIBUTION INCOMPLETEMENT DEFINIE. Lorsque la distribution théorique n’est pas complètement définie, le ou les paramètres qui caractérisent cette distribution doivent tout d’abord être estimés. On peut calculer ensuite les ^
probabilités estimées
^
pi , les effectifs attendus correspondants n pi , et la valeur de décision : VD
k
n i2
np i 1
n i
Pour déterminer le nombre de degrés de liberté, on doit déduire de (k – 1) le nombre de paramètres estimés. Région d’acceptation : La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs attendus, c’est à dire, lorsqu’il y a concordance absolue entre la distribution observée et la distribution théorique. La valeur de la variable de décision est d’autant plus grande que les écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 -
224
² = ²1-
Statistiques décisionnelles.
11. Tests non paramétriques
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle 0 ; 12 . On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1-. 11.2. TEST D’INDEPENDANCE. Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux ou plusieurs critères de classification. Ils permettent également d’effectuer des comparaisons de proportions. Les tests d’indépendance concernent une population subdivisée en pq classes, en fonction de deux critères de classification. La distribution de probabilité correspondante est alors une distribution à deux dimensions, et les données relatives à tout échantillon sont présentées sous la forme d’un tableau de contingence. Pour des échantillons aléatoires et simples, si les deux critères de classification sont indépendants, les probabilités pij de la distribution à deux dimensions peuvent être estimées par : pˆ ij f i. x f . j
fi
nj ni et f j sont les fréquences relatives marginales. n n
ni. et n.j sont les effectifs marginaux, et nij les effectifs conjoints. Les effectifs attendus correspondants sont donc :
npˆ ij nfi x fj n
ni. n. j ni. x n. j n n n
Les effectifs attendus doivent tous être supérieurs ou égaux à 5. Formulation de l’hypothèse nulle : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter ^
les effectifs observés nij et les effectifs attendus ou théoriques correspondants n pij . L’hypothèse nulle est l’indépendance des deux critères de classification. ^
H0 : nij = n pij
225
Statistiques décisionnelles.
11. Tests non paramétriques
Variable de décision : La comparaison des effectifs observés et attendus se fait comme pour les tests d’ajustement, en calculant la variable de décision suivante :
VD =
p
q
n ij ²
i 1
j1
n p ij
^
-n
On démontre que la variable de décision est une variable aléatoire Khi deux avec (p-1)(q-1) degré de liberté. Région d’acceptation : La valeur critique qui délimite la région d’acceptation est ² telle que : p(VD < ²) = 1 -
² = ²1-
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[. On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure ou égale à ²1-. 11.3. ENONCES DES EXERCICES D’APPLICATION. 11.3.1. Le tableau suivant donne la distribution de fréquences des nombres de garçons observés dans 1600 familles de 4 enfants, considérées comme choisies au hasard au sein d’une très large population. En fonction de ces résultats, peut-on affirmer, au seuil de 5 %, puis de 1 % que le nombre de garçons suit une loi binomiale ? Nombre de garçons Nombre de familles 0 113 1 367 2 576 3 426 4 118 Total 1600 11.3.2. Au concours d’entrée à une école, l’épreuve de culture générale est notée de 0 à 50. On tire au hasard un échantillon de 100 candidats et l’on relève que les notes qu’ils ont obtenues se classent en cinq tranches de la manière suivante :
226
Statistiques décisionnelles.
11. Tests non paramétriques
Tranches de notes Note 10 10 < Note 20 20 < Note 30 30 < Note 40 40 < Note 50
Nombre de candidats 10 20 30 20 20
Le jury se demande s’il est justifié de considérer que la distribution des notes suit une loi normale dans la population de tous les candidats. a) Au seuil de 5 %. b) Au seuil de 1 %. 11.3.3. Une enquête a été réalisée auprès d’un échantillon de 500 individus prélevé au sein d’une population cible de 4 millions d'individus. Les données que l'on possède sur cette population sont les suivantes : Hommes 48% soit 1,92 millions d’hommes Femmes 58% soit 2,08 millions de femmes Sexe Niveau d’instruction Aucun Primaire Secondaire Formation professionnelle Supérieur Total
Hommes % Effectifs 35 672000 30 576000 15 288000 13 249600 7 134400 100 1920000
Femmes Total % Effectifs 50 1040000 1712000 25 520000 1096000 10 208000 496000 10 208000 457600 5 104000 238400 100 2080000 4000000
Au dépouillement, on a trouvé que les individus qui ont formé l’échantillon ont les caractéristiques suivantes : Sexe Niveau d’instruction Aucun Primaire Secondaire Formation professionnelle Supérieur Total
Hommes Femmes Total % Effectifs % Effectifs 32 61 54 112 173 28 54 23 48 102 18 35 12 25 60 14 27 8 17 44 8 15 3 6 21 100 192 100 208 400
L’échantillon prélevé est-il représentatif de la population étudiée ?
227
Statistiques décisionnelles.
11. Tests non paramétriques
11.3.4. On a enregistré plusieurs fois de suite le nombre de personnes qui se sont présenté à un guichet automatique bancaire, pendant des temps de 5 minutes. Nombres d’arrivées Fréquences absolues observées
0 1
1 4
2 3 4 5 6 12 18 22 17 11
7 6
8 4
9 3
10 2
Peut-on affirmer au seuil de signification de 5 % que le nombre de personnes qui se présentent à un guichet automatique bancaire, pendant un intervalle de temps de 5 minutes suit une loi de Poisson ? 11.3.5. On a mesuré la longueur, en mm, de 75 grains de blé. Les résultats obtenus ont été répartis en neuf classes; longueur en mm Nombre de grains [5,25 ; 5,75[ 1 [5,75 ; 6,25[ 6 [6,25 ; 6,75[ 6 [6,75 ; 7,25[ 9 [7,25 ; 7,75[ 15 [7,75 ; 8,25[ 17 [8,25 ; 8,75[ 10 [8,75 ; 9,25[ 8 [9,25 ; 9,75[ 3 Peut-on ajuster à cette distribution la loi normale de moyenne 7,75 mm, et d’écart type 0,94 mm ? (seuil de signification de 5 %) 11.3.6. Le centre de transfusion à Rabat a enregistré la répartition suivante des groupes sanguins de 525 donneurs bénévoles. Groupes sanguins Effectifs observés
O 251
A 219
B 29
AB 26
La répartition des groupes sanguins dans la population marocaine est la suivante : Groupes sanguins Proportions
O 44,5%
A 44%
B 8%
AB 3,5%
Au seuil de signification de 5%, puis de 1 % les 525 donneurs sont-ils représentatifs de la population marocaine en terme de groupes sanguins ?
228
Statistiques décisionnelles.
11. Tests non paramétriques
11.3.7. Un tour opérateur souhaite segmenter son marché. Il se demande s’il existe un lien entre le choix d’une destination de vacances et le niveau d’instruction. Les données recueillies ont été structurées sous forme de tableau de contingence. Niveau d’instruction Primaire Secondaire Supérieur Total
Destination de vacances Mer Montagne Désert 300 50 100 250 80 20 50 120 30 600 250 150
Total 450 350 200 1000
11.3.8. Le directeur de ventes d’un laboratoire pharmaceutique veut savoir s’il existe des différences significatives entre les régions en terme de niveau d’accueil d’un nouveau produit. Les résultats suivants ont été obtenus auprès d’un échantillon aléatoire de clients : Régions Nord Est Sud Ouest 22 35 0 5 84 55 8 24 25 17 22 12
Niveau d’accueil Faible Modéré Elevé Le niveau d’accueil dépend-t-il de la région ?
11.3.9. Les 150 étudiants d’une école doivent choisir entre trois disciplines pour leur activité parascolaire. Le choix des étudiants selon le sexe a été comme suit : Sexe Fille Garçon Total
Sport 20 43 63
Discipline Musique 28 16 44
Théâtre 32 11 43
Total 80 70 150
Peut-on affirmer au seuil de 5 % puis de 1 % que le choix des étudiants dépend de leur sexe ? 11.3.10. Le tableau ci-dessous donne la répartition de 10000 étudiants d’une université selon la filière d’étude et la profession des parents. Filière Sciences Médecine et Droit LettresSciences PharmacieAutre Total Profession économiques dentaire Exploitant agricole 80 35 135 99 65 28 69 511 Salarié agricole 6 2 15 6 4 1 5 39 Patron 168 74 312 137 208 53 83 1035 Profession libérale 470 191 806 400 876 164 124 3031 229
Statistiques décisionnelles.
et cadre sup Cadre moyen 236 Employé 145 Ouvriers 166 Personnel de service 16 Autres 305 Total 1592
11. Tests non paramétriques
99 52 64 6 115 638
493 281 401 27 624 3094
264 133 193 11 247 1490
281 135 127 8 301 2005
56 30 23 2 47 404
123 1552 74 850 157 1131 10 80 132 1771 777 10000
D’après les données ci-dessus, peut-on affirmer au seuil de signification de 5 %, qu’il y a un lien entre la filière d’étude et la profession des parents ? 11.4. SOLUTIONS DES EXERCICES D’APPLICATION. 11.4.1. Solution de l’exercice 11.3.1. Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la distribution observée à la distribution binomiale. Hypothèse nulle : k
H0 : ni = npi
k
n = np
avec
i
i 1
i
=n
i 1
Variable de décision : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit calculer alors les probabilités pi en utilisant la loi binomiale. La probabilité d’avoir un garçon est supposée égale à 0,5, la loi binomiale qui caractérise le nombre de garçons dans une famille de 4 enfants a pour paramètre 4 et 0,5. En utilisant la formule de la loi binomiale, on trouve les probabilités suivantes :
p ( x ) C nx p x q n x Distribution de la variable B(4 , 1/2) x 0 1 2 3 4 Total
p(x) 0,0625 0,2500 0,3750 0,2500 0,0625 1 230
Statistiques décisionnelles.
11. Tests non paramétriques
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. x 0 1 2 3 4 Total
ni 113 367 576 426 118 1600
npi 100 400 600 400 100 1600
Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
n i2 n i 1 np i k
VD VD
113 2 367 2 576 2 426 2 118 2 1600 10,3 100 400 600 400 100
Région d’acceptation : La région d’acceptation est l’intervalle [0 ; ²1-[. Pour = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49 La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle. C’est à dire qu’au seuil de 5%, on ne peut pas affirmer que le nombre de garçons suit une loi binomiale. Pour = 0,01 la valeur de
12 avec 4 degrés de liberté est : 02,99 13,28
La valeur de la variable de décision est inférieure à
12 , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’un seuil de 1 %, on peut affirmer que le nombre de garçons suit une binomiale. 11.4.2. Solution de l’exercice 11.3.2. Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la distribution observée à la distribution normale.
231
Statistiques décisionnelles.
11. Tests non paramétriques
Hypothèse nulle : H0 : ni = npi
k
k
i 1
i 1
n i = npi = n
avec
Variable de décision : Pour comparer la distribution théorique et la distribution observée, on est amené à confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit calculer alors les probabilités pi en utilisant la loi normale. Pour cela, il faut estimer les paramètres de la loi normale, à savoir, la moyenne et l’écart type. La moyenne m peut être estimée par la moyenne calculée à partir de la distribution observée alors que la variance sera estimée par la quasi-variance. Reprenons les données et calculons la moyenne et la quasi-variance. Tranches de notes Note 10 10 < Note 20 20 < Note 30 30 < Note 40 40 < Note 50
x
n x n i
i
i
=
Centres xi 5 15 25 35 45
Effectifs ni 10 20 30 20 20
10.5 20.15 30.25 20.35 20.45 = 27 10 20 30 20 20
n (x x)² ² n 1 ^
i
i
=
i
10.(5 27)² 20.(15 27)² 30.(25 27)² 20.(35 27)² 20.(45 27)² ^ ² = 157,58 100 1 ^
157,58 = 12,55 La loi normale est de moyenne 27 et d’écart type 12,55. Calculons les probabilités :
10 27 ) = (-1,35) = 0,0885 12,55 10 27 20 27 p(10 < X 20) = p(
View more...
Comments