Module 106
Analyse et fouille de données
Ajustement et corrélation 1 - Principe de l'ajustement 2 - Principe de la méthode des moindres carrés 3 - Ajustement linéaire 4 - Exemple d'ajustement 5 - Corrélation linéaire de 2 variables 6 - Retour sur la covariance et la corrélation 7 - Corrélation linéaire multiple 8 - Exemple de recherche de corrélation 9 - Modèles non linéaires 10 - Ajustement polynomial 11 - Test du Χ2
Exercices
Gérard-Michel Cochard
[email protected]
Ch2 - Ajustement et Corrélation
1 - Principe de l'ajustement Une série statistique est une collection de couples (x i, ni) où xi est la valeur du caractère (ou le centre d'une classe) et n i l'effectif correspondant. A chaque couple (x i, ni) on peut faire correspondre un point dans un repère cartésien de sorte que la représentation graphique d'une série statistique est un nuage de points :
Effectuer un ajustement consiste à : q q
trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'équation de cette courbe
L'intérêt de cette procédure est q q
d'exprimer les résultats d'une étude statistique par une loi simple d'éliminer les erreurs ou fluctuations accidentelles accidentelles
Les figures suivantes décrivent des ajustements des séries statistique statistiquess des exemples A et B :
Dans ce qui suit, nous considérerons que les données statistiques sont des couples (x i, yi) correspondant chacun à un point. Dans le cas d'une série statistique simple, x i représentera une valeur du caractère, yi (appelé précédemment ni) l'effectif (ou la fréquence) correspondant.
Ch2 - Ajustement et Corrélation
1 - Principe de l'ajustement Une série statistique est une collection de couples (x i, ni) où xi est la valeur du caractère (ou le centre d'une classe) et n i l'effectif correspondant. A chaque couple (x i, ni) on peut faire correspondre un point dans un repère cartésien de sorte que la représentation graphique d'une série statistique est un nuage de points :
Effectuer un ajustement consiste à : q q
trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'équation de cette courbe
L'intérêt de cette procédure est q q
d'exprimer les résultats d'une étude statistique par une loi simple d'éliminer les erreurs ou fluctuations accidentelles accidentelles
Les figures suivantes décrivent des ajustements des séries statistique statistiquess des exemples A et B :
Dans ce qui suit, nous considérerons que les données statistiques sont des couples (x i, yi) correspondant chacun à un point. Dans le cas d'une série statistique simple, x i représentera une valeur du caractère, yi (appelé précédemment ni) l'effectif (ou la fréquence) correspondant.
Il y a plusieurs procédés d'ajustement ; les principaux sont : q q
l'ajustement graphique, amélioré par la méthode des points moyens l'ajustement mécanique : méthode des moyennes échelonnées , méthode des moyennes mobiles Ces deux types d'ajustement permettent d'obtenir la forme de la courbe cherchée.
q
l'ajustement analytique : méthode des moindres carrés Cet ajustement permet, permet, en principe, d'obtenir l'équation l'équation de la courbe. courbe.
Nous ne nous intéresserons ici qu'à la méthode des moindres carrés.
2 - Principe de la méthode des moindres carrés Les ajustements graphique et mécanique permettent d'obtenir la forme approximative de la courbe d'ajustement. On fait alors choix d'une courbe de type connu d'équation y = f(x). Cette équation contient un certain nombre de paramètres dont il s'agit de fixer les valeurs. exemples : pour une droite d'équation y = ax + b, les paramètres à déterminer sont a et b. pour une parabole d'équation y = ax 2 + bx + c, les paramètres à déterminer sont a, b, c. La détermination de ces paramètres est l'objet de l'ajustement analytique. analytique. le procédé le plus employé est la méthode des moindres carrés. Pour chaque point (xi, yi), on considère le point correspondant de la (présumée) courbe d'ajustement (xi, y'i). Si l'équation de la courbe d'ajustement est y = f(x), on a y' i = f(xi). On mesure alors la différence (en valeur absolue) entre ces deux points : |yi - y'i| = |yi - f(xi)| et on forme la quantité :
Pour déterminer les paramètres inconnus de la fonction f, on écrit la condition d'optimisation : M doit être minimum
ce qui se traduit, en général, par des équations mathématiques plus ou moins complexes.
3 - Ajustement linéaire Dans ce qui suit, on se limite au cas où la courbe d'ajustement est une droite d'équation y = ax + b. Il faudra donc déterminer les paramètres a (coefficient directeur) et b (ordonnée à l'origine). C'est l'objet de l'ajustement linéaire.
Considérons la série statistique représentée par les couples de nombres : x x1 x2 ------------------------
xi ------------------------
xn
y y1 y2 ------------------------ yi ------------------------ yn Pour effectuer l'ajustement linéaire de cette série, procédons par étapes successives : a) changement de variable
Effectuons le calcul des moyennes arithmétiques simples des xi et des yi :
ce qui donne le point (m x, m y). Puis on effectue le changement de variables :
ce qui équivaut à un changement d'axes. La nouvelle série est la collection (X i, Yi) : X
X1 X2 ------------------------
Xi ------------------------
Xn
Y Y1 Y2 ------------------------
Yi ------------------------
Yn
b) expression de la quantité M
M = Σi(Yi - Y'i)2 avec Y'i = AXi + B Yi - Y'i = Yi - AXi - B = (Yi - AXi) - B
(Yi - Y'i)2 = (Yi - AXi)2 - 2B(Yi - AXi) + B2 d'où M = Σi(Yi - AXi)2 - 2B(ΣiYi - AΣiXi) + nB2 Mais
ΣiYi = Σi(yi - m y) = Σ y i i - nm y = nm y - nm y = 0 et de même ΣiXi = Σi(xi - mx) = Σixi - nmx = nmx - nmx = 0
donc M = Σi(Yi - AXi)2 + nB2 (Yi - AXi)2 = Yi2 - 2AXiYi + A2Xi2
Ajoutons et retranchons à l'expression précédente le terme
c) minimisation de M
Il est clair, d'après l'expression précédente, que l'on rendra M le plus petit possible en prenant :
On obtient alors :
Puisque M est une quantité positive (dans sa définition, c'est un carré), on remarque que :
d) détermination de la droite d'ajustement
Dans les nouveaux axes, l'équation de la droite d'ajustement est Y = AX Cette droite passe donc par l'origine des nouveaux axes, c'est à dire par le point dont les coordonnées, dans les anciens axes sont (mx, m y). Dans les anciens axes, la droite d'ajustement a pour équation générale y = ax + b Or Y = AX entraîne que
y - m y = A(x - mx) ou encore y = Ax + m y - Amx
d'où a = A et b = m y - Amx
e) relation pratique pour a
Exprimons a en fonction des données initiales (xi, yi).
4 - Exemple d'ajustement exemple 11 : salaires moyens d'un ouvrier professionnel dans les industries des métaux de la région parisienne
année
1950 1952 1954 1956
1958
1960
1962
1964
salaire (F)
1,15
2,83
3,20
3,75
4,40
1,82
1,99
2,36
La répartition des points suggère que l'ajustement peut être fait par une droite d'équation y = ax + b. Pour déterminer a et b, on utilise une disposition en tableau comme suit. Il est, par ailleurs, commode de remplacer les années par des nombres plus simples xi.
On en tire : mx = 4/8 = 0,5
m y = 21,50/8 = 2,69
a = [27,20 - 8x0,5x2,69]/[44 - 8x0,25] = 0,39 b = m y - amx = 2,69 - 0,39x0,5 = 2,49 L'équation de la droite est donc y = 0,39x + 2,49. Cette équation exprime approximativement la variation du salaire horaire moyen au cours du temps. Elle permet de faire q
des interpolations : salaire horaire moyen en 1955 : 0,39x0,5 + 2,49 = 2,30
q
des extrapolations : salaire horaire moyen en 1966 : 0,39x5 + 2,49 = 4,44
Ch2 - Ajustement et Corrélation
5 - Corrélation linéaire de 2 variables Dans la session précédente, on s'est intéressé aux séries statistiques simples. On s'inté resse maintenant aux séries statistiques doubles représentées graphiquement par des nuages de points de coordonnées (x,y) où x est une valeur du 1er caractère et y une valeur du second caractère. La recherche de l'influence de x sur y ou de y sur x s'appelle la recherche de la corrélation entre x et y. La forme du nuage de points peut renseigner de manière utile sur l'importance de la corrélation :
La corrélation linéaire se reconnaît au fait que les points représentatifs sont voisins d'une droite. L'équation de cette droite peut être obtenue par l'ajustement linéaire :
La corrélation linéaire se reconnaît au fait que les points représentatifs sont voisins d'une droite. L'équation de cette droite peut être obtenue par l'ajustement linéaire :
Cette droite est appelée droite de régression de y en x. Nous la noterons D y/x. On peut aussi faire jouer à x et y des rôles symétriques et co nsidérer la droite de régression de x en y : Dx/y définie par :
Les deux droites de régression sont en général distinctes. Cependant elles passent toutes deux par le "point moyen" (m x, m y). Une bonne corrélation linéaire signifie que les droites de régression sont presque confondues. Au contraire, une très mauvaise corrélation linéaire correspond à deux droites de régression presque perpendiculaires.
6 - Retour sur la covariance et la corrélation Nous allons définir, dans ce paragraphe, une quantité numérique permettant de mesurer quantitativement la corrélation linéaire.
Cette droite est appelée droite de régression de y en x. Nous la noterons D y/x. On peut aussi faire jouer à x et y des rôles symétriques et co nsidérer la droite de régression de x en y : Dx/y définie par :
Les deux droites de régression sont en général distinctes. Cependant elles passent toutes deux par le "point moyen" (m x, m y). Une bonne corrélation linéaire signifie que les droites de régression sont presque confondues. Au contraire, une très mauvaise corrélation linéaire correspond à deux droites de régression presque perpendiculaires.
6 - Retour sur la covariance et la corrélation Nous allons définir, dans ce paragraphe, une quantité numérique permettant de mesurer quantitativement la corrélation linéaire.
La droite D y/x a pour équation y = ax + b et son coefficient directeur est a. La droite D x/y a pour équation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrélation maximum correspond à la situation où les droites D y/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1
Or
La corrélation maximum correspond donc à :
Par définition, on appelle coefficient de corrélation linéaire la quantité
On écrit souvent r sous une autre forme que nous allons déterminer et qui fait intervenir les écarts-types. n représentant le nombre de couples (xi, yi),
q
la variance de x est
q
la variance de y est
La droite D y/x a pour équation y = ax + b et son coefficient directeur est a. La droite D x/y a pour équation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrélation maximum correspond à la situation où les droites D y/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1
Or
La corrélation maximum correspond donc à :
Par définition, on appelle coefficient de corrélation linéaire la quantité
On écrit souvent r sous une autre forme que nous allons déterminer et qui fait intervenir les écarts-types. n représentant le nombre de couples (xi, yi),
q
la variance de x est
q
la variance de y est
q
rappelons que l'on appelle covariance de x et y la quantité
Avec ces définitions, on peut écrire
Examinons maintenant les propriétés du coefficient de corrélation linéaire : q
invariance par translation
Transformons xi en x'i = xi + α et yi en y'i = yi + β. Alors m x est transformé en m x' = mx + α et m y en m y' = m y + β. Par suite Xi est transformé en X'i = x'i- mx' = (xi + α) - (mx + α) = xi - mx = Xi et Yi est transformé en Y'i = y'i - m y' = (yi + β) - (m y + β) = yi - m y = Yi En définitive, r est inchangé. q
invariance par changement d'échelle
Transformons xi en x'i = αxi et yi en y'i = β yi. Alors m x est transformé en m x' = αmx et m y en m y' = βm y. Par suite Xi est transformé en X'i = x'i - mx' = αxi - αmx = α(xi - mx) = αXi et Yi est transformé en Y'i = y'i - m y' = β yi - bm y = β(yi - m y) = βYi
r est donc changé en
En définitive r est inchangé. q
domaine de variation de r
q
rappelons que l'on appelle covariance de x et y la quantité
Avec ces définitions, on peut écrire
Examinons maintenant les propriétés du coefficient de corrélation linéaire : q
invariance par translation
Transformons xi en x'i = xi + α et yi en y'i = yi + β. Alors m x est transformé en m x' = mx + α et m y en m y' = m y + β. Par suite Xi est transformé en X'i = x'i- mx' = (xi + α) - (mx + α) = xi - mx = Xi et Yi est transformé en Y'i = y'i - m y' = (yi + β) - (m y + β) = yi - m y = Yi En définitive, r est inchangé. q
invariance par changement d'échelle
Transformons xi en x'i = αxi et yi en y'i = β yi. Alors m x est transformé en m x' = αmx et m y en m y' = βm y. Par suite Xi est transformé en X'i = x'i - mx' = αxi - αmx = α(xi - mx) = αXi et Yi est transformé en Y'i = y'i - m y' = β yi - bm y = β(yi - m y) = βYi
r est donc changé en
En définitive r est inchangé. q
domaine de variation de r
D'après l'inégalité de Schwarz :
d'où
donc
Terminons ce paragraphe par une mise en garde. La corrélation a une interprétation très délicate. En général, elle correspond à une relation cause-effet mais il faut faire très attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est évident) qui est la cause et qui est l'effet. b) x et y peuvent être en relation avec un troisième phénomène ; par exemple, on pourra trouver une bonne corrélation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crème glacée ; le troisième phénomène est évidemment la température. c) Il peut y avoir des corrélations accidentelles. On a pu monter, par e xemple, une corrélation importante dans les cas suivants : q
mortalité britannique et population des mariages anglicans ;
q
nombre d'abonnés au téléphone dans le département de la Seine et nombre d'étudiants inscrits à la Faculté de Droit de Paris ;
q
taux de nuptialité et activité économique
Il faut donc adopter une attitude prudente.
D'après l'inégalité de Schwarz :
d'où
donc
Terminons ce paragraphe par une mise en garde. La corrélation a une interprétation très délicate. En général, elle correspond à une relation cause-effet mais il faut faire très attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est évident) qui est la cause et qui est l'effet. b) x et y peuvent être en relation avec un troisième phénomène ; par exemple, on pourra trouver une bonne corrélation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crème glacée ; le troisième phénomène est évidemment la température. c) Il peut y avoir des corrélations accidentelles. On a pu monter, par e xemple, une corrélation importante dans les cas suivants : q
mortalité britannique et population des mariages anglicans ;
q
nombre d'abonnés au téléphone dans le département de la Seine et nombre d'étudiants inscrits à la Faculté de Droit de Paris ;
q
taux de nuptialité et activité économique
Il faut donc adopter une attitude prudente.
7 - Corrélation linéaire multiple Le cas étudié précédemment était limité à la corrélation de deux variables. Examinons maintenant la corrélation entre plus de deux variables ; supposons que nous ayons une variable X(0) et que nous voulons l'"expliquer" à partir de k va riables X(1), X(2), ...., X(k) par une loi linéaire : X(0) = β0 + ΣkβkX (k)
Les paramètres βk sont, a priori inconnus, sont les coefficie nts de saturation. X(0) est la variable à expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'exposé, on admettra que l'on a ef fectué n observations ce qui a conduit à n valeurs X i(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les définitions usuelles s'écrivent : q
moyennes : mX(k) =(ΣiXi(k))/n
q
variances : v(X(k)) = (Σi(Xi(k) - mX(k))2
q
covariances : cov(X(k), X(l)) = [Σi(Xi(k) - mX(k))(Xi(l) - m X(l))
On définira l'écart entre l'expérience et le modèle par
définition conforme à ce que l'on a déjà vu. Pour minimiser E et donc trouver les coefficients βk, on écrira que les dérivées partielles de E par rapport aux coefficients βk sont nulles :
7 - Corrélation linéaire multiple Le cas étudié précédemment était limité à la corrélation de deux variables. Examinons maintenant la corrélation entre plus de deux variables ; supposons que nous ayons une variable X(0) et que nous voulons l'"expliquer" à partir de k va riables X(1), X(2), ...., X(k) par une loi linéaire : X(0) = β0 + ΣkβkX (k)
Les paramètres βk sont, a priori inconnus, sont les coefficie nts de saturation. X(0) est la variable à expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'exposé, on admettra que l'on a ef fectué n observations ce qui a conduit à n valeurs X i(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les définitions usuelles s'écrivent : q
moyennes : mX(k) =(ΣiXi(k))/n
q
variances : v(X(k)) = (Σi(Xi(k) - mX(k))2
q
covariances : cov(X(k), X(l)) = [Σi(Xi(k) - mX(k))(Xi(l) - m X(l))
On définira l'écart entre l'expérience et le modèle par
définition conforme à ce que l'on a déjà vu. Pour minimiser E et donc trouver les coefficients βk, on écrira que les dérivées partielles de E par rapport aux coefficients βk sont nulles :
ce qui conduit aux équations suivantes :
La première de ces équations donne nβ0 = ΣiXi(0) - ΣiΣkβkXi(k) ou nβ0 = nmX(0) - nΣkβkmX(k) soit β0 = mX(0) - ΣkβkmX (k)
La seconde équation s'écrit alors β0ΣiXi(l) + ΣiXi(l)ΣkβkXi(k) - ΣiXi(l)Xi(0) = 0
nβ0mX(l) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 nmX(0)mX(l) - nΣkβkmX(l)mX(k) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 Pour faciliter l'écriture posons
ce qui conduit aux équations suivantes :
La première de ces équations donne nβ0 = ΣiXi(0) - ΣiΣkβkXi(k) ou nβ0 = nmX(0) - nΣkβkmX(k) soit β0 = mX(0) - ΣkβkmX (k)
La seconde équation s'écrit alors β0ΣiXi(l) + ΣiXi(l)ΣkβkXi(k) - ΣiXi(l)Xi(0) = 0
nβ0mX(l) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 nmX(0)mX(l) - nΣkβkmX(l)mX(k) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 Pour faciliter l'écriture posons
Vkl = cov(X(k), X(l)) =(ΣiXi(k)Xi(l))/n - mX(k)mX(l) d'où ΣkβkVkl = V0l ou matriciellement
M
est appelée matrice des covariances.
Pour résoudre ce système, il faut calculer la matrice inverse
M
-1
: B
=M
-1
V
relation qui fournit les coefficients de saturation βk pour k = 1, N. On est amené à poser, pour mesurer la corrélation globale
Ce coefficient est quelquefois appelé coefficient de corrélation multiple (mais d'autres définitions existent).
8 - Exemples de recherche de corrélation
Vkl = cov(X(k), X(l)) =(ΣiXi(k)Xi(l))/n - mX(k)mX(l) d'où ΣkβkVkl = V0l ou matriciellement
M
est appelée matrice des covariances.
Pour résoudre ce système, il faut calculer la matrice inverse
M
-1
: B
=M
-1
V
relation qui fournit les coefficients de saturation βk pour k = 1, N. On est amené à poser, pour mesurer la corrélation globale
Ce coefficient est quelquefois appelé coefficient de corrélation multiple (mais d'autres définitions existent).
8 - Exemples de recherche de corrélation
exemple1 On donne les deux séries chronologiques suivantes, relatives à la Grande Bretagne :
années
Récepteurs de radio en service (en centaines de milliers) : x
Nombre de maladies mentales déclarées (pour 1000 habitants) : y
1924
13
8
1925
20
8
1926
23
9
1927
25
10
1928
27
11
1929
31
11
1930
36
12
1931
46
16
1932
55
18
1933
63
19
1934
70
20
1935
76
21
1937
81
22
1937
85
23
Recherchons s'il y a une corrélation entre x et y. Calculons tout d'abord le coefficient de corrélation.
exemple1 On donne les deux séries chronologiques suivantes, relatives à la Grande Bretagne :
années
Récepteurs de radio en service (en centaines de milliers) : x
Nombre de maladies mentales déclarées (pour 1000 habitants) : y
1924
13
8
1925
20
8
1926
23
9
1927
25
10
1928
27
11
1929
31
11
1930
36
12
1931
46
16
1932
55
18
1933
63
19
1934
70
20
1935
76
21
1937
81
22
1937
85
23
Recherchons s'il y a une corrélation entre x et y. Calculons tout d'abord le coefficient de corrélation.
Le coefficient de corrélation est r = 0,99 . Il est donc très élevé ce qui indique une forte corrélation entre x et y. Les droites de régression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour équations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48
Le coefficient de corrélation est r = 0,99 . Il est donc très élevé ce qui indique une forte corrélation entre x et y. Les droites de régression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour équations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48
Bien entendu, la corrélation observée ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !
exemple 2 Le bassin versant du Danube hongrois se situe en Bavière et en Autriche. Si par là, la quantité de condensations atmosphériques devient élevée, une vague de crue se produit tout au long du Da nube dont le plafond à Budapest on veut prédire. Le problème nécessite une approche mathématique assez complexe mais pour le moment nous nous contentons de présenter une illustration bien simplifiée sur la régression à plusieurs variables. On introduit les trois variables suivantes : q
q
q
X(0) le plafond du Danube à Budapest. On ne considère que les cas les plus importants. X(1) la quantité de condensations atmosphériques dans le bassin versant du Danube hongrois. La moyenne mathématique des données mesuré par 15 station d’observation en Bavière et en Autriche. X(2) le niveau du Danube à Budapest juste avant les grandes eaux causant des vagues de crue.
Bien entendu, la corrélation observée ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !
exemple 2 Le bassin versant du Danube hongrois se situe en Bavière et en Autriche. Si par là, la quantité de condensations atmosphériques devient élevée, une vague de crue se produit tout au long du Da nube dont le plafond à Budapest on veut prédire. Le problème nécessite une approche mathématique assez complexe mais pour le moment nous nous contentons de présenter une illustration bien simplifiée sur la régression à plusieurs variables. On introduit les trois variables suivantes : q
q
q
X(0) le plafond du Danube à Budapest. On ne considère que les cas les plus importants. X(1) la quantité de condensations atmosphériques dans le bassin versant du Danube hongrois. La moyenne mathématique des données mesuré par 15 station d’observation en Bavière et en Autriche. X(2) le niveau du Danube à Budapest juste avant les grandes eaux causant des vagues de crue.
Le tableau suivant donne les trois données de 26 vagues de crue du Danube à Budapest. Numéro d’ordre
temps
X(0) (cm)
X(1) (mm)
X(2) (cm)
1
1896.08.14
590
58
405
2
1896.08.20
660
52
450
3
1897.08.08
780
133
350
4
1899.09.22
770
179
285
5
1903.07.15
710
98
330
6
1906.07.20
640
72
400
7
1907.05.02
670
72
550
8
1907.06.29
520
43
480
9
1907.07.21
660
62
450
10
1912.05.31
690
67
610
11
1912.07.27
500
64
380
12
1912.08.04
460
33
460
13
1912.09.16
610
57
425
14
1912.09.21
710
62
560
15
1914.07.14
620
54
420
Le tableau suivant donne les trois données de 26 vagues de crue du Danube à Budapest. Numéro d’ordre
temps
X(0) (cm)
X(1) (mm)
X(2) (cm)
1
1896.08.14
590
58
405
2
1896.08.20
660
52
450
3
1897.08.08
780
133
350
4
1899.09.22
770
179
285
5
1903.07.15
710
98
330
6
1906.07.20
640
72
400
7
1907.05.02
670
72
550
8
1907.06.29
520
43
480
9
1907.07.21
660
62
450
10
1912.05.31
690
67
610
11
1912.07.27
500
64
380
12
1912.08.04
460
33
460
13
1912.09.16
610
57
425
14
1912.09.21
710
62
560
15
1914.07.14
620
54
420
16
1914.07.24
660
48
620
17
1918.07.01
620
86
390
18
1918.08.15
590
74
350
19
1926.06.26
740
95
570
20
1926.07.01
730
44
710
21
1926.07.17
720
53
700
22
1926.08.06
720
77
580
23
1926.08.14
640
46
700
24
1954.07.18
805
123
560
25
1955.06.26
510
26
370
26
1955.07.16
673
62
430
On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modèle linéaire : X(0) = β0 + β1X(1) + β2X(2) Calculons la matrice M et le vecteur V :
16
1914.07.24
660
48
620
17
1918.07.01
620
86
390
18
1918.08.15
590
74
350
19
1926.06.26
740
95
570
20
1926.07.01
730
44
710
21
1926.07.17
720
53
700
22
1926.08.06
720
77
580
23
1926.08.14
640
46
700
24
1954.07.18
805
123
560
25
1955.06.26
510
26
370
26
1955.07.16
673
62
430
On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modèle linéaire : X(0) = β0 + β1X(1) + β2X(2) Calculons la matrice M et le vecteur V :
Le modèle linéaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs théoriques sont données ci-dessus. On peut, avec le graphique suivant comparer le modèle à la réalité :
Le modèle linéaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs théoriques sont données ci-dessus. On peut, avec le graphique suivant comparer le modèle à la réalité :
Ch2 - Ajustement et Corrélation
9 - Modèles non linéaires On se limitera ici au cas de deux variables aléatoires. 2 cas se posent dans la pratique lorsque le modèle linéaire n'est pas adapté : s
soit on se ramène par transformation au modèle linéaire lorsque cela est possible r
r
r
ajustement exponentiel Y = a e X transformation par logarithme : Ln(Y) = Ln(a) + X d’où ajustement linéaire entre Ln(Y) et X ajustement puissance Y = a X b = a eb Ln(X)
Ch2 - Ajustement et Corrélation
9 - Modèles non linéaires On se limitera ici au cas de deux variables aléatoires. 2 cas se posent dans la pratique lorsque le modèle linéaire n'est pas adapté : s
soit on se ramène par transformation au modèle linéaire lorsque cela est possible r
r
r
r
s
ajustement exponentiel Y = a e X transformation par logarithme : Ln(Y) = Ln(a) + X d’où ajustement linéaire entre Ln(Y) et X ajustement puissance Y = a X b = a eb Ln(X) transformation par logarithme : Ln(Y) = Ln(a) + b Ln(X) d’où ajustement linéaire entre Ln(Y) et Ln(X)
soit on cherche un modèle non linéaire simple ; le cas courant est l’ajustement polynomial Y=a0+a1 X+a2 X2+............+aN XN =
10 - Ajustement polynômial Examinons plus en détail ce type de modèle en supposant n observations (x j,y j) . On définira alors L’écart par rapport au modèle par:
Pour minimiser, annulons les dérivées partielles de E par rapport aux coefficients a k :
soit
Posons
alors ou matriciellement
Par suite l’équation
fournit les coefficients cherchés On remarquera que
Toutefois, la méthode précédente qui donne des résultats acceptables pour l’interpolation, est peu satisfaisante pour l’extrapolation. On utilisera de préférence la méthode des polynômes orthogonaux, par exemple la méthode de Lagrange que nous explicitons ci-dessous. On utilise des polynômes de base Li(x) (polynômes de Lagrange) et on cherche un ajustement de la forme
Si X = xi il faut que Y = y i donc L j(xi) = 0 si i ≠ j et 1 si i = j soit L j(xi) = δ ij q
le
polynôme L j(X) s'annule pour X = x 0, x1, ....,x j-1, x j+1, ........., xn , on peut donc l’écrire sous la forme L j(X) = k (X-x0)(X-x1).... (X- x j-1)(X- x j+1) .... (X-xn) L j(X) = k
q
pour i=j on a L j(x j) = 1 soit k
(x j -xi) = 1 et
Finalement l’expression du polynôme de Lagrange est
exemple 6 : : 3 points x0 = 0, x1 = 1, x2 = 2
Noter que l’on peut poser
11 - Test du χ2
(X-xi)
La loi du χ2 Donnons sans démonstration quelques résultats importants : Soit n variables normales centrées (c'est à dire suivant une loi de probabilité normale réduite) x1, x2, .............., xr. Alors la quantité x1+ x2+ ..............+ xr suit une loi de probabilité du suit une loi de probabilité du χ2 (ou de Pearson) à ν = r degrés de liberté.
Loi du χ2
ν
: nombre de degrés de liberté ; densité de probabilité :
q
espérance mathématique :
q
variance :
q
si , la loi du χ2 tend vers la loi de Gauss
La loi du χ2 est donnée par des tables qui procurent la probabilité P de dépasser une valeur donnée xl TABLE DE DISTRIBUTION DU
χ
2
(*)
p
ν
0,995
0,990
0,975
0,950
0,900
0,750
0,500
1
3,93E-05 0,000157 0,000982 0,003932 0,015791 0,101531 0,454936
2
0,010025
3
0,071723 0,114832 0,215795 0,351846 0,584375 1,212532 2,365973
0,0201
0,050636 0,102586 0,210721 0,575364 1,386294
4
0,206984 0,297107 0,484419 0,710724 1,063624 1,922558 3,356695
5
0,411751 0,554297 0,831209 1,145477 1,610309 2,674604 4,351459
6
0,675733 0,872083 1,237342 1,63538
7
0,989251 1,239032 1,689864 2,167349 2,833105 4,254852 6,345809
8
1,344403 1,646506 2,179725 2,732633 3,489537 5,070642 7,34412
9
1,734911 2,087889 2,700389 3,325115 4,168156 5,898823 8,342832
2,20413 3,454598 5,348119
10 2,155845 2,558199 3,246963 3,940295 4,865178 6,737199 9,341816
11 2,603202 3,053496 3,815742 4,574809 5,577788 7,584145
10,341
12 3,073785 3,570551 4,403778 5,226028 6,303796 8,438419 11,34032
13 3,565042
4,1069
5,008738 5,891861
7,0415
9,299063 12,33975
14 4,074659 4,660415 5,628724 6,570632 7,789538 10,16531 13,33927
15 4,600874 5,229356 6,262123 7,260935 8,546753 11,03654 14,33886
16 5,142164 5,812197 6,907664 7,961639 9,312235 11,91222 15,3385
17 5,697274 6,407742 7,564179 8,671754 10,08518 12,79192 16,33818
18 6,264766 7,014903 8,230737 9,390448 10,86494 13,67529 17,3379
19 6,843923 7,632698 8,906514 10,11701 11,65091
20 7,433811 8,260368 9,590772 10,8508
14,562
18,33765
12,4426 15,45177 19,33743
21 8,033602 8,897172 10,28291 11,59132 13,2396 16,34439 20,33723
22 8,642681 9,542494 10,98233 12,33801 14,04149 17,23962 21,33704
23 9,260383 10,19569 11,68853 13,09051 14,84795 18,13729 22,33688
24 9,886199 10,85635 12,40115 13,84842 15,65868 19,03725 23,33673
25 10,51965 11,52395 13,11971 14,6114 16,47341 19,93934 24,33658
26 11,16022 12,19818 13,84388 15,37916 17,29188 20,84343 25,33646
27 11,80765 12,87847 14,57337 16,15139 18,11389 21,7494 26,33634
28 12,46128 13,56467 15,30785 16,92788 18,93924 22,65716 27,33623
29 13,12107 14,25641 16,04705 17,70838 19,76774 23,56659 28,33613
30 13,78668 14,95346 16,79076 18,49267 20,59924 24,4776 29,33603
40 20,70658 22,1642 24,43306 26,5093 29,05052 33,66029 39,33534
50 27,99082 29,70673 32,35738 34,76424 37,68864 42,94208 49,33494
60
35,5344
37,4848 40,48171 43,18797 46,45888 52,29381 59,33467
70 43,27531 45,4417 48,75754 51,73926 55,32894 61,69833 69,33448
80 51,17193 53,53998 57,15315 60,39146 64,27784 71,14451 79,33432
90 59,19633 61,75402 65,64659 69,12602 73,29108 80,62466 89,33422
100 67,32753
70,065
74,22188 77,92944 82,35813 90,13323 99,33413
p
ν
0,250
0,100
0,050
0,025
0,010
0,005
0,001
7,8794
10,82736
1
1,323304 2,705541 3,841455 5,023903 6,634891
2
2,77259 4,605176 5,991476 7,377779 9,210351 10,59653
3
4,108342 6,251394 7,814725 9,348404 11,34488 12,83807 16,26596
4
5,385266 7,779434 9,487728 11,14326 13,2767 14,86017 18,46623
5
6,625678 9,236349 11,07048 12,83249 15,08632 16,74965 20,51465
13,815
6
7,840806 10,64464 12,59158 14,44935 16,81187 18,54751 22,45748
7
9,037146 12,01703 14,06713 16,01277 18,47532 20,27774 24,3213
8
10,21885 13,36156 15,50731 17,53454 20,09016 21,95486 26,12393
9
11,38875 14,68366 16,91896 19,02278 21,66605 23,58927 27,87673
10 12,54886 15,98717 18,30703 20,4832 23,20929 25,18805 29,58789
11 13,70069 17,27501 19,67515 21,92002 24,72502 26,75686 31,26351
12
14,8454 18,54934 21,02606 23,33666 26,21696 28,29966 32,90923
13 15,98391 19,81193 22,36203 24,73558 27,68818 29,81932 34,52737
14 17,11693 21,06414 23,68478 26,11893 29,14116 31,31943 36,12387
15 18,24508 22,30712 24,9958 27,48836 30,57795 32,80149 37,69777
16 19,36886 23,54182 26,29622 28,84532 31,99986 34,26705 39,25178
17 20,48868 24,76903 27,5871 30,19098 33,40872 35,71838 40,79111
18 21,60489 25,98942 28,86932 31,52641 34,80524 37,15639 42,31195
19 22,71781 27,20356 30,14351 32,85234 36,19077 38,58212 43,81936
20 23,82769 28,41197 31,41042 34,16958 37,56627 39,99686 45,31422
21 24,93478 29,61509 32,67056 35,47886 38,93223 41,40094 46,79627
22 26,03926 30,81329 33,92446 36,78068 40,28945 42,79566 48,26762
23 27,14133 32,00689 35,17246 38,07561 41,63833 44,18139 49,72764
24 28,24115 33,19624 36,41503 39,36406 42,97978 45,55836 51,17897
25 29,33885 34,38158 37,65249 40,6465 44,31401 46,92797 52,61874
26 30,43456 35,56316 38,88513 41,92314 45,64164 48,28978 54,05114
27 31,52841 36,74123 40,11327 43,19452 46,96284 49,64504 55,47508
28 32,62049 37,91591 41,33715 44,46079 48,27817 50,99356 56,89176
29 33,71091 39,08748 42,55695 45,72228 49,58783 52,3355 58,30064
30 34,79974 40,25602 43,77295 46,97922 50,89218 53,67187 59,70221
40 45,61601 51,80504 55,75849 59,34168 63,69077 66,76605 73,4029
50 56,33361 63,16711 67,50481 71,42019 76,1538 79,48984 86,66031
60 66,98147
74,397
79,08195 83,29771 88,37943 91,95181 99,60783
70 77,57665 85,52704 90,53126 95,02315 100,4251 104,2148 112,3167
80 88,13025 96,5782 101,8795 106,6285 112,3288 116,3209 124,8389
90 98,64992 107,565 113,1452 118,1359 124,1162 128,2987 137,2082
100 109,1412 118,498 124,3421 129,5613 135,8069 140,1697 149,4488
*
Valeurs de χ2 ayant la probabilité p d’être dépassées (S. Aivazian, op.cit., PP- 188-189).
Les tables du χ2 permettent de donner , connaissant n, la probabilité (seuil habituel choisi 5%) de dépasser une valeur χ21 ce qui permet de savoir si le modèle est acceptable. Si les r variables sont liées par p relations, le nombre de degrés de liberté est ν = r – p et la loi du χ2 est toujours valable. Ces résultats permettent de mesurer la validité d'un modèle. En effet, soit une expérience procurant des résultats que l’on peut regrouper en classes statistiques : ni : effectif observé de la classe i ; p i : probabilité ( a priori inconnue) de la classe i ; npi : effectif théorique On pose alors
et
On notera que, pour utiliser ces résultats, l’effectif minimum d'une classe doit être de 10 et que r = nombre de classes - nombre de relations entre les n i.
Hypothèse d’ajustement pur Quand on connaît a priori la répartition théorique d’une loi aléatoire, on parle le test d’hypothèse d’ajustement pur. Donc, si l’on connaît la distribution de probabilité des r classes, le degré de liberté est ν = r – p = r – 1 puisque p 1+ p2+ ... + pr = 1 est une relation qui relie les r variables. Après cela on fait le test χ2 (ν) sur le degré de liberté ν = r – 1. Exemple 6 Sur la loterie nationale hongroise – où il faut choisir 5 chiffres sur 90 – pendant 225 semaines, on a observé le tableau de fréquences suivant : chiffres
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15
fréquences 18 8 14 13 18 14 18 14 17 10 11 13 17 16 17
chiffres
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
fréquences 9 10 12 15 14 10 11 16 15 12 17 13 11 17 7
chiffres
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
fréquences 10 9 12 16 13 12 17 14 10 8 9 15 9 12 16
chiffres
46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
fréquences 14 9 12 21 6 19 9 13 13 10 10 10 9 10 9
chiffres
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
fréquences 11 8 8 11 12 10 17 8 12 12 20 6 15 15 19
chiffres
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
fréquences 9 17 14 10 14 12 13 15 10 10 11 12 9 12 10
Vérifions l’hypothèse, que chaque nombre entre 1 et 90 est équiprobable c’est-à-dire 1/90. Puisque chaque semaine on a tiré 5 chiffres on a au total n = 1125 données ce qui s’avère satisfaisant pour faire le test car la fréquence théorique pour chaque case :
.
La valeur du
Le degré de liberté est ν = 90-1 = 89. Dans le tableau du χ2 on trouve que pour p = 0,71 on a la valeur de χ2 = 81,16. Cela veut dire que pour n’importe quel niveau traditionnel, par exemple pour p = 0,05 la valeur de χ20,05(89) = 112 ne contredit pas notre hypothèse selon laquelle notre tableau de fréquences observées devient d’un tirage au sort au hasard est que la fréquence théorique
.
Hypothèse d’ajustement à s paramètres estimés Quand on connaît a priori le type de la répartition théorique, on parle le test d’hypothèse d’ajustement à s paramètres estimés. L’hypothèse d’ajustement pur est bien rare dans la pratique car même si l’on connaît le type de la loi aléatoire théorique il faut souvent estimer quelques paramètres de l’échantillon. Donc si l’on connaît la distribution de probabilité des r classes, le degré de liberté de test du χ2 a la forme de ν = r – s – 1 puisque on possède s relations sur les s paramètres estimés de la loi aléatoire plus la relation p 1+ p2+ ... + pr = 1 déjà discuté. Après tout cela on fait le test χ2(ν) comme avant sur le degré de liberté ν = r – s – 1. Exemple 7 On dénombre le nombre des α-particules émis par un radioélément pendant d’une période t sur une certaine superficie. On fait au total n = 800 dénombrements, chaque fois pendant 7 secondes. Le tableau suivant montre la fréquence des valeurs k et les probabilités théoriques d’une loi Poisson fréquence observée
fréquence théorique
k
nk
k*nk
n*pk
χ2
0
18
0
16,875
0,074934
1
65
65
65,118
0,000215
2
121
242
125,638
0,171182
3
160
480
161,601
0,015867
4
162
648
155,895
0,239098
5
118
590
120,312
0,04442
6
82
492
77,376
0,276391
7
45
315
42,653
0,129117
8
16
128
20,574
1,016703
9
8
72
8,821
0,076395
10
5
55
5,138
0,00369
Total :
800
3087
800
2,048012
On veut tester si les différences entre les fréquences observées et les fréquences théoriques de la loi Poisson peuvent être considérées comme purement aléatoires, c’est-à-dire si le nombre des α -particules suit vraiment la loi Poisson. On emploie pour cela le test du χ2 2,048
Puisque le nombre des classes est de 11 et on a estimé un paramètre de l’échantillon, il faut travailler avec χ2(10). Sur la dixième ligne du tableau du χ2 on peut constater que pour n’importe quel niveau traditionnel il n’y a pas de contradiction avec l’hypothèse selon laquelle l’émission des α-particules suit la loi de Poisson. Par exemple pour p = 0,05 la valeur de χ20,05(10) = 18,3 > 2,48.
Hypothèse d’homogénéité Quand on veut tester sur deux ou plusieurs échantillons indépendants s’ils suivent la même loi aléatoire (en d’autres termes sont de la même population) ou pas on parle de hypothèse d’homogénéité. On ne traite ici que le cas de deux échantillons indépendants. Il faut former les mêmes classes de regroupements pour les valeurs de toutes les deux variables aléatoires. Si l’on désigne par r le nombres de classes. Les tailles des deux échantillons peuvent se différer, soit m et n les deux tailles et m 1, m2, ... mr et n1, n2, ... nr les fréquences empiriques des deux échantillons, respectivement comme vous trouvez dans le tableau qui suit : m1 n 1 m2 n 2 ... ... ... ... ... ... mr nr
m1 + n 1 m2 + n 2 ... ... ... mr + nr
mn
m+n
suit la loi χ2 de degré de liberté ν = r – 1
On peut démontrer que tandis que m et n tendent vers l'infini. Exemple 8
On veut tester si les deux distributions des femmes qui sont avec ou sans travail sont significativement différentes selon leur nombre d’enfants. Pour cela on choisit au hasard 220 ménages et on trouve que parmi eux 120 femmes sont avec et 100 sont sans travail. Les fréquences selon les nombres d’enfants sont données dans le tableau suivant : Nombre Avec Sans Ensemble d’enfants travail
0 1 2 3 4 5 ou plus
36 41 28 11 3 1
28 36 22 8 4 2
64 77 50 19 7 3
120
100
220
Dans ce cas m = 120, n = 100, r = 6 et la valeur de
= 1,186 .
Cette valeur est à comparer avec la valeur du χ2 de degré de liberté ν = r – 1 = 5 . De la cinquième ligne du tableau χ2 on peut constater que pour n’importe quel niveau traditionnel il n’y a pas de contradiction avec l’hypothèse selon laquelle les deux distributions sont identiques. Par exemple pour p = 0,05 la valeur de χ20,05(5) = 11,07 > 1,186.
Hypothèse d’indépendance Puisque on peut parler non seulement de l’indépendance des caractéristiques quantitatives mais aussi de celle des caractéristiques qualitatives on approche le problème de la manière suivante : Soit A1, A2, ... , Ar ; et B1, B2, ... , Bs ; deux systèmes d’événements complets et on veut tester l’hypothèse que les deux systèmes d’événement sont indépendants c.-à-d. P(AiB j) = P(Ai)P(B j)
i = 1, ... , r;
j = 1, ... , s;
Dans le cas de vérification d’indépendance des deux variables aléatoires les événements A i et B j marquent que les valeurs des variables appartiennent à la classe correspondantes. Considérons un échantillon de taille n et introduisons les notations suivantes : la fréquence de l’événement AiB j ;
la fréquence de l’événement Ai ;
la fréquence de l’événement B j ;
;
Il est bien clair, que
On range les fréquences
;
.
.
dans le tableau de contingence suivant : Variables
1
2
...
1
...
2
...
s
Total
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
...
Total
...
n
Il y a deux cas possibles : 1. p i et p j sont connus ; 2. pi et p j ne sont pas connus. Dans le premier cas il ne s’agit qu’une hypothèse d’ajustement pur qui consiste à tester si P(AiB j) = pi·p·j donc il faut construire la formule pour
i = 1, ... , r;
j = 1, ... , s,
qui suit la loi χ2 de degré de liberté ν = rs – 1 tandis que n tend vers l'infini. Il faut avouer que ce cas là est rare. Le cas 2. est beaucoup de plus fréquent. On forme de manière similaire
qui suit la loi χ2 de degré de liberté ν = ( r – 1)(s – 1) tandis que n tend vers l'infini, car ce test là peut être considéré comme une hypothèse d’ajustement à (r+s –2) paramètres estimés d’où ν = rs – (r+s –2) –1 = ( r – 1)(s – 1) .
On s’appelle contingence carrée de deux systèmes d’événements la quantité :
dont l’estimation empirique est la n-ième partie de χ2 c.-à-d. ϕ2 = χ2/n . On peut facilement voir que où q = min (r,s).
Le quotient
est considéré comme la mesure de dépendance entre deux systèmes
d’événements dont l’estimation empirique est
. Cette mesure de dépendance a la
propriété qu’elle est égale à 0 si et seulement si P(AiB j) = P(Ai)P(B j)
i = 1, ... , r;
j = 1, ... , s;
et est égale à 1 si et seulement si les deux variables aléatoires sont liées par une fonction.
Exemple 8 On veut tester les diamètres externes et internes des coussinets. Selon leur taille des deux diamètres ils sont classés en trois catégories : bien, passable, refusé. Pour tester un lot on choisit au hasard 200 coussinets en les mesurant et on les range en 9 catégories possibles. On veut tester l’hypothèse que les tailles internes et externes sont indépendantes ou pas. Pour cette raison on fait le test du χ2. Les fréquences du tableau de contingence étaient les suivantes : Diamètre externe Bien Diamètre Bien interne
Passable Refusé Total
169
8
1
178
Passable
9
4
1
14
Refusé
1
3
4
8
179
15
6
200
Total
On calcule
= 90,15 .
Puisque r = s = 3, on a comme degré de liberté du χ2 : ν = ( r – 1)(s – 1) = 4. Confrontons la valeur ainsi obtenue avec la quatrième ligne du tableau χ2 et on constate que pour n’importe quel niveau traditionnel il faut rejeter l’hypothèse selon laquelle les deux distributions sont indépendantes. Quand on veut caractériser la mesure de dépendance entre les deux tailles on calcule le quotient :
=
=
= 0,2254 . Cela montre bien que les précisions des deux
tailles sont en plus faible relation que la moyenne.
Exemple 9 Considérons le tableau de contingence à r lignes et s colonnes obtenu en ventilant une population de n = 592 femmes suivant leurs couleurs des yeux et des cheveux Tableau de contingence, répartition des 592 femmes suivant leurs couleurs des yeux et des cheveux. couleur des cheveux brun
châtain
roux
blond
Total
68
119
26
7
220
15
54
14
10
93
vert
5
29
14
16
64
bleu
20
84
17
94
215
Total
108
286
71
127
592
marron couleur des yeux noisette
En lignes est présentée la variable "couleur des yeux" à r = 4 modalités (ou catégories) et en colonnes est donné la variable "couleur des cheveux" à s = 4 modalités. Même si l’on a appris des études biologiques que entre les deux caractéristiques doit avoir lieu quelque corrélation, il vaut la peine quand même de tester l’hypothèse de l’indépendance entre elles. Pour cela on calcule
= 138,29 .
Puisque r = s = 4, on a comme degré de liberté du χ2 : ν = ( r – 1)(s – 1) = 9. En confrontant la valeur ainsi obtenue avec la neuvième ligne du tableau χ2 et on constate que pour n’importe quel niveau traditionnel il faut rejeter l’hypothèse selon laquelle les deux types de couleur sont indépendants. La mesure de dépendance entre les deux caractères :
=
=
=
0,0779 . Cela montre que les deux types de couleur sont de beaucoup de plus faible relation que la moyenne.
Ch2 - Exercices
Exercice 1
Le tableau ci-dessous donne les résultats obtenus à partir de 10 essais de laboratoire concernant la charge de rupture y d'un acier en fonction de sa teneur x en carbone :
n° essai
teneur en carbone x pour 10000
charge de rupture y en kg
1
72
90
2
60
70
3
68
72
4
66
70
5
64
75
6
62
75
7
64
80
8
70
85
9
62
70
10
74
100
1) Représenter graphiquement les données de ce tableau 2) Calculer la moyenne de x et la moyenne de y, la variance de x, la variance de y, la covariance de x et y. 3) Est-il possible d'envisager une relation linéaire entre x et y ? 4) Dans l'affirmative, calculer, par la méthode des moindres carrés, l'équation des droites d'ajustement. 5) En utilisant le résultat précédent, quelle pourrait être la charge de rupture d'un acier ayant une teneur en carbone de 65 pour 10000.
Exercice 2
Dans le département français du Marne-et-Garonne, on constate les faits reportés dans le tableau ci-dessous :
années
récepteurs de télévision en service (en milliers)
nombre de maladies mentales pour 1000 habitants
nombre de véhicules automobiles dans le département (en milliers)
1985
13
8
8
1986
20
8
9
1987
23
9
10
1988
25
10
10
1989
27
11
11
1990
31
11
11
1991
36
12
13
1992
46
16
13
1993
55
18
13
1994
63
19
15
1995
70
20
15
1996
76
21
17
1997
81
22
18
1998
85
23
19
Etudier ce tableau du point de vue de la corrélation et faites part de vos conclusions.
Exercice 3
Dans un pays fictif dont la monnaie est le jeton, le tableau suivant indique par tranche de revenus en jetons le nombre de contribuables en milliers : Nombre de Revenu en contribuables en milliers de jetons milliers 10-20
1286,0
20-30
824
30-40
329,0
40-50
135,9
50-100
167,2
100-300
53,4
300-1000
6,2
1000 et plus
0,5
1) Représenter graphiquement, en coordonnées doublement logarithmiques, le nombre N de contribuables ayant un revenu supérieur à x. 2) En déduire entre x et N une relation de la forme N=A/(xp) qui est une loi de Pareto où A et p sont deux constantes que l'on déterminera par ajustement d'une droite aux points obtenus dans le représentation graphique précédente. On négligera le point pour lequel x = 10. 3) En utilisant cette loi, calculer le revenu moyen théorique dans l'intervalle (200-100).
Exercice 4
Le tableau suivant donne les cours de quelques valeurs allemandes à la Bourse de Paris à la fin de 1965 (colonne x) et le 13 juillet 1966 (colonne y).
Déterminer la droite d'ajustement y = f(x)
Exercice 5
On donne la série statistique x
1
2
6
7
8
9
13
14
15
16
17
18
y
20 26 32 27 20 30
31
15
22 28 29 27 28
25
30
31
32
31
x
19
22 23 24 25 26 27 28 29 30
31
32
33
34
35
36
y
35 20 27 33 30 33 35 34 43 40 39 43
41
22
31
41
37
40
20
3
21
4
5
10
11
12
1) Représenter graphiquement cette série 2) Pratiquer un ajustement analytique linéaire
Exercice 6
Le tourisme en Europe en 1959 est décrit dans le tableau suivant : pays
Nombre total de touristes arrivant (en millions) : x
Recette totale (millions de F) : y
Allemagne
4,9
450
Espagne
4,1
70
France
5,5
400
Italie
8,6
500
Suisse
4,6
250
1) Représenter graphiquement la recette y en fonction du nombre total x de touristes. Y a-t-il des possibilités d’ajustement linéaire ? 2)
Calculer la moyenne de x et la moyenne de y
3)
Donner l’équation de la droite d’ajustement y = ax + b
Exercice 7
La direction commerciale d’une entreprise industrielle a augmenté régulièrement ses dépenses publicitaires pendant plusieurs années et voudrait y comparer la progression de son chiffre d’affaires. Elle dispose des données suivantes :
1)
année
Dépenses publicitaires en F : x
Chiffre d’affaires en milliers de F : y
1960
73200
35261
1961
74700
35771
1962
76200
36791
1963
77700
37301
1964
79200
37556
1965
80700
38066
1966
82200
38831
Représenter graphiquement y en fonction de x 2)
Calculer la moyenne de x et la moyenne de y
3)
Essayer un ajustement linéaire y = ax + b
4) En se basant sur le modèle linéaire, quel sera le chiffre d’affaires de 1967 si la dépense publicitaire correspondante est 85000 F ?
Exercice 8
On relève pour plusieurs années successives le chiffre d’affaires national de vente de parapluies et le nombre de jours de pluie dans l’année :
nb de jours de pluie : x
vente de parapluies : y
110
200000
100
150000
190
300000
200
350000
290
500000
330
550000
230
400000
1)
Représenter graphiquement la série statistique
2)
Déterminer les moyennes de x et de y
3)
Déterminer la droite d’ajustement y = ax + b
4)
S’il pleuvait tous les jours quelle serait la prédiction de vente de parapluies ?
Exercice 9
On relève par région française, pour l’année 1999 le chiffre d’affaires de vente de caramels et le nombre de personnes s’étant fait soigner pour des maux de dents :
vente de caramels : x
nombre de personnes étant soignées pour des maux de dents : y
100000
94500
150000
140000
160000
150000
120000
110000
80000
70000
90000
90000
200000
210000
1)
Représenter graphiquement la série ; un ajustement linéaire paraît-il possible ?
2)
Déterminer la droite d’ajustement y = ax + b
3) Dans une région donnée le chiffre d’affaires annuel de vente de caramels est 300000 ; quelle est la prédiction relative aux personnes se faisant soigner pour des maux de dents ?
Exercice 10
On donne le tableau à double entrée relatif à l'étude de la série double suivante : voitures de petites cylindrées circulant dans Paris classées sous les deux caractères suivants : puissance de la voiture et durée moyenne des pneumatiques. x désigne la puissance en CV, y désigne la durée des pneumatiques en milliers de kilomètres. y\x
2
3
4
total
20
0
8 30
38
25
5 20
30
25
3
7
32
2
30
total 30 31 39
100
1) Représenter graphiquement cette série par un nuage de points 2) Calculer l'équation des deux droites de régression et le coefficient de corrélation. 3) Construire les droites de régression sur le graphique représentatif de la série
Exercice 11
On donne le tableau à double entrée relatif à l'étude de la série double suivante : individus classés en pourcentage sous les deux caractères poids et taille. x désigne le poids en kilogrammes et y désigne la taille en centimètres.
y\x
40 à 45
45 à 50
50 à 55
55 à 60
150 à 155
20
9
1
0
155 à 160
2
18
4
1
160 à 165
0
5
12
6
165 à 170
0
1
7
14
On demande 1) de représenter graphiquement cette série par un nuage de points. 2) de calculer l'équation des deux droites de régression 3) de calculer le coefficient de corrélation
4) de construire les droites de régression sur le graphique précédent
Exercice 12
Dans les "Tableaux de l'économie française", l'INSEE a publié, en 1968, la répartition en pourcentages de la population active de quelques pays dans les secteurs primaire, secondaire et tertiaire : pays
primaire secondaire tertiaire
Allemagne 24 de l'Ouest
44
32
USA
13
36
51
France
28
37
35
Grande Bretagne
5
49
46
Italie
42
32
26
URSS
43
31
26
On tente de trouver un modèle visant à exprimer linéairement le secteur tertiaire en fonction du secteur primaire et du secteur secondaire (en nombre d'actifs). Proposer un modèle et donner vos conclusions.
Exercice 13
Une entreprise commerciale consacre une certaine somme à des opérations publicitaires au début de chaque mois. Dans le tableau ci-dessous sont récapitulés pour l'année 1956 les sommes consacrées à ces opérations, les montants des ventes.
mois
ventes (en milliers de francs)
frais de publicité (en milliers de francs)
janvier
3800
240
février
4200
300
mars
4200
300
avril
3900
250
mai
4000
320
juin
4500
350
juillet
3500
200
août
2400
180
septembre
3800
300
octobre
4000
320
novembre
4400
380
décembre
5300
460
48000
3600
total
Etudier la corrélation entre la publicité et le montant des ventes
Exercice 14
Considérons, pour l'année 1954 : q q
d'une part, les variations de l'indice de production industrielle française d'autre part, la nombre de chômeurs secourus en France
mois
Nombre indices de de la chômeurs production secourus industrielle (en (base 100 milliers) : en 1938) : x y
janvier
144
72
février
143
78
mars
151
76
avril
155
73
mai
159
69
juin
157
61
juillet
147
56
août
122
54
septembre 156
48
octobre
159
49
novembre
162
53
décembre
166
57
Représenter graphiquement ces variations ; Calculer le coefficient de corrélation entre x et y ; Tracer les droites de régression.
Solution de l'exercice 4
Solution de l'exercice 5
1) Représentation graphique
2) On peut utiliser tout d'abord la méthode des moyennes échelonnées qui permet un certain lissage du nuage des points :
puis un ajustement analytique linéaire
Solution de l'exercice 6
La droite y = ax + b (en rouge sur la représentation graphique) a pour paramètres : a = 69,92 et b = 53,35
Solution de l'exercice 7
Les paramètres de la droite d'ajustement sont a = 0,38 et b = 7362,18. Pour la valeur x = 85000, on obtient avec le modèle linéaire : y = 39874,68.
Solution de l'exercice 8
Pour la valeur x = 365, on obtient avec le modèle linéaire y = 620 656,43.
Solution de l'exercice 9
Les paramètres de la droite d'ajustement sont a = 1,08 et b = -15 487,35. Pour la valeur x = 300 000, on obtient y = 308 816,46.
Solution de l'exercice 10
A partir des données de l'énoncé, on peut dresser le tableau suivant. On prendra attention au fait que les moyennes calculées sont pondérées.
On en tire les valeurs suivantes :
Le schéma ci-dessous donne une représentation graphique (la grosseur des points est proportionnelle à leur poids statistique) :
Solution de l'exercice 11
Solution de l'exercice 12
Le modèle obtenu est pratiquement parfait : X(0) = 100 -X(1) - X(2)
Solution de l'exercice 13