Ch2 Ajustement et Corrélation

November 25, 2018 | Author: Abubakr Sidik | Category: Correlation And Dependence, Linear Regression, Curve, Probability Distribution, Polynomial
Share Embed Donate


Short Description

Download Ch2 Ajustement et Corrélation...

Description

Module 106

Analyse et fouille de données

Ajustement et corrélation 1 - Principe de l'ajustement 2 - Principe de la méthode des moindres carrés 3 - Ajustement linéaire 4 - Exemple d'ajustement 5 - Corrélation linéaire de 2 variables 6 - Retour sur la covariance et la corrélation 7 - Corrélation linéaire multiple 8 - Exemple de recherche de corrélation 9 - Modèles non linéaires 10 - Ajustement polynomial 11 - Test du  Χ2

Exercices

Gérard-Michel Cochard [email protected]

Ch2 - Ajustement et Corrélation

1 - Principe de l'ajustement Une série statistique est une collection de couples (x i, ni) où xi est la valeur du caractère (ou le centre d'une classe) et n i l'effectif correspondant. A chaque couple (x i, ni) on peut faire correspondre un point dans un repère cartésien de sorte que la représentation graphique d'une série statistique est un nuage de points :

Effectuer un ajustement consiste à : q q

trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'équation de cette courbe

L'intérêt de cette procédure est q q

d'exprimer les résultats d'une étude statistique par une loi simple d'éliminer les erreurs ou fluctuations accidentelles accidentelles

Les figures suivantes décrivent des ajustements des séries statistique statistiquess des exemples A et B :

Dans ce qui suit, nous considérerons que les données statistiques sont des couples (x i, yi) correspondant chacun à un point. Dans le cas d'une série statistique simple, x i représentera une valeur du caractère, yi (appelé précédemment ni) l'effectif (ou la fréquence) correspondant.

Ch2 - Ajustement et Corrélation

1 - Principe de l'ajustement Une série statistique est une collection de couples (x i, ni) où xi est la valeur du caractère (ou le centre d'une classe) et n i l'effectif correspondant. A chaque couple (x i, ni) on peut faire correspondre un point dans un repère cartésien de sorte que la représentation graphique d'une série statistique est un nuage de points :

Effectuer un ajustement consiste à : q q

trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'équation de cette courbe

L'intérêt de cette procédure est q q

d'exprimer les résultats d'une étude statistique par une loi simple d'éliminer les erreurs ou fluctuations accidentelles accidentelles

Les figures suivantes décrivent des ajustements des séries statistique statistiquess des exemples A et B :

Dans ce qui suit, nous considérerons que les données statistiques sont des couples (x i, yi) correspondant chacun à un point. Dans le cas d'une série statistique simple, x i représentera une valeur du caractère, yi (appelé précédemment ni) l'effectif (ou la fréquence) correspondant.

Il y a plusieurs procédés d'ajustement ; les principaux sont : q q

l'ajustement graphique, amélioré par la méthode des points moyens l'ajustement mécanique : méthode des moyennes échelonnées , méthode des moyennes mobiles Ces deux types d'ajustement permettent d'obtenir la forme de la courbe cherchée.

q

l'ajustement analytique : méthode des moindres carrés Cet ajustement permet, permet, en principe, d'obtenir l'équation l'équation de la courbe. courbe.

Nous ne nous intéresserons ici qu'à la méthode des moindres carrés.

2 - Principe de la méthode des moindres carrés Les ajustements graphique et mécanique permettent d'obtenir la forme approximative de la courbe d'ajustement. On fait alors choix d'une courbe de type connu d'équation y = f(x). Cette équation contient un certain nombre de paramètres dont il s'agit de fixer les valeurs. exemples : pour une droite d'équation y = ax + b, les paramètres à déterminer sont a et b. pour une parabole d'équation y = ax 2 + bx + c, les paramètres à déterminer sont a, b, c. La détermination de ces paramètres est l'objet de l'ajustement analytique. analytique. le procédé le plus employé est la méthode des moindres carrés. Pour chaque point (xi, yi), on considère le point correspondant de la (présumée) courbe d'ajustement (xi, y'i). Si l'équation de la courbe d'ajustement est y = f(x), on a y' i = f(xi). On mesure alors la différence (en valeur absolue) entre ces deux points : |yi - y'i| = |yi - f(xi)| et on forme la quantité :

Pour déterminer les paramètres inconnus de la fonction f, on écrit la condition d'optimisation : M doit être minimum

ce qui se traduit, en général, par des équations mathématiques plus ou moins complexes.

3 - Ajustement linéaire Dans ce qui suit, on se limite au cas où la courbe d'ajustement est une droite d'équation y = ax + b. Il faudra donc déterminer les paramètres a (coefficient directeur) et b (ordonnée à l'origine). C'est l'objet de l'ajustement linéaire.

Considérons la série statistique représentée par les couples de nombres : x x1 x2 ------------------------

xi ------------------------

xn

 y  y1  y2 ------------------------  yi ------------------------  yn Pour effectuer l'ajustement linéaire de cette série, procédons par étapes successives : a) changement de variable

Effectuons le calcul des moyennes arithmétiques simples des xi et des yi :

ce qui donne le point (m x, m y). Puis on effectue le changement de variables :

ce qui équivaut à un changement d'axes. La nouvelle série est la collection (X i, Yi) : X

X1 X2 ------------------------

Xi ------------------------

Xn

Y Y1 Y2 ------------------------

Yi ------------------------

Yn

b) expression de la quantité M

M = Σi(Yi - Y'i)2 avec Y'i = AXi + B Yi - Y'i = Yi - AXi - B = (Yi - AXi) - B

(Yi - Y'i)2 = (Yi - AXi)2 - 2B(Yi - AXi) + B2 d'où M = Σi(Yi - AXi)2 - 2B(ΣiYi - AΣiXi) + nB2 Mais

ΣiYi = Σi(yi - m y) = Σ y i i - nm y = nm y - nm y = 0 et de même ΣiXi = Σi(xi - mx) = Σixi - nmx = nmx - nmx = 0

donc M = Σi(Yi - AXi)2 + nB2 (Yi - AXi)2 = Yi2 - 2AXiYi + A2Xi2

Ajoutons et retranchons à l'expression précédente le terme

c) minimisation de M

Il est clair, d'après l'expression précédente, que l'on rendra M le plus petit possible en prenant :

On obtient alors :

Puisque M est une quantité positive (dans sa définition, c'est un carré), on remarque que :

d) détermination de la droite d'ajustement

Dans les nouveaux axes, l'équation de la droite d'ajustement est Y = AX Cette droite passe donc par l'origine des nouveaux axes, c'est à dire par le point dont les coordonnées, dans les anciens axes sont (mx, m y). Dans les anciens axes, la droite d'ajustement a pour équation générale  y = ax + b Or Y = AX entraîne que

y - m y = A(x - mx) ou encore y = Ax + m y - Amx

d'où a = A et b = m y - Amx

e) relation pratique pour a

Exprimons a en fonction des données initiales (xi, yi).

4 - Exemple d'ajustement exemple 11 : salaires moyens d'un ouvrier professionnel dans les industries des métaux de la région parisienne

année

1950 1952 1954 1956

1958

1960

1962

1964

salaire (F)

1,15

2,83

3,20

3,75

4,40

1,82

1,99

2,36

La répartition des points suggère que l'ajustement peut être fait par une droite d'équation y = ax + b. Pour déterminer a et b, on utilise une disposition en tableau comme suit. Il est, par ailleurs, commode de remplacer les années par des nombres plus simples xi.

On en tire : mx = 4/8 = 0,5

m y = 21,50/8 = 2,69

a = [27,20 - 8x0,5x2,69]/[44 - 8x0,25] = 0,39 b = m y - amx = 2,69 - 0,39x0,5 = 2,49 L'équation de la droite est donc y = 0,39x + 2,49. Cette équation exprime approximativement la variation du salaire horaire moyen au cours du temps. Elle permet de faire q

des interpolations : salaire horaire moyen en 1955 : 0,39x0,5 + 2,49 = 2,30

q

des extrapolations : salaire horaire moyen en 1966 : 0,39x5 + 2,49 = 4,44

Ch2 - Ajustement et Corrélation

5 - Corrélation linéaire de 2 variables Dans la session précédente, on s'est intéressé aux séries statistiques simples. On s'inté resse maintenant aux séries statistiques doubles représentées graphiquement par des nuages de points de coordonnées (x,y) où x est une valeur du 1er caractère et y une valeur du second caractère. La recherche de l'influence de x sur y ou de y sur x s'appelle la recherche de la corrélation entre x et y. La forme du nuage de points peut renseigner de manière utile sur l'importance de la corrélation :

La corrélation linéaire se reconnaît au fait que les points représentatifs sont voisins d'une droite. L'équation de cette droite peut être obtenue par l'ajustement linéaire :

La corrélation linéaire se reconnaît au fait que les points représentatifs sont voisins d'une droite. L'équation de cette droite peut être obtenue par l'ajustement linéaire :

Cette droite est appelée droite de régression de y en x. Nous la noterons D y/x. On peut aussi faire jouer à x et y des rôles symétriques et co nsidérer la droite de régression de x en y : Dx/y définie par :

Les deux droites de régression sont en général distinctes. Cependant elles passent toutes deux par le "point moyen" (m x, m y). Une bonne corrélation linéaire signifie que les droites de régression sont presque confondues. Au contraire, une très mauvaise corrélation linéaire correspond à deux droites de régression presque perpendiculaires.

6 - Retour sur la covariance et la corrélation Nous allons définir, dans ce paragraphe, une quantité numérique permettant de mesurer quantitativement la corrélation linéaire.

Cette droite est appelée droite de régression de y en x. Nous la noterons D y/x. On peut aussi faire jouer à x et y des rôles symétriques et co nsidérer la droite de régression de x en y : Dx/y définie par :

Les deux droites de régression sont en général distinctes. Cependant elles passent toutes deux par le "point moyen" (m x, m y). Une bonne corrélation linéaire signifie que les droites de régression sont presque confondues. Au contraire, une très mauvaise corrélation linéaire correspond à deux droites de régression presque perpendiculaires.

6 - Retour sur la covariance et la corrélation Nous allons définir, dans ce paragraphe, une quantité numérique permettant de mesurer quantitativement la corrélation linéaire.

La droite D y/x a pour équation y = ax + b et son coefficient directeur est a. La droite D x/y a pour équation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrélation maximum correspond à la situation où les droites D y/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1

Or

La corrélation maximum correspond donc à :

Par définition, on appelle coefficient de corrélation linéaire la quantité

On écrit souvent r sous une autre forme que nous allons déterminer et qui fait intervenir les écarts-types. n représentant le nombre de couples (xi, yi),

q

la variance de x est

q

la variance de y est

La droite D y/x a pour équation y = ax + b et son coefficient directeur est a. La droite D x/y a pour équation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrélation maximum correspond à la situation où les droites D y/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1

Or

La corrélation maximum correspond donc à :

Par définition, on appelle coefficient de corrélation linéaire la quantité

On écrit souvent r sous une autre forme que nous allons déterminer et qui fait intervenir les écarts-types. n représentant le nombre de couples (xi, yi),

q

la variance de x est

q

la variance de y est

q

rappelons que l'on appelle covariance de x et y la quantité

Avec ces définitions, on peut écrire

Examinons maintenant les propriétés du coefficient de corrélation linéaire : q

invariance par translation

Transformons xi en x'i = xi + α et yi en y'i = yi + β. Alors m x est transformé en m x' = mx + α et m y en m y' = m y + β. Par suite Xi est transformé en X'i = x'i- mx' = (xi + α) - (mx + α) = xi - mx = Xi et Yi est transformé en Y'i = y'i - m y' = (yi + β) - (m y + β) = yi - m y = Yi En définitive, r est inchangé. q

invariance par changement d'échelle

Transformons xi en x'i = αxi et yi en y'i = β yi. Alors m x est transformé en m x' = αmx et m y en m y' = βm y. Par suite Xi est transformé en X'i = x'i - mx' = αxi - αmx = α(xi - mx) = αXi et Yi est transformé en Y'i = y'i - m y' = β yi - bm y = β(yi - m y) = βYi

r est donc changé en

En définitive r est inchangé. q

domaine de variation de r

q

rappelons que l'on appelle covariance de x et y la quantité

Avec ces définitions, on peut écrire

Examinons maintenant les propriétés du coefficient de corrélation linéaire : q

invariance par translation

Transformons xi en x'i = xi + α et yi en y'i = yi + β. Alors m x est transformé en m x' = mx + α et m y en m y' = m y + β. Par suite Xi est transformé en X'i = x'i- mx' = (xi + α) - (mx + α) = xi - mx = Xi et Yi est transformé en Y'i = y'i - m y' = (yi + β) - (m y + β) = yi - m y = Yi En définitive, r est inchangé. q

invariance par changement d'échelle

Transformons xi en x'i = αxi et yi en y'i = β yi. Alors m x est transformé en m x' = αmx et m y en m y' = βm y. Par suite Xi est transformé en X'i = x'i - mx' = αxi - αmx = α(xi - mx) = αXi et Yi est transformé en Y'i = y'i - m y' = β yi - bm y = β(yi - m y) = βYi

r est donc changé en

En définitive r est inchangé. q

domaine de variation de r

D'après l'inégalité de Schwarz :

d'où

donc

Terminons ce paragraphe par une mise en garde. La corrélation a une interprétation très délicate. En général, elle correspond à une relation cause-effet mais il faut faire très attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est évident) qui est la cause et qui est l'effet. b) x et y peuvent être en relation avec un troisième phénomène ; par exemple, on pourra trouver une bonne corrélation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crème glacée ; le troisième phénomène est évidemment la température. c) Il peut y avoir des corrélations accidentelles. On a pu monter, par e xemple, une corrélation importante dans les cas suivants : q

mortalité britannique et population des mariages anglicans ;

q

nombre d'abonnés au téléphone dans le département de la Seine et nombre d'étudiants inscrits à la Faculté de Droit de Paris ;

q

taux de nuptialité et activité économique

Il faut donc adopter une attitude prudente.

D'après l'inégalité de Schwarz :

d'où

donc

Terminons ce paragraphe par une mise en garde. La corrélation a une interprétation très délicate. En général, elle correspond à une relation cause-effet mais il faut faire très attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est évident) qui est la cause et qui est l'effet. b) x et y peuvent être en relation avec un troisième phénomène ; par exemple, on pourra trouver une bonne corrélation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crème glacée ; le troisième phénomène est évidemment la température. c) Il peut y avoir des corrélations accidentelles. On a pu monter, par e xemple, une corrélation importante dans les cas suivants : q

mortalité britannique et population des mariages anglicans ;

q

nombre d'abonnés au téléphone dans le département de la Seine et nombre d'étudiants inscrits à la Faculté de Droit de Paris ;

q

taux de nuptialité et activité économique

Il faut donc adopter une attitude prudente.

7 - Corrélation linéaire multiple Le cas étudié précédemment était limité à la corrélation de deux variables. Examinons maintenant la corrélation entre plus de deux variables ; supposons que nous ayons une variable X(0) et que nous voulons l'"expliquer" à partir de k va riables X(1), X(2), ...., X(k) par une loi linéaire : X(0) = β0 + ΣkβkX (k)

Les paramètres βk sont, a priori inconnus, sont les coefficie nts de saturation. X(0) est la variable à expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'exposé, on admettra que l'on a ef fectué n observations ce qui a conduit à n valeurs X i(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les définitions usuelles s'écrivent : q

moyennes : mX(k) =(ΣiXi(k))/n

q

variances : v(X(k)) = (Σi(Xi(k) - mX(k))2

q

covariances : cov(X(k), X(l)) = [Σi(Xi(k) - mX(k))(Xi(l) - m X(l))

On définira l'écart entre l'expérience et le modèle par

définition conforme à ce que l'on a déjà vu. Pour minimiser E et donc trouver les coefficients βk, on écrira que les dérivées partielles de E par rapport aux coefficients βk sont nulles :

7 - Corrélation linéaire multiple Le cas étudié précédemment était limité à la corrélation de deux variables. Examinons maintenant la corrélation entre plus de deux variables ; supposons que nous ayons une variable X(0) et que nous voulons l'"expliquer" à partir de k va riables X(1), X(2), ...., X(k) par une loi linéaire : X(0) = β0 + ΣkβkX (k)

Les paramètres βk sont, a priori inconnus, sont les coefficie nts de saturation. X(0) est la variable à expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'exposé, on admettra que l'on a ef fectué n observations ce qui a conduit à n valeurs X i(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les définitions usuelles s'écrivent : q

moyennes : mX(k) =(ΣiXi(k))/n

q

variances : v(X(k)) = (Σi(Xi(k) - mX(k))2

q

covariances : cov(X(k), X(l)) = [Σi(Xi(k) - mX(k))(Xi(l) - m X(l))

On définira l'écart entre l'expérience et le modèle par

définition conforme à ce que l'on a déjà vu. Pour minimiser E et donc trouver les coefficients βk, on écrira que les dérivées partielles de E par rapport aux coefficients βk sont nulles :

ce qui conduit aux équations suivantes :

La première de ces équations donne nβ0 = ΣiXi(0) - ΣiΣkβkXi(k) ou nβ0 = nmX(0) - nΣkβkmX(k) soit β0 = mX(0) - ΣkβkmX (k)

La seconde équation s'écrit alors β0ΣiXi(l) + ΣiXi(l)ΣkβkXi(k) - ΣiXi(l)Xi(0) = 0

nβ0mX(l) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 nmX(0)mX(l) - nΣkβkmX(l)mX(k) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 Pour faciliter l'écriture posons

ce qui conduit aux équations suivantes :

La première de ces équations donne nβ0 = ΣiXi(0) - ΣiΣkβkXi(k) ou nβ0 = nmX(0) - nΣkβkmX(k) soit β0 = mX(0) - ΣkβkmX (k)

La seconde équation s'écrit alors β0ΣiXi(l) + ΣiXi(l)ΣkβkXi(k) - ΣiXi(l)Xi(0) = 0

nβ0mX(l) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 nmX(0)mX(l) - nΣkβkmX(l)mX(k) + ΣkβkΣiXi(l)Xi(k) - ΣiXi(l)Xi(0) = 0 Pour faciliter l'écriture posons

Vkl = cov(X(k), X(l)) =(ΣiXi(k)Xi(l))/n - mX(k)mX(l) d'où ΣkβkVkl = V0l ou matriciellement

M

est appelée matrice des covariances.

Pour résoudre ce système, il faut calculer la matrice inverse

M

-1

: B

=M

-1

V

relation qui fournit les coefficients de saturation βk pour k = 1, N. On est amené à poser, pour mesurer la corrélation globale

Ce coefficient est quelquefois appelé coefficient de corrélation multiple (mais d'autres définitions existent).

8 - Exemples de recherche de corrélation

Vkl = cov(X(k), X(l)) =(ΣiXi(k)Xi(l))/n - mX(k)mX(l) d'où ΣkβkVkl = V0l ou matriciellement

M

est appelée matrice des covariances.

Pour résoudre ce système, il faut calculer la matrice inverse

M

-1

: B

=M

-1

V

relation qui fournit les coefficients de saturation βk pour k = 1, N. On est amené à poser, pour mesurer la corrélation globale

Ce coefficient est quelquefois appelé coefficient de corrélation multiple (mais d'autres définitions existent).

8 - Exemples de recherche de corrélation

exemple1 On donne les deux séries chronologiques suivantes, relatives à la Grande Bretagne :

années

Récepteurs de radio en service (en centaines de milliers) : x

Nombre de maladies mentales déclarées (pour 1000 habitants) : y

1924

13

8

1925

20

8

1926

23

9

1927

25

10

1928

27

11

1929

31

11

1930

36

12

1931

46

16

1932

55

18

1933

63

19

1934

70

20

1935

76

21

1937

81

22

1937

85

23

Recherchons s'il y a une corrélation entre x et y. Calculons tout d'abord le coefficient de corrélation.

exemple1 On donne les deux séries chronologiques suivantes, relatives à la Grande Bretagne :

années

Récepteurs de radio en service (en centaines de milliers) : x

Nombre de maladies mentales déclarées (pour 1000 habitants) : y

1924

13

8

1925

20

8

1926

23

9

1927

25

10

1928

27

11

1929

31

11

1930

36

12

1931

46

16

1932

55

18

1933

63

19

1934

70

20

1935

76

21

1937

81

22

1937

85

23

Recherchons s'il y a une corrélation entre x et y. Calculons tout d'abord le coefficient de corrélation.

Le coefficient de corrélation est r = 0,99 . Il est donc très élevé ce qui indique une forte corrélation entre x et y. Les droites de régression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour équations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48

Le coefficient de corrélation est r = 0,99 . Il est donc très élevé ce qui indique une forte corrélation entre x et y. Les droites de régression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour équations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48

Bien entendu, la corrélation observée ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !

exemple 2 Le bassin versant du Danube hongrois se situe en Bavière et en Autriche. Si par là, la quantité de condensations atmosphériques devient élevée, une vague de crue se produit tout au long du Da nube dont le plafond à Budapest on veut prédire. Le problème nécessite une approche mathématique assez complexe mais pour le moment nous nous contentons de présenter une illustration bien simplifiée sur la régression à plusieurs variables. On introduit les trois variables suivantes : q

q

q

X(0) le plafond du Danube à Budapest. On ne considère que les cas les plus importants. X(1) la quantité de condensations atmosphériques dans le bassin versant du Danube hongrois. La moyenne mathématique des données mesuré par 15 station d’observation en Bavière et en Autriche. X(2) le niveau du Danube à Budapest juste avant les grandes eaux causant des vagues de crue.

Bien entendu, la corrélation observée ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !

exemple 2 Le bassin versant du Danube hongrois se situe en Bavière et en Autriche. Si par là, la quantité de condensations atmosphériques devient élevée, une vague de crue se produit tout au long du Da nube dont le plafond à Budapest on veut prédire. Le problème nécessite une approche mathématique assez complexe mais pour le moment nous nous contentons de présenter une illustration bien simplifiée sur la régression à plusieurs variables. On introduit les trois variables suivantes : q

q

q

X(0) le plafond du Danube à Budapest. On ne considère que les cas les plus importants. X(1) la quantité de condensations atmosphériques dans le bassin versant du Danube hongrois. La moyenne mathématique des données mesuré par 15 station d’observation en Bavière et en Autriche. X(2) le niveau du Danube à Budapest juste avant les grandes eaux causant des vagues de crue.

Le tableau suivant donne les trois données de 26 vagues de crue du Danube à Budapest. Numéro d’ordre

temps

X(0) (cm)

X(1) (mm)

X(2) (cm)

1

1896.08.14

590

58

405

2

1896.08.20

660

52

450

3

1897.08.08

780

133

350

4

1899.09.22

770

179

285

5

1903.07.15

710

98

330

6

1906.07.20

640

72

400

7

1907.05.02

670

72

550

8

1907.06.29

520

43

480

9

1907.07.21

660

62

450

10

1912.05.31

690

67

610

11

1912.07.27

500

64

380

12

1912.08.04

460

33

460

13

1912.09.16

610

57

425

14

1912.09.21

710

62

560

15

1914.07.14

620

54

420

Le tableau suivant donne les trois données de 26 vagues de crue du Danube à Budapest. Numéro d’ordre

temps

X(0) (cm)

X(1) (mm)

X(2) (cm)

1

1896.08.14

590

58

405

2

1896.08.20

660

52

450

3

1897.08.08

780

133

350

4

1899.09.22

770

179

285

5

1903.07.15

710

98

330

6

1906.07.20

640

72

400

7

1907.05.02

670

72

550

8

1907.06.29

520

43

480

9

1907.07.21

660

62

450

10

1912.05.31

690

67

610

11

1912.07.27

500

64

380

12

1912.08.04

460

33

460

13

1912.09.16

610

57

425

14

1912.09.21

710

62

560

15

1914.07.14

620

54

420

16

1914.07.24

660

48

620

17

1918.07.01

620

86

390

18

1918.08.15

590

74

350

19

1926.06.26

740

95

570

20

1926.07.01

730

44

710

21

1926.07.17

720

53

700

22

1926.08.06

720

77

580

23

1926.08.14

640

46

700

24

1954.07.18

805

123

560

25

1955.06.26

510

26

370

26

1955.07.16

673

62

430

On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modèle linéaire : X(0) = β0 + β1X(1) + β2X(2) Calculons la matrice M et le vecteur V :

16

1914.07.24

660

48

620

17

1918.07.01

620

86

390

18

1918.08.15

590

74

350

19

1926.06.26

740

95

570

20

1926.07.01

730

44

710

21

1926.07.17

720

53

700

22

1926.08.06

720

77

580

23

1926.08.14

640

46

700

24

1954.07.18

805

123

560

25

1955.06.26

510

26

370

26

1955.07.16

673

62

430

On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modèle linéaire : X(0) = β0 + β1X(1) + β2X(2) Calculons la matrice M et le vecteur V :

Le modèle linéaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs théoriques sont données ci-dessus. On peut, avec le graphique suivant comparer le modèle à la réalité :

Le modèle linéaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs théoriques sont données ci-dessus. On peut, avec le graphique suivant comparer le modèle à la réalité :

Ch2 - Ajustement et Corrélation

9 - Modèles non linéaires On se limitera ici au cas de deux variables aléatoires. 2 cas se posent dans la pratique lorsque le modèle linéaire n'est pas adapté : s

soit on se ramène par transformation au modèle linéaire lorsque cela est possible r

r

r

ajustement exponentiel Y = a e X transformation par logarithme : Ln(Y) = Ln(a) + X d’où ajustement linéaire entre Ln(Y) et X ajustement puissance Y = a X b = a eb Ln(X)

Ch2 - Ajustement et Corrélation

9 - Modèles non linéaires On se limitera ici au cas de deux variables aléatoires. 2 cas se posent dans la pratique lorsque le modèle linéaire n'est pas adapté : s

soit on se ramène par transformation au modèle linéaire lorsque cela est possible r

r

r

r

s

ajustement exponentiel Y = a e X transformation par logarithme : Ln(Y) = Ln(a) + X d’où ajustement linéaire entre Ln(Y) et X ajustement puissance Y = a X b = a eb Ln(X) transformation par logarithme : Ln(Y) = Ln(a) + b Ln(X) d’où ajustement linéaire entre Ln(Y) et Ln(X)

soit on cherche un modèle non linéaire simple ; le cas courant est l’ajustement polynomial Y=a0+a1 X+a2 X2+............+aN XN =

10 - Ajustement polynômial Examinons plus en détail ce type de modèle en supposant n observations (x j,y j) . On définira alors L’écart par rapport au modèle par:

Pour minimiser, annulons les dérivées partielles de E par rapport aux coefficients a k :

soit

Posons

alors ou matriciellement

Par suite l’équation

fournit les coefficients cherchés On remarquera que

Toutefois, la méthode précédente qui donne des résultats acceptables pour l’interpolation, est peu satisfaisante pour l’extrapolation. On utilisera de préférence la méthode des polynômes orthogonaux, par exemple la méthode de Lagrange que nous explicitons ci-dessous. On utilise des polynômes de base Li(x) (polynômes de Lagrange) et on cherche un ajustement de la forme

Si X = xi il faut que Y = y i donc L j(xi) = 0 si i ≠ j et 1 si i = j soit L j(xi) = δ ij q

le

polynôme L j(X) s'annule pour X = x 0, x1, ....,x j-1, x j+1, ........., xn , on peut donc l’écrire sous la forme L j(X) = k (X-x0)(X-x1).... (X- x j-1)(X- x j+1) .... (X-xn) L j(X) = k

q

pour i=j on a L j(x j) = 1 soit k

(x j -xi) = 1 et

Finalement l’expression du polynôme de Lagrange est

exemple 6 : : 3 points x0 = 0, x1 = 1, x2 = 2

Noter que l’on peut poser

11 - Test du χ2

(X-xi)

La loi du χ2 Donnons sans démonstration quelques résultats importants : Soit n variables normales centrées (c'est à dire suivant une loi de probabilité normale réduite) x1, x2, .............., xr. Alors la quantité x1+ x2+ ..............+ xr suit une loi de probabilité du suit une loi de probabilité du χ2 (ou de Pearson) à  ν = r degrés de liberté.

Loi du χ2

 ν

: nombre de degrés de liberté ; densité de probabilité :

q

espérance mathématique :

q

variance :

q

si , la loi du χ2 tend vers la loi de Gauss

La loi du χ2 est donnée par des tables qui procurent la probabilité P de dépasser une valeur donnée xl TABLE DE DISTRIBUTION DU

χ

2

(*)

p

 ν

0,995

0,990

0,975

0,950

0,900

0,750

0,500

1

3,93E-05 0,000157 0,000982 0,003932 0,015791 0,101531 0,454936

2

0,010025

3

0,071723 0,114832 0,215795 0,351846 0,584375 1,212532 2,365973

0,0201

0,050636 0,102586 0,210721 0,575364 1,386294

4

0,206984 0,297107 0,484419 0,710724 1,063624 1,922558 3,356695

5

0,411751 0,554297 0,831209 1,145477 1,610309 2,674604 4,351459

6

0,675733 0,872083 1,237342 1,63538

7

0,989251 1,239032 1,689864 2,167349 2,833105 4,254852 6,345809

8

1,344403 1,646506 2,179725 2,732633 3,489537 5,070642 7,34412

9

1,734911 2,087889 2,700389 3,325115 4,168156 5,898823 8,342832

2,20413 3,454598 5,348119

10 2,155845 2,558199 3,246963 3,940295 4,865178 6,737199 9,341816

11 2,603202 3,053496 3,815742 4,574809 5,577788 7,584145

10,341

12 3,073785 3,570551 4,403778 5,226028 6,303796 8,438419 11,34032

13 3,565042

4,1069

5,008738 5,891861

7,0415

9,299063 12,33975

14 4,074659 4,660415 5,628724 6,570632 7,789538 10,16531 13,33927

15 4,600874 5,229356 6,262123 7,260935 8,546753 11,03654 14,33886

16 5,142164 5,812197 6,907664 7,961639 9,312235 11,91222 15,3385

17 5,697274 6,407742 7,564179 8,671754 10,08518 12,79192 16,33818

18 6,264766 7,014903 8,230737 9,390448 10,86494 13,67529 17,3379

19 6,843923 7,632698 8,906514 10,11701 11,65091

20 7,433811 8,260368 9,590772 10,8508

14,562

18,33765

12,4426 15,45177 19,33743

21 8,033602 8,897172 10,28291 11,59132 13,2396 16,34439 20,33723

22 8,642681 9,542494 10,98233 12,33801 14,04149 17,23962 21,33704

23 9,260383 10,19569 11,68853 13,09051 14,84795 18,13729 22,33688

24 9,886199 10,85635 12,40115 13,84842 15,65868 19,03725 23,33673

25 10,51965 11,52395 13,11971 14,6114 16,47341 19,93934 24,33658

26 11,16022 12,19818 13,84388 15,37916 17,29188 20,84343 25,33646

27 11,80765 12,87847 14,57337 16,15139 18,11389 21,7494 26,33634

28 12,46128 13,56467 15,30785 16,92788 18,93924 22,65716 27,33623

29 13,12107 14,25641 16,04705 17,70838 19,76774 23,56659 28,33613

30 13,78668 14,95346 16,79076 18,49267 20,59924 24,4776 29,33603

40 20,70658 22,1642 24,43306 26,5093 29,05052 33,66029 39,33534

50 27,99082 29,70673 32,35738 34,76424 37,68864 42,94208 49,33494

60

35,5344

37,4848 40,48171 43,18797 46,45888 52,29381 59,33467

70 43,27531 45,4417 48,75754 51,73926 55,32894 61,69833 69,33448

80 51,17193 53,53998 57,15315 60,39146 64,27784 71,14451 79,33432

90 59,19633 61,75402 65,64659 69,12602 73,29108 80,62466 89,33422

100 67,32753

70,065

74,22188 77,92944 82,35813 90,13323 99,33413

p

 ν

0,250

0,100

0,050

0,025

0,010

0,005

0,001

7,8794

10,82736

1

1,323304 2,705541 3,841455 5,023903 6,634891

2

2,77259 4,605176 5,991476 7,377779 9,210351 10,59653

3

4,108342 6,251394 7,814725 9,348404 11,34488 12,83807 16,26596

4

5,385266 7,779434 9,487728 11,14326 13,2767 14,86017 18,46623

5

6,625678 9,236349 11,07048 12,83249 15,08632 16,74965 20,51465

13,815

6

7,840806 10,64464 12,59158 14,44935 16,81187 18,54751 22,45748

7

9,037146 12,01703 14,06713 16,01277 18,47532 20,27774 24,3213

8

10,21885 13,36156 15,50731 17,53454 20,09016 21,95486 26,12393

9

11,38875 14,68366 16,91896 19,02278 21,66605 23,58927 27,87673

10 12,54886 15,98717 18,30703 20,4832 23,20929 25,18805 29,58789

11 13,70069 17,27501 19,67515 21,92002 24,72502 26,75686 31,26351

12

14,8454 18,54934 21,02606 23,33666 26,21696 28,29966 32,90923

13 15,98391 19,81193 22,36203 24,73558 27,68818 29,81932 34,52737

14 17,11693 21,06414 23,68478 26,11893 29,14116 31,31943 36,12387

15 18,24508 22,30712 24,9958 27,48836 30,57795 32,80149 37,69777

16 19,36886 23,54182 26,29622 28,84532 31,99986 34,26705 39,25178

17 20,48868 24,76903 27,5871 30,19098 33,40872 35,71838 40,79111

18 21,60489 25,98942 28,86932 31,52641 34,80524 37,15639 42,31195

19 22,71781 27,20356 30,14351 32,85234 36,19077 38,58212 43,81936

20 23,82769 28,41197 31,41042 34,16958 37,56627 39,99686 45,31422

21 24,93478 29,61509 32,67056 35,47886 38,93223 41,40094 46,79627

22 26,03926 30,81329 33,92446 36,78068 40,28945 42,79566 48,26762

23 27,14133 32,00689 35,17246 38,07561 41,63833 44,18139 49,72764

24 28,24115 33,19624 36,41503 39,36406 42,97978 45,55836 51,17897

25 29,33885 34,38158 37,65249 40,6465 44,31401 46,92797 52,61874

26 30,43456 35,56316 38,88513 41,92314 45,64164 48,28978 54,05114

27 31,52841 36,74123 40,11327 43,19452 46,96284 49,64504 55,47508

28 32,62049 37,91591 41,33715 44,46079 48,27817 50,99356 56,89176

29 33,71091 39,08748 42,55695 45,72228 49,58783 52,3355 58,30064

30 34,79974 40,25602 43,77295 46,97922 50,89218 53,67187 59,70221

40 45,61601 51,80504 55,75849 59,34168 63,69077 66,76605 73,4029

50 56,33361 63,16711 67,50481 71,42019 76,1538 79,48984 86,66031

60 66,98147

74,397

79,08195 83,29771 88,37943 91,95181 99,60783

70 77,57665 85,52704 90,53126 95,02315 100,4251 104,2148 112,3167

80 88,13025 96,5782 101,8795 106,6285 112,3288 116,3209 124,8389

90 98,64992 107,565 113,1452 118,1359 124,1162 128,2987 137,2082

100 109,1412 118,498 124,3421 129,5613 135,8069 140,1697 149,4488

*

Valeurs de χ2 ayant la probabilité p d’être dépassées (S. Aivazian, op.cit., PP- 188-189).

Les tables du χ2 permettent de donner , connaissant n, la probabilité (seuil habituel choisi 5%) de dépasser une valeur χ21 ce qui permet de savoir si le modèle est acceptable. Si les r variables sont liées par p relations, le nombre de degrés de liberté est  ν = r – p et la loi du χ2 est toujours valable. Ces résultats permettent de mesurer la validité d'un modèle. En effet, soit une expérience procurant des résultats que l’on peut regrouper en classes statistiques : ni : effectif observé de la classe i ; p i : probabilité ( a priori inconnue) de la classe i ; npi : effectif théorique On pose alors

et

On notera que, pour utiliser ces résultats, l’effectif minimum d'une classe doit être de 10 et que r = nombre de classes - nombre de relations entre les n i.

Hypothèse d’ajustement pur Quand on connaît a priori la répartition théorique d’une loi aléatoire, on parle le test d’hypothèse d’ajustement pur. Donc, si l’on connaît la distribution de probabilité des r classes, le degré de liberté est  ν = r – p = r – 1 puisque p 1+ p2+ ... + pr = 1 est une relation qui relie les r variables. Après cela on fait le test χ2 (ν) sur le degré de liberté  ν = r – 1. Exemple 6 Sur la loterie nationale hongroise – où il faut choisir 5 chiffres sur 90 – pendant 225 semaines, on a observé le tableau de fréquences suivant : chiffres

1

2 3 4 5 6 7 8 9 10 11 12 13 14 15

fréquences 18 8 14 13 18 14 18 14 17 10 11 13 17 16 17

chiffres

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

fréquences 9 10 12 15 14 10 11 16 15 12 17 13 11 17 7

chiffres

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

fréquences 10 9 12 16 13 12 17 14 10 8 9 15 9 12 16

chiffres

46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

fréquences 14 9 12 21 6 19 9 13 13 10 10 10 9 10 9

chiffres

61 62 63 64 65 66 67 68 69 70 71 72 73 74 75

fréquences 11 8 8 11 12 10 17 8 12 12 20 6 15 15 19

chiffres

76 77 78 79 80 81 82 83 84 85 86 87 88 89 90

fréquences 9 17 14 10 14 12 13 15 10 10 11 12 9 12 10

Vérifions l’hypothèse, que chaque nombre entre 1 et 90 est équiprobable c’est-à-dire 1/90. Puisque chaque semaine on a tiré 5 chiffres on a au total n = 1125 données ce qui s’avère satisfaisant pour faire le test car la fréquence théorique pour chaque case :

.

La valeur du

Le degré de liberté est  ν = 90-1 = 89. Dans le tableau du χ2 on trouve que pour p = 0,71 on a la valeur de χ2 = 81,16. Cela veut dire que pour n’importe quel niveau traditionnel, par exemple pour p = 0,05 la valeur de χ20,05(89) = 112 ne contredit pas notre hypothèse selon laquelle notre tableau de fréquences observées devient d’un tirage au sort au hasard est que la fréquence théorique

.

Hypothèse d’ajustement à s paramètres estimés Quand on connaît a priori le type de la répartition théorique, on parle le test d’hypothèse d’ajustement à s paramètres estimés. L’hypothèse d’ajustement pur est bien rare dans la pratique car même si l’on connaît le type de la loi aléatoire théorique il faut souvent estimer quelques paramètres de l’échantillon. Donc si l’on connaît la distribution de probabilité des r classes, le degré de liberté de test du χ2 a la forme de  ν = r – s – 1 puisque on possède s relations sur les s paramètres estimés de la loi aléatoire plus la relation p 1+ p2+ ... + pr = 1 déjà discuté. Après tout cela on fait le test χ2(ν) comme avant sur le degré de liberté  ν = r – s – 1. Exemple 7 On dénombre le nombre des α-particules émis par un radioélément pendant d’une période t sur une certaine superficie. On fait au total n = 800 dénombrements, chaque fois pendant 7 secondes. Le tableau suivant montre la fréquence des valeurs k et les probabilités théoriques d’une loi Poisson fréquence observée

fréquence théorique

k

nk

k*nk

n*pk

χ2

0

18

0

16,875

0,074934

1

65

65

65,118

0,000215

2

121

242

125,638

0,171182

3

160

480

161,601

0,015867

4

162

648

155,895

0,239098

5

118

590

120,312

0,04442

6

82

492

77,376

0,276391

7

45

315

42,653

0,129117

8

16

128

20,574

1,016703

9

8

72

8,821

0,076395

10

5

55

5,138

0,00369

Total :

800

3087

800

2,048012

On veut tester si les différences entre les fréquences observées et les fréquences théoriques de la loi Poisson peuvent être considérées comme purement aléatoires, c’est-à-dire si le nombre des α -particules suit vraiment la loi Poisson. On emploie pour cela le test du χ2 2,048

Puisque le nombre des classes est de 11 et on a estimé un paramètre de l’échantillon, il faut travailler avec χ2(10). Sur la dixième ligne du tableau du χ2 on peut constater que pour n’importe quel niveau traditionnel il n’y a pas de contradiction avec l’hypothèse selon laquelle l’émission des α-particules suit la loi de Poisson. Par exemple pour p = 0,05 la valeur de χ20,05(10) = 18,3 > 2,48.

Hypothèse d’homogénéité Quand on veut tester sur deux ou plusieurs échantillons indépendants s’ils suivent la même loi aléatoire (en d’autres termes sont de la même population) ou pas on parle de hypothèse d’homogénéité. On ne traite ici que le cas de deux échantillons indépendants. Il faut former les mêmes classes de regroupements pour les valeurs de toutes les deux variables aléatoires. Si l’on désigne par r le nombres de classes. Les tailles des deux échantillons peuvent se différer, soit m et n les deux tailles et m 1, m2, ... mr et n1, n2, ... nr les fréquences empiriques des deux échantillons, respectivement comme vous trouvez dans le tableau qui suit : m1 n 1 m2 n 2 ... ... ... ... ... ... mr nr

m1 + n 1 m2 + n 2 ... ... ... mr + nr

mn

m+n

suit la loi χ2 de degré de liberté  ν = r – 1

On peut démontrer que tandis que m et n tendent vers l'infini. Exemple 8

On veut tester si les deux distributions des femmes qui sont avec ou sans travail sont significativement différentes selon leur nombre d’enfants. Pour cela on choisit au hasard 220 ménages et on trouve que parmi eux 120 femmes sont avec et 100 sont sans travail. Les fréquences selon les nombres d’enfants sont données dans le tableau suivant : Nombre Avec Sans Ensemble d’enfants travail

0 1 2 3 4 5 ou plus

36 41 28 11 3 1

28 36 22 8 4 2

64 77 50 19 7 3

120

100

220

Dans ce cas m = 120, n = 100, r = 6 et la valeur de

= 1,186 .

Cette valeur est à comparer avec la valeur du χ2 de degré de liberté  ν = r – 1 = 5 . De la cinquième ligne du tableau χ2 on peut constater que pour n’importe quel niveau traditionnel il n’y a pas de contradiction avec l’hypothèse selon laquelle les deux distributions sont identiques. Par exemple pour p = 0,05 la valeur de χ20,05(5) = 11,07 > 1,186.

Hypothèse d’indépendance Puisque on peut parler non seulement de l’indépendance des caractéristiques quantitatives mais aussi de celle des caractéristiques qualitatives on approche le problème de la manière suivante : Soit A1, A2, ... , Ar ; et B1, B2, ... , Bs ; deux systèmes d’événements complets et on veut tester l’hypothèse que les deux systèmes d’événement sont indépendants c.-à-d. P(AiB j) = P(Ai)P(B j)

i = 1, ... , r;

j = 1, ... , s;

Dans le cas de vérification d’indépendance des deux variables aléatoires les événements A i et B j marquent que les valeurs des variables appartiennent à la classe correspondantes. Considérons un échantillon de taille n et introduisons les notations suivantes : la fréquence de l’événement AiB j ;

la fréquence de l’événement Ai ;

la fréquence de l’événement B j ;

;

Il est bien clair, que

On range les fréquences

;

.

.

dans le tableau de contingence suivant : Variables

1

2

...

1

...

2

...

s

Total

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

r

...

Total

...

n

Il y a deux cas possibles : 1. p i et p j sont connus ; 2. pi et p j ne sont pas connus. Dans le premier cas il ne s’agit qu’une hypothèse d’ajustement pur qui consiste à tester si P(AiB j) = pi·p·j donc il faut construire la formule pour

i = 1, ... , r;

j = 1, ... , s,

qui suit la loi χ2 de degré de liberté ν = rs – 1 tandis que n tend vers l'infini. Il faut avouer que ce cas là est rare. Le cas 2. est beaucoup de plus fréquent. On forme de manière similaire

qui suit la loi χ2 de degré de liberté  ν = ( r – 1)(s – 1) tandis que n tend vers l'infini, car ce test là peut être considéré comme une hypothèse d’ajustement à (r+s –2) paramètres estimés d’où  ν = rs – (r+s –2) –1 = ( r – 1)(s – 1) .

On s’appelle contingence carrée de deux systèmes d’événements la quantité :

dont l’estimation empirique est la n-ième partie de χ2 c.-à-d. ϕ2 = χ2/n . On peut facilement voir que où q = min (r,s).

Le quotient

est considéré comme la mesure de dépendance entre deux systèmes

d’événements dont l’estimation empirique est

. Cette mesure de dépendance a la

propriété qu’elle est égale à 0 si et seulement si P(AiB j) = P(Ai)P(B j)

i = 1, ... , r;

j = 1, ... , s;

et est égale à 1 si et seulement si les deux variables aléatoires sont liées par une fonction.

Exemple 8 On veut tester les diamètres externes et internes des coussinets. Selon leur taille des deux diamètres ils sont classés en trois catégories : bien, passable, refusé. Pour tester un lot on choisit au hasard 200 coussinets en les mesurant et on les range en 9 catégories possibles. On veut tester l’hypothèse que les tailles internes et externes sont indépendantes ou pas. Pour cette raison on fait le test du χ2. Les fréquences du tableau de contingence étaient les suivantes : Diamètre externe Bien Diamètre Bien interne

Passable Refusé Total

169

8

1

178

Passable

9

4

1

14

Refusé

1

3

4

8

179

15

6

200

Total

On calcule

= 90,15 .

Puisque r = s = 3, on a comme degré de liberté du χ2 : ν = ( r – 1)(s – 1) = 4. Confrontons la valeur ainsi obtenue avec la quatrième ligne du tableau χ2 et on constate que pour n’importe quel niveau traditionnel il faut rejeter l’hypothèse selon laquelle les deux distributions sont indépendantes. Quand on veut caractériser la mesure de dépendance entre les deux tailles on calcule le quotient :

=

=

= 0,2254 . Cela montre bien que les précisions des deux

tailles sont en plus faible relation que la moyenne.

Exemple 9 Considérons le tableau de contingence à r lignes et s colonnes obtenu en ventilant une population de n = 592 femmes suivant leurs couleurs des yeux et des cheveux Tableau de contingence, répartition des 592 femmes suivant leurs couleurs des yeux et des cheveux. couleur des cheveux brun

châtain

roux

blond

Total

68

119

26

7

220

15

54

14

10

93

vert

5

29

14

16

64

bleu

20

84

17

94

215

Total

108

286

71

127

592

marron couleur des yeux noisette

En lignes est présentée la variable "couleur des yeux" à r = 4 modalités (ou catégories) et en colonnes est donné la variable "couleur des cheveux" à s = 4 modalités. Même si l’on a appris des études biologiques que entre les deux caractéristiques doit avoir lieu quelque corrélation, il vaut la peine quand même de tester l’hypothèse de l’indépendance entre elles. Pour cela on calcule

= 138,29 .

Puisque r = s = 4, on a comme degré de liberté du χ2 : ν = ( r – 1)(s – 1) = 9. En confrontant la valeur ainsi obtenue avec la neuvième ligne du tableau χ2 et on constate que pour n’importe quel niveau traditionnel il faut rejeter l’hypothèse selon laquelle les deux types de couleur sont indépendants. La mesure de dépendance entre les deux caractères :

=

=

=

0,0779 . Cela montre que les deux types de couleur sont de beaucoup de plus faible relation que la moyenne.

Ch2 - Exercices

Exercice 1

Le tableau ci-dessous donne les résultats obtenus à partir de 10 essais de laboratoire concernant la charge de rupture y d'un acier en fonction de sa teneur x en carbone :

n° essai

teneur en carbone x pour 10000

charge de rupture y en kg

1

72

90

2

60

70

3

68

72

4

66

70

5

64

75

6

62

75

7

64

80

8

70

85

9

62

70

10

74

100

1) Représenter graphiquement les données de ce tableau 2) Calculer la moyenne de x et la moyenne de y, la variance de x, la variance de y, la covariance de x et y. 3) Est-il possible d'envisager une relation linéaire entre x et y ? 4) Dans l'affirmative, calculer, par la méthode des moindres carrés, l'équation des droites d'ajustement. 5) En utilisant le résultat précédent, quelle pourrait être la charge de rupture d'un acier ayant une teneur en carbone de 65 pour 10000.

Exercice 2

Dans le département français du Marne-et-Garonne, on constate les faits reportés dans le tableau ci-dessous :

années

récepteurs de télévision en service (en milliers)

nombre de maladies mentales pour 1000 habitants

nombre de véhicules automobiles dans le département (en milliers)

1985

13

8

8

1986

20

8

9

1987

23

9

10

1988

25

10

10

1989

27

11

11

1990

31

11

11

1991

36

12

13

1992

46

16

13

1993

55

18

13

1994

63

19

15

1995

70

20

15

1996

76

21

17

1997

81

22

18

1998

85

23

19

Etudier ce tableau du point de vue de la corrélation et faites part de vos conclusions.

Exercice 3

Dans un pays fictif dont la monnaie est le jeton, le tableau suivant indique par tranche de revenus en jetons le nombre de contribuables en milliers : Nombre de Revenu en contribuables en milliers de jetons milliers 10-20

1286,0

20-30

824

30-40

329,0

40-50

135,9

50-100

167,2

100-300

53,4

300-1000

6,2

1000 et plus

0,5

1) Représenter graphiquement, en coordonnées doublement logarithmiques, le nombre N de contribuables ayant un revenu supérieur à x. 2) En déduire entre x et N une relation de la forme N=A/(xp) qui est une loi de Pareto où A et p sont deux constantes que l'on déterminera par ajustement d'une droite aux points obtenus dans le représentation graphique précédente. On négligera le point pour lequel x = 10. 3) En utilisant cette loi, calculer le revenu moyen théorique dans l'intervalle (200-100).

Exercice 4

Le tableau suivant donne les cours de quelques valeurs allemandes à la Bourse de Paris à la fin de 1965 (colonne x) et le 13 juillet 1966 (colonne y).

Déterminer la droite d'ajustement y = f(x)

Exercice 5

On donne la série statistique x

1

2

6

7

8

9

13

14

15

16

17

18

 y

20 26 32 27 20 30

31

15

22 28 29 27 28

25

30

31

32

31

x

19

22 23 24 25 26 27 28 29 30

31

32

33

34

35

36

 y

35 20 27 33 30 33 35 34 43 40 39 43

41

22

31

41

37

40

20

3

21

4

5

10

11

12

1) Représenter graphiquement cette série 2) Pratiquer un ajustement analytique linéaire

Exercice 6

Le tourisme en Europe en 1959 est décrit dans le tableau suivant : pays

Nombre total de touristes arrivant (en millions) : x

Recette totale (millions de F) :  y

Allemagne

4,9

450

Espagne

4,1

70

France

5,5

400

Italie

8,6

500

Suisse

4,6

250

1) Représenter graphiquement la recette y en fonction du nombre total x de touristes. Y a-t-il des possibilités d’ajustement linéaire ? 2)

Calculer la moyenne de x et la moyenne de y

3)

Donner l’équation de la droite d’ajustement y = ax + b

Exercice 7

La direction commerciale d’une entreprise industrielle a augmenté régulièrement ses dépenses publicitaires pendant plusieurs années et voudrait y comparer la progression de son chiffre d’affaires. Elle dispose des données suivantes :

1)

année

Dépenses publicitaires en F : x

Chiffre d’affaires en milliers de F :  y

1960

73200

35261

1961

74700

35771

1962

76200

36791

1963

77700

37301

1964

79200

37556

1965

80700

38066

1966

82200

38831

Représenter graphiquement y en fonction de x 2)

Calculer la moyenne de x et la moyenne de y

3)

Essayer un ajustement linéaire y = ax + b

4) En se basant sur le modèle linéaire, quel sera le chiffre d’affaires de 1967 si la dépense publicitaire correspondante est 85000 F ?

Exercice 8

On relève pour plusieurs années successives le chiffre d’affaires national de vente de parapluies et le nombre de jours de pluie dans l’année :

nb de jours de pluie : x

vente de parapluies :  y

110

200000

100

150000

190

300000

200

350000

290

500000

330

550000

230

400000

1)

Représenter graphiquement la série statistique

2)

Déterminer les moyennes de x et de y

3)

Déterminer la droite d’ajustement y = ax + b

4)

S’il pleuvait tous les jours quelle serait la prédiction de vente de parapluies ?

Exercice 9

On relève par région française, pour l’année 1999 le chiffre d’affaires de vente de caramels et le nombre de personnes s’étant fait soigner pour des maux de dents :

vente de caramels : x

nombre de personnes étant soignées pour des maux de dents : y

100000

94500

150000

140000

160000

150000

120000

110000

80000

70000

90000

90000

200000

210000

1)

Représenter graphiquement la série ; un ajustement linéaire paraît-il possible ?

2)

Déterminer la droite d’ajustement y = ax + b

3) Dans une région donnée le chiffre d’affaires annuel de vente de caramels est 300000 ; quelle est la prédiction relative aux personnes se faisant soigner pour des maux de dents ?

Exercice 10

On donne le tableau à double entrée relatif à l'étude de la série double suivante : voitures de petites cylindrées circulant dans Paris classées sous les deux caractères suivants : puissance de la voiture et durée moyenne des pneumatiques. x désigne la puissance en CV, y désigne la durée des pneumatiques en milliers de kilomètres.  y\x

2

3

4

total

20

0

8 30

38

25

5 20

30

25

3

7

32

2

30

total 30 31 39

100

1) Représenter graphiquement cette série par un nuage de points 2) Calculer l'équation des deux droites de régression et le coefficient de corrélation. 3) Construire les droites de régression sur le graphique représentatif de la série

Exercice 11

On donne le tableau à double entrée relatif à l'étude de la série double suivante : individus classés en pourcentage sous les deux caractères poids et taille. x désigne le poids en kilogrammes et y désigne la taille en centimètres.

 y\x

40 à 45

45 à 50

50 à 55

55 à 60

150 à 155

20

9

1

0

155 à 160

2

18

4

1

160 à 165

0

5

12

6

165 à 170

0

1

7

14

On demande 1) de représenter graphiquement cette série par un nuage de points. 2) de calculer l'équation des deux droites de régression 3) de calculer le coefficient de corrélation

4) de construire les droites de régression sur le graphique précédent

Exercice 12

Dans les "Tableaux de l'économie française", l'INSEE a publié, en 1968, la répartition en pourcentages de la population active de quelques pays dans les secteurs primaire, secondaire et tertiaire : pays

primaire secondaire tertiaire

Allemagne 24 de l'Ouest

44

32

USA

13

36

51

France

28

37

35

Grande Bretagne

5

49

46

Italie

42

32

26

URSS

43

31

26

On tente de trouver un modèle visant à exprimer linéairement le secteur tertiaire en fonction du secteur primaire et du secteur secondaire (en nombre d'actifs). Proposer un modèle et donner vos conclusions.

Exercice 13

Une entreprise commerciale consacre une certaine somme à des opérations publicitaires au début de chaque mois. Dans le tableau ci-dessous sont récapitulés pour l'année 1956 les sommes consacrées à ces opérations, les montants des ventes.

mois

ventes (en milliers de francs)

frais de publicité (en milliers de francs)

 janvier

3800

240

février

4200

300

mars

4200

300

avril

3900

250

mai

4000

320

 juin

4500

350

 juillet

3500

200

août

2400

180

septembre

3800

300

octobre

4000

320

novembre

4400

380

décembre

5300

460

48000

3600

total

Etudier la corrélation entre la publicité et le montant des ventes

Exercice 14

Considérons, pour l'année 1954 : q q

d'une part, les variations de l'indice de production industrielle française d'autre part, la nombre de chômeurs secourus en France

mois

Nombre indices de de la chômeurs production secourus industrielle (en (base 100 milliers) : en 1938) : x  y

 janvier

144

72

février

143

78

mars

151

76

avril

155

73

mai

159

69

 juin

157

61

 juillet

147

56

août

122

54

septembre 156

48

octobre

159

49

novembre

162

53

décembre

166

57

Représenter graphiquement ces variations ; Calculer le coefficient de corrélation entre x et y ; Tracer les droites de régression.

Solution de l'exercice 4

Solution de l'exercice 5

1) Représentation graphique

2) On peut utiliser tout d'abord la méthode des moyennes échelonnées qui permet un certain lissage du nuage des points :

puis un ajustement analytique linéaire

Solution de l'exercice 6

La droite y = ax + b (en rouge sur la représentation graphique) a pour paramètres : a = 69,92 et b = 53,35

Solution de l'exercice 7

Les paramètres de la droite d'ajustement sont a = 0,38 et b = 7362,18. Pour la valeur x = 85000, on obtient avec le modèle linéaire : y = 39874,68.

Solution de l'exercice 8

Pour la valeur x = 365, on obtient avec le modèle linéaire y = 620 656,43.

Solution de l'exercice 9

Les paramètres de la droite d'ajustement sont a = 1,08 et b = -15 487,35. Pour la valeur x = 300 000, on obtient y = 308 816,46.

Solution de l'exercice 10

A partir des données de l'énoncé, on peut dresser le tableau suivant. On prendra attention au fait que les moyennes calculées sont pondérées.

On en tire les valeurs suivantes :

Le schéma ci-dessous donne une représentation graphique (la grosseur des points est proportionnelle à leur poids statistique) :

Solution de l'exercice 11

Solution de l'exercice 12

Le modèle obtenu est pratiquement parfait : X(0) = 100 -X(1) - X(2)

Solution de l'exercice 13

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF