(Cours d’analyse de données ENCG)_3

Share Embed Donate


Short Description

Download (Cours d’analyse de données ENCG)_3...

Description

Mohamed AZMI [email protected] 2011/2012

L’analyse de données Le principe consiste à synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables). L’analyse de données se base sur deux groupes de méthodes – méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes . – méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. Deux types de méthodes factorielles – analyse en composantes principales : variables numériques . – analyse des correspondances : variables qualitatives.

Méthodes couvertes par le cours – analyse en composantes principales (ACP) ; – analyse (factorielle) des correspondances (AFC) ; – Méthodes de classification. – Analyse discriminante

Terminologie

Statistique

• La statistique est une méthode scientifique dont l’objet est de recueillir, d’organiser, de résumer et d’analyser les données d’une enquête, d’une étude ou d’une expérience, aussi bien que de tirer des conclusions et de prendre les décisions qui s’imposent à partir des analyses effectuées.

Population

• Ensemble d'individus définis par une propriété commune donnée. • Exp : si l’on veut étudier la durée de vie des ampoules électriques fabriquées par une compagnie, la population considérée est l’ensemble de toutes les ampoules fabriquées par cette compagnie.

Echantillon

• Sous-ensemble de la population. • Exp : pour établir la durée de vie des ampoules électriques produites par une machine, on peut prélever au hasard un certain nombre d’ampoules - un échantillon- parmi toutes les celles produites par cette machine.

Terminologie Individu ou unité statistique

• Chaque élément de la population ou de l’échantillon. • Exp : dans l’exemple précédant, chaque ampoule constitue un individu ou une unité statistique.

La taille

• Représente le nombre d’individus d’un échantillon ou d’une population. Elle est symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une population.

Variable

• C’est l’aspect particulier que l’on désire étudier. • Exp : concernant un groupe de personnes, on peut s’intéresser à leur age, leur sexe leur taille…

Les modalités

• Les différentes manières d’être que peut présenter une variable. • Exp 1 : le sexe est un caractere qui presente deux modalités : feminin ou masculin • Exp 2 : quant au nombre d’enfants par famille, les modalités de ce caractere peuvent être 0,1, 2,3…,20.

Terminologie Echantillon

Population

Individu

Taille de l’échantillon =3

Terminologie

Variables statistiques Variables qualitatives

Variables quantitatives

Variables discrètes

Variables continues

Terminologie

Variable qualitative

• Ses modalités ne s’expriment pas par un nombre • Exp : la religion, le sexe, l’opinion…

Variable quantitative discrète

• Ses modalités sont numériques. • L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus souvent, ces valeurs sont entières. • Exp :le nombre d’enfant dans une famille, le nombre de téléviseurs par foyer .

Variable quantitative continue

• Ses modalités sont numériques. • Le caractère peut prendre théoriquement n’importe quelle valeur dans un intervalle donné de nombres réels. • Exp : la taille d’un individu, le poids…

La covariance la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et, ainsi, de qualifier l'indépendance de ces variables. Si deux variables sont indépendantes alors leur covariance est nulle, mais la réciproque est fausse. L'unité de mesure de la covariance cov(X,Y) est le produit des unités des variables aléatoires X et Y et sa valeur est comprise dans

Coefficient de corrélation linéaire: Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre deux variables X et Y :

( ) cov x , y r= σ x .σ y Le coefficient de corrélation linéaire est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1 ; 1 ]

cov (x , y ) r= = 0 ,6 σ x .σ y Alors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)

Objectifs et aspect théorique de l’ ACP L’analyse en composantes principales a surtout trois objectifs : Etudier les interrelations entre un assez grand nombre de variables . A partir de cette étude, regrouper ces variables dans des groupes limités appelés facteurs ou composantes . Etablir entre ces groupes de variables une hiérarchie basée essentiellement sur la valeur explicative de chacun d’eux .

En bref, l’analyse en composantes principales considère quatre types de relations : 1. les relations des variables entre elles ; 2. les relations des variables aux facteurs ; 3. les relations entre les variables d’un même facteur ; 4. les relations entre les différents facteurs;

Quantifier la variabilité contenue dans un tableau de données

Projeter sur un plan un tableau de données à j dimensions

Dans un tableau de données à j variables, les individus se trouvent dans un espace à j dimensions.

L’objectif de l’ ACP est de représenter sous forme graphique l’essentiel de l’information contenue dans un tableau de données quantitatif.

Représentation graphique

Au plan pratique, l’analyse en composantes principales essaie de répondre à des questions simples. EXEMPLE par exemple, au sujet d’une marque de voiture, parmi les qualités suivantes : le prix, la vitesse, le look, la sécurité, le confort. lesquelles sont les plus importantes ? On pose ces questions à un échantillon de clients possibles , ils doivent noter chacune de ces qualités de 1 à 10. où

1 = Pas du tout important. 10 = Très important.

On aura donc les relations suivantes

On voit que les variables sont reliées à tous les facteurs. L’ACP permettra, par exemple, d’arriver aux résultats suivants

Dans la publicité, les qualités de sécurité et de confort sont les arguments les plus importants à utiliser pour maximiser les ventes d’une marque donnée .

Dans le facteur I, la sécurité est jugée plus importante que le confort. Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix, la vitesse, le look.

L’analyse en composantes principales, dans cet exemple, a bien rempli son rôle : Réduire les données . Donner une certaine explication aux choix effectués par les répondants.

L’analyse en composantes principales doit respecter certaines contraintes

:



le nombre des variables doit être suffisant (cinq variables ou plus)



la forme des réponses aux questions (les items) doit être la même (par exemple, cinq choix de réponse), dans le cas contraire, les variables doivent être réduites et normalisées



On doit avoir dix fois plus de cas qu’il y a de variables impliquées ,par exemple 10 variables fois 10 cas donnent une taille n égale à 100.

Présentation élémentaire de l’ACP

Statistiques élémentaires

Coefficients de corrélations

La matrice Var-Covar

L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3

Les valeurs propres de la matrice Var-Covar

Les valeurs propres sont les variances des composantes principales correspondant La somme des 4 valeurs propres est 40,3

Le nuage de points en dim 4 est toujours le même (variables initiales ou composantes principales) et sa dispersion globale n’a pas changée. C’est la répartition de cette dispersion selon les nouvelles variables (composantes principales) qui se trouve modifiée. Les deux premières composantes principales restituent à elles seules la quasi-totalité de la dispersion du nuage, ce qui permet de négliger les deux autres. C’est ainsi que l’objectif (résumé pertinent des données en petite dim) est atteint.

Résultats sur les variables

Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines littéraire Surtout marqué par l’opposition entre le français et les maths. Cette interprétation sera précisée avec les graphiques et tableaux relatifs aux individus

On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs, l’élève le « plus bas » sur le graphique avec une coordonnée élevée sur le deuxième axe principal est Pier dont les résultats sont les plus contrastés en faveur des disciplines littéraires ( 14 et 11,5 contre 7 et 5,5). C’est le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des résultats très faibles dans les disciplines littéraires. On note que Mon et Alan ont un scores voisin de zero sur le deuxième axe car ils ont des résultats très homogènes dans les quatre disciplines

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF