Cours #1 (Data Warehouse)

October 11, 2017 | Author: Pablo Sene | Category: Data Warehouse, Data Mining, Data, Computing, Technology
Share Embed Donate


Short Description

Download Cours #1 (Data Warehouse)...

Description

Master M2 (Option F3I)

Les entrepôts de données

Data Mining et Apprentissage Automatique Cours de Master F3I 2008-2009

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

2

I f Informatique ti de d Production P d ti „

Données opérationnelles (de production) prod ction) „ activité constante composée de modifications et d'interrogations fréquentes des bases de données par de nombreux b utilisateurs tili t : ajouter j t une commande, d modifier difi une adresse de livraison, rechercher les coordonnées d'un client, etc. „ l'intégrité i é i é des données é est nécessaire é i pour ce genre d'applications (il faut par exemple, interdire la modification simultanée d'une même donnée par deux utilisateurs tili t diffé différents). t) „ La cohérence assurée par les systèmes de production est toute relative. Elle se contrôle au niveau de la transaction élé élémentaire t i mais i pas au niveau i global l b l ett des d activités ti ité de d l'organisation.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

3

I f Informatique ti de d Production P d ti „

Données opérationnelles (de production) prod ction) „ Basée sur Les systèmes transactionnels temps réel, OLTP (On-line Transaction Processing) garantissent l'intégrité des d données. é „ Les utilisateurs accèdent aux données de la base par de très courtes transactions atomiques et isolées. „ La priorité est donnée en premier lieu à l'enregistrement rapide, sûr et efficace des données. „ LL'un un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d'information est le modèle EntiteAssociation

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

4

S tè Systèmes Décisionnels Dé i i l „

Définition : Informatiq Informatique e décisionnelle (Management (M t du d système tè

d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) : „

29/11/2009

les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, immatérielles d d'une une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble d ensemble de l’activité l activité traitée traitée..

Master F3I (Data Mining et Apprentissage Automatique)

5

C Caractéristiques té i ti d des S Systèmes tè Décisionnels Dé i i l

„

„

„

29/11/2009

Possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tablea de bord et d'a tableaux d'autres tres imprévisibles. impré isibles permettre à l'utilisateur d'effectuer les requêtes qu'il souhaite, par lui-même, sans l'intervention de programmeur. Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser des statistique (moyenne, écrattype, ….))

Master F3I (Data Mining et Apprentissage Automatique)

6

C Caractéristiques té i ti d des S Systèmes tè Décisionnels Dé i i l „

„ „

29/11/2009

La structure str ct re logiq logique e doit être pré prévue e po pourr rendre aussi a ssi efficace que possible toutes ces requêtes. Pour y parvenir, il est nécessaire d'introduire de la redondance dans les informations Stockées en mémorisant des calculs intermédiaires. On rompt donc avec le principe de non redondance des bases de production. la cohérence requise doit être interprétable par l'utilisateur. Les systèmes d'informatique décisionnelle doivent donc assurer plutôt l tôt une cohérence hé globale l b l des d données. d é Pour P ce faire, leur alimentation doit être une opération réfléchie et planifiée dans le temps.

Master F3I (Data Mining et Apprentissage Automatique)

7

C Caractéristiques té i ti d des S Systèmes tè Décisionnels Dé i i l „

„

„

29/11/2009

Les transferts de données du d système s stème opérationnel Vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l'activité de l'entreprise. Chaque transfert sera contrôlé avant d d'être être diffusé. diffusé Aucune information n'y est jamais modifiée. On mémorise toutes les données sur une période déterminée, les données ne seront jamais remises à jour car toutes les vérifications utiles à la cohérence globale sont procédées lors de l'alimentation. L' tili ti L'utilisation se résume é d donc à un chargement h t périodique, é i di puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.

Master F3I (Data Mining et Apprentissage Automatique)

8

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

29/11/2009

Toutt système To s stème d'information décisionnel (SID) telle que q e le sont les datawarehouses assurent quatre fonctions fondamentales, à savoir la „ collecte, ll t „ l'intégration, „ la diffusion et „ la présentation des données. „ À ces quatre fonctions s'ajoute une fonction de contrôle du SID lui-même, lui-même ll'administration administration.

Master F3I (Data Mining et Apprentissage Automatique)

9

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

L collecte La ll t „

„

„

29/11/2009

La collecte des données (parfois appelée data pumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID. Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique (données complexes) cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l'absence de données.

Master F3I (Data Mining et Apprentissage Automatique)

10

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

Elle s'appuie s'app ie notamment ssurr des o outils tils d'ETL (extract(e tract transform-load pour extraction-transformationchargement).

„

La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment d'une source à une autre iimpose le choix i d'une représentation unique pour les futures analyses.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

11

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

L’i té L’intégration ti „

29/11/2009

L’intégration des données, c'est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; elle consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l' t l'entrepôt ôt de d données. d é Élé Élémentt central t ld du di dispositif, itif il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène, normalisée li é ett fi fiable, bl susceptible tibl d de masquer lla di diversité ité de l'origine des données.

Master F3I (Data Mining et Apprentissage Automatique)

12

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

L diffusion La diff i „

29/11/2009

La diffusion, ou la distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs. c'est-à-dire elle met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou au métier éti de d chacun, h sachant h t que l'accès l' è direct di tà l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste.

Ecole Doctorale (Data Mining et ...)

13

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

L présentation La é t ti „

29/11/2009

Cette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle utilise tili ttoutes t lles ttechniques h i d de communication i ti possibles ibl (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications mobiles, bil etc.). t )

Master F3I (Data Mining et Apprentissage Automatique)

14

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

L’ d i i t ti L’administration „

29/11/2009

L’administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, car le système d’information décisionnelle doit être lui-même piloté. C'est la fonction transversale qui supervise la bonne exécution de toutes les autres. Elle pilote le processus de mise à jour d données, des d é l d la documentation t ti sur les l données d é (les (l méta ét données), la sécurité, les sauvegardes, la gestion des incidents.

Master F3I (Data Mining et Apprentissage Automatique)

15

F Fonctions ti essentielles ti ll de d l’Informatique l’I f ti Décis. Dé i „

R Remarque „

„

29/11/2009

En pratique, les fonctions de collecte et d'intégration sont étroitement liées entre elles, et sont généralement associées au datawarehouse. De même, diffusion et présentation sont des fonctions j tournées vers l'utilisateur et son fortement "orientées sujet", métier, manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes; elles sont donc fortement imbriquées logiquement et techniquement

Master F3I (Data Mining et Apprentissage Automatique)

16

Le contexte Besoin: prise de décisions stratégiques et politiques Pourquoi: besoin de réactivité face à la concurrence Qui: les décideurs (non informaticiens) Comment: en répondant aux demandes d’analyse d analyse

„ „ „ „

Qui sont mes Q meilleurs clients?

A combien s’élèvent ’élè t mes ventes journalières?

Quelle catégorie de clients achètent un types de produit ? 29/11/2009

Où placer ce produit dans les rayons?

Master F3I (Data Mining et Apprentissage Automatique)

17

L données Les d é utilisables tili bl par les l décideurs dé id „

Données opérationnelles (de production) prod ction) „ „ „

„

Bases de données (Oracle, SQL Server) Fichiers, … P Paye, gestion ti d des RH, RH gestion ti des d commandes… d

Caractéristiques de ces données: „ „ „ „ „

29/11/2009

Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus fonctionnels, d données é surabondantes b d t pour l’analyse l’ l Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel Volatiles: pas d’historisation d historisation systématique

Master F3I (Data Mining et Apprentissage Automatique)

18

Problématique „

C Comment répondre é d aux demandes d d des d décideurs? dé id ? „

En donnant un accès rapide et simple à l’information stratégique

Mettre en place un système d’information dédié aux applications décisionnelles: un data warehouse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

19

Le processus de prise de décision

Champs d’application d application des systèmes décisionnels Définir le Rassembler Analyser les Établir des Décider solutions problème les données données p Temps p de p prise d’une décision

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

20

Le processus de prise de décision

Prise de dé i i décision

Bases de production

29/11/2009

Data warehouse

Base multi dimensionnelle

Master F3I (Data Mining et Apprentissage Automatique)

Prédiction / simulation

21

Domaines d’utilisation des DW „

B Banque „

„

Santé „ „

„

„

Adé Adéquation ti demande/production d d / d ti

Assurance „

„

Ciblage d Cibl de clientèle li tèl Déterminer des promotions

Logistique „

„

Épidémiologie É idé i l i Risque alimentaire

Commerce „

„

Risques d’un prêt, prime plus précise



Risque lié à un contrat d’assurance (voiture)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

22

Quelques métiers du décisionnel „

St t i Performance Strategic P f Management M t „

„

Finance Intelligence „

„

Aligner g les stratégies g RH, les processus p et les technologies. g

Customer Relationship Management (gestion de la relation client) „

„

Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques

Human Capital Management (gestion de la relation avec les employés) „

„

Déterminer et contrôler les indicateurs clé de la performance de l’entreprise

Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité l efficacité du marketing client

Supplier Relationship Management (gestion de la relation fournisseur) „

Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat. Achat

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

23

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

24

Définition d’un DW „

W. H. Inmon (1996): « Le data Warehouse est une collection de données orientées i té sujet, j t intégrées, i té é non volatiles l til ett historisées, hi t i é organisées pour le support d’un processus d’aide à la décision »

„

Principe: mettre en place une base de données utilisée à des fins d’analyse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

25

Les 5 caractéristiques des data warehouse

„

5 caractéristiques des DW : „ „ „ „ „

29/11/2009

Orientées sujet Données intégrées Données non volatiles Données datées ou archivées historisées Données multidimensionnelles

Master F3I (Data Mining et Apprentissage Automatique)

26

Les 5 caractéristiques des data warehouse

1.

Données orientées sujet (métiers ou business): „ „

Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données

Ass. Vie

Ass. Auto

Ass. Santé Client Police

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

27

Les 5 caractéristiques des data warehouse

29/11/2009

„

L’objectif d’un datawarehouse est la prise de décisions autour des activités majeures de l’entreprise.

„

Dans un datawarehouse, les données sont ainsi structurées par thèmes par opposition à celles organisées, dans les y de p production,, p par p processus fonctionnel. systèmes

„

L’intérêt de cette organisation est de disposer de ll’ensemble ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.

Master F3I (Data Mining et Apprentissage Automatique)

28

Les 5 caractéristiques des data warehouse „

29/11/2009

On peut ainsi passer d’une vision verticale de l’entreprise à une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orienté « métier », en réponse aux différents métiers de l’entreprise qu’il est censé préparer à l’analyse

Master F3I (Data Mining et Apprentissage Automatique)

29

Les 5 caractéristiques des data warehouse Données é iintégrées: é é

2.

„ „

Normalisation des données Définition d d’un un référentiel unique

h,f h,f

1,0 homme femme homme, DA

EUR

FF FS 29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

30

Les 5 caractéristiques des data warehouse „

„

„ „

„

29/11/2009

Les données en provenance de sources hétérogènes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring). Il s’agit alors d’intégrer les données en provenance de diverse sources afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs. La transversalité recherchée sera d’autant plus efficiente que le système d’information sera réellement intégré. Cette intégration nécessite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s’appliquant pp q aux données manipulées. p Ce n’est qu’au prix d’une intégration « réussie » que l’on peut offrir une vision homogène et cohérente de l’entreprise p via ses indicateurs

Master F3I (Data Mining et Apprentissage Automatique)

31

Les 5 caractéristiques des data warehouse 3 3.

Données non volatiles „ „

Traçabilité des informations et des décisions prises Copie des données de production

Bases de production

Entrepôts de données

Ajout Suppression Accès Modification

29/11/2009

Chargement

Master F3I (Data Mining et Apprentissage Automatique)

32

Les 5 caractéristiques des data warehouse „ „

„

„

29/11/2009

stables, en lecture seule, non modifiables. Afin de conserver la traçabilité des informations et des décisions p prises, les informations stockées au sein du Datawarehouse ne doivent pas disparaître. Une même requête lancée plusieurs fois, et ce à des mois d’intervalle,, sur une même population p p doit restituer les mêmes résultats. dès lors qu’une donnée a été qualifiée pour être introduite au sein du Datawarehouse, elle ne peut ni être altérée, ni modifiée, ni supprimée (ou en tout cas en deçà d’un certain délai de purge). Elle devient, de fait, partie prenante de l’historique p q de l’entreprise. p

Master F3I (Data Mining et Apprentissage Automatique)

33

Les 5 caractéristiques des data warehouse 4 4.

Données datées ou archivées historisées „ „

Les données persistent dans le temps Mise en place d’un référentiel temps Image de la base en Mai 2005

Base de production

p Entrepôt de données

29/11/2009

Image de la base en Juillet 2006

Ali

Alger

Ali

M’sila

Samir

Sétif

Samir

Sétif

1

2005

M i Mai

2

2006

Juillet

1 Ali

Alger

1 Samir

Sétif

2 Ali

M’sila M sila

Master F3I (Data Mining et Apprentissage Automatique)

34

Les 5 caractéristiques des data warehouse „

„

„

29/11/2009

Avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple, d'une année sur l'autre, etc.). La non-volatilité permet l’historisation. D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des différentes valeurs des indicateurs à analyser. De fait, dans un Datawarehouse un référentiel de temps est nécessaire. C’est l’axe temps ou période

Master F3I (Data Mining et Apprentissage Automatique)

35

Les 5 caractéristiques des data warehouse 5 5.

Données mutidimentionnelles „

„

présentées selon différents axes d'analyse ou « dimensions » (par exemple : le temps, les types ou segments de clientèle, les différentes gammes de produits, produits les différents secteurs régionaux ou commerciaux, etc.). Le Datawarehouse est conçu pour contenir les données en adéquation dé ti avec les l b besoins i actuels t l ett futurs f t de d l’organisation, et répondre de manière centralisée à tous les utilisateurs.

„

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

36

SGBD et DW

OLTP: On-Line Transactional Processing

Service commercial

Service Financier

Service livraison

BD prod

BD prod

BD prod

Clientèle

Data Warehouse O OLAP: On-Line O e Analitical Processing

29/11/2009

Clientèle

Master F3I (Data Mining et Apprentissage Automatique)

H I S T O R I Q U E 37

OLTP VS DW OLTP

DW

Orienté transaction

Orienté analyse

Orienté application

Orienté sujet

Données courantes

Données historisées

Données détaillées

Données agrégées

Données évolutives

Données statiques

Utilisateurs nombreux, administrateurs/opérationnels

Utilisateurs peu nombreux, manager

Temps d’exécution: court

Temps d’exécution: long

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

38

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

39

Datamart „ „ „

Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers éti Datamarts du service Marketing

DW de l’entreprise 29/11/2009

Datamart du service i R Ressources Humaines

Master F3I (Data Mining et Apprentissage Automatique)

40

Intérêt des datamart „

„

Nouvel environnement structuré é et formaté é en fonction des besoins d’un métier ou d’un usage particulier Moins de données que DW „ „

„

Plus facile à comprendre comprendre, à manipuler Amélioration des temps de réponse

Utilisateurs U sa eu s plus p us ciblés: c b és: DM plus p us facile ac e à dé définir

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

41

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

42

Architecture générale

Zone de stockage

Zone de préparation E X T R A C T I O N

Transformations: Nettoyage Standardisation …

Sources de données

29/11/2009

C H A R G E M E N T

Data warehouse

Zone de présentation

Requêtes Rapports Visualisation Data Mining …

Datamart

Master F3I (Data Mining et Apprentissage Automatique)

43

Les flux de données „

Flux entrant „ „ „

„

Extraction: multi-source, hétérogène Transformation: filtrer, filtrer trier trier, homogénéiser, homogénéiser nettoyer Chargement: insertion des données dans l’entrepôt

Flux sortant: „

Mise à disposition des données pour les utilisateurs finaux

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

44

Les différentes zones de l’architecture „

Z Zone de d préparation é ti (Staging (St i area)) „ „

„

„

Zone de stockage (DW (DW, DM) „ „

„

Zone temporaire de stockage des données extraites Réalisation des transformations avant l’insertion dans le DW: „ Nettoyage N tt „ Normalisation… Données souvent détruites après chargement dans le DW On y transfère les données nettoyées Contient les données de l’entreprise

Zone de présentation „ „

Zone d’accès aux données contenues dans le DW Peut contenir des outils d’analyse programmés: „ Rapports „ Requêtes…

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

45

1- Architecture à deux niveaux

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

46

1- Architecture à deux niveaux „

29/11/2009

Dans cette architecture nous retrouvons : „ Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est dans le staging area que ll'on on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Les données dans le staging g g area sont détruites une fois le chargement des data marts terminé en succès. „ Le Datawarehouse : Les données du staging area sont transférées vers le datawarehouse (L). Il est important de noter que le méta data est aussi stocké dans le datawarehouse. Le datawarehouse est centrale et devrait être contenir toutes les données de l'entreprise. p „ La zone présentation : Une fois les données chargées dans le datawarehouse, les utilisateurs peuvent y accéder pour exécuter e écu e leurs eu s requêtes equê es Ad d hoc, oc, programmer p og a e les es rapports, appo s, analyser et visualiser l'information Master F3I (Data Mining et Apprentissage Automatique)

47

2- Les DataMarts Indépendants

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

48

2- Les DataMarts Indépendants „

29/11/2009

Dans cette architecture nous retrouvons : LL'architecture architecture prônée par Kimball : „ Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C C'est est dans le staging area que l'on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, g , la standardisation,, le déduplication... p des données. Les données dans le staging area sont détruites une fois le chargement des data marts terminé en succès. „ Les data marts indépendants : Les données du staging area sont transférées vers le datamart concerné (L). Il est important de noter que le méta data est aussi stocké dans le datamart. Les data marts sont indépendants p ce q qui veut dire qu'il n'existe aucune intégration (Communication) entre ces derniers.

Master F3I (Data Mining et Apprentissage Automatique)

49

2- Les DataMarts Indépendants „

29/11/2009

Dans cette architecture nous retrouvons : LL'architecture architecture prônée par Kimball : „ La zone présentation : Une fois les données chargées dans les Data marts, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts,, analyser y et visualiser l'information

Master F3I (Data Mining et Apprentissage Automatique)

50

2- Les DataMarts Indépendants „

29/11/2009

Avantages: „ permet de répondre rapidement à des besoins extrêmement urgents dans des départements où la gestion est décentralisée „ utile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la construction d'un système global intégré „ permet de voir des résultats à court terme „ permet de justifier la poursuite des développements plus globaux „ nécessite des coûts moindres en termes d’équipements et autres ressources à court terme „ peut être utilisée lorsque la gestion des données est déjà décentralisée et que les données gérées sont propres à chacun des groupes de l’organisation

Master F3I (Data Mining et Apprentissage Automatique)

51

2- Les DataMarts Indépendants „

29/11/2009

Inconvénients : „ peut entraîner des problèmes d’évolutivité vers une architecture plus robuste „ doit faire partie d d’un un processus global pour être réussi „ des problèmes de redondance et d’inconsistances sont possibles

Master F3I (Data Mining et Apprentissage Automatique)

52

3- Datamarts dépendants avec ODS

L'ODS : L'ODS est l'acronyme pour Operational Data Store

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

53

3- Datamarts dépendants avec ODS „

29/11/2009

Dans cette architecture nous retrouvons : LL'architecture architecture prônée par Bill Inmon : „ L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de données opérationnelles. Il joue deux rôles : Le rôle du staging area qui sert à stocker les données extraites (E) des systèmes sources. On y effectue aussi les différentes transformations ((T)) à savoir : Le nettoyage y g des données, le merge, la standardisation, le déduplication... des données. „ Par contre les données dans l'ODS l ODS ne sont détruites qu'après la durée de vie des opérations qui est un facteur définit par l'organisation et dépend de plusieurs critères. „ Le deuxième rôle d d'un un ODS et c c'est est surtout sa raison d'être d être c'est d'intégrer les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions déc s o s tactiques ac ques

Master F3I (Data Mining et Apprentissage Automatique)

54

3- Datamarts dépendants avec ODS „

„

„

29/11/2009

L Entreprise Datawarehouse : Les données de ll'ODS L'Entreprise ODS sont transférées vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise p Datawarehouse ((EDW), ) et devrait être contenir toutes les données de l'entreprise. Les data marts dépendants : Ces data marts peuvent être alimentés soit de L'EDW soit de l'ODS. Ces data marts sont dépendants. La zone présentation : Une fois les données chargées dans le Datawarehouse et les data marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information...

Master F3I (Data Mining et Apprentissage Automatique)

55

3- Datamarts dépendants avec ODS „

Avantages: „ définition des données intégrée et très consistante „ fonctionne habituellement bien lorsque la gestion des données est déjà centralisée à un certain niveau

„

Inconvénients : „ demande des efforts très importants de planification, planification d’analyse et de conception au début du projet „ coût de réalisation significatif „ présente é t d des dél délais i avantt que l’implantation l’i l t ti fi finale l puisse i être fonctionnelle „ retour d’investissement et bénéfices visibles seulement à l long t terme „ demande une bonne coordination entre les différents groupes de l’organisation et les consensus peuvent être difficiles à obtenir

29/11/2009

Ecole Doctorale (Data Mining et ...)

56

4- Datamarts logiques avec datawarehouse actif



29/11/2009

Les datamarts ne sont pas des bases de données séparées mais des vues logiques des datawarehouses.

Master F3I (Data Mining et Apprentissage Automatique)

57

4 Construction 4C t ti d’un d’ DW

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

58

4 Construction 4C t ti d’un d’ DW Les composants fonctionnels d d'un un entrepôt de données ss'observent observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles) PREMIER NIVEAU:ACQUISITION Q DES DONNEES Le premier niveau est celui de l'acquisition des données qui vont alimenter l'entrepôt de données. L'hétérogénéité des supports d'où sont issues les données à extraire a pour corollaire la complexité de la phase d'alimentation de l'entrepôt de données. En effet, les systèmes y d’information opérationnels p sont,, le p plus souvent,, composés p d’applications pp multiples, destinées chacune à traiter un domaine d’activité spécifique (approvisionnement, production, vente,…). Le composant d'acquisition des données a donc pour vocation d'unifier les données opérationnelles qui, à la base, ne sont pas normalisées. Il est important p de p porter une g grande attention à la nature et à la q qualité des données avant de les extraire à destination du système d'information décisionnel. Après avoir identifié, parmi toutes les données présentes dans les systèmes d'information opérationnels ou issues de bases de données externes, celles utiles à l'aide à la décision, il est nécessaire d'analyser y leur q qualité tant en termes de capacités p de rapprochement pp d'un même référentiel lors de leur arrivée dans l'entrepôt de données, qu'en termes de nettoyage. Si l'on souhaite conserver une cohérence entre les données visualisées du côté transactionnel et du côté décisionnel, leur nettoyage s'effectuera à la source plutôt que dans l'entrepôt q p de données.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

59

4 Construction 4C t ti d’un d’ DW A) ALIMENTATION DE L'ENTREPOT DE DONNEES L'alimentation des données à partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données d dans lle datawarehouse. d t h O parle On l d' d'outil til ETL (Extract, (E t t Transform, T f L d) Load). Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre. Selon le conte te on trad contexte, traduira ira par « alimentation », « extraction e traction », « transformation », « constitution constit tion » ou « conversion », souvent combinés. Elle repose sur des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les données (agrégations, filtres, conversions...), et des mises en correspondance (mappages) (mappages). L'objectif est l'intégration par l'entreprise de ces données.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

60

4 Construction 4C t ti d’un d’ DW

A l'origine, les solutions d'ETL sont apparues pour le chargement régulier de données agrégées g g dans les entrepôts p de données ((ou datawarehouse), ) avant de se diversifier vers les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

61

4 Construction 4C t ti d’un d’ DW Actuellement il existe trois catégories d’outils ETL : Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre d’outil dispose d’un moteur de transformation ; Database-embedded : les transformations sont intégrées dans la base de données. Cette fonctionnalité est très consommatrice de ressource sur lla b base de d d données. é Code-generators : les transformations sont conçues et un code est généré. Ce code est déployable indépendamment de la base de données.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

62

4 Construction 4C t ti d’un d’ DW Les phases de l'alimentation d'un datawarehouse sont les suivantes : 1- Découverte des données : Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement compliquer les phases suivantes de l'alimentation. 2- Extraction des données : Il s'agit de collecter les données utiles dans l systèmes les tè d de production(sources). d ti ( ) Il faut f t identifier id tifi les l données d é ayantt été modifiées afin d'importer le minimum de données dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le responsable bl du d système tè source pour ajouter j t soit it un flag fl ou encore des d dates dans chacune des tables extraites, au moins deux dates : Date de création de l'enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates). dates) Par ailleurs pour ne pas perdre des données suites à des problèmes d'extraction, il est important de s'assurer que le système source ne purge pas les données avant que ll'entrepôt entrepôt ne les ait extraits. extraits 29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

63

4 Construction 4C t ti d’un d’ DW Les phases de l'alimentation d'un datawarehouse sont les suivantes : 3- Transformation des données : est la tâche la plus complexe et qui demande beaucoup de réflexion. Voici les grandes fonctionnalités de transformation : _ Nettoyage des données _ Standardisation des données. _ Conformité C f ité des d données. d é _ Gestion des tables de fait _ Gestion des dimensions _ ……etc. t Il faut rendre les données cohérentes avec la structure du datawarehouse. On d'applique alors des filtres sur les données. données Il peut être nécessaire de convertir le format des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi par exemple être décomposé en « numéro », « rue », « code postal », « ville » ou ll'inverse inverse. Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur chargement. 29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

64

4 Construction 4C t ti d’un d’ DW Les phases de l'alimentation d'un datawarehouse sont les suivantes : 4- Chargement des données : C'est la dernière phase de l'alimentation d'un datawarehouse. Il s'agit d'insérer les données au sein du datawarehouse. C'est une phase délicate car les quantités de données sont souvent très importantes.Il permet de transférer les données vers leur destination finale. 3 cas de figures se présentent, selon l’architecture mise en place 1) de d charger h l données les d é dans d l' t l'entrepôt ôt de d données: d é Si la politique retenue a été de construire un entrepôt de données avec une base de données, alors les données seront chargées dans l'entrepôt. Cette approche est proche à celle de Bill Inmon. Inmon Il sera dés lors possible d’utiliser des fonctionnalités analytiques (comme , permis par, Oracle).

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

65

4 Construction 4C t ti d’un d’ DW Les phases de l'alimentation d'un datawarehouse sont les suivantes : 2) de les charger dans des cubes de données : La deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW. Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de données. 3) le mode hybride: La troisième possibilité est celle offre le plus d’avantages mais demande par contre t plus l d'effort. d' ff t Le L chargement h td des d données é s’effectue ’ ff t à la l fois f i sur le datawarehouse et les datamarts : - Un premier chargement des données dans un entrepôt de données. - Un deuxième chargement dans des cubes de données. données Par contre cette approche ajoute une charge de travail très considérable pour l'équipe de développement (Aucun impact sur les utilisateurs) : maintenir - Une base de données à créer et à maintenir. - Un exercice de réflexion sur le modèle de données du datawarehouse. -Un autre exercice de réflexion sur le modèle des métas donnés.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

66

4 Construction 4C t ti d’un d’ DW Les composants fonctionnels d d'un un entrepôt de données ss'observent observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles) DEUXIEME NIVEAU: STOCKAGE DES DONNEES Le second niveau est celui de la gestion

des données. Sa principale vocation est d'assurer leur stockage dans une base décisionnelle souvent sous un SGBDR. Les données sont structurées en contexte d'analyse décisionnelle et sont orientées vers l'utilisateur décisionnel ;les données sont le plus souvent structurées selon des modèles en étoile. C’est à ce niveau que l’on construit des cubes multidimensionnels. Le composant de gestion des données permet ainsi de réaliser au travers des cubes des interrogations sur plusieurs dimensions (diffé (différents t points i t de d vue)) des d d données é contenues t dans d l'entrepôt.. l' t ôt

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

67

4 Construction 4C t ti d’un d’ DW Classes de données : Le datawarehouse se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique. 1-Les données détaillées : Elles reflètent des évènements les plus récents. Les données provenant des systèmes de production sont ég ées à ce niveau. eau. Elles es présentent p ése e des avantages a a ages é évidents de s intégrées (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le « passé ») mais représentent p un p plus g grand volume et nécessitent donc des matériels plus performants. .

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

68

4 Construction 4C t ti d’un d’ DW

2-Les données agrégées : Elles correspondent à des éléments d'analyse y représentatifs p des besoins des utilisateurs. Ce sont donc des données déjà traitées par le système et représentant un premier résultat d'analyse et de synthèse des données contenues dans les systèmes y de p production. Elles p présentent d'autres avantages g ((facilité d'analyse, rapidité d'accès, moindre volume) mais il n'est pas toujours possible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés et figés : on prend le risque de figer les données dans une certaine vue, selon les axes d'agrégation retenus, et de ne plus pouvoir revenir plus tard sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera peut-être t êt plus l possible ibl d de ffaire i une analyse l par jjournée). é ) et de celles du datawarehouse.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

69

4 Construction 4C t ti d’un d’ DW

3-Les données historisées : Chaque nouvelle insertion dans le datawarehouse ne détruit pas les anciennes valeurs mais crée une nouvelle insertion. 4- Les 4 L méta ét données d é : Il s'agit ' it « de d d données é sur les l données d é ». Elles Ell décrivent les règles ou processus attachés aux données du système. Les méta données permettront notamment de connaître: • quelles sont les données entreposées, leurs formats, leurs significations, leurs degrés d'exactitude. • les processus de récupération/extraction dans les bases sources. sources • la date du dernier chargement du datawarehouse. • l'historique des données sources et de celles du datawarehouse.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

70

4 Construction 4C t ti d’un d’ DW Stockage de données : Le stockage au sein d d'un un datawarehouse a un besoin de synthèse (agrégation des données) et un besoin de détails (conservation des données détaillées). Ce stockage peut être réalisé de trois manières différentes : structure directe simple, structure de cumul simple, par résumé déroulant.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

71

4 Construction 4C t ti d’un d’ DW 1-Structure directe simple: On fait des mises à jour du datawarehouse avec des laps de temps important.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

72

4 Construction 4C t ti d’un d’ DW 2- Structure de cumul simple : on stocke les données de chaque mise à j jour, les l mises i à jour j étant ét t fréquentes fé t (par ( exemple l ttous les l jours) j ) on a un espace occupé important, mais on ne perd pas d’information

29/11/2009

Ecole Doctorale (Data Mining et ...)

73

4 Construction 4C t ti d’un d’ DW 3-Structure par résumé déroulant : à chaque mise à jour, on stocke des d données é détaillées, dét illé ett on synthétise théti les l anciennes i d données é en fonction f ti de leur age. Plus une donnée est vieille, moins elle est détaillée

29/11/2009

Ecole Doctorale (Data Mining et ...)

74

4 Construction 4C t ti d’un d’ DW Les composants fonctionnels d d'un un entrepôt de données ss'observent observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles) TROISIEME NIVEAU:RESTITUTION DES INFORMATIONS DECISIONNELLES

Le troisième niveau est celui des restitutions des informations décisionnelles dans des applications pouvant se greffer sur la base décisionnelle. Cette fonction est assurée par des outils décisionnels variés comme des outils de reporting des outils de tableaux de bord, reporting, bord des outils de Balanced Scorecard ou des outils de fouille de données. Pour un même outil, le type d'utilisation est également de différents ordres. Ainsi, p pour un outil de requêtage, q g l'utilisateur p peut vouloir accéder à des rapports prédéfinis fixes, modifier les paramètres de rapports prédéfinis ou créer son propre rapport. De la même manière, un rapport peut être exécuté directement par l'utilisateur ou le résultat envoyé dans sa messagerie». Les personnes qui produisent les tableaux de bord n n'auront auront pas à saisir des données alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualités des tableaux de bord au niveau notamment de la fiabilité et de la rapidité p d'obtention des informations.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

75

4 Construction 4C t ti d’un d’ DW En bref : En conclusion Un entrepôt de données est une collection de données orientées sujet, sujet intégrées, intégrées non volatiles et historisées, historisées organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (On-line (On line Analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élèves.

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

76

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

77

Modélisation Entité/Association „

A Avantages: t „

Normalisation:

Éliminer les redondances „ Préserver la cohérence des données „

„ „

„

Optimisation des transactions Réduction de l’espace de stockage

Inconvénients pour un utilisateur final: „

Schéma très/trop complet: „

„ „

Contient des tables inutiles pour l’analyse

Pas d’interface g graphique p q capable p de rendre utilisable le modèle E/A Inadapté pour l’analyse

29/11/2009

Ecole Doctorale (Data Mining et ...)

78

Exemple Mode M d d’expédition

Transporteur

Produit

Contrat Type de contrat

Commande client Groupe de produits

Client Magasin E l é Employé Stock

Fonction 29/11/2009

Fournisseurs

Région de ventes Division de ventes

Master F3I (Data Mining et Apprentissage Automatique)

Famille de produits d i

79

Modélisation des DW „

Nouvelle méthode é de conception autour des concepts métiers „

„

Introduction de nouveaux types de table: „ „

„

Ne pas normaliser au maximum Table de faits Table de dimensions

Introduction oduc o de nouveaux ou eau modèles: odè es: „ „

Modèle en étoile Modèle en flocon

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

80

Table de faits „ „

Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions) Table de faits des ventes

Clés étrangères vers les dimensions Faits

29/11/2009

Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes

Master F3I (Data Mining et Apprentissage Automatique)

81

Table de faits (suite) „

Fait: „

„

„

Ce que l’on souhaite mesurer „ Quantités vendues, vendues montant des ventes ventes… Contient les clés étrangères des axes d’analyse (dimension) „ Date,, produit, p , magasin g Trois types de faits: „ Additif „ Semi additif „ Non additif

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

82

Typologie des faits „

Additif: additionnable suivant toutes les dimensions „ „

Quantités vendues, chiffre d’affaire Peut être le résultat d’un calcul: „

„

Bénéfice = montant vente - coût

Semi additif: additionnable suivant certaines dimensions „

Solde d’un compte bancaire:

Pas de P d sens d’additionner d’ dditi sur lles d dates t car cela l représente des instantanés d’un niveau „ Σ sur les comptes: on connaît ce que nous possédons en banque Non additif: fait non additionnable quelque soit la dimension „

„

„

Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

83

Granularité de la table de faits „

Répondre à la question : „

„

Que représente un enregistrement de la table de faits?

La granularité l i é définit défi i le l niveau i de d détails dé il de d la l table bl de faits: „

Exemple: une ligne de commande par produit produit, par client et par jour

-

Précision des analyses

+

Finesse

Taille de l’entrepôt

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

84

Table de dimension „ „

Axe d’analyse d analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Dimension produit

Clé de substitution

Attributs de la dimension

29/11/2009

Clé produit (CP) Code produit Description du produit Groupe de produits Marque Emballage Poids

Master F3I (Data Mining et Apprentissage Automatique)

85

Table de dimension (suite) „

Dimension = axe d’analyse „

„

Contient souvent un grand nombre de colonnes „

„

Client, produit, période de temps… L’ensemble des informations descriptives des faits

Co e e Contient en gé général é a beaucoup moins o s d’enregistrements qu’une table de faits

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

86

La dimension Temps Di Dimension i Temps T „ „

29/11/2009

Commune à l’ensemble du DW Reliée à toute table de faits

Clé temps (CP) Jour Mois Trimestre es e Semestre Année N Num_jour_dans_année j d é Num_semaine_ds_année

Master F3I (Data Mining et Apprentissage Automatique)

87

Granularité d’une dimension „

Une dimension contient des membres organisés en hiérarchie : „ „

„

Chacun d Ch des membres b appartient ti t à un niveau i hié hiérarchique hi (ou niveau de granularité) particulier Granularité d’une dimension : nombre de niveaux hiérarchiques

Temps : „

29/11/2009

année – semestre – trimestre - mois

Master F3I (Data Mining et Apprentissage Automatique)

88

Évolution des dimensions „

Dimensions à évolution lente „ „

„

„

Un client peut se marier, avoir des enfants… Un produit peut changer de noms ou de formulation: „ « Somam » en « Danon » „ « yaourt à la vanille » en « yaourt saveur vanille » G ti Gestion d de la l situation, it ti 3 solutions: l ti „ Écrasement de l’ancienne valeur „ Ajout j de nouvel enregistrement g „ Valeur d’origine / valeur courante

Dimensions à évolution rapide „ „

SSubit bit d des changements h t ttrès è fréquents fé t (t (tous les l mois) i ) dont d t on veutt préserver l’historique Solution: isoler les attributs qui changent rapidement

29/11/2009

Ecole Doctorale (Data Mining et ...)

89

Dimensions à évolution lente (1/3) „

É Écrasement de l’ancienne valeur : „

„

Avantage: „

„

Correction des informations erronées Facile à mettre en œuvre

Inconvénients: „ „

Perte de la trace des valeurs antérieures des attributs Perte de la cause de l’évolution dans les faits mesurés

Clé p produit Description p du p produit Groupe p de p produits 12345

Intelli-Kids

Logiciel Jeux éducatifs

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

90

Dimensions à évolution lente (2/3) „

Ajout d’un nouvel enregistrement: „

„

Avantages: „ „

„

Utilisation d’une clé de substitution Permet de suivre l’évolution des attributs Permet de segmenter la table de faits en fonction de l’historique

Inconvénient: „

Accroit le volume de la table

Clé produit Description du produit Groupe de produits 12345

Intelli-Kids

Logiciel

25963

Intelli Kids Intelli-Kids

Jeux éducatifs

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

91

Dimensions à évolution lente (3/3) „

Ajout d’un nouvel attribut: „

„

Avantages: „

„

„

Valeur origine/valeur courante Avoir deux visions simultanées des données : „ Voir les données récentes avec l’ancien attribut „ Voir les données anciennes avec le nouvel attribut Voir les données comme si le changement n’avait pas eu lieu

Inconvénient: „

Inadapté é pour suivre i plusieurs i valeurs d’attributs i iintermédiaires é i i

Clé produit d it D Description i ti d du Groupe G de d produit produits 12345 Intelli Kids Intelli-Kids Logiciel 29/11/2009

Nouveau groupe N de produits Jeux éducatifs

Master F3I (Data Mining et Apprentissage Automatique)

92

Dimensions à évolution rapide

„

Changements fréquents des attributs dont on veut garder l’historique „

„

29/11/2009

Clients pour une compagnie d’assurance

Isoler les attributs q qui évoluent vite

Master F3I (Data Mining et Apprentissage Automatique)

93

Dimensions à évolution rapide (suite) Dim client Dim client

Faits

Clé_client

Clé_client

Nom



Prénom Adresse Date_nais … Revenus Niveau_étude Nb_enfants Statut_marital Profil_financier Profil achat Profil_achat

29/11/2009

Clé client Clé_client Nom Prénom Adresse

Faits

Date_naissance

Clé_client



Clé_démo Clé dé g

Dim_démographique Clé_démog Revenus Niveau étude Niveau_étude Nb_enfants Statut_marital Profil_financier Profil_achat

Master F3I (Data Mining et Apprentissage Automatique)

94

Les types de modèles

Modèle en étoile 29/11/2009

Modèle en flocon

Master F3I (Data Mining et Apprentissage Automatique)

95

Modèle en étoile „ „ „

Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages: „ „

„

Facilité de navigation N Nombre b de d jointures j i t limité li ité

Inconvénients: „ „

Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

96

Modèle en étoile

Dimension Magasin ID magasin description p ville surface …

Dimension Region g ID région pays description district vente ente …. 29/11/2009

Dimension Temps ID temps année mois jjour …

T bl d Table de ffaits it A Achat h t ID client ID temps ID magasin g ID région ID produit Quantité achetée Montant des achats

Dimension produit ID produit nom code prix i poids groupe famille … Dimension Client ID client nom prénom adresse …

Master F3I (Data Mining et Apprentissage Automatique)

97

Modèle en flocon „ „ „ „

Une table de fait et des dimensions décomposées é é en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine Avantages: „ „

„

Normalisation des dimensions Économie d’espace disque

Inconvénients: „ „

Modèle plus complexe (jointure) Requêtes moins performantes

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

98

Modèle en flocon

Dimension Magasin ID magasin description ville surface …

Dimension Temps ID temps annee mois jour …

Dimension Region ID région ID division vente pays description p …. Dimension Division vente ID di division i i vente t description …. 29/11/2009

Dimension produit ID produit ID groupe nom code prix poids …

Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats

Dimension Client ID client nom prénom adresse … Master F3I (Data Mining et Apprentissage Automatique)

Dimension groupe ID groupe ID famille nom …

Dimension Famille ID famille nom …

99

Méthodologie: 9 étapes de Kimball 1. 2. 3 3. 4. 5 5. 6. 7 7. 8. 9.

Choisir Ch i i lle sujet j t Choisir les faits Choisir la granularité des faits Identifier et adapter les dimensions Stocker les pré-calculs Établir les tables de dimensions Choisir la durée de la base Suivre les dimensions lentement évolutives Décider des requêtes q p prioritaires,, des modes de requêtes

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

100

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

101

Alimentation/ mise à jour de l’entrepôt

„ „

Entrepôt mis à jour régulièrement Besoin d’un outil permettant d’automatiser les chargements dans l’entrepôt Utilisation d’outils ETL (Extract, Transform, Load)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

102

Définition d’un ETL „ „ „ „ „

Offre un environnement de développement Offre des outils de gestion des opérations et de maintenance Permet de découvrir, analyser et extraire les données à partir de sources hétérogènes Permet de nettoyer et standardiser les données Permet de charger g les données dans un entrepôt p

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

103

Extraction „ „

Extraire des données des systèmes de production Dialoguer avec différentes sources: „ „ „

„

Base d B de d données, é Fichiers, Bases propriétaires

Utilise divers connecteurs : „ „ „

ODBC, SQL natif, tif Fichiers plats

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

104

Transformation „

Rendre cohérentes les données des différentes sources „ „

„

Transformer, nettoyer, trier les données Exemple: unifier le format des dates (MM/JJ/AA BJJ/MM/AA)

Etape très importante, garantit la cohérence et la fiabilité des données é

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

105

Chargement

„ „

Insérer ou modifier les données dans l’entrepôt Utilisation de connecteurs: „ „ „

29/11/2009

ODBC, SQL natif, natif Fichiers plats

Master F3I (Data Mining et Apprentissage Automatique)

106

Aperçu d’un ETL

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

107

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Accès à l’information Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

108

OLTP VS OLAP Produits oranges poires

Produit PK

Pays

id produit id_produit

Espagne Algérie

pommes

Libellé Famille

A h t Achat PK

id_achat

FK

id_client _

France

id_produit

client PK

Quantité id li t id_client Nom

jjanvier

avril février

Temps

Vente de pommes en Algérie en avril

adresse

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

109

ROLAP „

Relational OLAP „ „

„ „ „

Données stockées dans une base de données relationnelles Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel

Plus facile et moins cher à mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP: „ „

MetaCube (Informix) DSS Agent (MicroStrategy)

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

110

MOLAP „

M lti di Multi dimensional i l OLAP: OLAP „ „

„ „ „ „

Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube

Plus difficile à mettre en place Formats souvent propriétaires Conçu exclusivement pour l’analyse multidimensionnelle Exemples de moteurs MOLAP: „ „ „

Microsoft Analysis Services Essbase H Hyperion i

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

111

HOLAP „

Hybride OLAP: „ „

„ „

tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base) données agrégées stockées dans des cubes

Solution hybride y entre MOLAP et ROLAP Bon compromis au niveau coût et performance

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

112

Le cube „

Modélisation é multidimensionnelle des données é facilitant l’analyse d’une quantité selon différentes dimensions: „ „ „

„

Temps Localisation géographique g g p q …

Les calculs sont réalisés lors du chargement ou de la mise à jour du cube

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

113

Manipulation des données multidimensionnelles „

Opération é i agissant i sur la structure „

Rotation (rotate): présenter une autre face du cube

05

06

07

221

263

139

Idf

Viande 275

257

116

Œuf

29/11/2009

05

06

07

101

120

52

QA 395

400

203

Master F3I (Data Mining et Apprentissage Automatique)

114

Manipulation des données multidimensionnelles „

Opération agissant sur la structure „

Œ f Œuf

Tranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeur

05

06

07

220

265

284

QA 225

245

240

163

152

145

QA 187

174

184

Idf

Viande Idf

29/11/2009

06 Œ f Œuf

Idf

265

QA 245 Viande Idf

Master F3I (Data Mining et Apprentissage Automatique)

152

QA 174

115

Manipulation des données multidimensionnelles „

Opération p agissant g sur la structure „

Œ f Œuf

05

06

07

220

265

284

QA 225

245

240

163

152

145

QA 187

174

184

Idf

Viande Idf

29/11/2009

Extraction d’un bloc de données (dicing): ne travailler que sous un sous-cube

05

06

07

220

265

284

QA 225

245

240

Œuf Idf

Master F3I (Data Mining et Apprentissage Automatique)

116

Manipulation des données multidimensionnelles „

Opération agissant sur la granularité „

„

Forage vers le haut (roll-up): « dézoomer » „ Obtenir un niveau de granularité supérieur „ Utilisation de fonctions d’agrégation Forage vers le bas (drill-down): « zoomer » „ Obtenir Obt i un niveau i de d granularité l ité inférieur i fé i „ Données plus détaillées

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

117

Drill-up, drill-down Roll up Roll up p

05

06

07

Alim. 496

520

255

05

06

07

05-07

Dimension Temps 1S05

2S05

1S06

2S06

1S07

Œuf

623

Œuf

221

263

139

Œuf

100

121

111

152

139

Viand e

648

Viand e

275

257

116

Viand e

134

141

120

137

116

05

06

07

Bœuf

20

19

22









Omelette 40

43

48

Drill down

Drill down

Dimension Produit 29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

118

MDX (Multidimensional Expressions)

„

Langage permettant de définir, d'utiliser et de récupérer des données à partir d'objets multidimensionnels „

„ „

29/11/2009

Permet d’effectuer les opérations décrites précédemment

Equivalent q de SQL p pour le monde OLAP Origine: Microsoft

Master F3I (Data Mining et Apprentissage Automatique)

119

MDX, exemple „

Fournir les effectifs d d’une une société pendant les années 2004 et 2005 croisés par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS, {[Pay] [Pay Type] {[Pay].[Pay Type].Members} Members} ON ROWS FROM RH

Dimensions, axes a es d d’analyse a a yse

Cube

WHERE ([Measures].[Count])

29/11/2009

2004

2005

Heure

3396

4015

Jour

3678

2056

Master F3I (Data Mining et Apprentissage Automatique)

120

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

121

Le marché du décisionnel

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

122

Quelques solutions commerciales

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

123

Quelques solutions open source ETL

Entrepôt de données

OLAP

Reporting

Data Mining

„Octopus

„MySql

„Mondrian

„Birt

„Weka

„Kettle

„Postgresql

„Palo

„Open

„R-Project

„CloverETL

„Greenplum/Biz

„Talend

gres

Report „Jasper Report „JFreeReport

„Orange „Xelopes

Intégré „Pentaho

(Kettle, Mondrian, JFreeReport, Weka)

„SpagoBI S BI

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

124

Plan „ „ „ „ „ „ „ „ „

Introduction Les entrepôts de données Les datamart Architecture Modélisation Alimentation Les bases de données multidimensionnelles Accès à l’information Démonstration

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

125

Description du cas d’étude „

Société de la g grande distribution Mode d’expédition

Transporteur Commande client

Contrat Type de contrat

Client

St k Stock

29/11/2009

Groupe de produits

Magasin Employé

Fonction

Produit

F Fournisseurs i

Région de ventes

Famille de produits

Division de ventes

Master F3I (Data Mining et Apprentissage Automatique)

126

Les tables qui vont nous servir Transporteur

Mode d’expédition Produit

Contrat

Type de T d contrat

Commande client Groupe de produits

Client Magasin

Employés St k Stock

Fonction

29/11/2009

F Fournisseurs i

Région de ventes t

Famille de produits

Division de ventes

Master F3I (Data Mining et Apprentissage Automatique)

127

Modèle en flocon

29/11/2009

Master F3I (Data Mining et Apprentissage Automatique)

128

Références „

29/11/2009

J. Han, J H and d M. M Kamber. K b D t Mining Data Mi i C Concepts t and Techniques. Morgan Kaufmann.

Ecole Doctorale (Data Mining et ...) Master F3I (Data Mining et Apprentissage Automatique)

129

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF