7023T - TP4 - W8 - S9 - R1 - Answer

March 7, 2017 | Author: Ghema | Category: N/A
Share Embed Donate


Short Description

Download 7023T - TP4 - W8 - S9 - R1 - Answer...

Description

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Due Date : 08 November 2015 Tugas Personal ke – 4 Week 8 - Session 9 Answer these questions below and submit it before 4th personal assignment deadline. 1. Can we do ETL process manually? Answer : ETL (Extract, Transform, Loading) dapat dilakukan secara manual. Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses. Ekstraksi Data (Extract) Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu : 1. Ekstraksi data secara otomatis dari aplikasi sumber. 2. Penyaringan atau seleksi data hasil ekstraksi. 3. Pengiriman data dari berbagai platform aplikasi ke sumber data. 4. Perubahan format layout data dari format aslinya. 5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Transformasi Data (Transformation) Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut : 1. Memetakan data input dari skema data aslinya ke skema data warehouse. 2. Melakukan konversi tipe data atau format data. 3. Pembersihan serta pembuangan duplikasi dan kesalahan data. 4. Penghitungan nilai-nilai derivat atau mula-mula. 5. Penghitungan nilai-nilai agregat atau rangkuman. 6. Pemerikasaan integritas referensi data. 7. Pengisian nilai-nilai kosong dengan nilai default. 8. Penggabungan data.

Pengisian Data (Loading) Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL scriptsecara periodik

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

2. Do we need special hardware or software in ETL process? Explain your answering, please! Answer : Kebutuhan perangkat keras untuk melakukan proses ETL adalah sebagai berikut : 1. Processor

: CPU 1.7 Ghz

2. Memory

: 128 MB

3. Hardisk

: 20 GB

4. VGA

: 32 MB

5. Reolusi Min

: 1024 x 768

Dari minimum Requirement diatas maka dapat disimpulkan kebutuhan untuk melakukan ETL dapat dilakukan pada semua spesifikasi komputer, tanpa harus ada perangkat tambahan.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Software tool yang biasa digunakan untuk ETL diantaranya :  Informatica - Power Center  IBM - Websphere DataStage(Formerly known as Ascential DataStage)  SAP - BusinessObjects Data Integrator  IBM - Cognos Data Manager (Formerly known as Cognos DecisionStream)  Microsoft - SQL Server Integration Services  Oracle - Data Integrator (Formerly known as Sunopsis Data Conductor)  SAS - Data Integration Studio  Oracle - Warehouse Builder  AB Initio  Information Builders - Data Migrator  Pentaho - Pentaho Data Integration  Embarcadero Technologies - DT/Studio  IKAN - ETL4ALL  IBM - DB2 Warehouse Edition  Pervasive - Data Integrator  ETL Solutions Ltd. - Transformation Manager  Group 1 Software (Sagent) - DataFlow  Sybase - Data Integrated Suite ETL  Talend - Talend Open Studio  Expressor Software - Expressor Semantic Data Integration System  Elixir - Elixir Repertoire  OpenSys - CloverETL

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

3. What do you know about star schema, snowflake schema and fact constellation schema, explain each of them and figure out the example for each! Answer :

Gambar 1 – Star Schema Dibilang star schema karena entity-relationship diagram atau ERD-nya yang menyerupai konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-bintang yang lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011) 

Fact table menampung nilai-nilai metric yang direkam untuk suatu kejadian yang spesifik. Sehubungan dengan tujuan untuk menampul data atomik, biasanya terdapat sejumlah besar record (jutaan). Pengelolaan khusus dilakukan untuk meminimalisasi jumlah dan ukuran atribut dengan tujuan membatasi ukuran tabel keseluruhan dan mengatur performa. Fact tables biasanya berupa transaksi (faktafakta mengenai kejadian tertentu, misalnya penjualan), snapshot (fakta-fakta yang direkam pada suatu waktu tertentu, misalnya rincian Account pada awal bulan),

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

dan tabel-tabelsnapshot akumulasi (misalnya, penjualan month-to-date untuk suatu produk). 

Dimension tables biasanya memiliki record yang lebih sedikit dibandingkanfact tables, tetapi bisa memiliki jumlah atribut yang besar untuk mendeskripsikan data fakta.

Gambar 2 – Contoh Star Schema

Gambar 3 – Snowflake Schema

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Menurut Connolly dan Begg (2010:1229), snowflake adalah jenis dari star skema dimana tabel dimensinya tidak mengandung denormalisasi.

Gambar 4 – Contoh Snowflake Skema Berikut adalah kelebihan dan kekurangan model dimensi star schema. Kelebihan model dimensi star schema : 1. cenderung mudah dipahami karena modelnya yang lebih sederhana, 2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by step dari masing-masing dimensinya, 3. proses query lebih cepat pada saat proses OLAP. Kekurangan model dimensi star schema : 1. ukuran data lebih besar karena ada data yang disimpan ulang, 2. maintenance dan update lebih sulit.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema. Kelebihan model dimensi snowflake schema : 1. ukuran data lebih kecil di dalam tempat penyimpanan, 2. lebih mudah dilakukan maintenance dan update, 3. proses query lebih cepat pada saat proses ETL. Kekurangan model dimensi snowflake schema : 1. cenderung lebih sulit dipahami karena kompleksitasnya, 2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.

4. Snowflaking is normalized unnormalized star schema. Give explanation and understanding for that term

Answer :

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Menurut connolly dan Begg (2010:1229) snowflake merupakan variasi dari star skema dimana tabel dimensi diperbolehkan memiliki tabel dimensi. Kenapa dilakukan snowflaking yakni untuk dapat memahami lebih rinci dari fact table serta merincikan dari tabel dimensi menjadi tabel dimensi baru untuk merincikan tabel dibensi. Snowflaking itu sendiri merupakan metode normalisasi. Snowflaking juga membuat browsing antara dimensi atribut menjadi lambat. Jelas tabel kategori snowflaked akan tampil sangat baik jika user meminta hanya untuk nilai-nilai yang berbeda dari kategori tanpa tambahan, tetapi jika user membatasi pada jenis paket pada saat yang sama, maka query harus menggabungkan kembali tabel kategori snowflaked melalui dimensi produk dan mungkin keluar melalui link lain ke snowflake yang mungkin akan menimbulkan kendala. Dalam dimensi produk realistis dengan 250.000 records, query ini bisa berjalan selama beberapa menit pada sistem basis data relasional terkenal, dan query sederhana ini harus mampu menampilkan hasilnya pada user interface dalam satu atau dua detik.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

5. Design TPS (Transactional Processing System) database design from figure star schema above with UML class diagram or ERD (Entity Relationship Diagram)! Answer : Usecase Diagram

SALESORD

DIMPRODUCT

Cust

DIMWEEK

DIMSTORE

Admin

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

6. Change figure star schema above into snowflake schema! Answer :

dimlocation

dimstore

Idlocation (PK) Namelocation 1 *

Idstore (PK) Namestore Idlocation (FK)

salesord

1

IdProduct (FK) Idstore (FK) * Datetrans (FK) Price Amount

dimweek Datetrans (PK) week month

1

*

dimProduct *

IdProduct (PK) 1 Nameproduct Nametypeproduct

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

7. Give explanation and example about multidimensional from figure star schema above! Answer :

Multidimensional database atau sering disebut dengan cube adalah sebuah bentuk database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah Dimension ini secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk membentuk sebuah bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran dalam bentuk cube (3 dimensi) ini dimaksud untuk mempermudah visualisasi kita tentang sifat multi dimensionalnya. Sebagai contoh,"penjualan" bisa dilihat dengan dimensi (1) model produk, (2)geografi, (3) waktu, atau (4) beberapa dimensi tambahan.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Gambar 5 – Contoh Multidimensional

8. Give explanation and example about roll up from figure star schema above! Answer : Roll up adalah termasuk dalam jenis-jenis query pada OLAP. Yang dimaksud Roll up sendiri adalah melakukan agregasi pada level yang berbeda dari hirarki dimensi. Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan tiap propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota dalam satu propinsi.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

9. Give explanation and example about drill down from figure star schema above! Answer : Drill down sendiri memandu pengguna untuk memperoleh data yang lebih detail (Kamber, 2006). Jadi drill dwon menavigasikan dari data rinci yang sedikit hingga yang lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk sebuah dimensi atau memperkenalkan dimensi tambahan. Penambahan sebuah dimensi baru berarti tabel fact pasti berisikan (atau ditambahkan) data di dalam dimensi tersebut, misalnya untuk setiap propinsi dapat diberikan total penjualan, maka total penjualan tiap kota dapat di-drill down

10. Give explanation and example about slice and dice from figure star schema above! Answer : Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus. Dengan slicing dan dicing pengguna dapat melihat data dari beberapa perspektif. Pengguna dapat mengekstrak bagian dari data agregrated dan dapat memeriksa dengan detail berdasarkan dimensi-dimensi yang diinginkan. Data Agregrated merupakan data

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

praperhitungan

(precalculated)

dalam

bentuk

rangkuman

data (data

summarized) sehingga query pada kubus (cube) lebih cepat. Slicing memotong kubus sehingga dapat memfokuskan pada perspektif yang spesifik (pada suatu dimensi). Sedangkan dicing memberikan kemampuan untuk melihat pemilihan data pada dua dimensi atau lebih. Yaitu dengan merotasi cube pada perspektif yang lain sehingga pengguna dapat melihat lebih spesifik terhadap data yang dianalisa.

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Gambar Roll up, drill dwon, slice

Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems

Referensi : Lane, P. (2005). Oracle Database Data Warehousing Guide, 10g Release 2 (10.2). Redwood City, CA 94065, U.S.: Oracle Corporation. Connolly, Thomas M. and Carolyn E.Begg. (2005). Database system A Practical Approach, Implementasi and Management. Fourth Edition. Addison – Wesley Publishing Company, United States of America Kimbal, Raphl and Margy Ross. (2007). The Data Warehouse Toolkit. Third Edition. John Wiley & sons Inc, United States of America http://datawarehouse4u.info/ETL-tools.html http://jurnalinformatika.petra.ac.id/index.php/inf/article/view/18250/18118 http://blog.putsall.com/data-ware-house-dan-olap/ http://core.ac.uk/download/pdf/11734553.pdf http://stti.i-tech.ac.id/component/phocadownload/category/63-data-warehousedatamining?download=315:modul-kuliah-dw-sesi-5

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF