7023T - TP4 - W8 - S9 - R1 - Answer
March 7, 2017 | Author: Ghema | Category: N/A
Short Description
Download 7023T - TP4 - W8 - S9 - R1 - Answer...
Description
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Due Date : 08 November 2015 Tugas Personal ke – 4 Week 8 - Session 9 Answer these questions below and submit it before 4th personal assignment deadline. 1. Can we do ETL process manually? Answer : ETL (Extract, Transform, Loading) dapat dilakukan secara manual. Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses. Ekstraksi Data (Extract) Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu : 1. Ekstraksi data secara otomatis dari aplikasi sumber. 2. Penyaringan atau seleksi data hasil ekstraksi. 3. Pengiriman data dari berbagai platform aplikasi ke sumber data. 4. Perubahan format layout data dari format aslinya. 5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Transformasi Data (Transformation) Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut : 1. Memetakan data input dari skema data aslinya ke skema data warehouse. 2. Melakukan konversi tipe data atau format data. 3. Pembersihan serta pembuangan duplikasi dan kesalahan data. 4. Penghitungan nilai-nilai derivat atau mula-mula. 5. Penghitungan nilai-nilai agregat atau rangkuman. 6. Pemerikasaan integritas referensi data. 7. Pengisian nilai-nilai kosong dengan nilai default. 8. Penggabungan data.
Pengisian Data (Loading) Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL scriptsecara periodik
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
2. Do we need special hardware or software in ETL process? Explain your answering, please! Answer : Kebutuhan perangkat keras untuk melakukan proses ETL adalah sebagai berikut : 1. Processor
: CPU 1.7 Ghz
2. Memory
: 128 MB
3. Hardisk
: 20 GB
4. VGA
: 32 MB
5. Reolusi Min
: 1024 x 768
Dari minimum Requirement diatas maka dapat disimpulkan kebutuhan untuk melakukan ETL dapat dilakukan pada semua spesifikasi komputer, tanpa harus ada perangkat tambahan.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Software tool yang biasa digunakan untuk ETL diantaranya : Informatica - Power Center IBM - Websphere DataStage(Formerly known as Ascential DataStage) SAP - BusinessObjects Data Integrator IBM - Cognos Data Manager (Formerly known as Cognos DecisionStream) Microsoft - SQL Server Integration Services Oracle - Data Integrator (Formerly known as Sunopsis Data Conductor) SAS - Data Integration Studio Oracle - Warehouse Builder AB Initio Information Builders - Data Migrator Pentaho - Pentaho Data Integration Embarcadero Technologies - DT/Studio IKAN - ETL4ALL IBM - DB2 Warehouse Edition Pervasive - Data Integrator ETL Solutions Ltd. - Transformation Manager Group 1 Software (Sagent) - DataFlow Sybase - Data Integrated Suite ETL Talend - Talend Open Studio Expressor Software - Expressor Semantic Data Integration System Elixir - Elixir Repertoire OpenSys - CloverETL
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
3. What do you know about star schema, snowflake schema and fact constellation schema, explain each of them and figure out the example for each! Answer :
Gambar 1 – Star Schema Dibilang star schema karena entity-relationship diagram atau ERD-nya yang menyerupai konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-bintang yang lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011)
Fact table menampung nilai-nilai metric yang direkam untuk suatu kejadian yang spesifik. Sehubungan dengan tujuan untuk menampul data atomik, biasanya terdapat sejumlah besar record (jutaan). Pengelolaan khusus dilakukan untuk meminimalisasi jumlah dan ukuran atribut dengan tujuan membatasi ukuran tabel keseluruhan dan mengatur performa. Fact tables biasanya berupa transaksi (faktafakta mengenai kejadian tertentu, misalnya penjualan), snapshot (fakta-fakta yang direkam pada suatu waktu tertentu, misalnya rincian Account pada awal bulan),
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
dan tabel-tabelsnapshot akumulasi (misalnya, penjualan month-to-date untuk suatu produk).
Dimension tables biasanya memiliki record yang lebih sedikit dibandingkanfact tables, tetapi bisa memiliki jumlah atribut yang besar untuk mendeskripsikan data fakta.
Gambar 2 – Contoh Star Schema
Gambar 3 – Snowflake Schema
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Menurut Connolly dan Begg (2010:1229), snowflake adalah jenis dari star skema dimana tabel dimensinya tidak mengandung denormalisasi.
Gambar 4 – Contoh Snowflake Skema Berikut adalah kelebihan dan kekurangan model dimensi star schema. Kelebihan model dimensi star schema : 1. cenderung mudah dipahami karena modelnya yang lebih sederhana, 2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by step dari masing-masing dimensinya, 3. proses query lebih cepat pada saat proses OLAP. Kekurangan model dimensi star schema : 1. ukuran data lebih besar karena ada data yang disimpan ulang, 2. maintenance dan update lebih sulit.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema. Kelebihan model dimensi snowflake schema : 1. ukuran data lebih kecil di dalam tempat penyimpanan, 2. lebih mudah dilakukan maintenance dan update, 3. proses query lebih cepat pada saat proses ETL. Kekurangan model dimensi snowflake schema : 1. cenderung lebih sulit dipahami karena kompleksitasnya, 2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.
4. Snowflaking is normalized unnormalized star schema. Give explanation and understanding for that term
Answer :
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Menurut connolly dan Begg (2010:1229) snowflake merupakan variasi dari star skema dimana tabel dimensi diperbolehkan memiliki tabel dimensi. Kenapa dilakukan snowflaking yakni untuk dapat memahami lebih rinci dari fact table serta merincikan dari tabel dimensi menjadi tabel dimensi baru untuk merincikan tabel dibensi. Snowflaking itu sendiri merupakan metode normalisasi. Snowflaking juga membuat browsing antara dimensi atribut menjadi lambat. Jelas tabel kategori snowflaked akan tampil sangat baik jika user meminta hanya untuk nilai-nilai yang berbeda dari kategori tanpa tambahan, tetapi jika user membatasi pada jenis paket pada saat yang sama, maka query harus menggabungkan kembali tabel kategori snowflaked melalui dimensi produk dan mungkin keluar melalui link lain ke snowflake yang mungkin akan menimbulkan kendala. Dalam dimensi produk realistis dengan 250.000 records, query ini bisa berjalan selama beberapa menit pada sistem basis data relasional terkenal, dan query sederhana ini harus mampu menampilkan hasilnya pada user interface dalam satu atau dua detik.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
5. Design TPS (Transactional Processing System) database design from figure star schema above with UML class diagram or ERD (Entity Relationship Diagram)! Answer : Usecase Diagram
SALESORD
DIMPRODUCT
Cust
DIMWEEK
DIMSTORE
Admin
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
6. Change figure star schema above into snowflake schema! Answer :
dimlocation
dimstore
Idlocation (PK) Namelocation 1 *
Idstore (PK) Namestore Idlocation (FK)
salesord
1
IdProduct (FK) Idstore (FK) * Datetrans (FK) Price Amount
dimweek Datetrans (PK) week month
1
*
dimProduct *
IdProduct (PK) 1 Nameproduct Nametypeproduct
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
7. Give explanation and example about multidimensional from figure star schema above! Answer :
Multidimensional database atau sering disebut dengan cube adalah sebuah bentuk database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah Dimension ini secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk membentuk sebuah bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran dalam bentuk cube (3 dimensi) ini dimaksud untuk mempermudah visualisasi kita tentang sifat multi dimensionalnya. Sebagai contoh,"penjualan" bisa dilihat dengan dimensi (1) model produk, (2)geografi, (3) waktu, atau (4) beberapa dimensi tambahan.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Gambar 5 – Contoh Multidimensional
8. Give explanation and example about roll up from figure star schema above! Answer : Roll up adalah termasuk dalam jenis-jenis query pada OLAP. Yang dimaksud Roll up sendiri adalah melakukan agregasi pada level yang berbeda dari hirarki dimensi. Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan tiap propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota dalam satu propinsi.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
9. Give explanation and example about drill down from figure star schema above! Answer : Drill down sendiri memandu pengguna untuk memperoleh data yang lebih detail (Kamber, 2006). Jadi drill dwon menavigasikan dari data rinci yang sedikit hingga yang lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk sebuah dimensi atau memperkenalkan dimensi tambahan. Penambahan sebuah dimensi baru berarti tabel fact pasti berisikan (atau ditambahkan) data di dalam dimensi tersebut, misalnya untuk setiap propinsi dapat diberikan total penjualan, maka total penjualan tiap kota dapat di-drill down
10. Give explanation and example about slice and dice from figure star schema above! Answer : Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus. Dengan slicing dan dicing pengguna dapat melihat data dari beberapa perspektif. Pengguna dapat mengekstrak bagian dari data agregrated dan dapat memeriksa dengan detail berdasarkan dimensi-dimensi yang diinginkan. Data Agregrated merupakan data
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
praperhitungan
(precalculated)
dalam
bentuk
rangkuman
data (data
summarized) sehingga query pada kubus (cube) lebih cepat. Slicing memotong kubus sehingga dapat memfokuskan pada perspektif yang spesifik (pada suatu dimensi). Sedangkan dicing memberikan kemampuan untuk melihat pemilihan data pada dua dimensi atau lebih. Yaitu dengan merotasi cube pada perspektif yang lain sehingga pengguna dapat melihat lebih spesifik terhadap data yang dianalisa.
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Gambar Roll up, drill dwon, slice
Ghema Nusa Persada LZT4 – 1701497885 7023T – Advanced Database Systems
Referensi : Lane, P. (2005). Oracle Database Data Warehousing Guide, 10g Release 2 (10.2). Redwood City, CA 94065, U.S.: Oracle Corporation. Connolly, Thomas M. and Carolyn E.Begg. (2005). Database system A Practical Approach, Implementasi and Management. Fourth Edition. Addison – Wesley Publishing Company, United States of America Kimbal, Raphl and Margy Ross. (2007). The Data Warehouse Toolkit. Third Edition. John Wiley & sons Inc, United States of America http://datawarehouse4u.info/ETL-tools.html http://jurnalinformatika.petra.ac.id/index.php/inf/article/view/18250/18118 http://blog.putsall.com/data-ware-house-dan-olap/ http://core.ac.uk/download/pdf/11734553.pdf http://stti.i-tech.ac.id/component/phocadownload/category/63-data-warehousedatamining?download=315:modul-kuliah-dw-sesi-5
View more...
Comments