Analisis Multivariat Teori

March 5, 2023 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Analisis Multivariat Teori...

Description

 

I.  TINJAUAN PUSTAKA  A.   Analisis Multivariat Analisis multivariat  multivariat  adalah analisis statistika yang digunakan pada data yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Data multivariat tidak hanya terdiri atas satu variabel saja melainkan dapat terdiri atas lebih dari satu variabel. Model regresi multivariat adalah model regresi dengan lebih dari satu variabel respon yang saling berkorelasi dan satu atau lebih variabel prediktor (Johnson dan Wichern, 2007).  B.   Distribusi Normal Multivariat Distribusi normal multivariat atau distribusi normal p-variat mempunyai peranan penting dalam metode statistika multivariat. Normal multivariat adalah suatu perluasan dari distribusi univariat normal sebagai aplikasi pada variabel yang mempunyai hubungan. Dalam analisis multivariat, asumsi normal multivariat harus diperiksa untuk memastikan data pengamatannya mengikuti distribusi normal agar statistik inferensia dapat digunakan dalam menganalisis data tersebut. Diberikan variabel acak     berdistribusi normal dengan

        1 \ 2|Σ|   Secara sederhana ditulis

    ,  ,…,  { 12 (  ) Σ−(  )}

 ~ , Σ, p=2 disebut bivariate normal dengan:

      −  −  − −   √ (−   ) { (−   )  √      √     2  √    √  }   dengan ,  adalah   √     koefisien korelasi antara   dan  ; ||  ≤ 1.

(Johnson dan Wichern, 2007) Salah satu cara untuk memeriksa apakah suatu himpunan data mempunyai distribusi normal multivariat, menggunakan Q-Q plot yang didasarkan pada jarak kuadrat atau jarak mahalanobis. Jarak kuadrat dari vektor mean populasi berdistribusi Chi-square berdistribusi Chi-square dengan  dengan derajat bebas p. Misal fungsi densitas distribusi normal p-variat:

}, ∈ ℛ            1 \ { 12 }, 2|Σ|    −     dengan      Σ    , fungsi densitas distribusi normal p-variat tersebut akan konstan pada      permukaannya jika kuadrat jarak     Σ−    konstan, disebut sebagai kontur. Constant probability density contour  semua  sehingga   Σ−    semua      /permukaan elipsoid berpusat di  Elipsoid ini berpusat di  dan mempunyai sumbu ±  e  dengan ∑ e    e  untuk   1, 1,2, … , . Misal    density distribusi normal p-variat dengan peluang  adalah: , sehingga kontur dari constant density distribusi    1       −          ≤   , dan matriks kovarians populasi Σ diduga di mana vektor mean populasi  diduga dengan vektor mean sampel  dengan matriks kovarians sampel . Pada distribusi normal bivariat, kontur tersebut berbentuk elips.  

Langkah-langkah membuat Q-Q plot: 1.  Distribusi normal multivariat data dapat diperiksa dengan menghitung jarak pada setiap pengamatan yaitu  −     

 ̅       ̅     

   1,2, 1, 2,…… ,  dan n adalah banyaknya data. dimana  : vektor observasi sampel ke- j berukuran  j berukuran  × 1  ̅ : vektor rata-rata sampel berukuran  × 1  −: invers matriks varian-kovarian sampel berukuran  ×   dengan

 

  dari terkecil sampai terbesar untuk memperoleh kuantil terobservasi dari distribusi, yaitu   ≤   ≤ ⋯ ≤    −,   bersesuaian dengan setiap  , 3.  Menghitung kuantil harapan dari distribusi   dengan        −.    1,2, … ,  dimana  −,     merupakan persentil ke 100     dari distribusi Chi-square

2.  Mengurutkan

dengan derajat bebas p bebas p..

4.  5.  Plot

  versus    untuk    1,2, … ,   dan periksa kelinierannya dalam plot. Jika titik-titik tidak membentuk garis lurus, maka kuantil terobservasi tidak mengikuti distribusi Chi-square Chi-square,, atau dengan −,  , maka data melihat nilai proporsi yang didapatkan dari membandingkan nilai   ≤    memenuhi asumsi distribusi normal multivariat.

Uji Saphiro-Wilk Metode Shapiro-Wilk adalah sebuah metode atau rumus r umus perhitungan sebaran data yang dibuat oleh Shapiro dan Wilk. Metode Shapiro-Wilk adalah metode uji normalitas yang efektif dan valid digunakan untuk sampel  berjumlah kecil. Terdapat beberapa syarat yang harus dipenuhi oleh data yang akan diuji kenormalannya menggunakan metode ini, yaitu data berskala interval atau rasio (kuantitatif), data merupakan data tunggal yang  belum dikelompokkan dikelompokkan pada tabel distribusi frekuensi, dan data sampel diambil secara random. Tahapan pengujian kenormalan menggunakan Shapiro Wilk: 1. Penentuan hipotesis normal p-variat    : Data berdistribusi normal p-variat  normal  p-variat    : Data tidak berdistribusi normal p-variat  2. Data diurutkan dari yang terkecil sampai terbesar dan kemudian dibagi menjadi dua untuk dikonversi dalam

 

Shapiro Wilk. 3. Menghitung statistik uji

     ]  3    [∑=   −+   ∑=  ̅ ̅   dengan  : koefisien koefisien Saphiro Wilk  −+: data keke     1   :       ̅: raratata rata rata   4. Menghitung signifikansi uji dengan membandingkan signifikansi uji dan nilai tabel Shapiro Wilk untuk dilihat d ilihat nilai peluangnya . Jika  <  maka tolak  . C.  Uji Statistik Bartlett Uji Statistik Bartlett merupakan uji yang didasari pada varians dari data-data data -data yang berukuran besar, sehingga akan diuji kebebasan antara varians pada masing-masing sampel. Diasumsikan bahwa variansi data di antara sampel atau kelompok adalah sama. Untuk itu dibuat hipotesis awalnya adalah seluruh varians masing-masing variabel adalah sama dalam populasi, dan hipotesis alternatifnya adalah paling tidak ada satu varians yang tidak sama, maka hipotesis awal ditolak. Uji Statistik Bartlett pada penelitian ini bertujuan untuk mengetahui apakah terdapat hubungan antar variabel dalam kasus multivariat. Dengan asumsi bahwa variansi dari populasi dapat diestimasi oleh nilai korelasi dari matriks korelasi Pearson, P earson, maka akan dihitung Uji Statistik Bartlett dengan membandingkan distribusi Bartlett dengan distribusi Chi-Kuadrat dengan hipotesis sebagai berikut:  (Antar variabel variat tidak berkorelasi atau bersifat independent )  (Antar variabel variat berkorelasi atau bersifat dependent )  dengan menggunakan statistik uji:

 :    : ≠ 

 2 5 5 lnln|||         1  2 ℎ 6

di mana p adalah banyaknya variabel variat dan ln|R| adalah nilai-nilai determinan matriks korelasi dari masing  masing variabel respon. Tolak   jika ℎ  yang artinya antar variabel variat berkorelasi atau



 bersifat dependent .

   > ,−

 

I.  METODOLOGI PENELITIAN  A.  Sumber Data Data yang digunakan dalam penelitian ini adalah data sekunder yang diambil dari website UCI (archive.ics.uci.edu/ ml/datasets) sebanyak 249 data. Merupakan data jumlah review review tempat  tempat tujuan yang terdiri dari beberapa kategori, dari suatu website website di  di India Selatan yang terdiri dari beberapa kategori tempat tujuan.

 B.  Variabel Penelitian Variabel yang digunakan dalam penelitian ini adalah sebagai berikut: 1.  Variabel X1 adalah jumlah review review tujuan  tujuan perjalanan kategori religi atau tempat-tempat religi yang ada di India Selatan. 2.  Variabel X2 adalah tujuan perjalanan kategori tempat belanja yang ada di India selatan. C.  Langkah-Langkah Analisis Data 1.  Melakukan pengujian korelasi antar variabel X 1 dan X2 menggunakan Uji Bartlett. 2.  Melakukan pengujian distribusi normal multivariat dengan beberapa metode : 2

2

a.  Menghitung proporsi nilai square nilai  square distance  distance  d  j  yang nilainya kurang dari   2,0.5    b.  Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk’s  Wilk’s   3.  Melakukan pendeteksian data outlier  dan  dan mengatasi data outlier   3. Sumber Data dan Metodologi 3.1. Sumber Data Sumber data yang digunakan merupakan data sekunder yang diambil dari UCI datasets datasets   http://archive.ics.uci.edu/ml/datasets/air+quality))  dengan jumlah data pada masing- masing variabel 50 data. (http://archive.ics.uci.edu/ml/datasets/air+quality Data berupa respons rata-rata per jam dari sensor kimia oksida logam yang tertanam dalam Perangkat Multisensor Kimia Kualitas Udara yang diletakkan diletakkan di area tercemar dan di permukaan permukaan jalan di kota Italia. Data direkam dari hari Rabu, 10 Maret 2004 pukul 18.00 sampai sampai hari Jumat, 12 Maret 2004 pukul 19.00 waktu setempat. setempat.  D.  Variabel Penelitian Variabel yang digunakan dalam penelitian ini adalah sebagai berikut:

  /   /

1.  Variabel   adalah jumlah kandungan 3  2.  Variabel   adalah jumlah kandungan 3   E.  Langkah-Langkah Analisis Data

NO di udara yang terekam oleh perangkat sensor dengan satuan CO di udara yang terekam oleh perangkat sensor dengan satuan

1.  Melakukan pengujian korelasi antar variabel X 1 dan X2 menggunakan Uji Bartlett. 4.  Melakukan pengujian distribusi normal multivariat dengan beberapa metode : 2

2

c.  Menghitung proporsi nilai square nilai  square distance  distance  d  j  yang nilainya kurang dari   2,0.5   d.  Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk’s  Wilk’s   5.  Melakukan pendeteksian data outlier  dan  dan mengatasi data outlier   Langkah-langkah yang digunakan untuk menganalisis data dalam penelitian ini adalah sebagai berikut: 1.  Melakukan pengujian distribusi normal multivariat dengan cara:



2

2

Menghitung proporsi nilai square nilai square distance  distance  d  j  yang nilainya kurang dari   2,0.5  

-  Melakukan pengujian distribusi normal multivariat menggunakan uji Shapiro Wilk 2.  Menggunakan uji Bartlett untuk pengujian korelasi antar a ntar variabel   dan  . 3.  Mendeteksi ada tidaknya data outlier  dan  dan mengatasi data outlier .

 

 

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF