About Speaker Recognition
November 20, 2018 | Author: Rizki | Category: N/A
Short Description
Makalah tentang speaker recognition...
Description
MAKALAH
SPEAKER RECOGNITION
Kelompok : Pifan Septiandi / 101088 Rizal / 101088 Rizki Apriliyandi / 10108823
Kelas : IF-15
TEKNIK INFORMATIKA TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS KOMPUTER INDONESIA 2011/2012
BAB I PENDAHULUAN
1.1.
Latar Belakang
Suara manusia dihasilkan oeh pita suara yang menghasilkan bunyi yang berbedabeda. Setiap individu manusia memiliki memiliki suara yang baraneka baraneka ragam tergantung tergantung dari posisi atau bentuk rongga seseorang. Hal ini menyebabkan karakter suara yang dimiliki seseorang unik. Suara yang sesungguhnya sesungguhnya yang sering manusia manusia dengar merupakan suara vocal vocal seperti a, i, u, e, dan o. Karena itu, seseorang dapat dapat dikenali dari suara mereka. mereka. Misalnya saja suara laki-laki yang bunyinya lebih berat dibanding dengan suara perempuan. Dari hal itu saja kita dapat langsung mengenali, yang mana suara laki-laki dan yang mana suara perempuan. Dengan kata lain dengan suara kita bisa mengenali identitas seseorang. Teknologi pengolahan pengolahan suara adalah salah satu teknologi aplikasi yang telah ditemukan beberapa tahun lalu. Salah satunya adalah speaker recognition yang merupakan suatu proses yang sering disebut dengan verifikasi pengucap. Yang berarti mengenali suara dengan cara membandingkan dengan suara standar. Perkembangan teknologi pengolahan sinyal suara manusia akhir-akhir ini sedang gencar diteliti dan dikembangkan. Salah satu contoh teknologi pengolahan sinyal suara manusia yang sedang dikembangkan adalah sistem pengenal pengucap atau speaker recognition. Sistem pengenal pengucap dapat digunakan sebagai salah satu sistem pengamanan pintu karena dapat mengeliminir siapa saja yang dapat mengakses pintu, sehingga tidak diperlukan lagi kunci konvensional yang mudah hilang. Sinyal informasi berupa suara pengucap akan digunakan sebagai otorisasi untuk mengakses pintu. Pengenal pengucap (speaker recognition) adalah suatu proses pengenalan untuk mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan yang ada di dalam basisdata dengan ucapan masukan.
1.2.
Rumusan Masalah
Pengenal pengucap (speaker recognition) adalah suatu proses pengenalan untuk mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan (vokal) yang ada di dalam basisdata dengan ucapan masukan.
Untuk dapat memperoleh karakter suatu vokal terlebih dahulu sebuah sinyal suara vokal diubah ke dalam domain frekuensi. Sedangkan untuk dapat mengenali suara seseorang, data suara orang tersebut diperlukan sebagai acuan yang kemudian akan diverifikasi dengan suaranya yang lain menggunakan crosscorrelation. Pengetahuan tentang domain frekuensi dapat digunakan lebih lanjut dalam sintesis suara sedangkan verifikasi suara atau speaker recognition dapat digunakan dalam bidang keamanan sebagai tanda identitas seseorang. Karakteristik ucapan dapat dibedakan melalui ekstraksi dengan suatu teknik pengkodean. Teknik pengkodean yang digunakan dalam pegekstraksian ciri sinyal ucapan adalah LPC (Linear Predictive Coding) dan menggunakan metode VQ (Vector Quantization) dalam pencocokan pencocokan ciri (feature matching). Dengan mekanisme kerja pengambilan contoh-contoh suara, ekstraksi ciri dapat dilakukan dengan cara proses sampling, front-end, preemphasis, frame blocking, windowing, dan DFT (Discrete Fourier Transform) dari ekstraksi ciri tersebut diproses lagi menggunakan metode K-means untuk mencari centroid diantara fitur-fitur dari hasil ekstraksi dan jarak terdekat antar centroid sehingga dapat dikelompokkan menjadi suara berdasarkan usia dewasa atau anak anak yang kemudian disimpan kedalam database. Pada saat ada sinyal wicara masuk, sistem akan melakukan melakukan proses pengolahan pengolahan wicara. Kemudian hasil ekstraksi sinyal baru tersebut akan dibandingkan dengan hasil ekstraksi sinyal standar yang terdapat di database menggunakan metode DFT dan K-means sehingga akan dibandingkan dengan hasil pengklusteran, apakah suara tersebut masuk dalam range centroid 1 (dewasa) atau centroid 2 (anak anak). Hasil dari Software ini adalah berupa clustering suara dewasa dan anak anak, yang mana nantinya system akan membedakan suara dewasa dan anak anak dengan melihat nilai formant-formatnya. Recognition yang mampu mengenali mendekati 100 % masih terus diteliti dan dicari metode-metode yang paling efektif. Apabila recognition belum mencapai tingkat pengenalan 100 % sistem ini tentunya tidak akan memperbaiki security dan accessibility. Pekerjaan berat untuk
mengoptimalkan
sistem
inilah
yang
menjadi
hambatan
utama
untuk
mengimplementasikan mengimplementasikan sistem ini. Karena banyak aspek juga yang harus diteliti agar performa pengenalan bisa semakin membaik (contohnya : aspek penggunaan jenis microphone, noise/ gangguan, kemungkinan kemungkinan kareteristik suara yang dibuat mirip, dan lain-lain).
1.3.
Tujuan
Tujuan : -
Mengetahui lebih dalam speaker recognition
-
Mengetahui implementasi speaker recognition
-
Mengetahui cara kerja speaker recognition
1.4.
Batasan Masalah
-
Masalah
yang
dibahas
hanya
beberapa
metode
yang
berhubungan
dengan
implementasi speaker recognition. -
Diambil dari beberapa jurnal yang terkait dengan speaker recognition. Dimaksudkan agar pembahasan tidak terlalu luas.
BAB II PEMBAHASAN
Speaker recognition yang yang merupakan merupakan suatu proses
yang sering disebut disebut dengan
verifikasi pengucapan. Yang berarti mengenali suara dengan cara membandingkan dengan suara standar. Mekanisme cara kerja mekanisme ini dengan cara mengambil contoh-contoh suara. Sebagai manusia, kita mampu mengenali seseorang hanya dengan mendengar dia atau berbicara. Biasanya, beberapa detik dari pidato yang cukup untuk mengidentifikasi suara yang familier. Dari sini muncul Ide untuk mengajarkan komputer bagaimana mengenali manusia. Suara yang ada pada manusia itu mengeluarkan gelombang atau frekuensi bunyi, pada domain frekuensi bunyi kita bisa menganalisis suatu sinyal. Untuk bisa melakukan itu kita membutuhkan bantuan alat, salah satunya adalah tranformasi fourier yang dinyatakan dengan persamaan sebagai berikut :
Kedua persamaan ini merupakan pasangan, maksudnya itu persamaan yang satu adalah transformasi dari persamaan yang lain. Untuk membandingkan suatu sinyal lain dapat dinyatakan dengan persamaan cross – correlation. Persamaannya sebagai sebagai berikut :
Di mana x(t) merupakan suatu sinyal acuan dan y(t) adalah sinyal lain yang dibandingkan , tetapi perhitungan dengan persamaan ini membutuhkan waktu yang lama. Karena itu diperlukan suatu persamaan yang lebih cepat, salah satunya adalah dengan transformasi fourier sebagai berikut :
Dimana X *(w) merupakan kompleks konjugat dari X(w). persamaan ini dapat digunakan untuk menentukan tingkat kesamaan atau kemiripan suatu sinyal terhadap sinyak yang lainnya. Berikut ini merupakan domain frekuensi yang diperoleh dengan program DFT menggunakan MATLAB 6.5.1
(a)
(b) Gambar (a) di atas merupakan domain waktu sinyal vocal /u/. dan pada gambar(b)merupakan gambar(b)merupakan domain frekuensi dan respon frekuensi dari system s ystem vocal /u/.
(c)
(d) Pada gambar (c) di atas merupakan waktu sinyal suara vocal /a/. dan pada gambar(d) merupakan domain dari frekuensi system vocal /a/. Dari gambar-gambar diatas dapat dilihat bahwa puncak – puncak – puncak domain frekuensi pada fonem /u/. berada pada sekitar frekuensi 350hz dengan identitas (relative)0.5dB pada puncak pertama dan sekitar 1000hz dengan intensitas (relative) -0.1 dB pada puncak kedua. Sedangkan frekuensi fundamental adalah 140hz dengan intensitas 0.45dB. secara relative perbandingan amplitude puncak pertama terhadap puncak kedua adalah 1: 25. Sedangkan pada vocal /a/ puncak pertama di frekuensi 120 hz dengan intensitas(relative) 0.32 dB yang juga merupakan frekuensi fundamentalnya. fundamentalnya. Puncak keduasekitar keduasekitar 820hz dengan intensitas
(relatife) 0.60dB yang merupakan frekuensi dengan intensitas tertinggi, puncak ketiga 1650hz dB yang merupakan frekuensi intensitas tertinggi, puncak ketiga 1650Hz dengan intensitas (relative) 0.23 dB, puncak keempat 2500hz sebesar 2.23 dB, puncak kelima 3800 hz – 0.50dB, dan puncak keenam 4500 hz – 0.75 dB. Secara relative perbandingan puncak – puncak – puncak tersebut adalah 0.52 : 1 : 0. 43 : 0.15 : 0.08 : 0.04. Pada teori – teori diatas yang yang dapat diterapkan pada pada speaker recognition , kalau setiap suara itu memiliki frekuensi yang berbeda – beda. Untuk contoh frekuensi suara dengan kata “buka” dengan memakai orang yang sama namun waktu yang berbeda.
Frekuensi yang dihasilkan sama atau mendekati. Namun jika orang lain yang berkata “buka” maka frekuensi suaranya seperti gambar berikut :
Pada teknologi speaker recognition ada beberapa teori penunjang : a. Sinyal Suara merupakan sinyal diskrit yang dipengaruhi oleh waktu. b. Formant didefinisikan oleh fant sebagai puncak spectrum suara, formant juga digunakan untuk mengartikan suara akustik resonansi. c. Spectrogram gambar yang menunjukan spectrum dari sinyal terhadap waktu, spectrogram digunakan untuk mengidentifikasi suara, speech prosesing, dll. d. Source filter model dalam satu ucapan terdapat 2 sumber akustik yaitu suatu ucapan dengan suara dan ucapan tanpa suara. Ucapan bersuara dihasilkan getaran dari modulasi udara dari paru – paru. Sedangkan ucapan tanpa suara bukan merupakan getaran suara biasa melainkan aliran udara yang disebabkan turbulen akibat penyempitan di saluran vocal. e. Pengelolaan Sinyal Digital pengelolaan sinyal suara sampai diperoleh koefisien karakteristik. f. Sampling sinyal suara yang tidak terbatas pada domain waktu. g. Frame blocking pembagian suara menjadi beberapa frame dan satu frame terdiri dari beberapa sampel.
h. Windowing mengurangi efek diskontinuitas dari potongan – potongan sinyal pada awal dan akhir sinyal. Efek dari diskontinuitas akan menyebabkan kesalahan data pada proses transformasi fourier. i.
Discrette fourier transform(DFT) metode yang efisien untuk menyelesaikan
transformasi fourier diskrit yang banyak dipakai untuk keperluan analisa sinyal seperti pemfilteran, analisa korelasi, dan analisa spectrum.
Dalam speaker recognition ada beberapa algoritma yang dapat digunakan atau diterapkan yaitu sebagai berikut : 1.
Algoritma K-means yaitu suatu algoritma yang sering digunakan didalam teknik
pengelompokan karena membuat suatu perkiraan yang efisien dan tidak dan tidak memerlukan banyak banyak parameter. K-means[MacQueen(1967)] menggunakan k kelompok yang telah ditetapkan (k kelompok pertama
sebagai centroid). Seperti
pada gambar dibawah ini.
Pada gambar sebelah kiri merupakan contoh gambar perolehan centroid menggunakan k-means pada matlab. Sendagkan pada gambar sebelah kanan perolehan centroid menggunakan k-means. 2.
VQ (Vector ( Vector Quantization) yaitu algoritma yang yang dipakai untuk membentuk membentuk codebook
adalah
algoritma
LBG(linde
Buzo
Gray
Algorithm).
Algoritma
tersebut
diimplementasikan dalam prosedur berulang sebagai berikut : 1)
Menentukan vector codebook pertama, yang merupakan centroid awal dari keseluruhan keseluruhan centroid awal dari keseluruhan vector iri.
2)
Menggandakan jumlah codebook dengan membagi tiap vector yn dari codebook yang telah terbentuk, dengan aturan :
Dengan n memiliki nilai antara 1 sampai dengan M (ukuran dari codebook yang diinginkan)m dan 3)
merupakan parameter pembagi (
).
Pencarian nearest- neighbour : untuk tiap vektor ciri, temukan codeword di dalam codebook tersebut.
4)
Pembaharuan centroid : memperbaharui codeword pada setiap kelompok dengan menggunakan menggunakan centroid dari vektor ciri .
BAB III KESIMPULAN Speaker recognition adalah suatu proses pengenalan untuk mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan yang ada di dalam basisdata dengan ucapan masukan. Dengan teknologi speaker recognition, sekali lagi manusiadimudahkan dalam kehidupannya. Dengan beberapa metode, speaker recognition bisa menjadi teknologi yang bisa digunakan dalam kehidupan sehari-hari secara maksimal. Penggunaan teknologi speaker recognition bisa di terapkan pada berbagai bidang. Bukan hanya dalam sistem verifikasi, bahkan bisa digunakan untuk security dan accessibiliy dalam suatu jaringan, mengetahui usia seseorang dari suara, dan juga bisa digunakan dalam persidangan suatu kasus kriminal yang hanya memiliki bukti berupa rekaman suara.
Lampiran
View more...
Comments