Tugas Denny Trias Weblog

Kerjakan dengan sungguh-sungguh, bagikan ilmu dengan ikhlas, nanti Allah akan menambahkan keberkahan

tugas gol. B co. Indrajit

Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

120

SPEECH RECOGNITION MENGGUNAKAN GABOR WAVELET DAN
JARINGAN SARAF TIRUAN BACKPROPAGATION UNTUK SISTEM
KEAMANAN BERBASIS SUARA

Andika Bandung Putra
1)
Iwan Iwut T.
2)
Joko Haryatno3)

1,2,3
Jurusan Teknik Elektro – Sekolah Tinggi Teknologi Telkom
4b4nk@plasa.com1)
, iww@stttelkom.ac.id2)
, jhr@stttelkom.ac.id3)

ABSTRACT
Automatic Speech Recognition is a Speech Signal processing technology, where the system is recognizing, comparing,
and matching the voice input pattern automatically to the data base. Although the security level of the voice recognition
system is still under the security level of fingerprint-based and retina-based, but the possibility of developing the voice-
based system is widely open, since it has unique characteristics of different control and different pronunciation of every
person. Feature extraction, learning and comparison processes are used in this speech recognition project. The future
extraction process done by Gabor-2D filter is used for specifying the parameters used in recognizing the voice pattern
without lowering the precision level to a certain value. Backpropagation neural network is used in the learning and
pattern comparison processes. These processes are about learning and comparing the input pattern as the result of
feature extraction in order to recognize a certain pattern. The simulation uses digital recorded voices. The output of this
project is to develop a system which is able to recognize and compare a certain pattern while also able to take the
correct decision on each input pattern. The system has grade system about 80% to recognize, compare, and take the right
decision.
Keywords: Speech Processing, JST Backpropagation, Preprocessing, Feature Extracting, Pattern Comparisson Filter
2D Gabor Wavelet.

1. Pendahuluan
Teknologi pada sistem keamanan sudah semakin berkembang pesat, mulai menggunakan pin, barcode, dan hingga
menggunakan sidik jari. Namun walaupun sudah berkembang pesat, penggunaan suara (voice) sebagai parameter
identifikasi masih menjadi suatu pilihan yang tidak dapat ditinggalkan, contoh seperti pada voice dial pada mobile phone,
sistem keamanan rumah berbasis suara, dan password berangkas menggunakan suara serta masih banyak contoh-contoh
yang lainnya. Memang tingkat keakuratan sistem keamanan menggunakan suara masih kalah dibandingkan dengan yang
lainnya, hal ini disebabkan oleh beberapa parameter seperti keadaan (kondisi) dari user itu sendiri.

Begitu banyak metoda ekstraksi ciri yang digunakan pada speech recognition namun metoda Gabor-wavelet jarang
sekali, atau bahkan belum pernah digunakan untuk speech processing karena pada umumnya Gabor-wavelet sering
digunakan untuk image processing. Oleh karena itu penggunaan metoda Gabor-wavelet pada sistem ini adalah untuk
membuktikan apakah metoda tersebut dapat digunakan untuk speech processing atau tidak.

2. Landasan Teori
2.1 Speech recognition
Proses Dari Pembangkitan Suara dan Persepsi Pada Manusia
Pembangkitan suara terjadi saat orang yang berbicara memikirkan pesan (di dalam pikiran) apa yang ingin dia sampaikan
kepada pendengar melalui suara. Kemudian dari mulut orang yang berbicara keluar sinyal terakhir yang akan diterima
oleh pendengar
[11]
.

Sinyal suara dibangkitkan dan diarahkan ke pendengar, kemudian dimulailah proses persepsi suara tersebut atau speech
recognition. Proses selanjutnya setelah mengetahui kode bahasa apa yang digunakan, kemudian sinyal suara yang
diterima saraf pendengar dikodekan sesuai kode bahasa yang dikehendaki orang yang berbicara dan dikirim ke otak, dan
akhirnya maksud dari pesan yang dikirmkan dapat dimengerti pendengar
[11]
.

2.2 Gabor Wavelet
Transformasi Fourier dan Wavelet Untuk Feature Extraction
Transformasi Fourier hanya dapat memberikan informasi sinyal dalam domain frekuensi tanpa mengacu pada domain
waktu. Berlawanan dengan Fourier, STFT (Short Time Fourier Transform)
[13]
dapat mencapai fungsi ini dan
didefinisikan sebagai:
dt t j t g t s STFT ³   ) exp( ) ( ) ( ) , ( Z W Z W (1)
Transformasi gabor cocok untuk analisis sinyal stasioner, yang bukan merupakan kasus dari kebanyakan tekstur alami.
Masalah ini dapat diatasi dengan menggunakan transformasi wavelet yang didefinisikan sebagai : Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

121

¸
¹
·
¨
©
§ 

a
b t
h
a
t h a b *
1
) ( ,
(2)
Dan transformasi wavelet kontinu (Countinous wavelet transform/CWT)[9] didefinisikan sebagai :
³
f
f 
¸
¹
·
¨
©
§ 
dt t s
a
b t
h
a
a b CWT ) ( *
1
) , (
(3)
dimana s(t) merupakan sinyal, a dan b masing-masing merupakan faktor dilatasi dan translasi sedangkan h(t) merupakan
mother wavelet. Transformasi wavelet untuk mendekomposisi sinyal s(t) ke dalam fungsi wavelet. Transformasi wavelet
mencapai resolusi yang fleksibel baik pada domain waktu (spatial) dan domain frekuensi melalui faktor a dan b.

Fungsi dasar 2D (x dan y) Gabor didefinisikan sebagai :
)] sin cos ( 2 exp[ . exp
2
1
) ,( 0 2
2 2
T T SZ
V S
y x j
y x
y x g  »
¼
º
«
¬
ª 
(4)
dimana ı merupakan varian dari distribusi Gaussian baik pada arah x atau y, Ȧ0 merupakan frekuensi sinusoidal dan ș
merupakan orientasi sinusoidal. Sebenarnya fungsi dasar gabor adalah Gaussian envelope yang dimodulasi dengan
frekuensi Ȧ0 dan orientasi ș.

Pada penelitian ini, fungsi Gabor wavelet yang digunakan didefinisikan sebagai :
)] sin cos ( exp[ .
2
exp
2
1
) , (
2 2
2
T T SD D
S
y x j
y x
y x h j j
 »
¼
º
«
¬
ª 

(5)
dimana
2
1
D , j = 0,1,2…dan >@ S T 2,0  . Pemilihan frekuensi j dan orientasi ș yang berbeda-beda akan membentuk
sebuah filter.

Dari rata-rata output konvolusi dari filter mask riil dan imajiner pada semua piksel yang dikonvolusikan, yang dihitung
sebagai :
2 2
ave ave I R Output  (6)

MESSAGE
FORMULATION LANGUAGE CODE
NEURO-
MUSCULAR
CONTROLS
VOCAL TRACT
SYSTEM
TRANSMISSION
CHANNEL
MESSAGE
UNDERSTANDING
LANGUAGE
TRANSLATION
NEURAL
TRANSDUCTION
BASILAR
MEMBRAN
MOTION
SPEECH GENERATION
SPEECH RECOGNITION
SEMANTICS PHONEMES, WORDS,
SENTENCES
FEATURE
EXTRACTION, CODING
SPECTRUM
ANALYSIS ACOUSTIC
WAVEFORM
TEXT PHONEMES, PROSODYARTICULATOR MOTIONS
DISCRETE INPUT
CONTINUOUS INPUT
ACOUSTIC
WAVEFORM
CONTINUOUS OUTPUT DISCRETE OUTPUT
INFORMATION RATE
50 bps200 bps 2000 bps 30.000 – 50.000 bps

Gambar 2.1. Proses Speech Generation dan Speech Recognition[11]

2.3 Backpropagation
2.3.1 Standar Backpropagation
JST dengan lapis tunggal memiliki kelemahan. Ini bisa ditanggulangi dengan menambahkan beberapa lapis tersembunyi
diantara masukan dan keluaran. Meskipun penggunaan lebih dari satu lapis tersembunyi memiliki kelebihan manfaat
untuk beberapa kasus, tapi pelatihannya memerlukan waktu yang lama. Maka umumnya orang memulai mencoba dengan
sebuah lapis tersembunyi lebih dahulu[12]
.

2.3.2 Arsitektur Backpropagation
Backpropagation memiliki beberapa unit yang ada dalam satu atau lebih lapis tersembunyi, seperti terlihat pada Gambar
2.2. Vij merupakan bobot garis dari unit masukan xi ke unit lapis tersembunyi zj (Vj0 merupakan bobot garis yang
menghubungkan bias di unit masukan ke unit lapis tersembunyi zj). Wkj merupakan bobot dari unit lapis tersembunyi zj
ke unit keluaran yk (Wk0 merupakan bobot dari bias di lapis tersembunyi ke unit keluaran zk). Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

122

Gambar 2.2. Arsitektur Backpropagation[12G

2.3.3 Pelatihan Standar Backpropagation
Pelatihan Backpropagation meliputi 3 fase. Fase yang pertama adalah fase maju. Fase kedua adalah fase mundur. Fase
ketiga adalah modifikasi bobot untuk menurunkan kesalahan yang terjadi.

Ketiga fase tersebut diulang–ulang hingga kondisi penghentian dipenuhi. Iterasi akan dihentikan jika jumlah iterasi yang
dilakukan sudah melebihi jumlah maksimum iterasi yang diterapkan, atau jika kesalahan yang terjadi sudah lebih kecil
dari batas toleransi yang diijinkan[12]
.

3. Perancangan Sistem
3.1 Rancangan Sistem
Sistem yang dirancang adalah sebuah sistem yang dapat mengenali suara masukan dengan berbagai macam jenis dan
variasi masukan suara sesuai dengan rumusan masalah.

Gambar 3.1 Flowchart Pengenalan Suara[13]

Pada Gambar 3.1. dapat dilihat bahwa pada sistem yang dirancang akan dapat mengenali suara setelah melalui beberapa
proses. Hal ini dapat dianalogikan saat kita pertama kali bertemu seseorang. Dalam kehidupan sehari-hari jika kita
bertemu orang tentunya akan lupa. Oleh karena itu perlu adanya proses mengingat. Proses ini yang dinamakan klasifikasi
dengan jaringan syaraf tiruan (JST).

3.2 Feature Extraction menggunakan Gabor
Seperti yang dijabarkan pada proses pengenalan suara, bahwa ekstraksi ciri menjadi suatu proses yang sangat penting
dalam speech recognition. Berikut flowchart sederhana dari ekstraksi ciri (feature extraction).

Gambar 3.2. Flowchart Ekstraksi Ciri Oleh Gabor

Dapat kita lihat dari Gambar 3.2., bahwa ekstraksi ciri menggunakan gabor transformation dan wavelet analysis. Dapat
dilihat bahwa sistem ekstraksi ciri oleh gabor-wavelet menghasilkan 2 (dua) buah keluaran[9]
, yaitu keluaran dari
magnitude dan keluaran dari fasa. Namun pada penelitian ini yang digunakan hanya keluaran dari magnitude saja.

Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

123

3.3 Pattern Comparison pada Backpropagation
Pelatihan pengenalan pola sangat penting dalam rancangan sistem ini. Karena proses ini menentukan apakah sistem dapat
mengklasifikasi suara masukan dengan baik atau tidak.

Gambar 3.3. Pengenalan Pola Oleh Backpropagation

Dari Gambar 3.3. dapat kita lihat bahwa pelatihan terdapat syarat yang digunakan dalam pelatihan ini yaitu :
1. Error target tercapai menandakan bahwa pelatihan sukses.
2. Error target tidak tercapai, iterasi < iterasi max pelatihan diulang
3. Jika pelatihan tidak menghasilkan hasil error = error target dan iterasi = iterasi max maka pelatihan tersebut
dihentikan.

3.4 Akuisisi Suara
Suara yang direkam adalah suara dalam format WAV dengan fs 8000Hz. Untuk mempermudahkan proses selanjutnya
dan menseragamkan format masukan, maka dilakukan pemotongan bagian-bagian suara yang dianggap tidak diperlukan.

3.5 Pemrosesan Awal
Pemrosesan awal (Preprocessing) memiliki tujuan untuk mengolah suara agar dapat diambil karakteristik atau cirinya
sehingga antara satu suara dengan suara yang lain tidak memiliki karakteristik atau ciri yang sama. Berikut tahap-tahap
dalam pemrosesan awal:

3.5.1 Filtering menggunakan Band Pass Filter
Sinyal suara masukan akan di-filter menggunakan Band Pass Filter (BPF). Tujuan dari mem-filter suara masukan adalah
untuk :
a. Melewatkan bagian sinyal suara pada band passnya saja.
b. Menghilangkan noise-noise pada masukan.
c. Membatasi besarnya amplitudo sinyal suara.

Gambar 3.4. Proses Filter Hasil Perancangan

3.5.2 Sampling Sinyal Suara
Sinyal suara setelah melalui proses filter, akan di sampling dengan syarat nyquist yaitu max 2 f fs t sehingga didapat
bentuk sinyal suara diskrit dan akan lebih mudah untuk diambil karakteristik cirinya. Pada proses sampling syarat nyquist
diambil max 2 f fs agar lebih mudah untuk menganalisa proses sampling tersebut. fmax yang diambil adalah fs awal
yaitu, sebesar 8 KHz.
Tujuan dari proses sampling ini adalah untuk :
d. mendapatkan sinyal diskrit sehingga dapat diketahui ciri yang akurat dari sinyal.
e. memudahkan untuk proses selanjutnya yaitu desimasi (pengurangan jumlah sampling).

Gambar 3.5. Sinyal Suara Diskrit

(a) Band Pass Filter (b) Sinyal suara filterSeminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

124

Terlihat pada Gambar 3.5 hasil sampling tidak terlalu terlihat karena jumlah sampling yang terlalu banyak, oleh karena
itu proses sampling harus didukung oleh proses selanjutnya yaitu desimasi.

3.5.3 Desimasi (Pengurangan sampel pada hasil sampling)
Setelah melakukan beberapa percobaan, ternyata dengan decimate n=10 kali sistem dapat mencapai tingkat keberhasilan
yang ingin dicapai dari perancangan awal sistem ini. Berikut gambar hasil sinyal suara setelah dilakukan decimate(1/10).

Gambar 3.6. sinyal suara decimate(1/10)

3.6 Ekstraksi Ciri dengan Filter 2D Gabor Wavelet
Pada Penelitian ini, fungsi 2D diambil parameter x dan y, dengan x didefinisikan sebagai frekuensi dan y didefinisikan
sebagai magnitude
[2]
. Fungsi 2D (x dan y) Gabor wavelet yang digunakan didefinisikan sebagai :
)] sin cos ( exp[ .
2
exp
2
1
) , (
2 2
2
T T SD D
S
y x j
y x
y x h j j
 »
¼
º
«
¬
ª 

(1)
dimana
2
1
D , j = 0,1,2…dan >@ S T 2,0  . Pemilihan frekuensi j dan orientasi ș yang berbeda-beda akan membentuk
sebuah filter sehingga menghasilkan 24 ciri (feature) dari sebuah tekstur
[6]
.

Tabel 3.1 Ekstraksi ciri
Andika 1
Columns 1 Columns 7 Columns 13 Columns 19
through 6 through 12 through 18 through 24
0.1033 0.2078 0.0926 0.1274
0.1403 0.2539 0.1152 0.2776
0.1304 0.0553 0.2139 0.122
0.2711 0.1036 0.2556 0.1746
0.0919 0.1341 0.123 0.1287
0.1179 0.1821 0.1398 0.2678

Dari Tabel 3.1 didapat 24 vektor. Ciri ini diharapkan merupakan ciri spesifik dari masing-masing suara yang diambil dan
dapat diwakili sepenuhnya.
) ,( Z W STFT

Gambar 3.7. Filter 2D Gabor Wavelet
[13]

Pada Gambar 3.7., dapat dilihat proses pembentukan filter 2D Gabor Wavelet dan proses ekstraksi ciri sinyal suara. Pada
penelitian ini, level frekuensi j yang digunakan adalah 2, 3, 4 dan 5 dan orientasi ș yang digunakan 30o
, 60o
, 90o
, 120o
,
150o
dan 180o
.

Gambar 3.8. Ekstraksi ciri Suara
Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

125

Gambar 3.8 adalah gambar ekstraksi ciri suara. Dapat dilihat bahwa sinyal suara setelah melalui proses ekstraksi ciri akan
menjadi grafik yang memetakan 24 ciri dari suara. Dapat dilihat bahwa ekstraksi ciri di atas sudah mempunyai pola,
sehingga pola suara yang satu dengan pola suara yang diharapkan berbeda.

3.7 Normalisasi dan Pengkodean Hasil Ekstraksi Ciri
Proses yang dilakukan hanya sebagai proses penyempurnaan hasil ekstraksi ciri, karena dirasa hasil dari ekstraksi ciri
masih sulit dikenali oleh sistem.
Normalisasi
Normalisasi menggunakan nilai maksimum dari deretan vektor ciri (v) sebagai penormalisasi.

Pengkodeaan
Pengkodean yang dilakukan adalah pengkodean sederhana dengan cara jika vektor ciri > 0.49 maka diinisialisasi sebagai
1 (satu), namun jika vektor ciri ” 0.49 maka akan diinisialisasi sebagai 0 (nol).

3.8 Klasifikasi dan identifikasi dengan JST
3.8.1 Proses Pembelajaran (Learning)
Algoritma jaringan BP digunakan untuk dua proses yang berbeda. Pertama adalah proses belajar (learning) JST untuk
mengklasifikasi suara latih. Tidak ada petunjuk yang baku mengenai penentuan jumlah suara latih. Suara latih yang
digunakan dalam penelitian ini berjumlah 5 untuk masing-masing orang, sehingga jumlah total adalah 25 suara latih.

Gambar 3.9. Arsitektur BP pelatihan
Pada Gambar 3.9. arsitektur BP untuk proses pelatihan dapat kita lihat bahwa sistem menggunakan 4 hidden layer
dengan jumlah node = 48. Parameter ini didapat dari percobaan.

3.8.2 Proses Pengujian (identification)
Kedua adalah proses pengenalan (recognition) untuk mengidentifikasi suara uji yang dimasukkan. Suara uji yang
digunakan berjumlah 5 untuk masing-masing orang, yang terdiri atas 5 sampel pola suara yang mewakili beberapa jenis
pola pengucapan.

Gambar 3.10. Arsitektur BP pengenalan

Pada Gambar 3.10. dapat kita lihat perbedaan kalau dibandingkan dengan pada proses decision rule yang ada. Sampai
tahap ini diperoleh suara masukan dikenali sebagai suara siapa.

3.9 Prosentase Keberhasilan Sistem (GSS)
GSS adalah Prosentase keberhasilan sistem (Grade Success System) dimana dari hasil dapat kita ketahui tingkat
keberhasilan sistem yang kita buat, hasil tersebut dapat dirumuskan sebagai berikut;
% 100
2
x
RRD RTD GSS

.
3.9.1 Result Training Data (RTD)
Result Training Data adalah hasil dari uji data yang telah dilatih sebelumnya. Dari sistem tersebut dapat dirumuskan hal-
hal sebagai berikut;
data Jumlah
Sukses
RTD
, atau
data Jumlah
gagal
RTD  1
dimana sukses adalah jumlah data masukan yang berhasil
dikenali, gagal adalah jumlah data masukan yang gagal dikenali, dan jumlah data adalah data keseluruhan yang diujikan.

Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

126

3.9.2 Result Random Data (RRD)
Result Random Data adalah hasil dari uji data yang sama sekali belum dikenali oleh sistem. Dari sistem tersebut dapat
dirumuskan sebagai berikut;
data Jumlah
Sukses
RRD
, atau
data Jumlah
gagal
RRD  1
dimana sukses adalah jumlah data masukan yang
berhasil dikenali, gagal adalah jumlah data masukan yang gagal dikenali, dan jumlah data adalah data keseluruhan yang
diujikan.

4. Analisa Hasil Simulasi
Urutan proses pengujian yang dilakukan pada penelitian ini, ditunjukkan pada Gambar 4.1 berikut :

Gambar 4.1 Diagram Blok Urutan Kerja Sistem[13]

Dapat kita lihat dengan jelas pada Gambar 4.1 mengenai blok urutan kerja sistem. Pada preprocessing terdapat 3 proses
yaitu filterisasi, sampling, dan desimasi. Proses ini diharapkan akan lebih menyempurnakan hasil masukan sehingga hasil
pada proses ekstraksi ciri akan lebih valid. Terdapat juga proses normalization. Proses ini ada karena hasil ekstraksi ciri
masih sulit untuk dilatihkan ke JST backpropagation. Dalam proses JST pun terdapat 2 jenis proses yaitu learning dan
identification sebagai indikasi suara masukan dapat dikenali.

4.1 Pengujian Identifikasi Sistem
Pengujian identifikasi backpropagation bertujuan untuk mengukur seberapa besar keberhasilan sistem yang dirancang.
Seperti pada awal perancangan sistem, bahwa keberhasilan sistem diinginkan adalah • 80%. Dari beberapa uji
identifikasi yang telah ditetapkan di awal perancangan apakah sistem dapat mencapai hasil yang diinginkan. Berikut
beberapa uji identifikasi yang menjadi syarat apakah dapat sistem mencapai target keberhasilan sistem yang ditetapkan
dari awal perancangan.

4.1.1 Pengujian Suara Uji Asli
Pengujian dengan suara latih ini merupakan pengujian pertama sistem yang telah dilatih. Pengujian ini adalah pengujian
yang dilakukan pada suara masukan yang telah dilatih sebelumnya, apakah sistem dapat mengenali dengan baik suara
yang telah dilatih tersebut dengan benar.

Dikenali Sebagai
No Input Uji
Andika Awis Mukhlis Khalis Sisca
Andika1 v
Andika2 v
Andika3 v
Andika4 v
1
Andika5 v
Awis 1 v
Awis 2 v
Awis 3 v
Awis 4 v
2
Awis 5 v
Mukhlis 1 v
Mukhlis 2 v
Mukhlis 3 v
Mukhlis 4 v
3
Mukhlis 5 v
Khalis 1 v
Khalis 2 v
Khalis 3 v
Khalis 4 v
4
Khalis 5 v
5 Sisca 1 v Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

127

Sisca 2 v
Sisca 3 v
Sisca 4 v
Sisca 5 v
Sukses = 23 sample 25

4.1.2 Pengujian Suara Uji Asli Kondisi Sakit (Flu)
Suara orang flu didapatkan dengan memfilter suara dengan BPF sehingga hasilnya suara tersebut mirip dengan suara
orang yang terkena flu.

dikenali sebagai
No Input uji
Andika Awis Mukhlis Khalis Sisca
Andika1 v
Andika2 v
Andika3 v
Andika4 v
1
Andika5 v
Awis 1 v
Awis 2 v
Awis 3 v
Awis 4 v
2
Awis 5 v
Mukhlis 1 v
Mukhlis 2 v
Mukhlis 3 v
Mukhlis 4 v
3
Mukhlis 5 v
Khalis 1 v
Khalis 2 v
Khalis 3 v
Khalis 4 v
4
Khalis 5 v
Sisca 1 v
Sisca 2 v
Sisca 3 v
Sisca 4 v
5
Sisca 5 v
Sukses = 19 sample 25

4.1.3 Pengujian Suara Uji Asli Dengan Amplitudo 2x Lebih Besar
Seperti yang kita tahu bahwa kondisi suara manusia besar kecilnya tidak dapat diukur secara indera, oleh karena itu untuk
pengujian dengan amplitudo 2x amplitudo asli digunakanlah manipulasi dengan mengalikan dua magnitude dari sinyal
suara masukan yang telah direkam.

Dikenali Sebagai
No Input uji
Andika Awis Mukhlis Khalis Sisca
Andika1 v
Andika2 v
Andika3 v
Andika4 v
1
Andika5 v
Awis 1 v
Awis 2 v
Awis 3 v
Awis 4 v
2
Awis 5 v
Mukhlis 1 v
Mukhlis 2 v
Mukhlis 3 v
Mukhlis 4 v
3
Mukhlis 5 v
Khalis 1 v
Khalis 2 v
Khalis 3 v
Khalis 4 v
4
Khalis 5 v Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

128

Sisca 1 v
Sisca 2 v
Sisca 3 v
Sisca 4 v
5
Sisca 5 v
Sukses = 21 sample 25
4.1.4 Pengujian Suara Uji Asli Dengan Frekuensi Sample 6 KHz
Pada perancangan awal, sistem dirancang menggunakan frekuensi sampling 8 KHz sedangkan untuk uji sistem
digunakan frekuensi sampling 6 KHz. Hal ini akan bermasalah pada saat proses filter karena filter yang dirancang adalah
filter yang digunakan untuk memfilter suara dengan frekuensi sampling 8KHz. Dari pengujian dengan BPF spek awal,
ternyata hasilnya sangat buruk. Dari 25 suara uji hanya 12 yang dapat dikenali dengan benar. Oleh karena itu spesifikasi
filter perlu disesuaikan dengan fs yang digunakan. Dari pengujian kinerja sistem dengan BPF dengan spek yang
disesuaikan, sistem dapat mengenali 23 suara masukan dari 25 suara masukan yang diujikan.

4.1.5 Pengujian Suara Uji Palsu
Pengujian suara palsu atau menirukan gaya, cara, dan kebiasaan pengucapan suara masukan yang telah dilatih. Pengujian
ini dilakukan dengan mengambil sample suara dari orang yang sebelumnya sama sekali belum dilatih. Tujuan pengujian
ini untuk menguji seberapa sensitif sistem terhadap pemalsuan suara, karena pada perancangan awal, sistem dirancang
harus kebal terhadap pemalsuan. Seperti yang kita ketahui menirukan suara orang sangat sulit. Oleh karena itu untuk
pengujian ini dilakukan manipulasi yaitu dengan menginisialisasi target pada JST sesuai dengan suara yang ingin
ditirukan, mungkin dirasa cara ini masih kurang dapat membuktikan seberapa sensitif sistem terhadap pemalsuan, namun
cara ini sekiranya sudah dapat mewakili.

4.1.6 Pengujian Identifikasi Suara Uji Yang Tidak Dilatih
Pengujian terakhir adalah pengujian suara uji yang tidak dilatih, dapatkah sistem mengenalinya sebagai suara orang yang
tidak dikenali dan membedakannya dengan suara masukan asli yang telah dilatih. Pada pengujian ini suara masukan yang
diuji adalah suara masukan random. Dari hasil pengujian yang dapat dilihat, bahwa sistem dapat mengenali suara uji
dengan benar sebanyak 52 dari 67 suara yang diujikan. Dari hasil tersebut ternyata kemampuan sistem masih dibawah
rata-rata.

4.2 Analisa Performansi Sistem
Analisa performansi sistem adalah merupakan parameter utama keberhasilan dari perancangan sistem yang diinginkan.
Tingkat keberhasilan sistem yang diinginkan mencapai 80% atau lebih, jadi jika sistem yang dirancang tidak dapat
mencapai target tersebut maka perancangan sistem dianggap gagal. Parameter tolak ukur tingkat keberhasilan sistem
telah dijelaskan pada bab sebelumnya. Parameter tersebut yaitu RTD, RRD, dan GSS.

4.2.1 RTD (Result Trainning Data) Hasil Uji Data Latih
RTD adalah parameter dimana hasil sukses dari identifikasi dimana suara uji adalah suara yang telah dilatih sebelumnya.
Pada proses pengujian RTD dilakukan sebanyak 4 kali pengujian, uji suara asli, uji suara asli kondisi sakit flu, uji suara
asli dengan amplitude dua kali dari amplitude awal, dan uji suara asli dengan frekuensi sampling yang berbeda (6KHz).
Pada pengujian pertama ternyata hasil RTD adalah 0.92, pengujian kedua ternyata hasil RTD adalah 0.76, pengujian
ketiga ternyata RTD yang didapat adalah 0.84, pengujian RTD yang terakhir ternyata hasil yang didapat adalah 0.92.
Dari hasil tersebut didapatlah RTD total yaitu rata-rata RTD pada setiap pengujian. Dari perhitungan rata-rata RTD pada
masing-masing pengujian didapatlah RTD total 0.86, ini berarti untuk pengujian RTD sistem dapat mencapai target yang
ditetapkan pada awal perancangan.

4.2.2 RRD (Result Random Data) Hasil Uji Data Random
RRD juga menjadi parameter yang menentukan tingkat keberhasilan sistem. Setelah hasil untuk data uji yang telah dilatih
didapat, maka tentunya sistem juga harus diuji dengan data random. Masih dapatkah sistem mengenali suara random
sebaik sistem mengenali suara latih. Hal tersebut juga harus dianalisa. Untuk pengujian data random sistem telah diuji
dengan dua pengujian yaitu pengujian pemalsuan suara dan pengujian suara orang yang jelas berbeda dengan suara yang
dilatih. Berdasarkan dari hasil pengujian data random untuk pemalsuan suara, didapatkan nilai RRD adalah 0.94 dan
pengujian kedua ternyata hasil RRD menurun, nilai RRD yang didapat adalah 0.78. Dari hasil tersebut, didapat RRD total
yaitu 0.86. Dengan hasil yang didapat untuk RRD ini ternyata sistem yang dirancang telah dapat mencapi target yang
diinginkan.

4.2.3 GSS (Grade Success System) Tingkat Keberhasilan Sistem
Pada bab tiga telah dijelaskan bahwa keberhasilan sistem dihitung dari GSS dengan rumus
% 100
2
x
RRD RTD GSS

, karena nilai RTD dan RRD telah didapatkan maka tingkat keberhasilan sistem dapat
dihitung. Berdasarkan dari perhitungan menggunakan rumus di atas, didapatlah GSS = 86%, dari hasil tersebut ternyata Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 SNSI07-022

129

sistem yang dirancang telah mencapai target keberhasilan sistem pada awal perancangan. Dari hasil tersebut dapat
disimpulkan perancangan untuk sistem pada penelitian ini berhasil.

4.2.4 Kecepatan Sistem
Seperti yang kita ketahui bahwa setiap sistem diharapkan real time agar dapat digunakan untuk aplikasi pada dunia
telekomunikasi. Namun ternyata sistem ini tidak dapat mencapai real time. Hal ini disebabkan karena prosea pelatihan
pada JST yang terlalu lama.

Dan hasil kecepatan sistem, ternyata waktu paling banyak diperlukan oleh proses pelatihan. Hal ini disebabkan oleh
banyaknya pola suara masukan yang dilatih dan kelemahan dari hardware yang digunakan. Namun dibalik itu semua
hasil sistem dapat dikatakan real time, untuk proses identifikasi saja.

5. Kesimpulan dan Saran
5.1 Kesimpulan
Dari hasil analisa pengujian sistem pengenalan suara menggunakan Gabor-wavelet dan jaringan saraf tiruan
Backpropagation, untuk sistem keamanan berbasis suara ini, maka dapat diambil kesimpulan sebagai berikut :
1. Tingkat keberhasilan sistem pengenalan suara yang dirancang adalah sekitar 75% – 90%. Karena hasil tingkat
keberhasilan sistem didapat dari rata-rata keseluruhan kinerja sistem didapatlah tingkat keberhasilan sistem untuk
mengenali suara dengan benar adalah 85,8%.
2. Dari hasil percobaan didapat Parameter orde (N) 10, parameter desimasi(n) = 10, parameter jumlah ekstraksi ciri
yang dihasilkan = 24, nilai treshold = 0.49, jumlah hidden layer = 4, eror target = 0.001, jumlah node pada hidden
layer = 48, dan nilai learning rate = 0.02.
3. Dari hasil analisa sistem ini masih belum dapat bekerja real time. Waktu rata-rata yang diperlukan adalah 300
detik tiap proses. Dengan lama rentan waktu 0.01 detik hingga 2000 detik.

5.2 Saran
Pengembangan yang dapat dilakukan pada penelitian ini antara lain:
1. Penggunaan metode gabor-wavelet sebagai ekstraksi ciri mungkin dapat diganti dengan metode yang lain seperti
LPC, keluarga wavelet yang lain, atau metode-metode transformasi dan filter yang lain.
2. Mengganti model JST agar hasil menjadi lebih baik. JST yang mungkin dapat digunakan antara lain; genetic
algorithm (GA), kohonen, dan adaptive resonance theory (ART).
3. Karena sistem ini belum dapat dikatakan real time, untuk pengembangannya sistem ini dapat dibuat real time.

Daftar Pustaka
[1] Adipranata, R dan Resmana. Pengenalan Suara Manusia dengan Metode LPC dan Jaringan Syaraf Tiruan
Propagasi Balik. Jurnal Prosiding Seminar Nasional I Kecerdasan Komputasional Universitas Indonesia.
Universitas Kristen Petra. 1999.
[2] Burrus, C.S., dkk. Introduction to Wavelets and Wavelets Transforms A primer. international edition, Prentice
Hall, Houston, Texas.
[3] Desiani, A dan Muhammad A. Konsep Keceradasan Buatan. ANDI Yogyakarta, Yogyakarta, 2006.
[4] George, B, dkk. Speech Coding and Phoneme Classification Using MATLAB and NeuralWorks. Departement of
Electrical Engineering.
[5] Hermawan, A. Jaringan Syaraf tiruan Teori dan Aplikasi. ANDI yogyakarta, Yogyakarta, 2006.
[6] Lee, D and Akio Y, Wavelet Analysis: Theory and Applications. Hewlett Packard journal, 1994.
[7] Lee, T.S. Image Representation using Gabor wavelets. IEEE Transactions On Pattern Analysis and Machine
Intelligence, vol. 18, no. 10, 1996.
[8] Neilsen, F. Neural Networks – algorithms and applications. Niels Brock Business College, 2001.
[9] Polikar, Robi. The Wavelet Tutorial. Departement of Electrical and Computer Engineering, Rowan University.
1995.
[10] Puspitaningrum, D. Pengantar Jaringan Syaraf Tiruan. ANDI Yogyakarta, Yogyakarta, 2006.
[11] Rabiner, lawrence, dkk. Fundamentals Of Speech Recoqnition, Prentice hall, Englewood Cliffs, New Jersey.
[12] Siang, J.J., Jaringan Saraf Tiruan dan Pemogramannya Menggunakan Matlab, ANDI Yogyakarta, Yogyakarta,
2005.
[13] Triantoro, A.K. Identifikasi Tanda Tangan Menggunakan Filter 2D Gabor-wavelet dan Jaringan syaraf tiruan
Adaptive Resonance Theory (ART). Bandung, 2006.

Single Post Navigation

Tinggalkan Balasan

Please log in using one of these methods to post your comment:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google+

You are commenting using your Google+ account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s

%d blogger menyukai ini: