Speech recognition
Speech recognition adalah proses menangkap kata yang
diucapkan melalui mikropon atau telepon dan mengubahnya ke dalam kata-kata yang
tersimpan secara digital. Kualitas dari sistem speech recognition ditaksir dari
dua faktor, yaitu akurasi (tingkat kesalahan dalam mengubah kata yang diucapkan
ke dalam data digital) dan kecepatan(seberapa cepat software tersebut dapat
mengikuti pembicaraan manusia).
Cara kerja
1. Tahap
penerimaan masukan : Masukan berupa kata-kata yang diucapkan lewat pengeras
suara.
2. Tahap ekstraksi : Tahap ini adalah tahap
penyimpanaan masukan yang berupa suara sekaligus pembuatan basis data sebagai
pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi
atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah
sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang
tidak diketahui. Tantangan dalam model statistik ini adalah menentukan
parameter-parameter tersembunyi dari parameter yang dapat diamati.
Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis
yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM,
proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat
dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter
dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat
pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun
nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan pemodelan
terhadap sinyal secara benar, dapat dilakukan simulasi terhadap masukan dan
pelatihan sebanyak mungkin melalui proses simulasi tersebut sehingga model
dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem
identifikasi. Secara garis besar model sinyal dapat dikategorikan menjadi dua
golongan, yaitu: model deterministik dan model statistikal. Model deterministik
menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo,
frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan
nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses
Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM secara
umum memiliki unsur-unsur sebagai berikut:
· N,
yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung
satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain,
serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak
mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke
diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada
implementasi dari model.
· M,
yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya:
karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
·
Probabilita Perpindahan Bagian { } = ij A a
·
Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
·
Inisial Distribusi Bagian i p p . Dengan memberikan nilai pada N, M, A,
B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan
observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T
adalah jumlah observasi dalam suatu sequence.
·
Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat
diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :
·
Tahap ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan
sinyal suara analog ke digital
·
Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang
berupa sampel ucapan sebuah kata yang sudah berupa data digital
·
Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat
merepresentasikan sinyal suara untuk analisis lebih lanjut.
3. Tahap
pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara
(pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi
sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu
berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat
dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya
ialah proses kalkulasi yang dibagi menjadi dua bagian :
·
Transformasi gelombang diskrit menjadi data yang terurut : Gelombang
diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada
proses konversi dengan cara pembagian rincian waktu
·
Menghitung frekuensi pada tiap elemen data yang terurut
· Selanjutnya
tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan
biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara
dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan
ataupun perintah pada perangkat.
4. Tahap
validasi identitas pengguna: Alat pengenal ucapan yang sudah memiliki sistem
verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara
berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi
tulisan atau komando.
Referensi:
Komentar
Posting Komentar