Sejarah Pengenalan Ucapan
Pengenalan ucapan atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer
untuk menerima masukan berupa kata yang diucapkan. Teknologi ini
memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang
diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital
tersebut dengan suatu pola tertentu yang tersimpan dalam suatu
perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal
digital dengan cara mengubah gelombang suara
menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode
tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari
identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan
atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk
melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.
Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan
sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat
mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya
bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam
penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari
peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung
pada pengeras suara.
Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang
dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam
penyampaiannya tidak terdapat jeda antar kata.
Pengenalan
ucapan dalam perkembangan teknologinya merupakan bagian dari
pengenalan suara (proses identifikasi seseorang berdasarkan suaranya).
Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pengguna
(identifikasi suara berdasarkan orang yang berbicara) dan pengenalan
ucapan (identifikasi suara berdasarkan kata yang diucapkan).
Teknologi komunikasi
- Sender
- receiver
serial
Peripheral Interface (SPI) merupakan salah satu mode komunikasi serial
syncrhronous kecepatan tinggi yang dimiliki oleh ATmega8535. Universal
Syncrhronous and Asyncrhronous Serial Receiver and Transmitter (USART)
juga merupakan salah satu mode komunikasi serial yang dimiliki oleh
ATmega8535. USART merupakan komunikasi yang memiliki fleksibilitas
tinggi, yang dapat digunakan untuk melakukan transfer data baik antar
mikrokontroler maupun dengan modul-modul eksternal termasuk PC yang
memiliki fitur UART.
Komponen utama di dalam SAPI 5 adalah sebagai berikut :
a. Voice Command, sebuah obyek level tinggi untuk perintah dan kontrol menggunakan pengenalan suara.
b. Voice Dictation, sebuah obyek level tinggi untuk continous dictation speech recognition.
c. Voice Talk, sebuah obyek level tinggi untuk speech synthesis.
d. Voice Telephony, sebuah obyek untuk menulis aplikasi telepon berbasiskan pengenalan suara.8
e.
Direct Speech Recognition, sebuah obyek sebagai mesin untuk mengontrol
pengenalan suara (direct control of recognition engine)
f. Direct Text to Speech, sebuah obyek sebagai mesin yang mengontrol synthesis.
g. Audio Object, untuk membaca dari audio device atau sebuah file audio Op.
· Implementasi Algoritma yang digunakan
Pada pengembangannya maka alat speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW). DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yangmenghasilkan alat speech recognizer. DTW sering digunakan dalam area:handwriting and online signature matching, sign language recognition and gestures recognition, data mining and time series clustering, computer vision and computer animation, surveillance, protein sequence alignment and chemical engineering, dan music and signal processing.
Dan pada makalah kali ini hanya akan membahas implementasi algoritma DTW pada speech recognition.
· Nama algoritma
Dynamic
waktu warping (DTW) berbasis speech recognition Pengenalan pembicaraan
adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat
mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem
call center yang dapat mengenali suara sewenang-wenang. Aplikasi
pengenalan pembicaraan termasuk user interface seperti suara panggilan
suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin
membuat collect call"), kontrol alat domotic, pencarian (misalnya,
menemukan podcast di mana tertentuKata-kata itu diucapkan), sederhana
entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen
terstruktur (misalnya, sebuah laporan radiologi), pengolahan
pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara
(biasanya disebut Input langsung suara).
· Cara kerja
Dynamic
waktu warping (DTW) berbasis speech recognition Artikel utama: Dynamic
warping waktu Dynamic waktu warping adalah suatu pendekatan yang
secara historis digunakan untuk pengenalan suara tapi kini sebagian
besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil.
Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan
antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan.
Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika
dalam satu video orang itu berjalan perlahan-lahan dan jika di lain
mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan
deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio,
dan grafik - memang, setiap data yang dapat berubah menjadi
representasi linier dapat dianalisis dengan DTW.
Sebuah
aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi
dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode
yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara
dua sekuens diberikan (misalnya time series) dengan pembatasan
tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu
sama lain. Metode sequence alignment yang sering digunakan dalam konteks
model Markov tersembunyi.
Jadi,
kesimpulannya adalah sebuah system yang dapat menyimpan suara dengan
merekamnya dan kita dapat mendengarkannya kembali. Ini bisa juga
digunakan pada telepon selular bila telepon selular yang kita pakai
tidak aktif maka otomatis jika ada telepon masuk maka suara rekaman kita
akan terdengar yang menyampikan tolong tinggalkan pesan anda.tinggalkan
pesan anda.
sumber : dari berbagai sumber