Independent Individual: Speech Recognition pada Bidang Medis

Sejarah Pengenalan Ucapan

Pengenalan ucapan atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Teknologi komunikasi

- Sender

- receiver

serial Peripheral Interface (SPI) merupakan salah satu mode komunikasi serial syncrhronous kecepatan tinggi yang dimiliki oleh ATmega8535. Universal Syncrhronous and Asyncrhronous Serial Receiver and Transmitter (USART) juga merupakan salah satu mode komunikasi serial yang dimiliki oleh ATmega8535. USART merupakan komunikasi yang memiliki fleksibilitas tinggi, yang dapat digunakan untuk melakukan transfer data baik antar mikrokontroler maupun dengan modul-modul eksternal termasuk PC yang memiliki fitur UART.

Komponen utama di dalam SAPI 5 adalah sebagai berikut :

a. Voice Command, sebuah obyek level tinggi untuk perintah dan kontrol menggunakan pengenalan suara.

b. Voice Dictation, sebuah obyek level tinggi untuk continous dictation speech recognition.

c. Voice Talk, sebuah obyek level tinggi untuk speech synthesis.

d. Voice Telephony, sebuah obyek untuk menulis aplikasi telepon berbasiskan pengenalan suara.8

e. Direct Speech Recognition, sebuah obyek sebagai mesin untuk mengontrol pengenalan suara (direct control of recognition engine)

f. Direct Text to Speech, sebuah obyek sebagai mesin yang mengontrol synthesis.

g. Audio Object, untuk membaca dari audio device atau sebuah file audio Op.

· Implementasi Algoritma yang digunakan

Pada pengembangannya maka alat speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW). DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yangmenghasilkan alat speech recognizer. DTW sering digunakan dalam area:handwriting and online signature matching, sign language recognition and gestures recognition, data mining and time series clustering, computer vision and computer animation, surveillance, protein sequence alignment and chemical engineering, dan music and signal processing.

Dan pada makalah kali ini hanya akan membahas implementasi algoritma DTW pada speech recognition.

· Nama algoritma

Dynamic waktu warping (DTW) berbasis speech recognition Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang. Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentuKata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebut Input langsung suara).

· Cara kerja

Dynamic waktu warping (DTW) berbasis speech recognition Artikel utama: Dynamic warping waktu Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.

Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.

Jadi, kesimpulannya adalah sebuah system yang dapat menyimpan suara dengan merekamnya dan kita dapat mendengarkannya kembali. Ini bisa juga digunakan pada telepon selular bila telepon selular yang kita pakai tidak aktif maka otomatis jika ada telepon masuk maka suara rekaman kita akan terdengar yang menyampikan tolong tinggalkan pesan anda.tinggalkan pesan anda.

sumber : dari berbagai sumber

Independent Individual

Selasa, 08 November 2011

Speech Recognition pada Bidang Medis

Tidak ada komentar:

Posting Komentar