Sabtu, 06 November 2010

Speech Recognition

Speech Recognition adalah proses konversi sinyal akustik, ditangkap oleh mikrofon atau telepon, untuk satu set kata-kata. Kata-kata yang ditangkap dapat menjadi hasil akhir, seperti untuk aplikasi perintah & kontrol, entri data, dan persiapan dokumen. Mereka juga dapat berfungsi sebagai masukan untuk proses linguistik lebih lanjut dalam mencapai pemahaman pidato, subjek tertutup di bagian. Sistem speech recognition dapat dicirikan dengan banyak parameter. Pidato terisolasi-kata sistem pengenalan mengharuskan jeda sebentar pembicara antara kata-kata, sedangkan sistem pengenalan ucapan berkelanjutan tidak. Spontan, atau extemporaneously dihasilkan, pidato berisi disfluencies, dan jauh lebih sulit untuk mengenali dari pidato membaca dari naskah. Beberapa sistem membutuhkan partisipasi speaker, pengguna harus memberikan contoh pidato nya sebelum menggunakanya, padahal sistem lain dikatakan menjadi pembicara-independen. Beberapa parameter lain tergantung pada tugas tertentu. Pengakuan umumnya lebih sulit ketika kosakata yang besar atau memiliki banyak kata yang terdengar serupa. Saat pidato diproduksi di urutan kata-kata, model bahasa atau tata bahasa buatan yang digunakan untuk membatasi kombinasi kata-kata.
Model bahasa sederhana dapat dispesifikasikan sebagai jaringan terbatas, di mana kata-kata diperbolehkan setiap kata yang diberikan secara eksplisit. Model bahasa yang lebih umum kurang lebih bahasa alami ditentukan dalam hal tata bahasa konteks-sensitif.
Salah satu kesulitanya, menggabungkan ukuran kosakata dan model bahasa yang didefinisikan sebagai rata-rata geometris dari jumlah kata yang dapat mengikuti kata setelah model bahasa telah diterapkan. Akhirnya, ada beberapa parameter eksternal yang dapat mempengaruhi kinerja Sistem pengenalan ucapan, termasuk karakteristik kebisingan lingkungan penempatan mikrofon.
Speech Recognition adalah masalah sulit, terutama karena banyak sumber variabilitas yang berhubungan dengan sinyal. Pertama, realisasi akustik fonem, satuan terkecil suara kata-kata yang tersusun, sangat tergantung pada konteks di mana mereka muncul. Kedua, keragaman akustik dapat disebabkan oleh perubahan lingkungan serta dalam posisi dan karakteristik transduser. Ketiga, keragaman dalam speaker dari perubahan dipembicara fisik dan emosional, kecepatan berbicara, atau kualitas suara. Akhirnya, perbedaan latar belakang sosiolinguistik, dialek, dan ukuran saluran vokal dan bentuk dapat berkontribusi pada keragaman di-speaker.

Sinyal digital pidato pertama-tama berubah menjadi seperangkat pengukuran yang berguna atau fitur pada tingkat tetap, biasanya setiap 10 - 20 msec. Pengukuran ini kemudian digunakan untuk mencari kandidat kata yang paling mungkin, memanfaatkan kendala yang dikenakan oleh model akustik, leksikal, dan bahasa. Sepanjang proses ini, data digunakan untuk menentukan nilai dari parameter model.
Sistem speech recognition mencoba model sumber variabilitas yang telah dijelaskan dalam beberapa cara. Pada tingkat representasi sinyal, peneliti telah mengembangkan representasi yang menekankan perseptual fitur speaker-independen penting dari sinyal dan menekankan speaker-karakteristik [Her90]. Pada tingkat fonetik akustik, variabilitas pembicara biasanya dimodelkan menggunakan teknik statistik digunakan untuk data dalam jumlah besar. Algoritma adaptasi Speaker juga telah dikembangkan model akustik speaker-independen. Pengaruh konteks linguistik pada tingkat fonetik akustik biasanya ditangani dengan pelatihan model terpisah untuk fonem dalam konteks yang berbeda, ini adalah konteks pemodelan yang disebut akustik tergantung.
Word variabilitas tingkat dapat ditangani dengan memungkinkan pengucapan alternatif kata dalam representasi dikenal sebagai jaringan pengucapan. Alternatif pengucapan kata-kata umum, serta efek dari dialek dan aksen ditangani dengan memungkinkan algoritma pencarian untuk mencari jalan alternatif dari fonem melalui jaringan ini. model bahasa statistik, berdasarkan perkiraan frekuensi terjadinya urutan kata, sering digunakan untuk panduan pencarian melalui urutan paling mungkin kata-kata.
Pengakuan paradigma dominan dalam lima belas tahun terakhir ini dikenal sebagai model Markov tersembunyi (HMM). Sebuah HMM adalah model stokastik ganda, di mana generasi dari string fonem yang mendasari dan frame-by frame, permukaan realisasi akustik keduanya diwakili probalistik sebagai proses Markov. Sebuah fitur yang menarik dari sistem HMM berbasis frame adalah segmen pidato yang diidentifikasi selama proses pencarian, bukan secara eksplisit. Sebuah pendekatan alternatif untuk mengidentifikasi segmen pidato, maka mengklasifikasikan segmen dan menggunakan skor segmen mengenali kata-kata. Pendekatan ini telah menghasilkan kinerja pengakuan kompetitif dalam beberapa tugas [ZGPS90, FBC95].

Sumber : http://cslu.cse.ogi.edu/HLTsurvey/ch1node4.html

Tidak ada komentar:

Posting Komentar