Jakarta (ANTARA) - Perusahaan teknologi Jepang Toshiba telah mengembangkan Instant Voice-to-Text, yang dengan cerdas mengubah informasi atau percakapan suara menjadi tulisan (teks), sehingga mempermudah pekerjaan kantor dan membantu orang-orang dengan gangguan pendengaran atau tuna rungu.

Instant Voice-to-Text Toshiba dikembangkan dengan menyertakan kecerdasan buatan (AI) sehingga menghasilkan pengubahan informasi suara menjadi teks dengan tingkat akurasi tinggi dan seketika (real time).

Ketika Toshiba mewawancarai orang-orang dengan gangguan pendengaran di Universal Design (UD) Advisor System diketahui bahwa mereka ingin berpartisipasi dalam rapat dan kuliah secara real time dan tidak hanya membaca transkrip yang disediakan kemudian.

"Jadi kami mencoba menyediakan fungsi yang secara otomatis akan menampilkan subtitle yang mudah dibaca secara real time. Untuk membantu para tuna rungu dalam mengumpulkan dan memberikan informasi, kita perlu melakukan dua hal: memperluas aksesibilitas informasi bagi para tuna rungu, dan meningkatkan produktivitas," kata Kepala Riset Laboratorium Media AI, Pusat R&D, Toshiba, Taira Ashikawa.

Saat seseorang mendeskripsikan pidato dari percakapan orang selama rapat dan kuliah, ia sering mendapati teks hasil transkrip yang sulit dibaca.

Belum lagi ada banyak muatan yang tidak perlu dan mengganggu seperti kata-kata "Uh" dan "Umm" dan ekspresi setuju yang tidak menambahkan apa pun pada konten.

Pengenalan ucapan yang dikembangkan dengan AI Toshiba mampu mengenali ucapan dengan akurasi tinggi dan mendeteksi penanda keraguan (seperti kata 'umm' dan lainnya) juga.

"Tujuan utama kami adalah memberi pengguna sesuatu yang bisa mereka gunakan dengan nyaman," kata Hiroshi Fujimura, peneliti utama Laboratorium Media AI Toshiba, dikutip dari siaran pers, Minggu.

Sampai sekarang, pengenalan suara telah bekerja dengan menganalisis pola gelombang suara dan menguraikan dengan mengidentifikasi bahwa bagian ini adalah "a", bagian lain adalah "i" dan seterusnya.

Namun, pengisi dan penanda keraguan memiliki beragam pola yang tidak ada habisnya, dan perlu waktu lama untuk mempelajarinya satu per satu.

Toshiba menggunakan LSTM (Memori Jangka Pendek-Panjang) untuk menangkap informasi, termasuk ketika seseorang ragu-ragu akan sebuah kata, sebagai model statistik dan kemudian menggunakan pembelajaran CTC (Connectionist Temporal Classification) untuk membuat AI mempelajarinya sebagai sebuah model.

Melalui itu, AI menjadi mampu mendeteksi semua informasi dari pembicara dengan baik. Namun, untuk memudahkan pengguna, Instant Voice-to-Text Toshiba tetap menampilkan ungkapan tidak perlu pembicara (seperti "Umm" dll) tapi disamarkan.

AI pengenalan ucapan Toshiba untuk saat ini dapat mengenali ucapan dalam bahasa Jepang, Inggris, dan China.

"Kami berusaha untuk mengembangkan lingkungan di mana penutur berbagai bahasa akan dapat menikmati percakapan yang lancar satu sama lain," jelas Fujimura.

"Jadi kami memutuskan untuk meninggalkan pengisi dan penanda ragu-ragu di subtitle tetapi ditampilkan dengan samar untuk membuat teks lebih mudah dibaca. Namun, ketika kami merekamnya sebagai dokumen transkrip, kami menghapus penanda ragu. Dengan begitu, kita mendapatkan dokumen yang singkat dan ringkas," Ashikawa menambahkan.

Toshiba mengharapkan Instant Voice-to-Text yang dikembangkan tidak hanya digunakan dalam rapat kantor, pertemuan bisnis, dan konferensi, tapi juga di lingkungan manufaktur saat pemeliharaan dan inspeksi pabrik.



Baca juga: Toshiba kembangkan prosesor mobil swakemudi hemat daya

Baca juga: Toshiba bangun sistem energi bebas CO2 untuk Indonesia

Baca juga: Perangkat pemandu pengguna lift Toshiba Floornavi menangi iF Award