出版社:Lembaga Penelitian dan Pengabdian kepada Masyarakat
摘要:Perkembangan bidang deep learning membawa pengaruh besar terhadap kemajuan teknologi. Pengucapan kata secara verbal dapat dibaca dengan pembelajaran mandiri melalui gerakan bibir. Dengan menggunakan arsitektur ekstraksi fitur dari suatu citra dan menggabungkannya dengan arsitektur klasifikasi secara sequence, permasalahan visual speech recognition ini dapat menjadi langkah awal untuk membantu para penyandang tuna rungu, yang dominan memahami komunikasi dari gerakan bibir lawan bicara ataupun dengan menggunakan bahasa isyarat. Selain itu, manfaat dari implementasi sistem ini dapat membantu lawan bicara dalam memahami pembicaraan pada kondisi audio yang terdistorsi. Arsitektur deep learning yang digunakan pada eksperimen ini mengacu pada implementasi dengan menggunakan arsitektur convolution residual network dan recurrent neural network, yang dapat mengklasifikasikan data berelasi secara sequence atau memiliki relasi secara strukturnya dari waktu ke waktu, untuk kasus ini berupa citra dari frame ke frame. Data yang digunakan untuk pembelajaran model berasal dari dataset Lip Reading in the Wild (LRW) yang merupakan potongan video dari pembicara stasiun berita BBC, dengan jumlah data sebanyak 500 kata dan mencapai 1000 data latih video yang berbeda-beda dalam bahasa Inggris.
关键词:Convolutional Neural Network;Pembacaan Gerakan Bibir;Recurrent Neural Network;Visual-Speech Recognition