出版社:Indonesia Association of Computational Linguistics (INACL)
摘要:Berkembangnya teknologi berdampak terhadap terus bertambahnya jumlah informasi sehingga menimbulkan kondisi yang dikenal sebagai information overload. Hal ini mengakibatkan sulitnya mendapatkan informasi secara efisien. Salah satu solusi untuk permasalahan tersebut adalah dengan mempersingkat atau meringkas informasi sehingga waktu yang diperlukan untuk mengetahui informasi menjadi lebih sedikit. Peringkasan informasi (teks) dapat dilakukan menggunakan Long-short term memory (LSTM) ataupun rules-based. LSTM adalah salah satu jenis arsitektur RNN yang mampu mempelajari ketergantungan jangka panjang. Sedangkan Rules-Based adalah metode untuk memecahkan masalah dengan aturan yang dibuat berdasarkan pengetahuan. Terbatasnya dataset untuk peringkasan teks Bahasa Indonesia mengakibatkan sulitnya mengetahui apakah metode yang mendapatkan nilai rouge besar dalam teks Bahasa Inggris dapat digunakan untuk Bahasa Indonesia. Penelitian ini dilakukan untuk membandingkan peringkasan kalimat Bahasa Indonesia dengan menggunakan LSTM dan Rules-based. Selain itu penelitian ini juga bertujuan untuk menghasilkan dataset peringkasan kalimat. Hasil yang diperoleh dari peringkasan kalimat menggunakan Long-short Term Memory mendapatkan nilai Rouge-1 sebesar 14.44. Sedangkan peringkasan menggunakan rules-based mendapatkan nilai Rouge-1 sebesar 49.71 Dataset yang dihasilkan terdiri dari 1200 kalimat Bahasa Indonesia beserta ringkasannya.
其他摘要:The development of technology has an impact on increasing the amount of information released the difficulty of getting information efficiently. This was strengthened by the online media Kapanlagi who claimed to make about 500 news articles per day. Therefore, this study is expected to be able to produce more and provide information in a shorter form so that it requires less time to understand information contained. This study is focused on sentences compression using Deep Reinfoced Model and Rules-Based. Deep Reinforced Model implements the Encoder Decoder algorithm and Long Short Term Memory while Rules-Based is a method for solving problems with rules that are based on knowledge. The data used in this study amounted to 1200 sentences with 3300 tokens. The results obtained from this study are sentence compression using Rules-Based method is produce a better summary seen from the value of Rouge, Rouge-1 of 49.71, Rouge-2 of 33.27, and Rouge-L of 54.33 than the summary produced by Deep Reinfoced Model with a value of Rouge-1 of 14.44, Rouge-2 of 2.82, and Rouge-L of 18.23. In addition, this study also produced a sentences compression dataset that can be used for further study.
关键词:peringkasan kalimat;long-short term memory;rules-based;dependency parser;Rouge