期刊名称:Journal of Information Science Theory and Practice
印刷版ISSN:2287-4577
出版年度:2011
卷号:42
期号:2
页码:193-210
出版社:Korea Institute of Science and Technology Information
摘要:이 연구는 단어 중의성 해소를 위해 SVM 분류기가 최적의 성능을 가져오는 문맥창의 크기와 다양한 가중치 방법을 파악하고자 하였다. 실험집단으로 한글 신문기사를 적용하였다. 문맥창의 크기로 지역 문맥은 좌우 3단어, 한 문장, 그리고 좌우 50바이트 크기를 사용하였으며, 전역문맥으로 신문기사 전체를 대상으로 하였다. 가중치 부여 기법으로는 단순빈도인 이진 단어빈도와 단순 단어빈도를, 정규화 빈도로 단순 또는 로그를 취한 단어빈도 × 역문헌빈도를 사용하였다. 실험 결과 문맥창의 크기는 좌우 50바이트가 가장 좋은 성능을 보였으며, 가중치 부여 방법은 이진 단어빈도가 가장 좋은 성능을 보였다.
其他摘要:The study was applied to context window sizes and weighting method to obtain the best performance of word sense disambiguation using support vector machine. The context window sizes were used to a 3-word, sentence, 50-bytes, and document window around the targeted word. The weighting methods were used to Binary, Term Frequency(TF), TF × Inverse Document Frequency(IDF), and Log TF × IDF. As a result, the performance of 50-bytes in the context window size was best. The Binary weighting method showed the best performance.
关键词:Word Sense Disambiguation;SVM;Semantic Classification;Context Window Sizes;Weighting Methods