首页    期刊浏览 2024年09月29日 星期日
登录注册

文章基本信息

  • 标题:A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
  • 本地全文:下载
  • 作者:Nguyen Minh Hiep ; Nguyen Thi Minh Huyen ; Ngo The Quyen
  • 期刊名称:Tạp chí Khoa học Đại học Đà Lạt
  • 印刷版ISSN:0866-787X
  • 出版年度:2016
  • 卷号:6
  • 期号:2
  • 页码:207-218
  • 语种:English
  • 出版社:Dalat University
  • 摘要:In natural language processing,part-of-speech (POS) tagging plays an important role,as its output is the input of many other tasks (syntax analysis,semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learning methods. This paper presents an application of the DBSCAN clustering algorithm to classify Vietnamese words from a large corpus. The features used to characterize each word are naturally defined by the context of that word in a sentence. We use a large corpus containing sentences automatically extracted from the online Nhan Dan newspaper..
  • 其他摘要:Trong xử lý ngôn ngữ tự nhiên,gán nhãn từ loại (POS tagging) đóng một vai trò quan trọng,là đầu ra,đầu vào của nhiều nhiệm vụ khác (phân tích cú pháp,phân tích ngữ nghĩa..). Một trong những vấn đề liên quan đến việc gán nhãn từ loại là xác định tập từ lo
  • 关键词:Clustering;Corpus;DBSCAN;POS;POS tagging;Tag set
  • 其他关键词:Corpus;DBSCAN;Gán nhãn từ loại;Phân cụm;Từ loại;Tập từ loại.
国家哲学社会科学文献中心版权所有