文章基本信息
- 标题:単語の分散表現を用いた論文抄録データからの科学技術用語シソーラス拡充手法の提案
- 本地全文:下载
- 作者:川村 隆浩 ; 古崎 晃司 ; 櫛田 達矢 等
- 期刊名称:情報知識学会誌
- 印刷版ISSN:0917-1436
- 电子版ISSN:1881-7661
- 出版年度:2016
- 卷号:26
- 期号:2
- 页码:102-109
- DOI:10.2964/jsik_2016_006
- 出版社:Japan Society of Information and Knowledge
- 摘要:近年,科学計量学等での活用を目的にさまざまな科学技術用語シソーラスの構築が進められている.しかし,人手での整備には多大なコストと時間を必要とするため,自動,半自動的な構築・改訂手法の研究が盛んに行われている.そこで本論では,人手で十分に整備された情報がない新興・先端学術分野においても適用できるよう,文献抄録に書かれた自然文を入力としたシソーラス拡充手法を提案する.具体的には,近年,進展が目覚ましい単語の分散表現を活用し,新語を既存シソーラス階層内に適切に位置づける手法を検討する.実験では,医療系論文56.7万編から500次元の単語ベクトルを構築した上で,主成分分析による次元削減とクラスタリングを行った上で,既存シソーラス用語と新語との空間的な位置関係から意味的な関係性を推定した.そして,専門の作業者3名による結果と比較し,3-Bestで再現率80%以上であることを確認した.今後は,作業者への新語追加位置推薦システムを構築することでシソーラス拡充手法の半自動化を図っていきたい.
- 关键词:セマンティックWeb;シソーラス;単語ベクトル