文章基本信息
- 标题:Sentence Generation Method by Extension of MolGAN Using Sentence Graph
- 本地全文:下载
- 作者:Natsuki SAWASAKI ; Satoshi ENDO ; Naruaki TOMA 等
- 期刊名称:知能と情報
- 印刷版ISSN:1347-7986
- 电子版ISSN:1881-7203
- 出版年度:2020
- 卷号:32
- 期号:2
- 页码:668-677
- DOI:10.3156/jsoft.32.2_668
- 出版社:Japan Society for Fuzzy Theory and Intelligent Informatics
- 摘要:深層学習によって様々な分類問題が解決されているが,分類カテゴリ毎のデータ量が不均衡な問題を扱う場合,多くの課題がある.不均衡データへの対策として,少量カテゴリのデータ量を増加させ均衡化する手法がある.これをかさ増しと呼び画像処理分野ではノイズの付与や回転による方法が一般的である.最近ではGenerative Adversarial Network: GANによる画像生成手法を用いる場合がある.一方で,自然言語処理の分野では有効なかさ増し手法はいまだ確立されておらず,人手によるかさ増しが行われている.人手によるかさ増しではルールの設計など負担が大きく,機械的なかさ増し手法が必要となる.しかし,文章生成における機械的なかさ増しは画像生成に比べ不安定である.これは文章の特徴獲得の難しさが原因だと考えられる.そこで本論文ではグラフ情報に注目した機械学習による文章生成手法を提案する.CaboChaによって生成されたグラフ情報をGraph Convolutionにより畳み込み処理する.提案するGANにより生成されたかさ増し文章を3つの計算実験により評価し有効性を示した.
- 关键词:自然言語のかさ増し;不均衡データ;GAN;text data augumantation;unblanced data