文章基本信息

标题：大規模データのファジィc平均識別器
本地全文：下载
作者：市橋秀友 ; 野津亮 ; 本多克宏等
期刊名称：知能と情報
印刷版ISSN：1347-7986
电子版ISSN：1881-7203
出版年度：2010
卷号：22
期号：6
页码：792-803
DOI：10.3156/jsoft.22.792
出版社：Japan Society for Fuzzy Theory and Intelligent Informatics
摘要：
本論文では，セミハードクラスタリングに基づくファジィｃ平均（FCM）識別器を大規模データに適用する際の課題や改善法について検討する．大規模データには，訓練データが大量である場合と特徴量（変数）の次元数が非常に大きい場合がある．データが大量である場合にはランダムなサンプリングでデータ数を削減することができるが，識別精度が悪くなることがある．特に利用可能な既知データに対する精度は低下する．提案のFCM識別器は分散共分散行列を用いるために，データ件数が増えても行列のサイズは変わらない．そこで，まず最も高性能な識別器の一つであるサポートベクターマシン（SVM）を用いた計算結果や改良SVMの文献での報告との比較から，FCM識別器は大量データの場合もSVMと同程度の識別精度を達成していて，訓練時間とテスト時間において大幅に優れていることを報告する．FCM識別器は特徴量の次元数が比較的小さいか主成分分析（PCA）などで圧縮して用いる場合には訓練データが大量でも短時間で訓練が収束する．しかし，特徴量の次元数が大きい場合には分散共分散行列のサイズが大きくなり計算不可能となる．そこで，訓練データ数は比較的少ないが特徴量の次元数が非常に大きい場合に，特徴量の次元を圧縮することなく通常のパーソナルコンピュータでも計算可能な改良アルゴリズムを提案する．高次元データの例としてCOREL画像データの分類問題を取り上げて，PCAによるデータ圧縮を用いる場合や文献で報告されている結果との比較を行う．
关键词：大規模データ; 識別器; 粒子群最適化