文章基本信息

标题：連続データに柔軟な大規模計算基盤
本地全文：下载
作者：水谷后宏 ; 間野暢 ; 明石修等
期刊名称：コンピュータソフトウェア
印刷版ISSN：0289-6540
出版年度：2013
卷号：30
期号：2
页码：2_101-2_118
DOI：10.11309/jssst.30.2_101
出版社：Japan Society for Software Science and Technology
摘要：
近年，時系列データや地理位置データといった連続データの管理・解析手法が注目を浴びている．これらの連続データは，分散環境上で膨大に生成されることが想定され，オーバレイネットワークなどに代表される分散ストレージ上で管理されるようになった．一方で，蓄積した連続データを解析する手法としてMapReduceを用いた手法が提案されている．しかし，分散ストレージ上の連続データに対してMapReduce処理を行う際，データの連続性や局所性により，特定のノード(計算機)に偏ってReduce処理が割り当てられ，Shuffle処理にて膨大なトラヒックが発生することがある．また，刻々と蓄積されていく連続データに対して，MapReduce処理の同期をとることも難しい．本提案基盤は，連続データに対して非同期かつ，並列性の高いMapReduce処理を達成する．具体的には，分散ストレージに対してSkipListを改良した平衡木構造を適用し，ノード間で親子関係を構築させる．構築した親子関係を用いて，各ノードが自身の子ノードのShuffle処理やReduce処理の結果を集約したり，Map処理とReduce処理の同期，および生存管理を行うことで，MapReduce処理の同期を細分化する．さらに，木構造の特性を生かし，各ノードの負荷情報を集約し，ノード間の負荷を均一にする．これにより，各ノードの計算量を平滑化できるためMapReduce処理の並列性を向上させる．