電子情報通信学会総合大会講演要旨
D-4-11
MapReduceにおける頻出要素の分割による分散ソート高速化
○若森拓馬・山室 健・本庄利守・岩村相哲(NTT)
大規模データ分析の前処理には,データ増大に対して拡張性のあるMapReduceなどの分散処理基盤が一般的に用いられている.前処理の中でもソートは基本的な処理の一つであり高速化への需要は高い.しかしMapReduceにおける既存の分散ソート手法は,一部の要素が他の要素よりも多く含まれるデータを範囲分割してソートする際,分割後の要素数がばらつき効率的にソートできない問題がある.本研究では分割後の要素数の均等化によるソート高速化を目的として,頻出する同一要素の分割手法を提案する.提案手法は既存手法に対して,同一要素の割合が大きいほどソートの高速化が可能であることを実験により確認した.