現在位置: ホーム / ブログ / Hashdoop : ハッシュによるトラフィック異常検出基盤

Hashdoop : ハッシュによるトラフィック異常検出基盤

Hashdoop (Hash-based Anomaly detection framework on Hadoop) は、国立情報学研究所の研究者が中心となって研究・開発を行っているMapReduce技術を利用したインターネットバックボーントラフィック異常検出基盤です。ビッグデータであるバックボーン中のパケットトラフィックには、スキャン、攻撃や機器の故障によるもの等の異常なトラフィックが存在しますが、多くの異常はバックボーンでの大多数の正常な通信により埋もれています。Hashdoopでは IPアドレスをキーとするハッシュ処理を用いて、トラフィックデータを複数のサブフローへ分割しHadoop上で処理を行うことで、従来手法に比べて最大15倍の高速化および20%の精度向上が可能であることを示しています。

トラフィック異常検出

 インターネットバックボーントラフィック中の異常を検出するには、パケットやフローのシグニチャを用いた決定的な手法と、確率的なモデルに基づく手法の2つが知られています。前者は異常パターンをシグニチャとして最初に与えることで、精度の高い検出が可能ですが、未知の異常への対応や高速なバックボーンネットワークでの処理が困難という問題があります。確率的なモデルでは、正常な状態に対応するトラフィックの特徴を学習し、その正常な状態からのずれを異常として検出します。そのため、未知の異常の検出や大規模なデータ解析に適しています。国立情報学研究所では、今までに理論的なバックグラウンドが異なる複数の確率モデルに基づく異常検出アルゴリズムを研究開発してきました。Hashdoopはそれらの異常検出アルゴリズムを用いて異常検出を行う異常検出フレームワークとして開発を進めています。

Hashdoop = Hash + Hadoop

 ビッグデータの処理基盤であるHadoopはMapReduceモデルによって実現されています(図1)。既存のHadoopを用いた解析では、データの分割を時刻に基づいて行いますがHashdoopでは、ネットワークトラフィックをアドレス情報により空間的に分割する点が異なります。Hashdoopでは2段階のMapReduce処理(トラフィックハッシュ、異常検出)を行うことで異常検出を行います。1段目のトラフィックハッシュでは、入力となるトラフィック(パケットデータ)中の送信もしくは受信IPアドレスをキーとするハッシュを計算します。各々のパケットはハッシュ値によって複数のサブフローに分割されます。サブフローは2段目の異常検出への入力となり、任意の異常検出アルゴリズムを適用することが可能です。ハッシュによるさらなる利点は、異常トラフィックをサブフローの一部へと分割し、それ以外のサブフローを正常なトラフィックとして取り扱いできる点にあります。これにより正常データからのずれを異常データとして分離することが可能となります。

fig1.png

図1. Hashdoopの構成

Hashdoopの性能評価

  図2、図3は、6台の計算機から構成されるHadoopクラスタを用いた、Hashdoopの性能評価(高速化および精度向上)を示したものです。評価用 データとして2001年〜2013年のバックボーントラフィックデータ(MAWIデータセット)を、異常検出アルゴリズムとして、パリ第6大学で開発され たAstuteアルゴリズムを使用しています。グラフの横軸はハッシュによって分割されたサブフロー数を、縦軸は1台の計算機を用いた場合と比較した際の 性能改善を表しています。トラフィック量は年によって異なりますが、トラフィックのサブフローへの分割により、サブフローでのトラフィック量が少ない場合 にはHashdoopの恩恵は少なく、トラフィック量の増加とともに性能改善の効果が大きくなります。最大では15倍の速度改善および20%の精度向上と いう結果が得られています。速度だけでなく検出精度も向上しているのは、大規模バックボーンに潜む小さな異常をアドレス空間に基づくトラフィック分割に よって効率良く発見できるハッシュの利点です。

fig2.png

図2. Hashdoopによる高速化

fig3.png

図3. Hashdoopによる精度改善

今後の展望

 NECOMAプロジェクトでは、バックボーンだけでなくエンドポイントやユーザにかかわるマルチレイヤのデータ収集を行っています。Hashdoopでは現在バックボーントラフィックのみを対象としていますが、これらの多種多様なデータ分析を行う基盤へと拡張していく予定です。

用語解説

MAWIデータセット

WIDEプロジェクトが公開しているバックボーントラフィックデータコレクション。毎日14:00-14:15(JST)のリンクトラフィックをpcap形式で保存。http://mawi.wide.ad.jp/

タグ: