ビッグデータに関わる様々な新技術の導入が、セキュリティ/リスク管理を担う運用管理者に及ぼすインパクトについて、具体的なユースケースを交えながら考察していきます。

(第1回) Hadoopの並列・分散処理に潜むリスクとは

 並列分散

ビッグデータのコア技術に、クラウド上の仮想空間で大容量データを収集・保存・計算処理する並列・分散処理フレームワークがあります。その代表例がHadoop/MapReduceで、入力ファイルから分割された複数のチャンク(かたまり)から、Mapperがデータを読み込んで一定の計算処理を行い、鍵/値のペアのリストを出力した上で、Reducerが個々の鍵に附属する値を結びつけて結果を出力する仕組みになっています。

 

ユースケース:EC業界の場合

 click

Hadoop/MapReduceは、ターゲティング広告、顧客セグメンテーションなど、デジタルマーケティングのビッグデータ分析で活用されています。例えばEC業界の場合、ユーザーのマルチデバイス化/マルチチャネル化が進み、アクセス解析の対象となるログデータの容量が増大する一方で、ユニークユーザーをベースとする行動履歴の分析へのニーズも増加し、Hadoopを活用したパフォーマンス向上への期待が高まっています。
反面、ビッグデータならではの新しいリスクも潜んでいます。例えば、大容量のログデータを並列・分散処理している間に、Mapperから割り当てられたノードが攻撃を受けたり、スクリプトが改ざんされたりすると、Reducerが不正確な計算結果を返す可能性があります。加えて、アクセスログ解析や行動履歴分析の際のプライバシー/個人情報保護対策があります。万一、Mapperのノードが障害を起こしたり、攻撃を受けて危険にさらされたりしたことがきっかけで、機微なパーソナルデータが漏えいすると、ECサイトの信用失墜につながりかねません。

 

Hadoopのパフォーマンスとリスクのバランスが運用管理の鍵

 パフォーマンスとリスクのバランスが鍵

このようなリスクを抑えるためには、並列・分散処理のプロセス全体を通してHadoopの信頼性を担保したり、強制アクセス制御(MAC)などを利用して、セキュリティポリシーに基づき認証されたファイルへのアクセスを保証したりすると同時に、データ匿名化などMapper出力からの情報漏えいを防止するための機能を強化することが求められます。

運用管理の観点からは、並列・分散処理本来のパフォーマンス力を妨げない範囲内で、事前評価から事後対策に至るまでのリスク管理のPDCAサイクルを回すことが課題となります。Hadoopをベースに、上位レイヤの分析サービスやインフラレイヤの運用監視サービスを外部委託する場合、早期段階からリスク認識のすり合わせを行っておくことが必要でしょう。

また、このブログの運営者であるイー・ガーディアンでも、セキュリティ対策のサービスを用意しているようなので、ご興味ある方はお問い合わせいただければと思います。