【連載】(第1回) Hadoopの並列・分散処理に潜むリスクとは

ビッグデータに関わる様々な新技術の導入が、セキュリティ/リスク管理を担う運用管理者に及ぼすインパクトについて、具体的なユースケースを交えながら考察していきます。

(第1回) Hadoopの並列・分散処理に潜むリスクとは

 並列分散

ビッグデータのコア技術に、クラウド上の仮想空間で大容量データを収集・保存・計算処理する並列・分散処理フレームワークがあります。その代表例がHadoop/MapReduceで、入力ファイルから分割された複数のチャンク(かたまり)から、Mapperがデータを読み込んで一定の計算処理を行い、鍵/値のペアのリストを出力した上で、Reducerが個々の鍵に附属する値を結びつけて結果を出力する仕組みになっています。

 

ユースケース:EC業界の場合

 click

Hadoop/MapReduceは、ターゲティング広告、顧客セグメンテーションなど、デジタルマーケティングのビッグデータ分析で活用されています。例えばEC業界の場合、ユーザーのマルチデバイス化/マルチチャネル化が進み、アクセス解析の対象となるログデータの容量が増大する一方で、ユニークユーザーをベースとする行動履歴の分析へのニーズも増加し、Hadoopを活用したパフォーマンス向上への期待が高まっています。
反面、ビッグデータならではの新しいリスクも潜んでいます。例えば、大容量のログデータを並列・分散処理している間に、Mapperから割り当てられたノードが攻撃を受けたり、スクリプトが改ざんされたりすると、Reducerが不正確な計算結果を返す可能性があります。加えて、アクセスログ解析や行動履歴分析の際のプライバシー/個人情報保護対策があります。万一、Mapperのノードが障害を起こしたり、攻撃を受けて危険にさらされたりしたことがきっかけで、機微なパーソナルデータが漏えいすると、ECサイトの信用失墜につながりかねません。

 

Hadoopのパフォーマンスとリスクのバランスが運用管理の鍵

 パフォーマンスとリスクのバランスが鍵

このようなリスクを抑えるためには、並列・分散処理のプロセス全体を通してHadoopの信頼性を担保したり、強制アクセス制御(MAC)などを利用して、セキュリティポリシーに基づき認証されたファイルへのアクセスを保証したりすると同時に、データ匿名化などMapper出力からの情報漏えいを防止するための機能を強化することが求められます。

運用管理の観点からは、並列・分散処理本来のパフォーマンス力を妨げない範囲内で、事前評価から事後対策に至るまでのリスク管理のPDCAサイクルを回すことが課題となります。Hadoopをベースに、上位レイヤの分析サービスやインフラレイヤの運用監視サービスを外部委託する場合、早期段階からリスク認識のすり合わせを行っておくことが必要でしょう。

 

また、このブログの運営者であるイー・ガーディアンでも、セキュリティ対策のサービスを用意しているようなので、ご興味ある方はお問い合わせいただければと思います。

 

-----

著者プロフィール:笹原英司(NPO法人ヘルスケアクラウド研究会・理事)

:笹原英司(NPO法人ヘルスケアクラウド研究会・理事)

Facebook : https://www.facebook.com/esasahara

宮崎県出身、千葉大学大学院医学薬学府博士課程修了(医薬学博士)。デジタルマーケティング全般(B2B/B2C)および健康医療/介護福祉/ライフサイエンス業界のガバナンス/リスク/コンプライアンス関連調査研究/コンサルティング実績を有し、クラウドセキュリティアライアンス、在日米国商工会議所等でビッグデータのセキュリティに関する啓発活動を行っている。

 

Topics: お知らせ, クラウドソーシング, 笹原 英司, ビッグデータ

お問い合わせ・お見積もりはこちらからどうぞ

  • TEL
  • 0120-665-046
  • FAX
  • 03-5575-0621
[受付時間]
平日 10:00〜18:00

各種サービス資料の入手、
依頼内容などをご相談したい方

 資料請求

各種サービスの導入・提案を
ご希望の方

 見積依頼

広報・IR・採用・その他に
関するご相談

 お問い合わせ