ビッグデータ

ビッグデータから新たな機会を引き出す

世界中のデータ量は、驚くべき割合で増えています。2年ごとに倍に増えると見られています。しかしながら、ブログ、電子メール、ビデオ、ソーシャルメディア、写真、GPS、その他のセンサーといった、様々なデータ源から集められたデータは、活用されないままであることが多いのです。分析を困難にしているのは、3つの「V」——データ量(Volume)、データの生成速度(Velocity)、出データの多様性(Variety)——です。実際には、これらの新たな種類のデータの多くは構造化されておらず、企業および既存の分析ソリューションが慣れ親しんできたスキーマには収まらないのです。

 そのような非構造的で、一見互いに無関係に見えるデータの奥底には、新たなインサイトや機会といった隠れた宝が眠っています。それらを手にするには、データを収集し、構造化し、分析しなければなりません。このことには、非常に洗練されたデータ処理、モデリング、アナリティクスの能力が必要です。

 

 

PARCのキー・イネイブラー

bigdatastack

データ

 全ての起点となるのはデータ、それも大量のデータです。PARCは、小売購買記録、クリックストリーム、電子メール、入院データ、医療費請求書、システムログ、料金・運賃収集ログ、ゲーム内行動(例:World of Warcraft)、クレジットカードおよびデビットカードの利用記録、Twitter、Foursquare、Wikipediaなどの、様々な大変興味深いデータセットに定期的にアクセスしています。PARCは、HIPAA認証コンピューティング設備、Hadoopクラスター、およびプライベートクラウドのインフラを備え、機密性の高いデータセットを分析するためのデータセキュリティと処理パワーを提供します。

グラフ・アナリティクス

 ビッグデータ・ソリューションの現在の可用性は、かなりの程度Hadoopの開発にかかっています。しかしながら、Hadoopは、大量テキスト処理タスクのような、いわゆる“驚異的並列(embarrassingly parallel)”なタスクには適している一方で、その他の様々な問題についてはむしろ適していません。グラフ解析はその一つです。データがグラフ形状で、分析の際にそのグラフ構造を考慮しなければならないアプリケーションは様々に存在します。例えば、ソーシャルネットワーク分析やページランクなどがそれに当たります。これらのニーズに対応し、また、グラフデータのリアルタイム分析を可能にするために、PARCは、並列化した検索やトラバーサルなクエリを可変にするためのコンパクトなグラフ表現を活用する高パフォーマンスかつインメモリのグラフ解析エンジンを開発しています。そのことで、関連するグラフの性質やクエリを、既存のソリューションよりも桁違いに速く計算することができます。例えば、われわれは、3秒未満の間に、15億のつながりを持つ4,000万人のTwitter利用者について、単一始点最短経路を計算することができ、更にこの処理に用いられるのはわずか6GBのRAMです。

クラウド診断

 データセンターの様々な側面が仮想化されればされるほど、問題を診断すること、運用を最適に構成・管理することはますます難しくなっていきます。われわれは、モデルに基づく診断、機械学習、そして人工知能による計画とスケジューリングを、1)使用可能なコンピューティングリソースに応じたジョブの最適化されたスケジューリング、および2)ハードフォールトとソフトフォールトの自動診断に関する諸問題へ適用することにより、Hadoopやその他のクラウドコンピューティングプラットフォームを拡張します。これら手法の適用により、Hadoopのスループットを向上させ、問題が発生しているノードの診断に費やされる人的負荷を軽減します。

異常検出

 機械学習は、ほとんどのアナリティクスソリューションの中心となっています。今日では、大変優れたオープンソースツールキットが利用可能であり、そのことが、より多くの人々に、分類やクラスタリングといった共通のデータマイニングの課題にすぐに着手することを可能としています。しかしながら、他の多くのことと同じように、細部に予想外の面倒が潜んでいます。ビジネス上の最適な判断を下すために用いることができる良い結果を得るためには、われわれは、機械学習のアルゴリズムおよびその特徴についての深い理解と多くの暗黙知を必要とします。

 PARCは、機械学習 と、ドメイン固有のモデリングといった強力な統計的手法を組み合わせて、そのどちらか一方のみを用いる方法よりも高い正確性と精度を達成します。われわれが有する論理的推論についての専門性は、最先端の機械学習についての専門性と組み合わさることで、それらどちらかのみを用いるよりも優れたアプローチを生み出します。われわれは、アプリケーションにおいて、この技術を用いて、人間の持つ専門性を完全に置き換えるのではなく、拡張します。例えば、ある顧客向けプロジェクトにおいては、不正監視者がより生産的に活動できるようにしました。具体的には、既存ソリューションにより作り出された誤検知ケースの大半を取り除くことにより、重大である可能性が高いケースにより集中できるようにしました。

センチメント/話題/デモグラフィック分析

 PARCの持つEmpathプラットフォームは、様々なソーシャルメディアプラットフォーム上で顧客が示すセンチメントを理解するだけでなく、それらを、話題やデモグラフィックなどのより細分化されたカテゴリーに、全自動で振り分けます。現代のセンチメント分析および話題分析は、「なぜ人々が満足していないのか?」「大きな不満は何か?」「センチメントは時間が経つにつれ変化してきたのか?」などの問いに答えます。Empathは、これらを行うばかりでなく、ソーシャルメディアの投稿者のデモグラフィック属性——おおまかな投稿地点、性別、年齢、学歴——を明らかにします。Empathは、こうしたことを、コンテンツから抽出されたデータのみに基づいて、自動的に行います

テキストアナリティクス

 PARCチームは、検索および発見のための革新的なソリューションについて、自然言語および機械学習を活用しています。自然言語についてPARCが有する専門性は、PowerSet、ScanSoft(Nuance)、Microlytics、Inxightといった企業の成功に寄与しました。Powerset——自然言語処理技術に基づく消費者向け検索エンジン——は、後にMicrosoftに買収されました。(ケーススタディ/英語

コンテクスチュアル・インテリジェンス

 PARCは、社会科学および行動科学についての深い専門性を活用して、コンテクストアウェアなサービスに根差すソリューションを提供しています。われわれのシステムは、利用者の状況を予期し、情報ニーズに能動的に対応し、個々人に合ったリコメンデーションを生成します。また、ビッグデータアナリティクスのための多くの興味深いアプリケーションも作り出しています。(PARCのコンテクスチュアル・インテリジェンス/英語

 

購読

PARCのニュースレター等、最新情報をご希望の方は、英語サイトの「subscribe」のリンクから登録してください。