チームをツクル。価値をツクル。ツクリビト株式会社

その数字が戦略を決める


このブログを目にする方の多くはアマゾンのサービスを利用したことがあると思います。
アマゾンを利用していると「この本がおススメです」とか「この本を買っている人はこんな本も買ってます」など、いろいろとお勧めされちゃいますよね。
みなさんの場合はどうかわかりませんが、私の場合は、この「おススメ」が結構な確率ではずしてくれます。

わたしの本の購買パターンはこんな感じ。
・文庫本と雑誌・漫画は近所の書店
・それ以外の和書やビジネス書、洋書は新宿の書店(おもにジュンク堂)
・インターネットで知った本(おもに洋書)はアマゾン
基本的にアマゾンではベストセラーの類いは買っていないので、アマゾンから見ると私の購買行動は特殊なのかもしれません。
ピントがズレた本ばかり紹介されます。

それはさておき、
アマゾンのレコメンデーションエンジンがユーザーにお勧めを表示できるのは、膨大な数の購買データが背景にあるからです。
このような膨大なデータを解析することで(この本では「絶対計算」と呼んでますが、この表現は適切ではないと思います)、さまざまな予測を行うことが可能になります。

この本は、大量データ解析の応用例を次々に紹介してくれます。


その中で面白いのが、「専門家」対「大量データ解析」という視点で、実際に専門家の意見よりも解析結果のほうが正しかった例が紹介している部分。
例えば、ワインの価格と気温の間の過去の相関関係を調べ、それをもとにワインの価格を予測するという話があります。この例では方程式も記載されています。

ワインの質=12.145+0.00117x冬の降雨+0.0614x育成期平均気温-0.00386x収穫期降雨

こういう場合にありがちなのですが、専門家に大量データ解析が勝った例は紹介されていても、その逆の専門家が勝った例は紹介されていません
専門家は常にコテンバンということでしょうか?
そんなはずはないのでは?
実は専門家も脳内で大量データ解析をしているのですね。過去の経験から瞬時に大量のデータを分析しているはずです。
いわゆる「直感」というものです。
ただし、専門家の弱点は直感が思い込みに左右される危険性があるということ。人間ですから仕方ありません。
それに対して、コンピュータが大量のデータを解析する分には思い込みに左右される危険性はありません。
しかし、この「解析」というのは、結局のところ、人間が作った仮説をもとに計算するわけです。
ワインなら「ワインの出来は気温と相関があるのでは?」という仮説です。
仮説が間違えていたら、いくら解析してもだめなわけです。
そういう失敗例もいっぱいあるはすですが、もちろん紹介されていません。

というわけで、本書でも指摘されていたと思いますが、大量データ解析には問題がいくつかあります。
・専門家たちの反発がある
・日本では個人情報保護法のために大量なデータ間の相関を解析できない
・解析対象である母集団が正規分布でないときの解析精度
・例え精度が95%であっても、残り5%の部分では役に立たない

とはいえ、データマイニングの現状を知るにはなかなか面白い読み物だと思います。