『数字が示している』は本当に正しいのか?

「データ」と聞いて何を思い浮かべるだろう。データベース、データマイニング、コンピュータ、データ分析…。ザックリいえば情報を構成する数値がデータだ。データという言葉を聞くだけで何となく「正確そう」だとか「細かくわかりそう」という感じがする人もいるだろう。確かに何かの状態を表すデータが適切に開示されていればある程度実態に近い状態がわかることもある。しかしデータは基本的に感情を持たないただの数字だ。ただの数字だから方向のない大きさだけを持っている。

だからデータは「何の?」という方向がわからなければ使いようがない。逆にデータはその「何」についての大きさのことしかわからないので、その他のことも浅く広く見られる人間に比べて総合的に判断することができない。とても偏った見方になる危険が非常に大きいのだ。一つの分野や方面の数字を見てもその分野においては非常に細かいこともわかるがそれ以外のことについては何も語らない。ウソをついているわけではないが何も明らかにしないから可でもなければ不可でもない。何も示さないだけだ。政府やマスコミはそういった特性をうまく使って世論を操作することも可能だし、ある部分では間違いなくやっていると思っている。それは単にデータを改ざんしたりするよりも表沙汰になったときの危険も少なく何とでも言い逃れができるからに他ならない。

データはその母集団が何かということとその母数がある程度の規模の大きさを持っている必要がある。やや専門的な話になるので細かいことは割愛するがある程度の正確性のある情報を引き出すには我々が常識的に考えるよりずっとたくさんのサンプル(「標本」という)が必要になる。仮に「AとBのどちらが正しいと思うか」というインタビューをした時に「どちらも同じくらいの割合です」という結論を導くには少なくとも1,100以上のサンプルを揃えなければ97%の確率で断言することはできない。

ちょっと前からビッグデータなんて言葉も流行っている。スマホを持った人の行動履歴やスーパーマーケットのPOSレジのデータ、高速道路の料金所を通過するETC搭載車の走行経路や履歴など。以前なら「プライバシーの流出」などと言われて反発する人も多かったが今では街角やコンビニの防犯カメラと同様に知らず知らずのうちに我々もその恩恵にあずかっている。リアルタイムの渋滞情報やコンビニの売れ筋商品、自動改札の乗降客データによる列車ダイヤの改善などだ。

人は(一見でも)具体的なデータで説明されると盲目的に信じてしまいやすい性質がある。以前にもちょっと書いたがあるトクホ飲料の味が美味しいということの証明に「管理栄養士の95%が美味しいと言っています」という宣伝をしているCMがあった。ご存知の通り管理栄養士は”栄養”の専門家であって”味”の専門家ではない。だから味について管理栄養士がなんと言おうと何の根拠にもならない。街の人100人でもいいわけだ。しかし「管理栄養士」という社会的地位と「95%」という数字を出すことで「みんなが美味しいと言っています」よりも説得力があるように思わせるわけだ。

閑話休題。
Excelの標準機能にも、入力したデータから全体の傾向を調べるグラフを作成する機能がある。近似グラフなどと呼ばれることもあるが、これを作っておくことで新しいデータが入ってきた時にそれが何を意味するのかがおおよそ分かるというメリットがある。しかし近似値のグラフを作るときもデータの母数が少ないとイレギュラーのデータを正しい傾向の一つのデータと間違えて近似値を計算してしまいとんでもない予想をする近似グラフが出来上がってしまうことがある。イレギュラーなデータまでを正しいデータとして読み込んでしまうことを「過学習」といって注意すべき事の一つに数えられている。統計学ではそのようなミスを少なくするためにある計算式で導き出される以上の数のサンプルを集めることが求められる。

一般的にデータは母集団の数が多いほうが平均的な傾向がわかりやすい。だからデータから個人情報さえ除いてしまえばそれは一気に宝の山に変わる。それがデータの強みだ。一方でデータは収集した意図に沿った情報しか提供しない。それ以外のことには一切関知しない。

人間は浅く広く全体を見て総合的な判断をする。人と会話をしていればその時の表情や仕草も見ている。それが時にデータ側からすれば理不尽な判断であるように見えるときもある。それが結果的にみて正しかったのか間違っていたのかはその時々で変わるだろう。常識的に人の直感で考えたほうが正しい結論にたどり着くこともある。データの示す内容を決め手にして判断することが成功に導く場合もある。

データ主義と直感のどちらかを絶対的な指針とするのではなく常に客観と主観のバランスを取って柔軟に判断していくことは決して優柔不断であることにはならない。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください