ビジネスの現場で発生する数字のトリックを見破ろう! #データのトリセツ
データを集計して報告するときに、グラフなどを使って表現するとわかりやすく伝えることができます。ただ、データを使う場合にはグラフ以外にも気をつけなければならないポイントがあります。
同じデータを使っているのに結果が違う。同じデータを使っているのに言いたいことが伝わらない。データが出されているから信じたのに騙された。といった事例はビジネスの現場でもよく発生します。
実はデータの集計方法や分析方法によって、その結果を見た人が受ける印象は大きく変わってきます。しかも、これを悪用している事例も少なくありません。そこで今回は、世の中で使われている事例の中から、そのデータを見るときの注意点について解説します。
都合の良い部分だけを切り出されていないか?
前回はグラフの使い方について解説し、さまざまなグラフの選び方や、軸の選び方によって見た目が大きく変わることがわかりました。ただ、グラフの見せ方を変える例は他にもたくさんあります。
例えば、銀行や証券会社などで使われる投資信託のグラフを見てみましょう。よくあるのが「過去の運用成績」のグラフで、次の図のようなものが使われます。この場合、綺麗に右肩上がりに資産が増えているように見えます。
このグラフに沿って運用できるのであれば、資産を増やすことができるように思うかもしれません。グラフの元になっているデータの内容は正しくても、以下のような問題があります。
- この期間が選ばれた理由がわからない
(グラフで表示されている以前、以降のデータがあるのでは?) - 他の指標と比べられない
(他社の商品などの成績はどうなっているの?)
そこで、日経平均のグラフと比較し、さらに期間も広げてみましょう。すると、以下の図のようなグラフができあがります。
これを見ると、都合の良いところだけを切り出されたことがわかります。また、他と比較すると決して良い成績ではなかったことに気づきます。
今回のように簡単な例であれば簡単に推測できても、見た目を工夫されるとなかなか気づくのが難しい場合があります。今回のようなグラフに騙されないようにするには、軸をよく見ること、視点を変えてみることが大切です。
作為的な集計が使われていないか?
グラフの使い方次第で見た目を変えられるのは上述の通りですが、グラフを作る前の「データを集計する段階」で見せ方を変える方法もあります。それが「実数」と「割合」の使い分けです。
例えば、商品を購入した人にアンケートを実施して500件の回答が集まったとします。このうち200件が「良い」、残りの300件が「悪い」という回答だったとします。このとき、あなたならどのように表現するでしょうか?
「購入者の4割に支持された商品」と書くとあまり印象が良くありませんが、「200人の購入者に支持された商品」と書くとたくさんの人が支持しているように見えます。
さらに、実は前年にも同じアンケートを実施していたとします。このときは200件の回答があり、そのうち「良い」が80件、「悪い」が120件だったとします。このとき、「良いと答えた人が前年の2.5倍に増加!」と書くとどうでしょうか?
集計したデータについては間違っていませんし、それをグラフにして以下のように書くと、見た目は良さそうに見えます。ただ、その表現は不適切だと言えます。
A型の人は社長に向いている?
自社の顧客に対して、あるアンケートを実施し、その結果を集計する事例を考えてみましょう。無記名で実施したアンケートで、参考までに職業や年齢、血液型なども回答していただくことにします。
この結果を「職業が社長」の人の「血液型」で集計したところ、以下のような結果が得られました。
例1)職業欄に「社長」と答えた人の血液型別の割合
血液型 | A型 | B型 | O型 | AB型 | 合計 |
---|---|---|---|---|---|
割合 | 41.2% | 20.3% | 29.8% | 8.7% | 100% |
ある分析者はこの結果を見て、「A型の人は社長に向いている」という結論を出しました。あなたはこの表を見て、どのように感じるでしょうか?
たしかにA型の人が他の血液型と比べて多くなっています。つまり、社長になっている人はA型が多いように見えます。ただ、少し考えればわかることですが、このような集計は不適切だと言えます。
その理由は「全体における分布」を考えていないためです。実際、他の職業について同じように集計しても、結果は似たようなものになるでしょう。これは、「日本人の血液型の分布」を考えると明らかです。
日本人の血液型の分布は、A型:B型:O型:AB型=4:2:3:1程度になることが知られています。つまり、そもそも日本人にはA型の人が多いわけです。それなのに、職業が社長である人だけを抜き出して血液型で集計した結果が似たようなものであれば「当たり前」です。
データの出所によって結果は変わる
正しくデータを集めていて、正しく分析していても、想定と異なる結果になる場合があります。そのデータがどのようなデータなのかを知っているとわかることでも、一般論を考えてしまって、その背景に気づかない場合があります。
例えば、ある場所で50m走を行ったときの平均タイムを求め、星座によって集計すると、以下のようなグラフのようになりました。これを見て、あなたはどのように感じるでしょうか?
星座によって50m走のタイムが変わる、という結果に対してちょっと違和感を感じるかもしれません。星座や血液型、干支などによってそれほどタイムに違いがあるようには思わない人が多いでしょう。
もちろん、少ないデータでの結果ではなく、全国のデータを集めても、このような結果が出てしまう場合があるのです。
それは小学生の場合です。特に低学年の場合、このような結果が出ることは珍しくありません。星座は誕生日によって決まるため、小学生の場合は4月生まれと3月生まれでは体格の差などが大きく現れる傾向にあります。
このような現象はビジネスの場面でも時々発生します。データとして数字になって出てくると結果を信用してしまいがちですが、背景にある知識を考えないと正しいデータが伝わらないものです。
データの裏側にある事情や作為的な操作が行われていないか、といったことを考えずにグラフだけを見てしまうと、誤った認識を持ってしまう可能性があります。今後もこの連載では、データをどのように扱うと伝わりやすいのか、そして受け取る側が知っておきたい知識について解説していきます。
バックナンバー
- グラフの見た目で、人は簡単にデータに騙される? #データのトリセツ
- 一度計算した値を再利用して、高速化するアルゴリズムを考えよう
- 複数の解き方を考えて実装してみよう!
- アルゴリズムとは何か?アルゴリズムの意味を理解してもっと楽しく学ぼう!
(著者プロフィール)
WRITING:増井 敏克(マスイ トシカツ)
増井技術士事務所 代表。技術士(情報工学部門)、テクニカルエンジニア(ネットワーク、情報セキュリティ)、その他情報処理技術者試験に多数合格。また、ビジネス数学検定1級に合格し、公益財団法人日本数学検定協会認定トレーナーとしても活動。「ビジネス」×「数学」×「IT」を組み合わせ、コンピュータを「正しく」「効率よく」使うためのスキルアップ支援を行っている。 著書に『エンジニアが生き残るためのテクノロジーの授業』『おうちで学べるセキュリティのきほん』『プログラマ脳を鍛える数学パズル』『もっとプログラマ脳を鍛える数学パズル』『図解まるわかり セキュリティのしくみ』(翔泳社)、『プログラミング言語図鑑』『シゴトに役立つデータ分析・統計のトリセツ』(ソシム)がある。
イラスト:矢島 光(やじま ひかる)
漫画家。慶應義塾大学SFC在学時、講談社「MANGA OPEN」にて奨励賞を受賞。 2012年に株式会社サイバーエージェントへフロントエンジニアとして新卒入社、2015年退職、漫画家としての活動を開始し、新潮社ROLAにて「彼女のいる彼氏」にて初連載。
Official HP:http://yajimahikaru.strikingly.com/
Twitter:https://twitter.com/hikarujoe
TECH PLAYでは、エンジニア向けに プログラミング や アルゴリズム に関する勉強会・イベント情報を提供しております。ご興味のある方はぜひ参加ください。