データ分析を「数字で表現するメリットとデメリット」とは? #データのトリセツ

トレンド
データ分析を「数字で表現するメリットとデメリット」とは? #データのトリセツ

データを分析しようと考えたとき、多くの人が最初に思い浮かべるのは数値で扱えるデータがあるか、ということではないでしょうか? コンピュータで処理するには数値だと扱いやすい、平均を求める場合も簡単に計算できる、人に説明するときに正確に伝わる、などメリットがいくつもあります。

ただし、データを数値化する方法を間違えてしまうと誤った分析をしてしまう可能性があります。また、数値化することによって失われてしまう情報もあります。そこで今回は、データを数値化するメリットだけでなく、データを数値化するときの注意点やデメリットについて解説します。

データを数値化するときの基礎知識

ビジネスで誰もがデータを扱う例として、アンケートがあります。お客様や取引先に対してアンケートを実施した、セミナーを開催したときに回答してもらった、飲み会の日程を決めるために同僚に聞いて回った、などの経験は誰にでもあるでしょう。

このようなアンケートを実施したとき、その結果を集計するために数値化することはよくあります。例えば、性別をコンピュータで処理するためには、「0を男性」「1を女性」のように割り当てます。もちろん、この数字は逆でも構いません。このような使い方を「名義尺度」といいます。使われる数字に意味はなく、数の大小は関係ありません。

同じように数値化する例として、「すごく良い」「良い」「普通」「悪い」「すごく悪い」のように5段階で回答をもらう場面を考えてみましょう。この場合、順に1〜5の数字を割り当てます。この場合、大小は反対でも構いませんが、その順番に意味があります。このような使い方を「順序尺度」といいます。

他にも、「間隔尺度」や「比例尺度」のように、データを数値化するときにはそのデータが持つ特徴を知っておく必要があります。

分類 内容
名義尺度 分類するために割り当てた数字 血液型、性別、電話番号など
順序尺度 順序には意味があるが、間隔には意味がない数字 評価(良い、悪い)、順位、震度など
間隔尺度 目盛りが等間隔な数字 日付、気温など
比例尺度 間隔にも比率にも意味がある数字 身長、体重、年齢、金額など

数値化するメリット

データを処理するとき、センサーなどを使ってコンピュータに取り込んだ値はもともと数値化されているといえます。温度や湿度、明るさ、音量など最近では多くのセンサーが使われています。また、人間が入力する場合も、ビジネスの現場では商品の金額や数量など、数値で入力することは少なくありません。

それだけでなく、私たちは普段使っているあいまいな言葉を数字で表現する場合があります。例えば、「私は背が高い」「たくさんスキーに行く」といった言葉を聞いたとき、受ける印象は人によって違うでしょう。

「背が高い」という言葉では、男性か女性かによって想定する高さが変わりますし、こどもなのか大人なのかによっても変わります。しかし、「私の身長は188cmです」というように数字を使うと聞いた人が想像する印象は同じになるでしょう。

同じように、「たくさん」という言葉も人によって受ける印象に差があります。スキーに行かない人であれば、年に5回行けばたくさんかもしれませんし、毎週スキーに行く人にとっては20回と言われてもたくさんとは思わないかもしれません。

このように、人にデータを伝えるときに数値を使うと短時間で正確に伝えられます。

数値化するときの注意点

数値を使うと上記のようなメリットがある反面、注意点もあります。数字を使うと人の感覚を誘導することが可能です。例えば、「売上が2割増えた」という営業担当者の言葉を聞くと、すごいことのように思えるかもしれません。

しかし、実は前月の販売実績が5個で、今月は6個になっただけかもしれません。確かに2割増えていますが、実は他の営業担当者は1000個売っているかもしれません。間違った報告をしているわけではありませんが、その数字の与える印象は大きく異なります。

また、名義尺度の値に対して平均などを計算することは意味がありません。血液型のアンケート項目に対して、「1:A型」「2:B型」「3:O型」「4:AB型」のように表現したとき、その集団における血液型の値を集計して、平均が2.2であると求めても意味がないでしょう。これでは割り当てる数字を変えるだけで結果が変わってしまいます。

グラフで表現する場合も同様です。アンケート項目が「とても良い」「良い」「普通」「悪い」「とても悪い」という選択肢であれば、順序尺度であり、順番通りに表現することが適切でしょう。一方、興味のある技術についての項目で「プログラミング」「ネットワーク」「データベース」「セキュリティ」などの選択肢であれば名義尺度ですので、順番にあまり意味はありません。回答が多い順からグラフで表現する方がわかりやすいでしょう。

数値化するデメリット

数値化することによるデメリットについても考えてみましょう。例えば、「電車の乗車率が200%」というニュースがあったとします。数値化すると伝わりやすい一方で、その混み具合は現地にいないと体感できません。大人が多い状況とこどもが多い状況ではその場の雰囲気は異なりますし、何かトラブルが発生したために混雑しているのかもしれません。

これが音楽のライブ会場になるとさらに状況は変わります。同じ人数が会場にいても、音楽が演奏されて盛り上がっている状況では不快に感じなくても、開場時間が遅れて待たされている状況では不満の声が上がります。数値化して効率的に処理することも大切ですが、身をもって体験したことも重要な情報です。私たちは人間ですから、人によってその感覚は違いますし、データでは見えてこない雰囲気は感覚でしか伝わりません。

厳密な数字が必要ない場合もある

数値を使うと正確に伝えられますが、ビジネスの現場では正確な数値が必要ない場合もあります。細かな数値よりも、ざっくりとした値をスピーディに把握したい、という状況を考えましょう。

例えば、時計が挙げられます。最近はコンピュータで「ミリ秒」や、それよりも細かな値も取得できるようになりました。ただ、そのような細かな時刻が必要な状況はあまり多くありません。アナログ時計を見て、「もうすぐ9時だ」と判断できるくらいでも、多くの場合は問題ないでしょう。

これはデータを表現するときにも同じことがいえます。使う人がどれくらいの正確さを求めているのか、ということを考えて、スピーディに把握するための工夫をする必要があります。私たちの身近な例として、携帯電話の電波状況などが挙げられます。アンテナのマークで「強」「中」「弱」「圏外」といった4段階くらいで表示しています。電波の強さを正確に数値化できたとしても、これより細かな電波状況を必要とする人は少ないでしょう。

正確に伝えるために数値化することはもちろん必要ですが、バランスを考えて扱うように工夫しましょう。

バックナンバー



(著者プロフィール)

WRITING:増井 敏克(マスイ トシカツ)

増井技術士事務所 代表。技術士(情報工学部門)、テクニカルエンジニア(ネットワーク、情報セキュリティ)、その他情報処理技術者試験に多数合格。また、ビジネス数学検定1級に合格し、公益財団法人日本数学検定協会認定トレーナーとしても活動。「ビジネス」×「数学」×「IT」を組み合わせ、コンピュータを「正しく」「効率よく」使うためのスキルアップ支援を行っている。 著書に『エンジニアが生き残るためのテクノロジーの授業』『おうちで学べるセキュリティのきほん』『プログラマ脳を鍛える数学パズル』『もっとプログラマ脳を鍛える数学パズル』『図解まるわかり セキュリティのしくみ』(翔泳社)、『プログラミング言語図鑑』『シゴトに役立つデータ分析・統計のトリセツ』(ソシム)がある。


イラスト:湊川あい

絵を描くWebデザイナー。高等学校教諭免許状 “情報科” 取得済。マンガと図解の力で、物事をわかりやすく伝えることが好き。2014年より「マンガでわかるWebデザイン」をインターネット上に公開していたところ、出版社より声がかかる。

著書「わかばちゃんと学ぶ Webサイト制作の基本」「わかばちゃんと学ぶ Git使い方入門」「わかばちゃんと学ぶ Googleアナリティクス〈アクセス解析・Webマーケティング入門〉
Twitter: @llminatoll Webサイト: マンガでわかるWebデザイン


TECH PLAYでは、エンジニア向けに データ分析アルゴリズム に関する勉強会・イベント情報を提供しております。ご興味のある方はぜひ参加ください。