データ分析で「相関係数」を使うときの4つの注意点
たくさんのデータがあったとき、そのデータの分布などの特徴を知るために平均や中央値などの「代表値」を使います。代表値を計算すると、たくさんのデータがあっても1つの値で表現できますが、平均身長や平均年収のように、1つの軸での代表値でしかありません。
実務の現場を考えると、複数の軸でデータの特徴を考えたい場合は少なくありません。例えば、身長が高いと体重が重い傾向がある、高度が高いと気温が下がる傾向がある、ページ数が多い本は値段が高い傾向がある、など、その関係性に注目したい場合が考えられます。
そこで、よく使われるのが「相関係数」を調べる方法です。ただ、その使い方を間違ってしまうと、誤った答えを導くことにつながってしまうかもしれません。その特徴と注意点を理解しておきましょう。
そもそも相関係数とは
散布図で関係性を見える化する
今回は総務省統計局が公開している国勢調査などのデータを使ってみましょう。都道府県別のデータを使うと件数も少なく、手軽に扱えます。例えば、都道府県別に「人口」と「外国籍の割合」の間に何らかの傾向があるのかを調べてみましょう。
直感的には、人口が多い都会ほど外国から来ている方が多いように感じます。国勢調査には、国籍別の人数が集計されていますので、これを使ってみます。
都道府県 | 日本人 | 外国人 |
---|---|---|
北海道 | 5,348,768 | 21,676 |
青森県 | 1,302,132 | 3,447 |
岩手県 | 1,272,745 | 5,017 |
宮城県 | 2,291,508 | 13,989 |
秋田県 | 1,017,149 | 2,914 |
〜中略〜 | ||
熊本県 | 1,771,440 | 8,358 |
大分県 | 1,150,436 | 8,656 |
宮崎県 | 1,096,407 | 3,693 |
鹿児島県 | 1,631,662 | 5,847 |
沖縄県 | 1,410,487 | 11,020 |
このデータを使って、横軸に都道府県別の人口、縦軸に外国人の割合を表現すると、次のような図ができます。このような図を「散布図」といいます。
このような散布図を描いてみると、その傾向を捉えることはできますが、その解釈は人によって違うかもしれません。ある人は「人口が多いほど外国人も多い傾向がある」と感じるかもしれませんし、別の人は「バラバラに散らばっている」と感じるかもしれません。
他のデータの例として、都道府県別の「未成年の割合」と「15歳以上の未婚率」の分布を調べてみましょう。若い人が多い都心ほど、未婚の割合が高い、という傾向がありそうですが、実際のデータを見ると、次のようになりました。
これを見ると、明らかに傾向があるとはいえないように思えます。ただ、これも人によって解釈が異なりそうです。そこで、誰が見ても同じ認識を持てるように「数値化」することを考えます。
相関係数で数値化する
年齢データから平均年齢、得点データから平均点などを求めて数値化するのと同じように、散布図からその関係を数値化する場合は「相関係数」を使います。相関係数はExcelなどで簡単に計算できます。
Excelで「CORREL」という関数を使うと、上記の例の場合、それぞれ0.674と0.258になりました。
この相関係数が1に近い場合は右肩上がりの分布、-1に近い場合は右肩下がりの分布に近づきます。また、0に近い場合はバラバラだといえます。分布のイメージは図のような関係になっており、相関係数の値を元に以下の表のように表現します。
-1.0〜-0.7 | -0.7〜-0.2 | -0.2〜+0.2 | +0.2〜+0.7 | +0.7〜+1.0 |
---|---|---|---|---|
強い負の相関がある | 弱い負の相関がある | 相関がない | 弱い正の相関がある | 強い正の相関がある |
今回の場合、いずれも「弱い正の相関がある」といえますが、前者の方がより強い正の相関があると考えられます。このように相関係数を求めると、誰でも同じ認識を持つことができます。ただし、相関係数を使う場合には注意点が4つありますので、その注意点について解説します。
注意点1)外れ値に注意
相関係数を使うと、関係性の強さを数値で表現できますが、「外れ値」が存在すると注意が必要です。上記の「未成年の割合」と「15歳未満の未婚率」の場合、散布図を見ると、左上と右上に離れた点があることに気づきます。左上は東京都、右上は沖縄県の例ですが、例えば東京都を除くだけで相関係数は一気に0.5になります。
つまり、たった1つの値によって、相関係数が大きく変わってしまいました。今回のようにデータの数が50件程度の場合、1件のデータで大きく変わる可能性があります。もし未成年の割合が100%、未婚率も100%のような都道府県が1つ登場するだけで、この相関係数は0.98のように強い正の相関があるように変わってしまいます。
このように、他のデータと大きく離れた値があると、相関係数は大きく変わってしまうのです。
注意点2)意外と見落としがちな因果関係
散布図や相関を使うと、複数の軸でその関係性をわかりやすく表現できます。ただ、相関があるからといって、必ずそのような結果が得られる、というものではありません。
例えば、次の散布図は、あるお店における「店員の数」と「売上高」の関係を示したものです。これを見ると、店員の数を増やせば売上が増えるように見えるかもしれません。
しかし、実際は逆で、売上が多くなる日を見越して店員の数を多くしている、それによって売上も増えているだけです。このように、原因と結果の関係になっている場合を「因果関係」といいます。つまり、上記のように相関があるように見えても、その背景にある理由を考えなければなりません。
注意点3)忘れがちな疑似相関
因果関係のように単純なものだけとは限りません。次の散布図は「アイスクリームの販売数」と「太陽光発電の発電量」の関係を表したものです。横軸にアイスクリームの販売数を取ると、次の図のように分布していました。
これを見て、販売数を増やせば発電量も増える、と考える人はいないでしょう。また、これを逆にした場合を考えて、発電量を増やせば販売数も増える、という人もいないでしょう。これは、夏になるとアイスクリームの販売量が増え、冬になると減る、発電量も夏の方が多い、といったことが背景にあります。
この散布図を見るときには、「季節」という視点を入れないと、正しく解釈できません。このように、他の理由があって相関しているように見える関係を「疑似相関」といいます。
散布図から読み取れることは、あくまでも2つの量の間に何らかの関係性があることだけです。その背景にある因果関係や疑似相関を見抜くためには、なぜそのような関係性が得られるのか考えることが必要です。
注意点4)散布図を描かずに相関係数だけを計算してはいけない
相関係数を使うことに慣れてくると、2つのデータを見ただけで相関係数を計算してしまう人がいます。相関係数は数値化できて便利な一方で、その散布図を見ないと正しく把握できない場合があります。
例えば、以下のような散布図になった場合を考えてみましょう。この場合、明らかに何らかの関係がありそうです。しかし、相関係数を計算すると、その値は-0.05となり、非常に小さな値でした。つまり、「相関がない」ことになります。
このように、直線的な関係がない場合は、相関係数だけを見ても意味がありません。必ず散布図などを合わせて関係性を調べるようにしましょう。
バックナンバー
- データ分析を「数字で表現するメリットとデメリット」とは? #データのトリセツ
- ビジネスの現場で発生する数字のトリックを見破ろう! #データのトリセツ
- グラフの見た目で、人は簡単にデータに騙される? #データのトリセツ
- 線形探索と二分探索を使って、高速化するアルゴリズムを考えよう #パズルのアルゴリズム問題
- 一度計算した値を再利用して、高速化するアルゴリズムを考えよう
- 複数の解き方を考えて実装してみよう!
- アルゴリズムとは何か?アルゴリズムの意味を理解してもっと楽しく学ぼう!
(著者プロフィール)
WRITING:増井 敏克(マスイ トシカツ)
増井技術士事務所 代表。技術士(情報工学部門)、テクニカルエンジニア(ネットワーク、情報セキュリティ)、その他情報処理技術者試験に多数合格。また、ビジネス数学検定1級に合格し、公益財団法人日本数学検定協会認定トレーナーとしても活動。「ビジネス」×「数学」×「IT」を組み合わせ、コンピュータを「正しく」「効率よく」使うためのスキルアップ支援を行っている。 著書に『エンジニアが生き残るためのテクノロジーの授業』『おうちで学べるセキュリティのきほん』『プログラマ脳を鍛える数学パズル』『もっとプログラマ脳を鍛える数学パズル』『図解まるわかり セキュリティのしくみ』(翔泳社)、『プログラミング言語図鑑』『シゴトに役立つデータ分析・統計のトリセツ』(ソシム)がある。
イラスト:湊川あい
絵を描くWebデザイナー。高等学校教諭免許状 “情報科” 取得済。マンガと図解の力で、物事をわかりやすく伝えることが好き。2014年より「マンガでわかるWebデザイン」をインターネット上に公開していたところ、出版社より声がかかる。
著書「わかばちゃんと学ぶ Webサイト制作の基本」「わかばちゃんと学ぶ Git使い方入門」「わかばちゃんと学ぶ Googleアナリティクス〈アクセス解析・Webマーケティング入門〉」
Twitter: @llminatoll Webサイト: マンガでわかるWebデザイン