データ分析で「相関係数」を使うときの4つの注意点 #データのトリセツ

トレンド
データ分析で「相関係数」を使うときの4つの注意点 #データのトリセツ

たくさんのデータがあったとき、そのデータの分布などの特徴を知るために平均や中央値などの「代表値」を使います。代表値を計算すると、たくさんのデータがあっても1つの値で表現できますが、平均身長や平均年収のように、1つの軸での代表値でしかありません。

実務の現場を考えると、複数の軸でデータの特徴を考えたい場合は少なくありません。例えば、身長が高いと体重が重い傾向がある、高度が高いと気温が下がる傾向がある、ページ数が多い本は値段が高い傾向がある、など、その関係性に注目したい場合が考えられます。

そこで、よく使われるのが「相関係数」を調べる方法です。ただ、その使い方を間違ってしまうと、誤った答えを導くことにつながってしまうかもしれません。その特徴と注意点を理解しておきましょう。

散布図で関係性を見える化する

今回は総務省統計局が公開している国勢調査などのデータを使ってみましょう。都道府県別のデータを使うと件数も少なく、手軽に扱えます。例えば、都道府県別に「人口」と「外国籍の割合」の間に何らかの傾向があるのかを調べてみましょう。

直感的には、人口が多い都会ほど外国から来ている方が多いように感じます。国勢調査には、国籍別の人数が集計されていますので、これを使ってみます。

都道府県 日本人 外国人
北海道 5,348,768 21,676
青森県 1,302,132 3,447
岩手県 1,272,745 5,017
宮城県 2,291,508 13,989
秋田県 1,017,149 2,914
〜中略〜
熊本県 1,771,440 8,358
大分県 1,150,436 8,656
宮崎県 1,096,407 3,693
鹿児島県 1,631,662 5,847
沖縄県 1,410,487 11,020

このデータを使って、横軸に都道府県別の人口、縦軸に外国人の割合を表現すると、次のような図ができます。このような図を「散布図」といいます。

このような散布図を描いてみると、その傾向を捉えることはできますが、その解釈は人によって違うかもしれません。ある人は「人口が多いほど外国人も多い傾向がある」と感じるかもしれませんし、別の人は「バラバラに散らばっている」と感じるかもしれません。

他のデータの例として、都道府県別の「未成年の割合」と「15歳以上の未婚率」の分布を調べてみましょう。若い人が多い都心ほど、未婚の割合が高い、という傾向がありそうですが、実際のデータを見ると、次のようになりました。

これを見ると、明らかに傾向があるとはいえないように思えます。ただ、これも人によって解釈が異なりそうです。そこで、誰が見ても同じ認識を持てるように「数値化」することを考えます。

相関係数で数値化する

年齢データから平均年齢、得点データから平均点などを求めて数値化するのと同じように、散布図からその関係を数値化する場合は「相関係数」を使います。相関係数はExcelなどで簡単に計算できます。

Excelで「CORREL」という関数を使うと、上記の例の場合、それぞれ0.674と0.258になりました。

この相関係数が1に近い場合は右肩上がりの分布、-1に近い場合は右肩下がりの分布に近づきます。また、0に近い場合はバラバラだといえます。分布のイメージは図のような関係になっており、相関係数の値を元に以下の表のように表現します。

-1.0〜-0.7 -0.7〜-0.2 -0.2〜+0.2 +0.2〜+0.7 +0.7〜+1.0
強い負の相関がある 弱い負の相関がある 相関がない 弱い正の相関がある 強い正の相関がある

今回の場合、いずれも「弱い正の相関がある」といえますが、前者の方がより強い正の相関があると考えられます。このように相関係数を求めると、誰でも同じ認識を持つことができます。ただし、相関係数を使う場合には注意点が4つありますので、その注意点について解説します。

注意点1)外れ値に注意

相関係数を使うと、関係性の強さを数値で表現できますが、「外れ値」が存在すると注意が必要です。上記の「未成年の割合」と「15歳未満の未婚率」の場合、散布図を見ると、左上と右上に離れた点があることに気づきます。左上は東京都、右上は沖縄県の例ですが、例えば東京都を除くだけで相関係数は一気に0.5になります。

つまり、たった1つの値によって、相関係数が大きく変わってしまいました。今回のようにデータの数が50件程度の場合、1件のデータで大きく変わる可能性があります。もし未成年の割合が100%、未婚率も100%のような都道府県が1つ登場するだけで、この相関係数は0.98のように強い正の相関があるように変わってしまいます。

このように、他のデータと大きく離れた値があると、相関係数は大きく変わってしまうのです。

注意点2)意外と見落としがちな因果関係

散布図や相関を使うと、複数の軸でその関係性をわかりやすく表現できます。ただ、相関があるからといって、必ずそのような結果が得られる、というものではありません。

例えば、次の散布図は、あるお店における「店員の数」と「売上高」の関係を示したものです。これを見ると、店員の数を増やせば売上が増えるように見えるかもしれません。

しかし、実際は逆で、売上が多くなる日を見越して店員の数を多くしている、それによって売上も増えているだけです。このように、原因と結果の関係になっている場合を「因果関係」といいます。つまり、上記のように相関があるように見えても、その背景にある理由を考えなければなりません。

注意点3)忘れがちな疑似相関

因果関係のように単純なものだけとは限りません。次の散布図は「アイスクリームの販売数」と「太陽光発電の発電量」の関係を表したものです。横軸にアイスクリームの販売数を取ると、次の図のように分布していました。

これを見て、販売数を増やせば発電量も増える、と考える人はいないでしょう。また、これを逆にした場合を考えて、発電量を増やせば販売数も増える、という人もいないでしょう。これは、夏になるとアイスクリームの販売量が増え、冬になると減る、発電量も夏の方が多い、といったことが背景にあります。

この散布図を見るときには、「季節」という視点を入れないと、正しく解釈できません。このように、他の理由があって相関しているように見える関係を「疑似相関」といいます。

散布図から読み取れることは、あくまでも2つの量の間に何らかの関係性があることだけです。その背景にある因果関係や疑似相関を見抜くためには、なぜそのような関係性が得られるのか考えることが必要です。

注意点4)散布図を描かずに相関係数だけを計算してはいけない

相関係数を使うことに慣れてくると、2つのデータを見ただけで相関係数を計算してしまう人がいます。相関係数は数値化できて便利な一方で、その散布図を見ないと正しく把握できない場合があります。

例えば、以下のような散布図になった場合を考えてみましょう。この場合、明らかに何らかの関係がありそうです。しかし、相関係数を計算すると、その値は-0.05となり、非常に小さな値でした。つまり、「相関がない」ことになります。

このように、直線的な関係がない場合は、相関係数だけを見ても意味がありません。必ず散布図などを合わせて関係性を調べるようにしましょう。

バックナンバー



(著者プロフィール)

WRITING:増井 敏克(マスイ トシカツ)

増井技術士事務所 代表。技術士(情報工学部門)、テクニカルエンジニア(ネットワーク、情報セキュリティ)、その他情報処理技術者試験に多数合格。また、ビジネス数学検定1級に合格し、公益財団法人日本数学検定協会認定トレーナーとしても活動。「ビジネス」×「数学」×「IT」を組み合わせ、コンピュータを「正しく」「効率よく」使うためのスキルアップ支援を行っている。 著書に『エンジニアが生き残るためのテクノロジーの授業』『おうちで学べるセキュリティのきほん』『プログラマ脳を鍛える数学パズル』『もっとプログラマ脳を鍛える数学パズル』『図解まるわかり セキュリティのしくみ』(翔泳社)、『プログラミング言語図鑑』『シゴトに役立つデータ分析・統計のトリセツ』(ソシム)がある。


イラスト:湊川あい

絵を描くWebデザイナー。高等学校教諭免許状 “情報科” 取得済。マンガと図解の力で、物事をわかりやすく伝えることが好き。2014年より「マンガでわかるWebデザイン」をインターネット上に公開していたところ、出版社より声がかかる。

著書「わかばちゃんと学ぶ Webサイト制作の基本」「わかばちゃんと学ぶ Git使い方入門」「わかばちゃんと学ぶ Googleアナリティクス〈アクセス解析・Webマーケティング入門〉
Twitter: @llminatoll Webサイト: マンガでわかるWebデザイン


この記事のキーワードに関する勉強会・イベントを探す

TECH PLAYでは、ITエンジニア向けの勉強会・イベント情報を提供しています。興味のある方はぜひご参加ください。


おすすめのコラム