【イベント】【女性限定】 R言語によるデータ分析入門、ハンズオンセミナー!
ホントに「巨人」でいいですか?
ここからは実際の演習です。まず、1変量を扱う事例として、プロ野球セリーグ投手の年俸データを分析します。今回の分析の目的は「セリーグ投手の年棒と各球団の年俸を考察する」「セリーグの投手になれるとしたら、どの球団を選択するか決定する」2つ。
参加者は「Rstudio」でcsvデータを読み込み、平均値や最小値、最大値、中央値、最頻値などを算出することで分析に挑戦。その結果、「ほとんどの選手は年棒1億円以下」「半数の球団の中央値は年俸1,500万円以下」「最頻値400-800万円」などがわかります。
さらにその結果から「選手寿命やケガを考えるとセリーグ投手を目指すリスクは高い」「選手に一番多くの額を投資している球団は巨人」「巨人の年俸の平均値は4783万円と6球団のトップであるものの、中央値は975万円と6球団でずば抜けて低い」などと考察しました。
ファッションECサイトのPOSデータを分析!
続いて、相関分析の実演です。ここからはアクセンチュアのエンジニアである香西哲弥さんが担当します。
香西哲弥(こうざい・てつや)/株式会社アクセンチュア エンジニア。福井県出身。同志社大学卒。大手銀行での勤務を経て、2016年にアクセンチュアへ入社。趣味は、美味しいお酒がある土地へ旅行すること。
2変量を扱う相関分析は、どの商品とどの商品が組み合わせて購買されるかという「マーケットバスケット分析」や、購買履歴や検索履歴から商品をオススメする「レコメンドエンジン」などに活用されています。
今回はファッションECサイトのID付きPOSデータ12万件を使った演習を行います。このPOSデータは「ID」「都道府県別(PREF)」「性別(SEX)」「年齢(AGE)」「年間購買額(COST)」から成り、IDを取得しているのでユーザー一人ひとりを追うことが可能です。
この分析の目的は「『都道府県別サイト登録者数』と『年間購買額』に相関があるか考察する」「性別で相関関係に違いがあるか考察する」の2つです。この分析では、インストールしたパッケージ「dplyr」を活用します。「dplyr」は処理速度が早く1000万件ほどのデータでも加工が行えるのが強みです。
「group_by」関数で都道府県でグループ化し、「summarize」関数を用いて登録者数と年間購買額の違いを要約します。続いて「arrange」関数を用いて登録者数順に並べ替え、「head」関数、「tail」で上位と下位の都道府県を確認。さらに、「plot」関数でデータをビジュアライズし、「cor」関数で相関係数を算出します。
この結果、サイト登録者数が多い都道府県は、年間購買金額が多い傾向にあることが考察できます。
続いて、「filter」関数で男女での差を分析します。データを見ると各相関係数は男性が約99%で、女性は約-92%。この数字は「性別で層別すると、年間購買額と登録者の相関関係は、男性の場合は正で、女性の場合は負」であるということ。
つまり、男性は登録者数が多い都会で購買額が多く、女性は登録者数が少ない地方でも購買額が多い傾向があると考察できます。このファッションECサイトでは、データを性別で層別して分析することで、性別も考慮したマーケティング戦略を打ち出す必要があると香西さんは結論付けました。
「アクセンチュアのようにアナリティクスのサービスを導入するような立場にない方も、業種・業態に関わらず今後統計やデータ分析の基礎的な知識は必須になると思います。今回取り組んだ基礎的なデータ分析、またデータを正しく見るという感覚を、実際の業務にも取り込んでいただけると幸いです。」という松本さんのお言葉で、セミナーは終了!
最後はビジュアルも美しいスイーツを食べながら懇親会が行われ、講師の松本さん、香西さんと参加者の皆さん同士で交流が行われていました。
またの開催をお待ちしています!