【ハンズオン】Excelで機械学習をやってみよう！

イベント公開日: 2018/08/09

ブックマーク

#Meetup, #機械学習, #女子部, #データ分析, #データマイニング

後半は、実際にExcelを使って機械学習を体験しました！今回は、ハンズオンということで参加者にPCを持ち込んでいただき、あらかじめ用意したデータを使いながら分析を行いました。講師は、NEC AI・アナリティクス事業開発本部の見上紗和子氏。趣味として、入社以降つけ続けている家計簿など、データがあれば何でも分析するデータサイエンス女子です！

Alt text 　

まずは最初は目的設定から

今回のハンズオンではワインの品質データを使用しました。「ワインの若手査定士による査定に品質のばらつきがある」という課題を仮定し、「機械学習でワインの品質を高精度に予測する」という目的を設定して分析を行っていきます。

ハンズオンにチャレンジしたのはデータ分析未経験者から実務経験4年未満の参加者、約20名。機械学習はやったことないけれど、ふだんから使い慣れているExcelなら自分にも出来るかも、と期待と緊張を膨らませてハンズオンが始まりました。

事前準備と基礎集計

参加者にはあらかじめ事前準備として、データのダウンロード・整形とExcelのアドイン「分析」をインストールしてきていただきました。ハンズオンでは、まず最初にデータ観察からスタート。前半の栗原氏の６つのフローの中でも説明があったように、基礎集計はとても大事な作業ですので決して怠ってはいけません。

今回はExcelのデータ分析ツールの「基本統計量」を使って、データの最小・最大・平均・分散などを確認しました。ここで異常値の有無や傾向を観察します。さらに、同じくデータ分析ツールの「相関」の機能を使って予測したい対象とその他のデータの関係性も確認し、ワインの品質には何が影響しているのか、あたりを付けます。

Alt text

重回帰分析でワインの品質を予測

本来であれば、この後にモデル設計やデータ加工の作業がありますが、今回のハンズオンでは時間の関係上、解説のみを行って作業は省略。分析のフェーズに移ります。使用したワインのデータには「品質」に加えて、「クエン酸濃度」や「密度」、「pH」など全部で12個の項目がありました。それは、複数の説明変数が存在することを意味します。そこで今回は、重回帰分析を使って「品質」を予測することにしました。

作業としては、Excelに新規のシートを作成してデータを学習用と予測用の２つに分割。まず、学習用データを使って重回帰分析を行います（データ分析ツールの「回帰分析」の機能を使用）。さらに、そこで得られた結果より予測式を作成し、予測用データに挿入していきます。全ての予測用データで予測値を算出して分析は終了とし、結果評価のフェーズに移ります。

結果評価が重要な理由

ハンズオンの最後のパートでは「ワインの品質を高精度で予測できるか」を確認するために、平均二乗誤差（「実績値」と「予測値」の誤差の二乗の平均値の平方根）を算出しました。最初に設定した課題より、若手査定士が査定したワイン品質の誤差よりも、機械学習で予測した品質の誤差の方が小さければ、実用に値する結果といえるでしょう。実際の機械学習プロジェクトにおいても、意思決定がぶれないように、どれくらいの精度が出れば運用に適用するか、運用者（顧客）と合意を取っておくことが重要です。

次のページ：
おまけ：参加者アンケートを可視化してみた

テクノロジーと共に成長しよう、
活躍しよう。

TECH PLAYに登録すると、
スキルアップやキャリアアップのための
情報がもっと簡単に見つけられます。

面白そうなイベントを見つけたら
積極的に参加してみましょう。

タグからイベントをさがす

【ハンズオン】Excelで機械学習をやってみよう！

まずは最初は目的設定から

事前準備と基礎集計

重回帰分析でワインの品質を予測

結果評価が重要な理由

データサイエンティスト女子部

テクノロジーと共に成長しよう、
活躍しよう。

タグからイベントをさがす

データサイエンティスト女子部

エラータイトル

まずは最初は目的設定から

事前準備と基礎集計

重回帰分析でワインの品質を予測

結果評価が重要な理由

関連するイベント

おすすめの記事

テクノロジーと共に成長しよう、活躍しよう。

タグからイベントをさがす

エラータイトル

テクノロジーと共に成長しよう、
活躍しよう。