【ハンズオン】Excelで機械学習をやってみよう!
後半は、実際にExcelを使って機械学習を体験しました!今回は、ハンズオンということで参加者にPCを持ち込んでいただき、あらかじめ用意したデータを使いながら分析を行いました。講師は、NEC AI・アナリティクス事業開発本部の見上紗和子氏。趣味として、入社以降つけ続けている家計簿など、データがあれば何でも分析するデータサイエンス女子です!
まずは最初は目的設定から
今回のハンズオンではワインの品質データを使用しました。「ワインの若手査定士による査定に品質のばらつきがある」という課題を仮定し、「機械学習でワインの品質を高精度に予測する」という目的を設定して分析を行っていきます。
ハンズオンにチャレンジしたのはデータ分析未経験者から実務経験4年未満の参加者、約20名。機械学習はやったことないけれど、ふだんから使い慣れているExcelなら自分にも出来るかも、と期待と緊張を膨らませてハンズオンが始まりました。
事前準備と基礎集計
参加者にはあらかじめ事前準備として、データのダウンロード・整形とExcelのアドイン「分析」をインストールしてきていただきました。ハンズオンでは、まず最初にデータ観察からスタート。前半の栗原氏の6つのフローの中でも説明があったように、基礎集計はとても大事な作業ですので決して怠ってはいけません。
今回はExcelのデータ分析ツールの「基本統計量」を使って、データの最小・最大・平均・分散などを確認しました。ここで異常値の有無や傾向を観察します。さらに、同じくデータ分析ツールの「相関」の機能を使って予測したい対象とその他のデータの関係性も確認し、ワインの品質には何が影響しているのか、あたりを付けます。
重回帰分析でワインの品質を予測
本来であれば、この後にモデル設計やデータ加工の作業がありますが、今回のハンズオンでは時間の関係上、解説のみを行って作業は省略。分析のフェーズに移ります。使用したワインのデータには「品質」に加えて、「クエン酸濃度」や「密度」、「pH」など全部で12個の項目がありました。それは、複数の説明変数が存在することを意味します。そこで今回は、重回帰分析を使って「品質」を予測することにしました。
作業としては、Excelに新規のシートを作成してデータを学習用と予測用の2つに分割。まず、学習用データを使って重回帰分析を行います(データ分析ツールの「回帰分析」の機能を使用)。さらに、そこで得られた結果より予測式を作成し、予測用データに挿入していきます。全ての予測用データで予測値を算出して分析は終了とし、結果評価のフェーズに移ります。
結果評価が重要な理由
ハンズオンの最後のパートでは「ワインの品質を高精度で予測できるか」を確認するために、平均二乗誤差(「実績値」と「予測値」の誤差の二乗の平均値の平方根)を算出しました。最初に設定した課題より、若手査定士が査定したワイン品質の誤差よりも、機械学習で予測した品質の誤差の方が小さければ、実用に値する結果といえるでしょう。実際の機械学習プロジェクトにおいても、意思決定がぶれないように、どれくらいの精度が出れば運用に適用するか、運用者(顧客)と合意を取っておくことが重要です。
次のページ :
おまけ:参加者アンケートを可視化してみた