【ハンズオン】Excelで機械学習をやってみよう!
機械学習プロジェクトの進め方について、栗原 理央氏が解説。仕事では最適化問題や将来予測などのデータ分析業務に携わり、プライベートでは深層学習を用いて麻雀点数計算アプリを作るという趣味をもつ、株式会社ブレインパッドのデータサイエンティストです。
初心者が陥りがちな機械学習のポイント
「データはあるけど、何から手を付けたらいいの?」というお悩みをよく聞きますが、機械学習プロジェクトは6つのフローに分けて考えると、とてもわかりやすくなります。栗原氏が、各フローで重要なことや初心者が陥りがちなポイントを自らの体験談を交えて解説してくれました。
<機械学習プロジェクトの6つのフロー>
①データの理解・準備
②基礎集計
③分析設計
④特徴量作成
⑤機械学習モデリング
⑥評価
まず、”①データ理解・準備”と”②基礎集計”におけるポイントは、集計前のデータ確認を行ったり、前処理・検算をおろそかにしないこと。これらの作業をサボると、その後の分析が進められなくなってしまいます。次に、”③分析設計”では解くべき問題を設定して予測粒度や、学習器を決めていきます。ここではどこに重点を置き、何に時間をかけるのか、全体のスケジュールも含めて考えなければなりません。
そして、栗原氏が一番大事なことと強調するのは、”⑥評価”において「何を重視して“良い分析”とするのかを定義すること」。モデルの評価=ビジネスの評価となるのがベストだけれど、実際にそれを実現するのはとても難しいようです。スパムメールの判定の例にしたわかりやすい評価の説明に、参加者もうなずいていました。
大事なことは地道な作業
機械学習プロジェクトを進めるにあたり重要なポイントは、意外にも基本的なことばかりでした。しかし、これらのフローに従って丁寧に作業し、適切な判断をしないと、良い分析結果がでなかったり、当初の目的が達成できなくなってしまいます。栗原氏が過去に失敗した経験から得た分析の注意点や、おススメの学習方法はどれもすぐに役立つものばかりで、参加者は熱心にメモを取りながら聞き入っていました。
さらに詳しいフローの実施内容やポイントについては、セミナー資料をご覧ください。
続いて、Excelを使った機械学習のハンズオンを行いました!
次のページ :
Excelを使った機械学習のハンズオン