Rユーザのためのtidymodels[実践]入門〜モダンな統計・機械学習モデリングの世界

書籍情報

発売日 : 2023年01月06日

著者/編集 : 松村 優哉/瓜生 真也/吉村 広志

出版社 : 技術評論社

発行形態 : 単行本

書籍説明

目次

tidymodelsとは
本書の特徴
本書の構成
本書の対象読者
本書で解説しなかったこと
本書のサポートページ
ようこそtidymodelsの世界へ

第1章 データの準備
■1-1 データ分割とリサンプリング法
■1-2 rsampleパッケージによるデータ分割のアプローチ
■1-3 無作為抽出によるデータ分割が不適切なケースへの対応
■1-4 リサンプリング法
■1-5 recipesパッケージによる前処理
■1-6 まとめと参考文献

第2章 回帰モデルの作成
■2-1 statsパッケージによる線形回帰モデルの作成
■2-2 parsnipパッケージによる線形回帰モデルの作成
■2-3 parsnipパッケージの便利な機能
■2-4 yardstickパッケージによるモデルの評価
■2-5 まとめと参考文献

第3章 分類モデルの作成
■3-1 分類モデルとは
■3-2 parsnipパッケージのpredict()関数の扱い方
■3-3 parsnipパッケージによる分類モデルの作成
■3-4 yardstickパッケージによる離散値の評価指標
■3-5 yardstickパッケージによる連続的な確率に対する評価指標
■3-6 まとめと参考文献

第4章 モデルの運用
■4-1 workflowsパッケージによるレシピやモデル、データの変更
■4-2 workflowsetsパッケージによる複数レシピ・モデルの一元管理
■4-3 まとめと参考文献

第5章 ハイパーパラメータチューニング
■5-1 ハイパーパラメータチューニングの流れ
■5-2 ハイパーパラメータチューニングの手法
■5-3 tuneパッケージによるハイパーパラメータチューニング
■5-4 まとめと参考文献

第6章 自然言語処理を使ったtidymodels実践
■6-1 データと形態素解析器MeCabの準備
■6-2 tidymodelsによるモデリング
■6-3 まとめと参考文献

著者情報

松村 優哉
松村 優哉(まつむら ゆうや) ノバセル株式会社 データサイエンティスト。 慶應義塾大学大学院で経済学修士を取得。HR系企業でデータサイエンティスト・データエンジニアとして分析組織の立ち上げ経験を経て、2022年2月より現職。データサイエンス技術を用いた応用分析を得意とし、「Tokyo.R」や「Music×Analytics Meetup」などのデータ分析に関わるコミュニティ運営にも勢力的に取り組む。著書に『改訂2版 RユーザのためのRStudio[実践]入門』(共著, 技術評論社, 2021)、開発Rパッケージに形態素解析器JUMAN++のラッパー「rjumanpp」などがある。本書のはじめに、5章、6章の執筆を担当。 Twitter: @y__mattu
松村, 優哉
瓜生 真也
瓜生 真也(うりゅう しんや) 徳島大学デザイン型AI教育研究センター助教。 横浜国立大学大学院にて森林生態学を専攻。企業、研究機関でのデータエンジニアとしての経験を経て、2021年10月より現職。地理空間データの分析を研究題材とし、データサイエンス・AI教育や大学業務のDX化に取り組む。著書に『データ分析のためのデータ可視化入門』(翻訳, 講談社サイエンティフィク, 2021)、『Rによるスクレイピング入門』(共著, C&R研究所, 2017)など。日本語文章をtidymodelsで扱うwashokuをはじめ、多くのRパッケージを開発・保守する。本書の1章、4章の執筆を担当。 Twitter: @u_ribo
瓜生, 真也, 1989-
吉村 広志
吉村 広志(よしむら ひろし) AIコンサルティングやAIソリューションの提供会社でAIエンジニアとして勤務。 芝浦工業大学大学院を修了。大学時代は創薬化学の研究に取り組み、科学的根拠に基づく医薬品の効果検証に興味を持つ。卒業後は独学で数理統計学を学び、製造業の会社でAIを活用したプロジェクトを担当しデータ収集から機械学習モデルの構築と生産ラインへの実装まで経験する。AIに対する理解度向上のための人材育成企画やAI開発のナレッジ管理の仕組みを導入展開する業務も行う。その後、AIの研究開発を行う企業で幅広い分野のAI活用プロジェクトを経験。分析にはR言語を好み、R言語のコミュニティ等で情報発信活動を行っている。本書の2章、3章の執筆を担当。 Twitter: @Ringa_hyj
吉村, 広志