Python、Rで学ぶデータサイエンス

書籍情報

発売日 : 2020年11月11日

著者/編集 : Chantal D. Larose/Daniel T. Larose/阿部 真人/西村 晃治

出版社 : 東京化学同人

発行形態 : 単行本

書籍説明

内容紹介

初学者がデータサイエンス分野で即戦力となる技術を身につけるための教科書・実用書.大学のデータサイエンス入門者~中級者向けに書かれている.PythonとRの実践的なスキルを身につけることができる.

目次

1.イントロダクション
 なぜデータサイエンスが必要なのか
 データサイエンスとは何か
 データサイエンスの方法論
 データサイエンスのタスク
 練習問題

2.PythonとRの基礎
 Pythonのダウンロード
 Pythonプログラミングの基礎
 RとRStudioのダウンロード
 Rプログラミングの基礎
 参考文献
 練習問題

3.データ準備
 銀行マーケティングデータセット
 分析課題を設定する
 データの準備
 インデックスの付与
 モデルに悪影響をもたらす変数値の変換
 カテゴリ変数から数値変数への変換
 数値変数の正規化
 外れ値の特定
 参考文献
 練習問題

4.探索的データ解析
 探索的データ解析(EDA)と仮説検定
 複合棒グラフと目的変数
 分割表
 複合ヒストグラム
 説明変数のビン化
 参考文献 
 練習問題

5.モデル構築下準備
 第4章までのおさらい
 データ分割
 データ分割の評価
 学習用データセットの均衡化
 モデル性能のベースラインの策定
 参考文献
 練習問題

6.決定木
 イントロダクション
 CARTアルゴリズム
 C5.0アルゴリズム
 ランダムフォレスト
 参考文献
 練習問題

7.モデルの評価
 イントロダクション
 分類モデルの評価指標
 感度と特異度
 適合率,再現率,Fβ値
 モデル評価手法
 モデル評価の適用例
 不均衡な損失の考慮
 不均衡な損失の有無によるモデル比較
 データドリブンな損失の定義
 練習問題

8.単純ベイズ分類器
 単純ベイズの紹介
 ベイズの定理
 最大事後確率
 条件付き独立
 単純ベイズ分類器の適用例
 参考文献
 練習問題

9.ニューラルネットワーク
 ニューラルネットワーク入門
 ニューラルネットワークの構造
 結合の重みと組合わせのための関数
 シグモイド型の活性化関数
 誤差逆伝播法
 ニューラルネットワークの適用例
 ニューラルネットワークにおける重みの解釈
 Rでのニューラルネットワークの使い方
 練習問題

10.クラスタリング
 クラスタリングとは何か?
 k-meansクラスタリングアルゴリズム入門
 k-meansクラスタリングの適用
 クラスターの検証
 Pythonによるk-meansクラスタリングの実行方法
 Rによるk-meansクラスタリングの実行方法
 練習問題

11.回帰モデル
 推定タスク
 記述的回帰モデル
 多変量回帰モデルの応用例
 Pythonを用いた重回帰
 Rを用いた重回帰
 推定に対するモデルの評価
 ステップワイズ回帰
 回帰のベースとなるモデル
 参考文献
 練習問題

12.次元削減
 次元削減の必要性
 多重共線性
 分散拡大係数を用いた多重共線性の確認
 主成分分析
 主成分分析の応用
 何個の成分まで取り出すか
 k=4でPCAを実行する
 主成分の検証
 Pythonを用いた主成分分析の実行法
 Rを用いた主成分分析の実行法
 多重共線性が問題にならないとき
 参考文献
 練習問題

13.一般化線形モデル
 一般化線形モデルの概要
 一般化線形モデルとしての線形回帰
 一般化線形モデルとしてのロジスティック回帰
 ロジスティック回帰の例
 ポアソン回帰
 ポアソン回帰の例
 参考文献
 練習問題

14.アソシエーションルール
 イントロダクション
 アソシエーションルールの簡単な抽出例
 支持度,信頼度,リフト値
 アソシエーションルールの抽出
 指標の確認
 信頼度差分基準
 信頼度比率基準
 参考文献
 練習問題

付録:データの要約と可視化
 要約1:データ分析のブロックの構築
 可視化:データを要約および整理するためのグラフと表
 要約2:中心,ばらつき,位置の尺度
 2変量の関係の要約と可視化

コマンド・スクリプト索引

著者情報

chantal d. larose
Larose, Chantal D
daniel t. larose
Larose, Daniel T
阿部 真人
阿部, 真人, 1984-
西村 晃治
西村, 晃治, 1986-