Python、Rで学ぶデータサイエンス
書籍情報
発売日 : 2020年11月11日
著者/編集 : Chantal D. Larose/Daniel T. Larose/阿部 真人/西村 晃治
出版社 : 東京化学同人
発行形態 : 単行本
書籍説明
内容紹介
初学者がデータサイエンス分野で即戦力となる技術を身につけるための教科書・実用書.大学のデータサイエンス入門者~中級者向けに書かれている.PythonとRの実践的なスキルを身につけることができる.
目次
1.イントロダクション
なぜデータサイエンスが必要なのか
データサイエンスとは何か
データサイエンスの方法論
データサイエンスのタスク
練習問題
2.PythonとRの基礎
Pythonのダウンロード
Pythonプログラミングの基礎
RとRStudioのダウンロード
Rプログラミングの基礎
参考文献
練習問題
3.データ準備
銀行マーケティングデータセット
分析課題を設定する
データの準備
インデックスの付与
モデルに悪影響をもたらす変数値の変換
カテゴリ変数から数値変数への変換
数値変数の正規化
外れ値の特定
参考文献
練習問題
4.探索的データ解析
探索的データ解析(EDA)と仮説検定
複合棒グラフと目的変数
分割表
複合ヒストグラム
説明変数のビン化
参考文献
練習問題
5.モデル構築下準備
第4章までのおさらい
データ分割
データ分割の評価
学習用データセットの均衡化
モデル性能のベースラインの策定
参考文献
練習問題
6.決定木
イントロダクション
CARTアルゴリズム
C5.0アルゴリズム
ランダムフォレスト
参考文献
練習問題
7.モデルの評価
イントロダクション
分類モデルの評価指標
感度と特異度
適合率,再現率,Fβ値
モデル評価手法
モデル評価の適用例
不均衡な損失の考慮
不均衡な損失の有無によるモデル比較
データドリブンな損失の定義
練習問題
8.単純ベイズ分類器
単純ベイズの紹介
ベイズの定理
最大事後確率
条件付き独立
単純ベイズ分類器の適用例
参考文献
練習問題
9.ニューラルネットワーク
ニューラルネットワーク入門
ニューラルネットワークの構造
結合の重みと組合わせのための関数
シグモイド型の活性化関数
誤差逆伝播法
ニューラルネットワークの適用例
ニューラルネットワークにおける重みの解釈
Rでのニューラルネットワークの使い方
練習問題
10.クラスタリング
クラスタリングとは何か?
k-meansクラスタリングアルゴリズム入門
k-meansクラスタリングの適用
クラスターの検証
Pythonによるk-meansクラスタリングの実行方法
Rによるk-meansクラスタリングの実行方法
練習問題
11.回帰モデル
推定タスク
記述的回帰モデル
多変量回帰モデルの応用例
Pythonを用いた重回帰
Rを用いた重回帰
推定に対するモデルの評価
ステップワイズ回帰
回帰のベースとなるモデル
参考文献
練習問題
12.次元削減
次元削減の必要性
多重共線性
分散拡大係数を用いた多重共線性の確認
主成分分析
主成分分析の応用
何個の成分まで取り出すか
k=4でPCAを実行する
主成分の検証
Pythonを用いた主成分分析の実行法
Rを用いた主成分分析の実行法
多重共線性が問題にならないとき
参考文献
練習問題
13.一般化線形モデル
一般化線形モデルの概要
一般化線形モデルとしての線形回帰
一般化線形モデルとしてのロジスティック回帰
ロジスティック回帰の例
ポアソン回帰
ポアソン回帰の例
参考文献
練習問題
14.アソシエーションルール
イントロダクション
アソシエーションルールの簡単な抽出例
支持度,信頼度,リフト値
アソシエーションルールの抽出
指標の確認
信頼度差分基準
信頼度比率基準
参考文献
練習問題
付録:データの要約と可視化
要約1:データ分析のブロックの構築
可視化:データを要約および整理するためのグラフと表
要約2:中心,ばらつき,位置の尺度
2変量の関係の要約と可視化
コマンド・スクリプト索引
なぜデータサイエンスが必要なのか
データサイエンスとは何か
データサイエンスの方法論
データサイエンスのタスク
練習問題
2.PythonとRの基礎
Pythonのダウンロード
Pythonプログラミングの基礎
RとRStudioのダウンロード
Rプログラミングの基礎
参考文献
練習問題
3.データ準備
銀行マーケティングデータセット
分析課題を設定する
データの準備
インデックスの付与
モデルに悪影響をもたらす変数値の変換
カテゴリ変数から数値変数への変換
数値変数の正規化
外れ値の特定
参考文献
練習問題
4.探索的データ解析
探索的データ解析(EDA)と仮説検定
複合棒グラフと目的変数
分割表
複合ヒストグラム
説明変数のビン化
参考文献
練習問題
5.モデル構築下準備
第4章までのおさらい
データ分割
データ分割の評価
学習用データセットの均衡化
モデル性能のベースラインの策定
参考文献
練習問題
6.決定木
イントロダクション
CARTアルゴリズム
C5.0アルゴリズム
ランダムフォレスト
参考文献
練習問題
7.モデルの評価
イントロダクション
分類モデルの評価指標
感度と特異度
適合率,再現率,Fβ値
モデル評価手法
モデル評価の適用例
不均衡な損失の考慮
不均衡な損失の有無によるモデル比較
データドリブンな損失の定義
練習問題
8.単純ベイズ分類器
単純ベイズの紹介
ベイズの定理
最大事後確率
条件付き独立
単純ベイズ分類器の適用例
参考文献
練習問題
9.ニューラルネットワーク
ニューラルネットワーク入門
ニューラルネットワークの構造
結合の重みと組合わせのための関数
シグモイド型の活性化関数
誤差逆伝播法
ニューラルネットワークの適用例
ニューラルネットワークにおける重みの解釈
Rでのニューラルネットワークの使い方
練習問題
10.クラスタリング
クラスタリングとは何か?
k-meansクラスタリングアルゴリズム入門
k-meansクラスタリングの適用
クラスターの検証
Pythonによるk-meansクラスタリングの実行方法
Rによるk-meansクラスタリングの実行方法
練習問題
11.回帰モデル
推定タスク
記述的回帰モデル
多変量回帰モデルの応用例
Pythonを用いた重回帰
Rを用いた重回帰
推定に対するモデルの評価
ステップワイズ回帰
回帰のベースとなるモデル
参考文献
練習問題
12.次元削減
次元削減の必要性
多重共線性
分散拡大係数を用いた多重共線性の確認
主成分分析
主成分分析の応用
何個の成分まで取り出すか
k=4でPCAを実行する
主成分の検証
Pythonを用いた主成分分析の実行法
Rを用いた主成分分析の実行法
多重共線性が問題にならないとき
参考文献
練習問題
13.一般化線形モデル
一般化線形モデルの概要
一般化線形モデルとしての線形回帰
一般化線形モデルとしてのロジスティック回帰
ロジスティック回帰の例
ポアソン回帰
ポアソン回帰の例
参考文献
練習問題
14.アソシエーションルール
イントロダクション
アソシエーションルールの簡単な抽出例
支持度,信頼度,リフト値
アソシエーションルールの抽出
指標の確認
信頼度差分基準
信頼度比率基準
参考文献
練習問題
付録:データの要約と可視化
要約1:データ分析のブロックの構築
可視化:データを要約および整理するためのグラフと表
要約2:中心,ばらつき,位置の尺度
2変量の関係の要約と可視化
コマンド・スクリプト索引
著者情報
chantal d. larose
Larose, Chantal D
daniel t. larose
Larose, Daniel T
阿部 真人
阿部, 真人, 1984-
西村 晃治
西村, 晃治, 1986-