改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界
書籍情報
発売日 : 2021年06月03日
著者/編集 : 松村優哉、湯谷啓明、紀ノ定保礼、前田和寛
出版社 : 技術評論社
発行形態 : 単行本
書籍説明
内容紹介
tidyverseによるモダンな分析フローの世界。Rによるデータ分析に必須のツールRStudioの充実した機能解説。tidyverseパッケージ群に準拠したモダンなデータ前処理/可視化。スクレイピングからレポーティングまで分析ワークフローをこの1冊で完結。
目次
はじめに
本書の特徴
本書の構成
本書の対象読者
本書で解説しなかったこと
さあRStudioで分析を
tidyverseとは
tidyverseのパッケージ
tidyverseの過去
tidyverseの未来
第1章 RStudioの基礎
1-1 RStudioのダウンロードとインストール
macOS
Windows
1-2 RStudioの基本操作
RStudioのインターフェース
プロジェクト機能
Rスクリプトの新規作成と保存
Rのコマンドの実行
オブジェクトの確認
補完機能
Jobs機能
1-3 RStudioを自分好みにカスタマイズ
RStudio全般
コーディング
外観
Terminal
キーボードショートカット
1-4 ファイルの読み込み
Rの標準関数の問題点
readrパッケージ
Excelファイルの読み込み
SAS,SPSS,STATAファイルの読み込み
RStudio(GUI)によるデータの読み込み
ファイル読み込みのまとめ
1-5 RやRStudioで困ったときは
ヘルプを使う
Vignetteを見る
チートシートを使う
コマンドパレット
1-6 まとめ
第2章 スクレイピングによるデータ収集
2-1 なぜスクレイピングが必要か
スクレイピングとは
手作業によるデータ取得の限界
2-2 スクレイピングに必要なWeb知識
HTML
CSS
XMLとXPath
2-3 Rによるスクレイピング入門
rvestパッケージ
Webページタイトルの抽出
パイプ演算子
スクレイピング実践
2-4 API
APIとは
rtweetパッケージによるTwitterデータの収集
ツイートの収集
COLUMN ブラウザの自動操作
COLUMN Webスクレイピングをするときの注意点
2-5 まとめ
参考文献
第3章 dplyr/tidyrによるデータ前処理
3-1 tidy dataとは
tidy dataの定義
tidyではないデータ
3-2 tidyrによるtidy dataへの変形
tidyではないデータ
pivot_longer()による縦長データへの変形
pivot_wider()による横長のデータへの変形
3-3 dplyrによる基本的なデータ操作
tibbleとデータフレームの違い
dplyrの関数の概要
1つのデータフレームを操作する関数の共通点と%>%
演算子による処理のパイプライン化
filter()による行の絞り込み
COLUMN dplyrの関数内でのコード実行
arrange()によるデータの並び替え
select()による列の絞り込み
relocate()による列の並べ替え
mutate()による列の追加
summarise()によるデータの集計計算
3-4 dplyrによる応用的なデータ操作
グループ化
COLUMN 複数の値を返す集約関数とsummarise()
COLUMN ウィンドウ関数
COLUMN selectのセマンティクスとmutateのセマンティクス
複数の列への操作
3-5 dplyrによる2つのデータセットの結合と絞り込み
inner_join()によるデータの結合
さまざまなキーの指定方法
inner_join()以外の関数によるデータの結合
semi_join()、anti_join()による絞り込み
3-6 tidyrのその他の関数
separate()による値の分割
extract()による値の抽出
separate_rows()による値の分割(縦方向)
暗黙の欠損値
complete()による存在しない組み合わせの検出
COLUMN group_by()による存在しない組み合わせの表示
fill()による欠損値の補完
replace_na()による欠損値の置き換え
3-7 まとめ
第4章 ggplot2を用いたデータ可視化
4-1 可視化の重要性
4-2 ggplot2パッケージを用いた可視化
準備
エステティックマッピング
COLUMN グラフに肉付けする
統計的処理:stat
COLUMN X軸に離散変数をマッピングした場合における折れ線グラフ
配置の指定:position
COLUMN position_dodge()とposition_dodge2()
軸の調整
グラフの保存
4-3 他者と共有可能な状態に仕上げる
themeの変更
文字サイズやフォントの変更
配色の変更
ラベルを変更する
4-4 便利なパッケージ
複数のグラフを並べる
表示される水準の順番を変更したい
4-5 まとめ
参考文献
第5章 R Markdownによるレポート生成
5-1 分析結果のレポーティング
ドキュメント作成の現場
手作業によるドキュメント作成の問題点
5-2 R Markdown入門
Hello, R Markdown
Rmdファイルと処理フロー
Markdownの基本
Rチャンク
ドキュメントの設定
RStudioで使える便利なTips
COLUMN Visual ModeによるRmdファイルの編集
5-3 出力形式
html_document形式
pdf_document形式
word_document形式
スライド出力
R Markdownの出力形式を提供するパッケージ
COLUMN 日本語環境での注意点
5-4 まとめ
参考URL・参考文献
付録A stringrによる文字列データの処理
A-1 文字列データとstringrパッケージ
A-2 文字列処理の例
str_c()による文字列の連結
str_split()による文字列の分割
str_detect()による文字列の判定
COLUMN fixed()/coll()を用いた挙動の調整
str_count()による検索対象の計上
str_locate()による検索対象の位置の特定
str_subset()/str_extract()による文字列の抽出
str_sub()による文字列の抽出
str_replace()による文字列の置換
str_trim()/str_squish()による空白の除去
A-3 正規表現
任意の文字や記号の検索
高度な検索
regex()
A-4 まとめ
付録B lubridateによる日付・時刻データの処理2
B-1 日付・時刻のデータ型とlubridateパッケージ
B-2 日付・時刻への変換
文字列から日付・時刻への変換
数値から日付・時刻への変換
readrパッケージによる読み込み時の変換
B-3 日付・時刻データの加工
B-4 interval
B-5 日付、時刻データの計算・集計例
wday()を使った曜日の計算例
floor_date()を使った週ごとの集計例
B-6 タイムゾーンの扱い
B-7 その他の日付・時刻データ処理に関する関数
zipanguパッケージ
sliderパッケージ
本書の特徴
本書の構成
本書の対象読者
本書で解説しなかったこと
さあRStudioで分析を
tidyverseとは
tidyverseのパッケージ
tidyverseの過去
tidyverseの未来
第1章 RStudioの基礎
1-1 RStudioのダウンロードとインストール
macOS
Windows
1-2 RStudioの基本操作
RStudioのインターフェース
プロジェクト機能
Rスクリプトの新規作成と保存
Rのコマンドの実行
オブジェクトの確認
補完機能
Jobs機能
1-3 RStudioを自分好みにカスタマイズ
RStudio全般
コーディング
外観
Terminal
キーボードショートカット
1-4 ファイルの読み込み
Rの標準関数の問題点
readrパッケージ
Excelファイルの読み込み
SAS,SPSS,STATAファイルの読み込み
RStudio(GUI)によるデータの読み込み
ファイル読み込みのまとめ
1-5 RやRStudioで困ったときは
ヘルプを使う
Vignetteを見る
チートシートを使う
コマンドパレット
1-6 まとめ
第2章 スクレイピングによるデータ収集
2-1 なぜスクレイピングが必要か
スクレイピングとは
手作業によるデータ取得の限界
2-2 スクレイピングに必要なWeb知識
HTML
CSS
XMLとXPath
2-3 Rによるスクレイピング入門
rvestパッケージ
Webページタイトルの抽出
パイプ演算子
スクレイピング実践
2-4 API
APIとは
rtweetパッケージによるTwitterデータの収集
ツイートの収集
COLUMN ブラウザの自動操作
COLUMN Webスクレイピングをするときの注意点
2-5 まとめ
参考文献
第3章 dplyr/tidyrによるデータ前処理
3-1 tidy dataとは
tidy dataの定義
tidyではないデータ
3-2 tidyrによるtidy dataへの変形
tidyではないデータ
pivot_longer()による縦長データへの変形
pivot_wider()による横長のデータへの変形
3-3 dplyrによる基本的なデータ操作
tibbleとデータフレームの違い
dplyrの関数の概要
1つのデータフレームを操作する関数の共通点と%>%
演算子による処理のパイプライン化
filter()による行の絞り込み
COLUMN dplyrの関数内でのコード実行
arrange()によるデータの並び替え
select()による列の絞り込み
relocate()による列の並べ替え
mutate()による列の追加
summarise()によるデータの集計計算
3-4 dplyrによる応用的なデータ操作
グループ化
COLUMN 複数の値を返す集約関数とsummarise()
COLUMN ウィンドウ関数
COLUMN selectのセマンティクスとmutateのセマンティクス
複数の列への操作
3-5 dplyrによる2つのデータセットの結合と絞り込み
inner_join()によるデータの結合
さまざまなキーの指定方法
inner_join()以外の関数によるデータの結合
semi_join()、anti_join()による絞り込み
3-6 tidyrのその他の関数
separate()による値の分割
extract()による値の抽出
separate_rows()による値の分割(縦方向)
暗黙の欠損値
complete()による存在しない組み合わせの検出
COLUMN group_by()による存在しない組み合わせの表示
fill()による欠損値の補完
replace_na()による欠損値の置き換え
3-7 まとめ
第4章 ggplot2を用いたデータ可視化
4-1 可視化の重要性
4-2 ggplot2パッケージを用いた可視化
準備
エステティックマッピング
COLUMN グラフに肉付けする
統計的処理:stat
COLUMN X軸に離散変数をマッピングした場合における折れ線グラフ
配置の指定:position
COLUMN position_dodge()とposition_dodge2()
軸の調整
グラフの保存
4-3 他者と共有可能な状態に仕上げる
themeの変更
文字サイズやフォントの変更
配色の変更
ラベルを変更する
4-4 便利なパッケージ
複数のグラフを並べる
表示される水準の順番を変更したい
4-5 まとめ
参考文献
第5章 R Markdownによるレポート生成
5-1 分析結果のレポーティング
ドキュメント作成の現場
手作業によるドキュメント作成の問題点
5-2 R Markdown入門
Hello, R Markdown
Rmdファイルと処理フロー
Markdownの基本
Rチャンク
ドキュメントの設定
RStudioで使える便利なTips
COLUMN Visual ModeによるRmdファイルの編集
5-3 出力形式
html_document形式
pdf_document形式
word_document形式
スライド出力
R Markdownの出力形式を提供するパッケージ
COLUMN 日本語環境での注意点
5-4 まとめ
参考URL・参考文献
付録A stringrによる文字列データの処理
A-1 文字列データとstringrパッケージ
A-2 文字列処理の例
str_c()による文字列の連結
str_split()による文字列の分割
str_detect()による文字列の判定
COLUMN fixed()/coll()を用いた挙動の調整
str_count()による検索対象の計上
str_locate()による検索対象の位置の特定
str_subset()/str_extract()による文字列の抽出
str_sub()による文字列の抽出
str_replace()による文字列の置換
str_trim()/str_squish()による空白の除去
A-3 正規表現
任意の文字や記号の検索
高度な検索
regex()
A-4 まとめ
付録B lubridateによる日付・時刻データの処理2
B-1 日付・時刻のデータ型とlubridateパッケージ
B-2 日付・時刻への変換
文字列から日付・時刻への変換
数値から日付・時刻への変換
readrパッケージによる読み込み時の変換
B-3 日付・時刻データの加工
B-4 interval
B-5 日付、時刻データの計算・集計例
wday()を使った曜日の計算例
floor_date()を使った週ごとの集計例
B-6 タイムゾーンの扱い
B-7 その他の日付・時刻データ処理に関する関数
zipanguパッケージ
sliderパッケージ
著者情報
松村, 優哉
松村優哉、湯谷啓明、紀ノ定保礼、前田和寛
松村優哉(まつむら ゆうや)
IT企業勤務。修士(経済学)。学生時代の専門はベイズ統計学、統計的因果推論およびそれらのマーケティングへの応用。本書の第1章、第2章を執筆。
湯谷啓明(ゆたに ひろあき)
IT企業勤務。データの可視化への興味からggplot2を知り、Rを使い始める。tidyverseへのコントリビューションも多数。本書の「tidyverseとは」、第3章、付録Bを執筆。
紀ノ定保礼(きのさだ やすのり)
静岡理工科大学情報学部 講師。博士(人間科学)。同志社大学文化情報学部在学中にRを習うも、当時はRStudioがなく、いつしか疎遠になる。大阪大学大学院人間科学研究科助教を経て、現職。本書の第4章と付録Aを執筆。
前田和寛(まえだ かずひろ)
IT企業勤務。分析をするためにRを使いはじめ、気付いたら全国各地のRコミュニティで発表するようになる。本書の「はじめに」、第5章を執筆。
湯谷, 啓明
紀ノ定, 保礼
前田, 和寛, 1978-