改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

書籍情報

発売日 : 2021年06月03日

著者/編集 : 松村優哉、湯谷啓明、紀ノ定保礼、前田和寛

出版社 : 技術評論社

発行形態 : 単行本

書籍説明

内容紹介

tidyverseによるモダンな分析フローの世界。Rによるデータ分析に必須のツールRStudioの充実した機能解説。tidyverseパッケージ群に準拠したモダンなデータ前処理/可視化。スクレイピングからレポーティングまで分析ワークフローをこの1冊で完結。

目次

はじめに
 本書の特徴
 本書の構成
 本書の対象読者
 本書で解説しなかったこと
 さあRStudioで分析を

tidyverseとは
 tidyverseのパッケージ
 tidyverseの過去
 tidyverseの未来

第1章 RStudioの基礎
1-1 RStudioのダウンロードとインストール
 macOS
 Windows
1-2 RStudioの基本操作
 RStudioのインターフェース
 プロジェクト機能
 Rスクリプトの新規作成と保存
 Rのコマンドの実行
 オブジェクトの確認
 補完機能
 Jobs機能
1-3 RStudioを自分好みにカスタマイズ
 RStudio全般
 コーディング
 外観
 Terminal
 キーボードショートカット
1-4 ファイルの読み込み
 Rの標準関数の問題点
 readrパッケージ
 Excelファイルの読み込み
 SAS,SPSS,STATAファイルの読み込み
 RStudio(GUI)によるデータの読み込み
 ファイル読み込みのまとめ
1-5 RやRStudioで困ったときは
 ヘルプを使う
 Vignetteを見る
 チートシートを使う
 コマンドパレット
1-6 まとめ

第2章 スクレイピングによるデータ収集
2-1 なぜスクレイピングが必要か
 スクレイピングとは
 手作業によるデータ取得の限界
2-2 スクレイピングに必要なWeb知識
 HTML
 CSS
 XMLとXPath
2-3 Rによるスクレイピング入門
 rvestパッケージ
 Webページタイトルの抽出
 パイプ演算子
 スクレイピング実践
2-4 API
 APIとは
 rtweetパッケージによるTwitterデータの収集
 ツイートの収集
 COLUMN ブラウザの自動操作
 COLUMN Webスクレイピングをするときの注意点
2-5 まとめ
 参考文献

第3章 dplyr/tidyrによるデータ前処理
3-1 tidy dataとは
 tidy dataの定義
 tidyではないデータ
3-2 tidyrによるtidy dataへの変形
 tidyではないデータ
 pivot_longer()による縦長データへの変形
 pivot_wider()による横長のデータへの変形
3-3 dplyrによる基本的なデータ操作
 tibbleとデータフレームの違い
 dplyrの関数の概要
 1つのデータフレームを操作する関数の共通点と%>%
 演算子による処理のパイプライン化
 filter()による行の絞り込み
 COLUMN dplyrの関数内でのコード実行
 arrange()によるデータの並び替え
 select()による列の絞り込み
 relocate()による列の並べ替え
 mutate()による列の追加
 summarise()によるデータの集計計算
3-4 dplyrによる応用的なデータ操作
 グループ化
 COLUMN 複数の値を返す集約関数とsummarise()
 COLUMN ウィンドウ関数
 COLUMN selectのセマンティクスとmutateのセマンティクス
 複数の列への操作
3-5 dplyrによる2つのデータセットの結合と絞り込み
 inner_join()によるデータの結合
 さまざまなキーの指定方法
 inner_join()以外の関数によるデータの結合
 semi_join()、anti_join()による絞り込み
3-6 tidyrのその他の関数
 separate()による値の分割
 extract()による値の抽出
 separate_rows()による値の分割(縦方向)
 暗黙の欠損値
 complete()による存在しない組み合わせの検出
 COLUMN group_by()による存在しない組み合わせの表示
 fill()による欠損値の補完
 replace_na()による欠損値の置き換え
3-7 まとめ

第4章 ggplot2を用いたデータ可視化
4-1 可視化の重要性
4-2 ggplot2パッケージを用いた可視化
 準備
 エステティックマッピング
 COLUMN グラフに肉付けする
 統計的処理:stat
 COLUMN X軸に離散変数をマッピングした場合における折れ線グラフ
 配置の指定:position
 COLUMN position_dodge()とposition_dodge2()
 軸の調整
 グラフの保存
4-3 他者と共有可能な状態に仕上げる
 themeの変更
 文字サイズやフォントの変更
 配色の変更
 ラベルを変更する
4-4 便利なパッケージ
 複数のグラフを並べる
 表示される水準の順番を変更したい
4-5 まとめ
 参考文献

第5章 R Markdownによるレポート生成
5-1 分析結果のレポーティング
 ドキュメント作成の現場
 手作業によるドキュメント作成の問題点
5-2 R Markdown入門
 Hello, R Markdown
 Rmdファイルと処理フロー
 Markdownの基本
 Rチャンク
 ドキュメントの設定
 RStudioで使える便利なTips
 COLUMN Visual ModeによるRmdファイルの編集
5-3 出力形式
 html_document形式
 pdf_document形式
 word_document形式
 スライド出力
 R Markdownの出力形式を提供するパッケージ
 COLUMN 日本語環境での注意点
5-4 まとめ
 参考URL・参考文献

付録A stringrによる文字列データの処理
A-1 文字列データとstringrパッケージ
A-2 文字列処理の例
 str_c()による文字列の連結
 str_split()による文字列の分割
 str_detect()による文字列の判定
 COLUMN fixed()/coll()を用いた挙動の調整
 str_count()による検索対象の計上
 str_locate()による検索対象の位置の特定
 str_subset()/str_extract()による文字列の抽出
 str_sub()による文字列の抽出
 str_replace()による文字列の置換
 str_trim()/str_squish()による空白の除去
A-3 正規表現
 任意の文字や記号の検索
 高度な検索
 regex()
A-4 まとめ

付録B lubridateによる日付・時刻データの処理2
B-1 日付・時刻のデータ型とlubridateパッケージ
B-2 日付・時刻への変換
 文字列から日付・時刻への変換
 数値から日付・時刻への変換
 readrパッケージによる読み込み時の変換
B-3 日付・時刻データの加工
B-4 interval
B-5 日付、時刻データの計算・集計例
 wday()を使った曜日の計算例
 floor_date()を使った週ごとの集計例
B-6 タイムゾーンの扱い
B-7 その他の日付・時刻データ処理に関する関数
 zipanguパッケージ
 sliderパッケージ

著者情報

松村, 優哉
松村優哉、湯谷啓明、紀ノ定保礼、前田和寛
松村優哉(まつむら ゆうや) IT企業勤務。修士(経済学)。学生時代の専門はベイズ統計学、統計的因果推論およびそれらのマーケティングへの応用。本書の第1章、第2章を執筆。 湯谷啓明(ゆたに ひろあき) IT企業勤務。データの可視化への興味からggplot2を知り、Rを使い始める。tidyverseへのコントリビューションも多数。本書の「tidyverseとは」、第3章、付録Bを執筆。 紀ノ定保礼(きのさだ やすのり) 静岡理工科大学情報学部 講師。博士(人間科学)。同志社大学文化情報学部在学中にRを習うも、当時はRStudioがなく、いつしか疎遠になる。大阪大学大学院人間科学研究科助教を経て、現職。本書の第4章と付録Aを執筆。 前田和寛(まえだ かずひろ) IT企業勤務。分析をするためにRを使いはじめ、気付いたら全国各地のRコミュニティで発表するようになる。本書の「はじめに」、第5章を執筆。
湯谷, 啓明
紀ノ定, 保礼
前田, 和寛, 1978-