TECH PLAY

改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

3,278円 (税込)

楽天

改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

書籍情報

発売日:

著者/編集:松村優哉、湯谷啓明、紀ノ定保礼、前田和寛

出版社:技術評論社

発行形態:単行本

書籍説明

内容紹介

tidyverseによるモダンな分析フローの世界。Rによるデータ分析に必須のツールRStudioの充実した機能解説。tidyverseパッケージ群に準拠したモダンなデータ前処理/可視化。スクレイピングからレポーティングまで分析ワークフローをこの1冊で完結。

目次

はじめに  本書の特徴  本書の構成  本書の対象読者  本書で解説しなかったこと  さあRStudioで分析を tidyverseとは  tidyverseのパッケージ  tidyverseの過去  tidyverseの未来 第1章 RStudioの基礎 1-1 RStudioのダウンロードとインストール  macOS  Windows 1-2 RStudioの基本操作  RStudioのインターフェース  プロジェクト機能  Rスクリプトの新規作成と保存  Rのコマンドの実行  オブジェクトの確認  補完機能  Jobs機能 1-3 RStudioを自分好みにカスタマイズ  RStudio全般  コーディング  外観  Terminal  キーボードショートカット 1-4 ファイルの読み込み  Rの標準関数の問題点  readrパッケージ  Excelファイルの読み込み  SAS,SPSS,STATAファイルの読み込み  RStudio(GUI)によるデータの読み込み  ファイル読み込みのまとめ 1-5 RやRStudioで困ったときは  ヘルプを使う  Vignetteを見る  チートシートを使う  コマンドパレット 1-6 まとめ 第2章 スクレイピングによるデータ収集 2-1 なぜスクレイピングが必要か  スクレイピングとは  手作業によるデータ取得の限界 2-2 スクレイピングに必要なWeb知識  HTML  CSS  XMLとXPath 2-3 Rによるスクレイピング入門  rvestパッケージ  Webページタイトルの抽出  パイプ演算子  スクレイピング実践 2-4 API  APIとは  rtweetパッケージによるTwitterデータの収集  ツイートの収集  COLUMN ブラウザの自動操作  COLUMN Webスクレイピングをするときの注意点 2-5 まとめ  参考文献 第3章 dplyr/tidyrによるデータ前処理 3-1 tidy dataとは  tidy dataの定義  tidyではないデータ 3-2 tidyrによるtidy dataへの変形  tidyではないデータ  pivot_longer()による縦長データへの変形  pivot_wider()による横長のデータへの変形 3-3 dplyrによる基本的なデータ操作  tibbleとデータフレームの違い  dplyrの関数の概要  1つのデータフレームを操作する関数の共通点と%>%  演算子による処理のパイプライン化  filter()による行の絞り込み  COLUMN dplyrの関数内でのコード実行  arrange()によるデータの並び替え  select()による列の絞り込み  relocate()による列の並べ替え  mutate()による列の追加  summarise()によるデータの集計計算 3-4 dplyrによる応用的なデータ操作  グループ化  COLUMN 複数の値を返す集約関数とsummarise()  COLUMN ウィンドウ関数  COLUMN selectのセマンティクスとmutateのセマンティクス  複数の列への操作 3-5 dplyrによる2つのデータセットの結合と絞り込み  inner_join()によるデータの結合  さまざまなキーの指定方法  inner_join()以外の関数によるデータの結合  semi_join()、anti_join()による絞り込み 3-6 tidyrのその他の関数  separate()による値の分割  extract()による値の抽出  separate_rows()による値の分割(縦方向)  暗黙の欠損値  complete()による存在しない組み合わせの検出  COLUMN group_by()による存在しない組み合わせの表示  fill()による欠損値の補完  replace_na()による欠損値の置き換え 3-7 まとめ 第4章 ggplot2を用いたデータ可視化 4-1 可視化の重要性 4-2 ggplot2パッケージを用いた可視化  準備  エステティックマッピング  COLUMN グラフに肉付けする  統計的処理:stat  COLUMN X軸に離散変数をマッピングした場合における折れ線グラフ  配置の指定:position  COLUMN position_dodge()とposition_dodge2()  軸の調整  グラフの保存 4-3 他者と共有可能な状態に仕上げる  themeの変更  文字サイズやフォントの変更  配色の変更  ラベルを変更する 4-4 便利なパッケージ  複数のグラフを並べる  表示される水準の順番を変更したい 4-5 まとめ  参考文献 第5章 R Markdownによるレポート生成 5-1 分析結果のレポーティング  ドキュメント作成の現場  手作業によるドキュメント作成の問題点 5-2 R Markdown入門  Hello, R Markdown  Rmdファイルと処理フロー  Markdownの基本  Rチャンク  ドキュメントの設定  RStudioで使える便利なTips  COLUMN Visual ModeによるRmdファイルの編集 5-3 出力形式  html_document形式  pdf_document形式  word_document形式  スライド出力  R Markdownの出力形式を提供するパッケージ  COLUMN 日本語環境での注意点 5-4 まとめ  参考URL・参考文献 付録A stringrによる文字列データの処理 A-1 文字列データとstringrパッケージ A-2 文字列処理の例  str_c()による文字列の連結  str_split()による文字列の分割  str_detect()による文字列の判定  COLUMN fixed()/coll()を用いた挙動の調整  str_count()による検索対象の計上  str_locate()による検索対象の位置の特定  str_subset()/str_extract()による文字列の抽出  str_sub()による文字列の抽出  str_replace()による文字列の置換  str_trim()/str_squish()による空白の除去 A-3 正規表現  任意の文字や記号の検索  高度な検索  regex() A-4 まとめ 付録B lubridateによる日付・時刻データの処理2 B-1 日付・時刻のデータ型とlubridateパッケージ B-2 日付・時刻への変換  文字列から日付・時刻への変換  数値から日付・時刻への変換  readrパッケージによる読み込み時の変換 B-3 日付・時刻データの加工 B-4 interval B-5 日付、時刻データの計算・集計例  wday()を使った曜日の計算例  floor_date()を使った週ごとの集計例 B-6 タイムゾーンの扱い B-7 その他の日付・時刻データ処理に関する関数  zipanguパッケージ  sliderパッケージ

著者情報

前田, 和寛, 1978-

松村, 優哉

松村優哉、湯谷啓明、紀ノ定保礼、前田和寛

松村優哉(まつむら ゆうや) IT企業勤務。修士(経済学)。学生時代の専門はベイズ統計学、統計的因果推論およびそれらのマーケティングへの応用。本書の第1章、第2章を執筆。 湯谷啓明(ゆたに ひろあき) IT企業勤務。データの可視化への興味からggplot2を知り、Rを使い始める。tidyverseへのコントリビューションも多数。本書の「tidyverseとは」、第3章、付録Bを執筆。 紀ノ定保礼(きのさだ やすのり) 静岡理工科大学情報学部 講師。博士(人間科学)。同志社大学文化情報学部在学中にRを習うも、当時はRStudioがなく、いつしか疎遠になる。大阪大学大学院人間科学研究科助教を経て、現職。本書の第4章と付録Aを執筆。 前田和寛(まえだ かずひろ) IT企業勤務。分析をするためにRを使いはじめ、気付いたら全国各地のRコミュニティで発表するようになる。本書の「はじめに」、第5章を執筆。

湯谷, 啓明

紀ノ定, 保礼