Python Pandas 勉強会 in 新潟 #32(オンライン(zoom))

2020/05/27(水)19:30 〜 20:30 開催

ブックマーク

#データ分析, #Python, #読書会

イベント内容

Python のライブラリ Pandas を通してデータ分析について学んだり、持ち寄ったデータを分析したりする会です。

本勉強会の内容は以下の通りです。

目的
- Pandas に詳しくなること
行うこと
- 教科書①(3.参照)の読み合わせ(音読)
- 読んでわからないことがあったら質問し誰かが答える、質問と答えをまとめる
教科書

① 「Python によるデータ分析入門第2版」(https://www.oreilly.co.jp/books/9784873118451/)

※参加される方はご購入をお願いいたします。紙or電子書籍どちらでも大丈夫です。
開催日時・場所

zoom によるオンライン開催です。開始時間になりましたら、以下の参加URLから参加をお願いします。※zoom のインストール・設定は各自お願いします。
- 05/27(水)
  - 19:30 - 20:30
- 参加URL
  - https://us02web.zoom.us/j/89429341675
参加費用
- 無料
現在の進捗について

現在の進捗です。

※文字装飾の意味

文字装飾意味

なしこれから読む

斜線読了またはスキップ

太字読み始める章
- ~~1章　はじめに~~ (スキップ)
  - ~~1.1　この本で説明する内容~~ (スキップ)
    - ~~1.1.1　どういうデータを扱うのか~~ (スキップ)
  - ~~1.2　なぜPythonをデータ分析に使うのか~~ (スキップ)
    - ~~1.2.1　「糊（グルー）」としてのPython~~ (スキップ)
    - ~~1.2.2　「2つの言語」問題を解決する~~ (スキップ)
    - ~~1.2.3　Pythonを使うべきではないケース~~ (スキップ)
  - ~~1.3　必須のPythonライブラリ~~ (スキップ)
    - ~~1.3.1　NumPy~~ (スキップ)
    - ~~1.3.2　pandas~~ (スキップ)
    - ~~1.3.3　Matplotlib~~ (スキップ)
    - ~~1.3.4　IPythonとJupyter~~ (スキップ)
    - ~~1.3.5　SciPy~~ (スキップ)
    - ~~1.3.6　scikit-learn~~ (スキップ)
    - ~~1.3.7　statsmodels~~ (スキップ)
  - ~~1.4　インストールとセットアップ~~ (スキップ)
    - ~~1.4.1　Windows~~ (スキップ)
    - ~~1.4.2　Apple（macOS）~~ (スキップ)
    - ~~1.4.3　GNU/Linux~~ (スキップ)
    - ~~1.4.4　Pythonパッケージのインストールとアップデート~~ (スキップ)
    - ~~1.4.5　Python 2とPython 3~~ (スキップ)
    - ~~1.4.6　統合開発環境（IDE）とテキストエディタ~~ (スキップ)
  - ~~1.5　コミュニティとカンファレンス~~ (スキップ)
  - ~~1.6　この本の案内~~ (スキップ)
    - ~~1.6.1　コード例~~ (スキップ)
    - ~~1.6.2　例で使用しているデータ~~ (スキップ)
    - ~~1.6.3　インポートにおける慣習~~ (スキップ)
    - ~~1.6.4　専門用語（ジャーゴン、Jargon）~~ (スキップ)
- ~~2章　Pythonの基礎、IPythonとJupyter Notebook~~ (スキップ)
  - ~~2.1　Pythonインタプリタ~~ (スキップ)
  - ~~2.2　IPythonの基礎~~ (スキップ)
    - ~~2.2.1　IPythonシェルの起動~~ (スキップ)
    - ~~2.2.2　Jupyter Notebookの実行~~ (スキップ)
    - ~~2.2.3　タブ補完~~ (スキップ)
    - ~~2.2.4　イントロスペクション~~ (スキップ)
    - ~~2.2.5　%runコマンド~~ (スキップ)
    - ~~2.2.6　クリップボード経由の実行~~ (スキップ)
    - ~~2.2.7　IPythonのキーボードショートカット~~ (スキップ)
    - ~~2.2.8　マジックコマンド~~ (スキップ)
    - ~~2.2.9　Matplotlibとの連携~~ (スキップ)
  - ~~2.3　Pythonの基礎~~ (スキップ)
    - ~~2.3.1　セマンティクス~~ (スキップ)
    - ~~2.3.2　スカラー型~~ (スキップ)
    - ~~2.3.3　制御フロー~~ (スキップ)
- ~~3章　Python組み込みのデータ構造と関数、ファイルの扱い~~ (読了)
  - ~~3.1　データ構造とシーケンス~~ (読了)
    - ~~3.1.1　タプル~~ (読了)
    - ~~3.1.2　リスト~~ (読了)
    - ~~3.1.3　組み込みのシーケンス関数~~ (読了)
    - ~~3.1.4　ディクショナリ~~ (読了)
    - ~~3.1.5　セット~~ (読了)
    - ~~3.1.6　リスト、セット、ディクショナリの内包表記~~ (読了)
  - ~~3.2　関数~~ (読了)
    - ~~3.2.1　名前空間、スコープ、ローカル関数~~ (読了)
    - ~~3.2.2　複数の値を戻す~~ (読了)
    - ~~3.2.3　関数はオブジェクトである~~ (読了)
    - ~~3.2.4　無名（ラムダ）関数~~ (読了)
    - ~~3.2.5　カリー化：引数の部分適用~~ (読了)
    - ~~3.2.6　ジェネレータ~~ (読了)
    - ~~3.2.7　エラーと例外の処理~~ (読了)
  - ~~3.3　ファイルとオペレーティングシステム~~ (スキップ)
    - ~~3.3.1　ファイルにおけるバイトとUnicode~~ (スキップ)
  - ~~3.4　まとめ~~
- ~~4章　NumPyの基礎：配列とベクトル演算~~ (スキップ)
  - ~~4.1　NumPy ndarray：多次元配列オブジェクト~~ (スキップ)
    - ~~4.1.1　ndarrayの生成~~ (スキップ)
    - ~~4.1.2　ndarrayのデータ型~~ (スキップ)
    - ~~4.1.3　ndarrayの算術演算~~ (スキップ)
    - ~~4.1.4　インデックス参照とスライシングの基礎~~ (スキップ)
    - ~~4.1.5　ブールインデックス参照~~ (スキップ)
    - ~~4.1.6　ファンシーインデックス参照~~ (スキップ)
    - ~~4.1.7　転置行列、行と列の入れ替え~~ (スキップ)
  - ~~4.2　ユニバーサル関数：すべての配列要素への関数適用~~ (スキップ)
  - ~~4.3　ndarrayによる配列指向プログラミング~~ (スキップ)
    - ~~4.3.1　条件制御のndarrayでの表現~~ (スキップ)
    - ~~4.3.2　数学関数、統計関数~~ (スキップ)
    - ~~4.3.3　真偽値配列関数~~ (スキップ)
    - ~~4.3.4　ソート~~ (スキップ)
    - ~~4.3.5　集合関数：uniqueなど~~ (スキップ)
  - ~~4.4　ndarrayのファイル入出力~~ (スキップ)
  - ~~4.5　行列計算~~ (スキップ)
  - ~~4.6　擬似乱数生成~~ (スキップ)
  - ~~4.7　例：ランダムウォーク~~ (スキップ)
    - ~~4.7.1　多重ランダムウォーク~~ (スキップ)
  - ~~4.8　まとめ~~ (スキップ)
- ~~5章　pandas入門~~ (読了)
  - ~~5.1　pandasのデータ構造~~ (読了)
    - ~~5.1.1　シリーズ（Series）~~ (読了)
    - ~~5.1.2　データフレーム（DataFrame）~~ (読了)
    - ~~5.1.3　インデックスオブジェクト~~ (読了)
  - ~~5.2　pandasの重要な機能~~ (読了)
    - ~~5.2.1　再インデックス付け~~ (読了)
    - ~~5.2.2　軸から要素を削除する~~ (読了)
    - ~~5.2.3　インデックス参照、選択、フィルタリング~~ (読了)
    - ~~5.2.4　整数のインデックス~~ (読了)
    - ~~5.2.5　算術とデータの整形~~ (読了)
    - ~~5.2.6　関数の適用とマッピング~~ (読了)
    - ~~5.2.7　ソートとランク~~ (読了)
    - ~~5.2.8　重複したラベルを持つ軸のインデックス~~ (読了)
  - ~~5.3　要約統計量の集計と計算~~ (読了)
    - ~~5.3.1　相関と共分散~~ (読了)
    - ~~5.3.2　一意な値、頻度の確認、所属の確認~~ (読了)
  - ~~5.4　まとめ~~ (読了)
- ~~6章　データの読み込み、書き出しとファイル形式~~ (読了)
  - ~~6.1　テキスト形式のデータの読み書き~~ (読了)
    - ~~6.1.1　テキストファイルを少しずつ読み込む~~ (読了)
    - ~~6.1.2　テキスト形式でのデータの書き出し~~ (読了)
    - ~~6.1.3　区切り文字で区切られた形式を操作する~~ (読了)
    - ~~6.1.4　JSONデータ~~ (読了)
    - ~~6.1.5　XMLとHTML：ウェブスクレイピング~~ (読了)
  - ~~6.2　バイナリデータ形式~~ (読了)
    - ~~6.2.1　HDF5形式の使用~~ (読了)
    - ~~6.2.2　Microsoft Excelファイルの読み込み~~ (読了)
  - ~~6.3　Web APIを用いたデータの取得~~ (読了)
  - ~~6.4　データベースからのデータの取得~~ (読了)
  - ~~6.5　まとめ~~ (読了)
- ~~7章　データのクリーニングと前処理~~ (読了)
  - ~~7.1　欠損値の取り扱い~~ (読了)
    - ~~7.1.1　欠損値を削除する~~ (読了)
    - ~~7.1.2　欠損値を穴埋めする~~ (読了)
  - ~~7.2　データの変形~~ (読了)
    - ~~7.2.1　重複の除去~~ (読了)
    - ~~7.2.2　関数やマッピングを用いたデータの変換~~ (読了)
    - ~~7.2.3　値の置き換え~~ (読了)
    - ~~7.2.4　軸のインデックスの名前を変更する~~ (読了)
    - ~~7.2.5　離散化とビニング~~ (読了)
    - ~~7.2.6　外れ値の検出と除去~~ (読了)
    - ~~7.2.7　順列（ランダムな並べ替え）やランダムサンプリング~~ (読了)
    - ~~7.2.8　標識変数やダミー変数の計算~~ (読了)
  - 7.3　文字列操作 (読了)
    - ~~7.3.1　文字列オブジェクトのメソッド~~ (読了)
    - ~~7.3.2　正規表現~~ (読了)
    - ~~7.3.3　pandasにおける文字列関数のベクトル化~~ (読了)
  - ~~7.4　まとめ~~ (読了)
- 8章　データラングリング：連結、結合、変形
  - ~~8.1　階層型インデックス~~ (読了)
    - ~~8.1.1　階層の順序変更やソート~~ (読了)
    - ~~8.1.2　階層ごとの要約統計量~~ (読了)
    - ~~8.1.3　データフレームの列をインデックスに使う~~ (読了)
  - 8.2　データセットの結合とマージ
    - ~~8.2.1　データフレームをデータベース風に結合する~~ (読了)
    - ~~8.2.2　インデックスによるマージ~~ (読了)
    - 8.2.3　軸に沿った連結★05/27はここから
    - 8.2.4　重複のあるデータの結合
  - 8.3　変形とピボット操作
    - 8.3.1　階層型インデックスによる変形
    - 8.3.2　「縦持ち」フォーマットから「横持ち」フォーマットへのピボット
    - 8.3.3　「横持ち」フォーマットから「縦持ち」フォーマットへのピボット
  - 8.4　まとめ
- 9章　プロットと可視化
  - 9.1　Matplotlib APIの概要
    - 9.1.1　図とサブプロット
    - 9.1.2　色、マーカー、線種
    - 9.1.3　目盛り、ラベル、凡例
    - 9.1.4　サブプロットへの注釈や描画
    - 9.1.5　プロットのファイルへの保存
    - 9.1.6　Matplotlibの設定
  - 9.2　pandasとseabornのプロット関数
    - 9.2.1　折れ線グラフ
    - 9.2.2　棒グラフ
    - 9.2.3　ヒストグラムと密度プロット
    - 9.2.4　散布図
    - 9.2.5　ファセットグリッドとカテゴリ型データ
  - 9.3　その他のPython用可視化ツール
  - 9.4　まとめ
- 10章　データの集約とグループ演算
  - 10.1　GroupByの仕組み
    - 10.1.1　グループをまたいだ繰り返し
    - 10.1.2　列や列の集合の選択
    - 10.1.3　ディクショナリやシリーズのグループ化
    - 10.1.4　関数を使ったグループ化
    - 10.1.5　インデックス階層によるグループ化
  - 10.2　データの集約
    - 10.2.1　列に複数の関数を適用する
    - 10.2.2　集約されたデータを行インデックスなしで戻す
  - 10.3　applyメソッド：一般的な分離－適用－結合の方法
    - 10.3.1　グループキーの抑制
    - 10.3.2　分位点とビン分析
    - 10.3.3　例：グループ固有の値で欠損値を埋める
    - 10.3.4　例：ランダムサンプリングと順列
    - 10.3.5　例：グループの加重平均と相関
    - 10.3.6　例：グループ指向の線形回帰
  - 10.4　ピボットテーブルとクロス集計
    - 10.4.1　クロス集計：crosstabメソッド
  - 10.5　まとめ
- 11章　時系列データ
  - 11.1　日付、時間のデータ型とツール
    - 11.1.1　文字列とdatetimeの変換
  - 11.2　時系列の基本
    - 11.2.1　インデックス参照、データの選択、サブセットの抽出
    - 11.2.2　重複したインデックスを持つ時系列
  - 11.3　日付範囲、頻度、シフト
    - 11.3.1　日付範囲の生成
    - 11.3.2　頻度と日付オフセット
    - 11.3.3　データの前方と後方へのシフト
  - 11.4　タイムゾーンを扱う
    - 11.4.1　タイムゾーンのローカライゼーションと変換
    - 11.4.2　タイムゾーンを考慮したタイムスタンプオブジェクト
    - 11.4.3　別のタイムゾーンとの演算
  - 11.5　期間を使った算術演算
    - 11.5.1　期間頻度の変換
    - 11.5.2　四半期の頻度
    - 11.5.3　タイムスタンプから期間への変換（とその逆）
    - 11.5.4　配列からPeriodIndexを作成する
  - 11.6　再サンプリングと頻度変換
    - 11.6.1　ダウンサンプリング
    - 11.6.2　アップサンプリングと穴埋め
    - 11.6.3　期間で再サンプリングする
  - 11.7　移動する窓関数
    - 11.7.1　指数加重関数
    - 11.7.2　2つ値がある場合の移動する窓関数
    - 11.7.3　ユーザ定義の移動する窓関数
  - 11.8　まとめ
- 12章　pandas：応用編
  - 12.1　カテゴリ型データ
    - 12.1.1　開発の背景と動機
    - 12.1.2　pandasにおけるカテゴリ型
    - 12.1.3　カテゴリを用いた計算
    - 12.1.4　カテゴリメソッド
  - 12.2　グループ演算の使い方：応用編
    - 12.2.1　グループの変換とGroupByの「分解」
    - 12.2.2　時系列データの再サンプリングを伴うグループ化
  - 12.3　メソッドチェーンを行うためのテクニック
    - 12.3.1　pipeメソッド
  - 12.4　まとめ
- 13章　Pythonにおけるモデリングライブラリ入門
  - 13.1　pandasとモデルとのやり取りを行う
  - 13.2　Patsyを使ったモデルの記述
    - 13.2.1　Patsy式におけるデータ変換
    - 13.2.2　カテゴリ型データとPatsy
  - 13.3　statsmodels入門
    - 13.3.1　線形モデルの推定
    - 13.3.2　時系列モデルの推定
  - 13.4　scikit-learn入門
  - 13.5　この後の学びのために
- 14章　データ分析の実例
  - 14.1　短縮URL Bitlyにおける1.usa.govへの変換データ
    - 14.1.1　Python標準機能でのタイムゾーン情報の集計
    - 14.1.2　pandasを使用したタイムゾーン情報の集計
  - 14.2　MovieLens 1M（映画評価データ）
    - 14.2.1　評価の分かれた映画の抽出
  - 14.3　アメリカの赤ちゃんに名付けられた名前リスト（1880-2010）
    - 14.3.1　名付けの傾向分析
  - 14.4　アメリカ合衆国農務省の食糧データベース
  - 14.5　2012年度連邦選挙委員会データベース
    - 14.5.1　職業別・雇用者別の寄付の分析
    - 14.5.2　寄付金額ごとの分析
    - 14.5.3　州ごとの寄付の分析
  - 14.6　まとめ
- 付録A　NumPy：応用編
  - A.1　ndarrayオブジェクトの内部構造
    - A.1.1　NumPy dtypeの階層構造
  - A.2　配列操作：応用編
    - A.2.1　配列の形状の再成形
    - A.2.2　C型の順序とFortran型の順序
    - A.2.3　配列の結合と分割
    - A.2.4　要素の繰り返し：tileとrepeat
    - A.2.5　ファンシーインデックス参照の別法：takeとput
  - A.3　ブロードキャスト
    - A.3.1　他の軸へのブロードキャスト
    - A.3.2　ブロードキャストによる配列への値の設定
  - A.4　ufuncの使い方：応用編
    - A.4.1　ufuncのインスタンスメソッド
    - A.4.2　Pythonで新しいufuncを書く方法
  - A.5　構造化配列とレコード配列
    - A.5.1　ネストした構造を持つdtypeと多次元フィールド
    - A.5.2　構造化配列を使うべき理由
  - A.6　ソートについてさらに詳しく
    - A.6.1　間接ソート：argsortとlexsort
    - A.6.2　使用可能な他のソートアルゴリズム
    - A.6.3　配列の一部分をソートする
    - A.6.4　numpy.searchsorted：ソート済みの配列内で要素を探す
  - A.7　Numbaを用いて高速なNumPy関数を書く
    - A.7.1　独自定義のnumpy.ufuncオブジェクトをNumbaを用いて作成する
  - A.8　配列の入出力：応用編
    - A.8.1　メモリマップファイル
    - A.8.2　HDF5やその他の配列保存方法
  - A.9　パフォーマンス改善のための豆知識
    - A.9.1　連続したメモリの重要性
- 付録B　IPythonシステム上級編
  - B.1　コマンド履歴
    - B.1.1　コマンド履歴の検索とその再利用
    - B.1.2　入出力変数
  - B.2　オペレーティングシステムとの連携
    - B.2.1　シェルコマンドとエイリアス（別名定義）
    - B.2.2　ディレクトリブックマークシステム
  - B.3　ソフトウェア開発ツール
    - B.3.1　対話的デバッガ
    - B.3.2　処理時間の計測：%timeと%timeit
    - B.3.3　プロファイリングの基礎：%prunと%run -p
    - B.3.4　行ごとのプロファイリング
  - B.4　IPythonでの生産的コード開発に向けたヒント
    - B.4.1　依存関係を考慮したモジュールの再読み込み
    - B.4.2　コード設計のヒント
  - B.5　高度なIPython機能
    - B.5.1　自前のクラスのIPythonへの親和性を高める技法
    - B.5.2　IPythonプロファイルと構成機能
  - B.6　まとめ