2020/11/04(水)19:30 〜 20:30

Python Pandas 勉強会 in 新潟 #55(オンライン(zoom))

オンライン

データ分析, API, Python

イベント内容

Python のライブラリ Pandas を通してデータ分析について学んだり、持ち寄ったデータを分析したりする会です。

本勉強会の内容は以下の通りです。

目的
- Pandas に詳しくなること
行うこと
- 教科書①(3.参照)の読み合わせ(音読)
- 読んでわからないことがあったら質問し誰かが答える、質問と答えをまとめる
教科書

① 「Python によるデータ分析入門第2版」(https://www.oreilly.co.jp/books/9784873118451/)

※参加される方はご購入をお願いいたします。紙or電子書籍どちらでも大丈夫です。
開催日時・場所

zoom によるオンライン開催です。開始時間になりましたら、以下の参加URLから参加をお願いします。※zoom のアカウント作成・インストール・設定は事前にお願いします。
- 11/04(水)
  - 19:30 - 20:30
- 参加URL
  - https://us02web.zoom.us/j/89609332600
    
    (参加URLは固定)
参加費用
- 無料
現在の進捗について

現在の進捗です。

※文字装飾の意味

文字装飾意味
なしこれから読む
斜線読了またはスキップ
太字読み始める章
- 1章　はじめに (スキップ)
  - 1.1　この本で説明する内容 (スキップ)
    - 1.1.1　どういうデータを扱うのか (スキップ)
  - 1.2　なぜPythonをデータ分析に使うのか (スキップ)
    - 1.2.1　「糊（グルー）」としてのPython (スキップ)
    - 1.2.2　「2つの言語」問題を解決する (スキップ)
    - 1.2.3　Pythonを使うべきではないケース (スキップ)
  - 1.3　必須のPythonライブラリ (スキップ)
    - 1.3.1　NumPy (スキップ)
    - 1.3.2　pandas (スキップ)
    - 1.3.3　Matplotlib (スキップ)
    - 1.3.4　IPythonとJupyter (スキップ)
    - 1.3.5　SciPy (スキップ)
    - 1.3.6　scikit-learn (スキップ)
    - 1.3.7　statsmodels (スキップ)
  - 1.4　インストールとセットアップ (スキップ)
    - 1.4.1　Windows (スキップ)
    - 1.4.2　Apple（macOS） (スキップ)
    - 1.4.3　GNU/Linux (スキップ)
    - 1.4.4　Pythonパッケージのインストールとアップデート (スキップ)
    - 1.4.5　Python 2とPython 3 (スキップ)
    - 1.4.6　統合開発環境（IDE）とテキストエディタ (スキップ)
  - 1.5　コミュニティとカンファレンス (スキップ)
  - 1.6　この本の案内 (スキップ)
    - 1.6.1　コード例 (スキップ)
    - 1.6.2　例で使用しているデータ (スキップ)
    - 1.6.3　インポートにおける慣習 (スキップ)
    - 1.6.4　専門用語（ジャーゴン、Jargon） (スキップ)
- 2章　Pythonの基礎、IPythonとJupyter Notebook (スキップ)
  - 2.1　Pythonインタプリタ (スキップ)
  - 2.2　IPythonの基礎 (スキップ)
    - 2.2.1　IPythonシェルの起動 (スキップ)
    - 2.2.2　Jupyter Notebookの実行 (スキップ)
    - 2.2.3　タブ補完 (スキップ)
    - 2.2.4　イントロスペクション (スキップ)
    - 2.2.5　%runコマンド (スキップ)
    - 2.2.6　クリップボード経由の実行 (スキップ)
    - 2.2.7　IPythonのキーボードショートカット (スキップ)
    - 2.2.8　マジックコマンド (スキップ)
    - 2.2.9　Matplotlibとの連携 (スキップ)
  - 2.3　Pythonの基礎 (スキップ)
    - 2.3.1　セマンティクス (スキップ)
    - 2.3.2　スカラー型 (スキップ)
    - 2.3.3　制御フロー (スキップ)
- 3章　Python組み込みのデータ構造と関数、ファイルの扱い (読了)
  - 3.1　データ構造とシーケンス (読了)
    - 3.1.1　タプル (読了)
    - 3.1.2　リスト (読了)
    - 3.1.3　組み込みのシーケンス関数 (読了)
    - 3.1.4　ディクショナリ (読了)
    - 3.1.5　セット (読了)
    - 3.1.6　リスト、セット、ディクショナリの内包表記 (読了)
  - 3.2　関数 (読了)
    - 3.2.1　名前空間、スコープ、ローカル関数 (読了)
    - 3.2.2　複数の値を戻す (読了)
    - 3.2.3　関数はオブジェクトである (読了)
    - 3.2.4　無名（ラムダ）関数 (読了)
    - 3.2.5　カリー化：引数の部分適用 (読了)
    - 3.2.6　ジェネレータ (読了)
    - 3.2.7　エラーと例外の処理 (読了)
  - 3.3　ファイルとオペレーティングシステム (スキップ)
    - 3.3.1　ファイルにおけるバイトとUnicode (スキップ)
  - 3.4　まとめ
- 4章　NumPyの基礎：配列とベクトル演算 (スキップ)
  - 4.1　NumPy ndarray：多次元配列オブジェクト (スキップ)
    - 4.1.1　ndarrayの生成 (スキップ)
    - 4.1.2　ndarrayのデータ型 (スキップ)
    - 4.1.3　ndarrayの算術演算 (スキップ)
    - 4.1.4　インデックス参照とスライシングの基礎 (スキップ)
    - 4.1.5　ブールインデックス参照 (スキップ)
    - 4.1.6　ファンシーインデックス参照 (スキップ)
    - 4.1.7　転置行列、行と列の入れ替え (スキップ)
  - 4.2　ユニバーサル関数：すべての配列要素への関数適用 (スキップ)
  - 4.3　ndarrayによる配列指向プログラミング (スキップ)
    - 4.3.1　条件制御のndarrayでの表現 (スキップ)
    - 4.3.2　数学関数、統計関数 (スキップ)
    - 4.3.3　真偽値配列関数 (スキップ)
    - 4.3.4　ソート (スキップ)
    - 4.3.5　集合関数：uniqueなど (スキップ)
  - 4.4　ndarrayのファイル入出力 (スキップ)
  - 4.5　行列計算 (スキップ)
  - 4.6　擬似乱数生成 (スキップ)
  - 4.7　例：ランダムウォーク (スキップ)
    - 4.7.1　多重ランダムウォーク (スキップ)
  - 4.8　まとめ (スキップ)
- 5章　pandas入門 (読了)
  - 5.1　pandasのデータ構造 (読了)
    - 5.1.1　シリーズ（Series） (読了)
    - 5.1.2　データフレーム（DataFrame） (読了)
    - 5.1.3　インデックスオブジェクト (読了)
  - 5.2　pandasの重要な機能 (読了)
    - 5.2.1　再インデックス付け (読了)
    - 5.2.2　軸から要素を削除する (読了)
    - 5.2.3　インデックス参照、選択、フィルタリング (読了)
    - 5.2.4　整数のインデックス (読了)
    - 5.2.5　算術とデータの整形 (読了)
    - 5.2.6　関数の適用とマッピング (読了)
    - 5.2.7　ソートとランク (読了)
    - 5.2.8　重複したラベルを持つ軸のインデックス (読了)
  - 5.3　要約統計量の集計と計算 (読了)
    - 5.3.1　相関と共分散 (読了)
    - 5.3.2　一意な値、頻度の確認、所属の確認 (読了)
  - 5.4　まとめ (読了)
- 6章　データの読み込み、書き出しとファイル形式 (読了)
  - 6.1　テキスト形式のデータの読み書き (読了)
    - 6.1.1　テキストファイルを少しずつ読み込む (読了)
    - 6.1.2　テキスト形式でのデータの書き出し (読了)
    - 6.1.3　区切り文字で区切られた形式を操作する (読了)
    - 6.1.4　JSONデータ (読了)
    - 6.1.5　XMLとHTML：ウェブスクレイピング (読了)
  - 6.2　バイナリデータ形式 (読了)
    - 6.2.1　HDF5形式の使用 (読了)
    - 6.2.2　Microsoft Excelファイルの読み込み (読了)
  - 6.3　Web APIを用いたデータの取得 (読了)
  - 6.4　データベースからのデータの取得 (読了)
  - 6.5　まとめ (読了)
- 7章　データのクリーニングと前処理 (読了)
  - 7.1　欠損値の取り扱い (読了)
    - 7.1.1　欠損値を削除する (読了)
    - 7.1.2　欠損値を穴埋めする (読了)
  - 7.2　データの変形 (読了)
    - 7.2.1　重複の除去 (読了)
    - 7.2.2　関数やマッピングを用いたデータの変換 (読了)
    - 7.2.3　値の置き換え (読了)
    - 7.2.4　軸のインデックスの名前を変更する (読了)
    - 7.2.5　離散化とビニング (読了)
    - 7.2.6　外れ値の検出と除去 (読了)
    - 7.2.7　順列（ランダムな並べ替え）やランダムサンプリング (読了)
    - 7.2.8　標識変数やダミー変数の計算 (読了)
  - 7.3　文字列操作 (読了)
    - 7.3.1　文字列オブジェクトのメソッド (読了)
    - 7.3.2　正規表現 (読了)
    - 7.3.3　pandasにおける文字列関数のベクトル化 (読了)
  - 7.4　まとめ (読了)
- 8章　データラングリング：連結、結合、変形 (読了)
  - 8.1　階層型インデックス (読了)
    - 8.1.1　階層の順序変更やソート (読了)
    - 8.1.2　階層ごとの要約統計量 (読了)
    - 8.1.3　データフレームの列をインデックスに使う (読了)
  - 8.2　データセットの結合とマージ (読了)
    - 8.2.1　データフレームをデータベース風に結合する (読了)
    - 8.2.2　インデックスによるマージ (読了)
    - 8.2.3　軸に沿った連結 (読了)
    - 8.2.4　重複のあるデータの結合 (読了)
  - 8.3　変形とピボット操作 (読了)
    - 8.3.1　階層型インデックスによる変形 (読了)
    - 8.3.2　「縦持ち」フォーマットから「横持ち」フォーマットへのピボット (読了)
    - 8.3.3　「横持ち」フォーマットから「縦持ち」フォーマットへのピボット (読了)
  - 8.4　まとめ (読了)
- 9章　プロットと可視化
  - 9.1　Matplotlib APIの概要 (読了)
    - 9.1.1　図とサブプロット (読了)
    - 9.1.2　色、マーカー、線種 (読了)
    - 9.1.3　目盛り、ラベル、凡例 (読了)
    - 9.1.4　サブプロットへの注釈や描画 (読了)
    - ~~9.1.5　プロットのファイルへの保存 (読了)
    - 9.1.6　Matplotlibの設定 (読了)
  - 9.2　pandasとseabornのプロット関数 (読了)
    - 9.2.1　折れ線グラフ
    - 9.2.2　棒グラフ(11/04 は P.297のここから)
    - 9.2.3　ヒストグラムと密度プロット
    - 9.2.4　散布図
    - 9.2.5　ファセットグリッドとカテゴリ型データ
  - 9.3　その他のPython用可視化ツール
  - 9.4　まとめ
- 10章　データの集約とグループ演算 (読了)
  - 10.1　GroupByの仕組み (読了)
    - 10.1.1　グループをまたいだ繰り返し (読了)
    - 10.1.2　列や列の集合の選択 (読了)
    - 10.1.3　ディクショナリやシリーズのグループ化 (読了)
    - 10.1.4　関数を使ったグループ化 (読了)
    - ~~10.1.5　インデックス階層によるグループ化 (読了)
  - 10.2　データの集約 (読了)
    - 10.2.1　列に複数の関数を適用する (読了)
    - 10.2.2　集約されたデータを行インデックスなしで戻す (読了)
  - 10.3　applyメソッド：一般的な分離－適用－結合の方法 (読了)
    - 10.3.1　グループキーの抑制 (読了)
    - 10.3.2　分位点とビン分析 (読了)
    - 10.3.3　例：グループ固有の値で欠損値を埋める (読了)
    - 10.3.4　例：ランダムサンプリングと順列 (読了)
    - 10.3.5　例：グループの加重平均と相関 (読了)
    - 10.3.6　例：グループ指向の線形回帰 (読了)
  - 10.4　ピボットテーブルとクロス集計 (読了)
    - 10.4.1　クロス集計：crosstabメソッド (読了)
  - 10.5　まとめ (読了)
- 11章　時系列データ
  - 11.1　日付、時間のデータ型とツール (読了)
    - 11.1.1　文字列とdatetimeの変換 (読了)
  - 11.2　時系列の基本 (読了)
    - 11.2.1　インデックス参照、データの選択、サブセットの抽出 (読了)
    - 11.2.2　重複したインデックスを持つ時系列 (読了)
  - 11.3　日付範囲、頻度、シフト (読了)
    - 11.3.1　日付範囲の生成 (読了)
    - 11.3.2　頻度と日付オフセット (読了)
    - 11.3.3　データの前方と後方へのシフト (読了)
  - 11.4　タイムゾーンを扱う (読了)
    - 11.4.1　タイムゾーンのローカライゼーションと変換 (読了)
    - 11.4.2　タイムゾーンを考慮したタイムスタンプオブジェクト (読了)
    - 11.4.3　別のタイムゾーンとの演算 (読了)
  - 11.5　期間を使った算術演算 (読了)
    - 11.5.1　期間頻度の変換 (読了)
    - 11.5.2　四半期の頻度 **(読了)
    - 11.5.3　タイムスタンプから期間への変換（とその逆） (読了)
    - 11.5.4　配列からPeriodIndexを作成する (読了)
  - 11.6　再サンプリングと頻度変換 (読了)
    - 11.6.1　ダウンサンプリング (読了)
    - 11.6.2　アップサンプリングと穴埋め (読了)
    - 11.6.3　期間で再サンプリングする (読了)
  - 11.7　移動する窓関数 (読了)
    - 11.7.1　指数加重関数 (読了)
    - 11.7.2　2つ値がある場合の移動する窓関数 (読了)
    - 11.7.3　ユーザ定義の移動する窓関数 (読了)
  - 11.8　まとめ (読了)
- 12章　pandas：応用編 (読了)
  - 12.1　カテゴリ型データ (読了)
    - 12.1.1　開発の背景と動機 (読了)
    - 12.1.2　pandasにおけるカテゴリ型 (読了)
    - 12.1.3　カテゴリを用いた計算 (読了)
    - 12.1.4　カテゴリメソッド (読了)
  - 12.2　グループ演算の使い方：応用編 (読了)
    - 12.2.1　グループの変換とGroupByの「分解」 (読了)
    - 12.2.2　時系列データの再サンプリングを伴うグループ化 (読了)
  - 12.3　メソッドチェーンを行うためのテクニック (読了)
    - 12.3.1　pipeメソッド (読了)
  - 12.4　まとめ (読了)
- 13章　Pythonにおけるモデリングライブラリ入門
  - 13.1　pandasとモデルとのやり取りを行う
  - 13.2　Patsyを使ったモデルの記述
    - 13.2.1　Patsy式におけるデータ変換
    - 13.2.2　カテゴリ型データとPatsy
  - 13.3　statsmodels入門
    - 13.3.1　線形モデルの推定
    - 13.3.2　時系列モデルの推定
  - 13.4　scikit-learn入門
  - 13.5　この後の学びのために
- 14章　データ分析の実例
  - 14.1　短縮URL Bitlyにおける1.usa.govへの変換データ
    - 14.1.1　Python標準機能でのタイムゾーン情報の集計
    - 14.1.2　pandasを使用したタイムゾーン情報の集計
  - 14.2　MovieLens 1M（映画評価データ）
    - 14.2.1　評価の分かれた映画の抽出
  - 14.3　アメリカの赤ちゃんに名付けられた名前リスト（1880-2010）
    - 14.3.1　名付けの傾向分析
  - 14.4　アメリカ合衆国農務省の食糧データベース
  - 14.5　2012年度連邦選挙委員会データベース
    - 14.5.1　職業別・雇用者別の寄付の分析
    - 14.5.2　寄付金額ごとの分析
    - 14.5.3　州ごとの寄付の分析
  - 14.6　まとめ
- 付録A　NumPy：応用編
  - A.1　ndarrayオブジェクトの内部構造
    - A.1.1　NumPy dtypeの階層構造
  - A.2　配列操作：応用編
    - A.2.1　配列の形状の再成形
    - A.2.2　C型の順序とFortran型の順序
    - A.2.3　配列の結合と分割
    - A.2.4　要素の繰り返し：tileとrepeat
    - A.2.5　ファンシーインデックス参照の別法：takeとput
  - A.3　ブロードキャスト
    - A.3.1　他の軸へのブロードキャスト
    - A.3.2　ブロードキャストによる配列への値の設定
  - A.4　ufuncの使い方：応用編
    - A.4.1　ufuncのインスタンスメソッド
    - A.4.2　Pythonで新しいufuncを書く方法
  - A.5　構造化配列とレコード配列
    - A.5.1　ネストした構造を持つdtypeと多次元フィールド
    - A.5.2　構造化配列を使うべき理由
  - A.6　ソートについてさらに詳しく
    - A.6.1　間接ソート：argsortとlexsort
    - A.6.2　使用可能な他のソートアルゴリズム
    - A.6.3　配列の一部分をソートする
    - A.6.4　numpy.searchsorted：ソート済みの配列内で要素を探す
  - A.7　Numbaを用いて高速なNumPy関数を書く
    - A.7.1　独自定義のnumpy.ufuncオブジェクトをNumbaを用いて作成する
  - A.8　配列の入出力：応用編
    - A.8.1　メモリマップファイル
    - A.8.2　HDF5やその他の配列保存方法
  - A.9　パフォーマンス改善のための豆知識
    - A.9.1　連続したメモリの重要性
- 付録B　IPythonシステム上級編
  - B.1　コマンド履歴
    - B.1.1　コマンド履歴の検索とその再利用
    - B.1.2　入出力変数
  - B.2　オペレーティングシステムとの連携
    - B.2.1　シェルコマンドとエイリアス（別名定義）
    - B.2.2　ディレクトリブックマークシステム
  - B.3　ソフトウェア開発ツール
    - B.3.1　対話的デバッガ
    - B.3.2　処理時間の計測：%timeと%timeit
    - B.3.3　プロファイリングの基礎：%prunと%run -p
    - B.3.4　行ごとのプロファイリング
  - B.4　IPythonでの生産的コード開発に向けたヒント
    - B.4.1　依存関係を考慮したモジュールの再読み込み
    - B.4.2　コード設計のヒント
  - B.5　高度なIPython機能
    - B.5.1　自前のクラスのIPythonへの親和性を高める技法
    - B.5.2　IPythonプロファイルと構成機能
  - B.6　まとめ