Python Pandas 勉強会 in 新潟 #53(オンライン(zoom))
イベント内容
Python のライブラリ Pandas を通してデータ分析について学んだり、持ち寄ったデータを分析したりする会です。
本勉強会の内容は以下の通りです。
-
目的
- Pandas に詳しくなること
-
行うこと
-
教科書①(3.参照)の読み合わせ(音読)
-
読んでわからないことがあったら質問し誰かが答える、質問と答えをまとめる
-
-
教科書
① 「Python によるデータ分析入門 第2版」(https://www.oreilly.co.jp/books/9784873118451/)
※参加される方はご購入をお願いいたします。紙or電子書籍どちらでも大丈夫です。
-
開催日時・場所
zoom によるオンライン開催です。開始時間になりましたら、以下の参加URLから参加をお願いします。※zoom のアカウント作成・インストール・設定は事前にお願いします。
-
10/21(水)
- 19:30 - 20:30
-
参加URL
-
https://us02web.zoom.us/j/89609332600
(参加URLは固定)
-
-
-
参加費用
- 無料
-
現在の進捗について
現在の進捗です。
※文字装飾の意味
文字装飾 意味 なし これから読む 斜線 読了またはスキップ 太字 読み始める章 -
1章 はじめに(スキップ)1.1 この本で説明する内容(スキップ)1.1.1 どういうデータを扱うのか(スキップ)
1.2 なぜPythonをデータ分析に使うのか(スキップ)1.2.1 「糊(グルー)」としてのPython(スキップ)1.2.2 「2つの言語」問題を解決する(スキップ)1.2.3 Pythonを使うべきではないケース(スキップ)
1.3 必須のPythonライブラリ(スキップ)1.3.1 NumPy(スキップ)1.3.2 pandas(スキップ)1.3.3 Matplotlib(スキップ)1.3.4 IPythonとJupyter(スキップ)1.3.5 SciPy(スキップ)1.3.6 scikit-learn(スキップ)1.3.7 statsmodels(スキップ)
1.4 インストールとセットアップ(スキップ)1.4.1 Windows(スキップ)1.4.2 Apple(macOS)(スキップ)1.4.3 GNU/Linux(スキップ)1.4.4 Pythonパッケージのインストールとアップデート(スキップ)1.4.5 Python 2とPython 3(スキップ)1.4.6 統合開発環境(IDE)とテキストエディタ(スキップ)
1.5 コミュニティとカンファレンス(スキップ)1.6 この本の案内(スキップ)1.6.1 コード例(スキップ)1.6.2 例で使用しているデータ(スキップ)1.6.3 インポートにおける慣習(スキップ)1.6.4 専門用語(ジャーゴン、Jargon)(スキップ)
-
2章 Pythonの基礎、IPythonとJupyter Notebook(スキップ)2.1 Pythonインタプリタ(スキップ)2.2 IPythonの基礎(スキップ)2.2.1 IPythonシェルの起動(スキップ)2.2.2 Jupyter Notebookの実行(スキップ)2.2.3 タブ補完(スキップ)2.2.4 イントロスペクション(スキップ)2.2.5 %runコマンド(スキップ)2.2.6 クリップボード経由の実行(スキップ)2.2.7 IPythonのキーボードショートカット(スキップ)2.2.8 マジックコマンド(スキップ)2.2.9 Matplotlibとの連携(スキップ)
2.3 Pythonの基礎(スキップ)2.3.1 セマンティクス(スキップ)2.3.2 スカラー型(スキップ)2.3.3 制御フロー(スキップ)
-
3章 Python組み込みのデータ構造と関数、ファイルの扱い(読了)3.1 データ構造とシーケンス(読了)3.1.1 タプル(読了)3.1.2 リスト(読了)3.1.3 組み込みのシーケンス関数(読了)3.1.4 ディクショナリ(読了)3.1.5 セット(読了)3.1.6 リスト、セット、ディクショナリの内包表記(読了)
3.2 関数(読了)3.2.1 名前空間、スコープ、ローカル関数(読了)3.2.2 複数の値を戻す(読了)3.2.3 関数はオブジェクトである(読了)3.2.4 無名(ラムダ)関数(読了)3.2.5 カリー化:引数の部分適用(読了)3.2.6 ジェネレータ(読了)3.2.7 エラーと例外の処理(読了)
3.3 ファイルとオペレーティングシステム(スキップ)3.3.1 ファイルにおけるバイトとUnicode(スキップ)
3.4 まとめ
-
4章 NumPyの基礎:配列とベクトル演算(スキップ)4.1 NumPy ndarray:多次元配列オブジェクト(スキップ)4.1.1 ndarrayの生成(スキップ)4.1.2 ndarrayのデータ型(スキップ)4.1.3 ndarrayの算術演算(スキップ)4.1.4 インデックス参照とスライシングの基礎(スキップ)4.1.5 ブールインデックス参照(スキップ)4.1.6 ファンシーインデックス参照(スキップ)4.1.7 転置行列、行と列の入れ替え(スキップ)
4.2 ユニバーサル関数:すべての配列要素への関数適用(スキップ)4.3 ndarrayによる配列指向プログラミング(スキップ)4.3.1 条件制御のndarrayでの表現(スキップ)4.3.2 数学関数、統計関数(スキップ)4.3.3 真偽値配列関数(スキップ)4.3.4 ソート(スキップ)4.3.5 集合関数:uniqueなど(スキップ)
4.4 ndarrayのファイル入出力(スキップ)4.5 行列計算(スキップ)4.6 擬似乱数生成(スキップ)4.7 例:ランダムウォーク(スキップ)4.7.1 多重ランダムウォーク(スキップ)
4.8 まとめ(スキップ)
-
5章 pandas入門(読了)5.1 pandasのデータ構造(読了)5.1.1 シリーズ(Series)(読了)5.1.2 データフレーム(DataFrame)(読了)5.1.3 インデックスオブジェクト(読了)
5.2 pandasの重要な機能(読了)5.2.1 再インデックス付け(読了)5.2.2 軸から要素を削除する(読了)5.2.3 インデックス参照、選択、フィルタリング(読了)5.2.4 整数のインデックス(読了)5.2.5 算術とデータの整形(読了)5.2.6 関数の適用とマッピング(読了)5.2.7 ソートとランク(読了)5.2.8 重複したラベルを持つ軸のインデックス(読了)
5.3 要約統計量の集計と計算(読了)5.3.1 相関と共分散(読了)5.3.2 一意な値、頻度の確認、所属の確認(読了)
5.4 まとめ(読了)
-
6章 データの読み込み、書き出しとファイル形式(読了)6.1 テキスト形式のデータの読み書き(読了)6.1.1 テキストファイルを少しずつ読み込む(読了)6.1.2 テキスト形式でのデータの書き出し(読了)6.1.3 区切り文字で区切られた形式を操作する(読了)6.1.4 JSONデータ(読了)6.1.5 XMLとHTML:ウェブスクレイピング(読了)
6.2 バイナリデータ形式(読了)6.2.1 HDF5形式の使用(読了)6.2.2 Microsoft Excelファイルの読み込み(読了)
6.3 Web APIを用いたデータの取得(読了)6.4 データベースからのデータの取得(読了)6.5 まとめ(読了)
-
7章 データのクリーニングと前処理(読了)7.1 欠損値の取り扱い(読了)7.1.1 欠損値を削除する(読了)7.1.2 欠損値を穴埋めする(読了)
7.2 データの変形(読了)7.2.1 重複の除去(読了)7.2.2 関数やマッピングを用いたデータの変換(読了)7.2.3 値の置き換え(読了)7.2.4 軸のインデックスの名前を変更する(読了)7.2.5 離散化とビニング(読了)7.2.6 外れ値の検出と除去(読了)7.2.7 順列(ランダムな並べ替え)やランダムサンプリング(読了)7.2.8 標識変数やダミー変数の計算(読了)
- 7.3 文字列操作 (読了)
7.3.1 文字列オブジェクトのメソッド(読了)7.3.2 正規表現(読了)7.3.3 pandasにおける文字列関数のベクトル化(読了)
7.4 まとめ(読了)
-
8章 データラングリング:連結、結合、変形(読了)8.1 階層型インデックス(読了)8.1.1 階層の順序変更やソート(読了)8.1.2 階層ごとの要約統計量(読了)8.1.3 データフレームの列をインデックスに使う(読了)
8.2 データセットの結合とマージ(読了)8.2.1 データフレームをデータベース風に結合する(読了)8.2.2 インデックスによるマージ(読了)8.2.3 軸に沿った連結(読了)8.2.4 重複のあるデータの結合(読了)
8.3 変形とピボット操作(読了)8.3.1 階層型インデックスによる変形(読了)8.3.2 「縦持ち」フォーマットから「横持ち」フォーマットへのピボット(読了)8.3.3 「横持ち」フォーマットから「縦持ち」フォーマットへのピボット(読了)
8.4 まとめ(読了)
-
9章 プロットと可視化
9.1 Matplotlib APIの概要(読了)9.1.1 図とサブプロット(読了)9.1.2 色、マーカー、線種- 9.1.3 目盛り、ラベル、凡例(10/21 は P.286のここから)
- 9.1.4 サブプロットへの注釈や描画
- 9.1.5 プロットのファイルへの保存
- 9.1.6 Matplotlibの設定
- 9.2 pandasとseabornのプロット関数
- 9.2.1 折れ線グラフ
- 9.2.2 棒グラフ
- 9.2.3 ヒストグラムと密度プロット
- 9.2.4 散布図
- 9.2.5 ファセットグリッドとカテゴリ型データ
- 9.3 その他のPython用可視化ツール
- 9.4 まとめ
-
10章 データの集約とグループ演算(読了)10.1 GroupByの仕組み(読了)10.1.1 グループをまたいだ繰り返し(読了)10.1.2 列や列の集合の選択(読了)10.1.3 ディクショナリやシリーズのグループ化(読了)10.1.4 関数を使ったグループ化(読了)- ~~10.1.5 インデックス階層によるグループ化 (読了)
10.2 データの集約(読了)10.2.1 列に複数の関数を適用する(読了)10.2.2 集約されたデータを行インデックスなしで戻す(読了)
10.3 applyメソッド:一般的な分離-適用-結合の方法(読了)10.3.1 グループキーの抑制(読了)10.3.2 分位点とビン分析(読了)10.3.3 例:グループ固有の値で欠損値を埋める(読了)10.3.4 例:ランダムサンプリングと順列(読了)10.3.5 例:グループの加重平均と相関(読了)10.3.6 例:グループ指向の線形回帰(読了)
10.4 ピボットテーブルとクロス集計(読了)10.4.1 クロス集計:crosstabメソッド(読了)
10.5 まとめ(読了)
-
11章 時系列データ
11.1 日付、時間のデータ型とツール(読了)11.1.1 文字列とdatetimeの変換(読了)
11.2 時系列の基本(読了)11.2.1 インデックス参照、データの選択、サブセットの抽出(読了)11.2.2 重複したインデックスを持つ時系列(読了)
11.3 日付範囲、頻度、シフト(読了)11.3.1 日付範囲の生成(読了)11.3.2 頻度と日付オフセット(読了)11.3.3 データの前方と後方へのシフト(読了)
11.4 タイムゾーンを扱う(読了)11.4.1 タイムゾーンのローカライゼーションと変換(読了)11.4.2 タイムゾーンを考慮したタイムスタンプオブジェクト(読了)11.4.3 別のタイムゾーンとの演算(読了)
11.5 期間を使った算術演算(読了)11.5.1 期間頻度の変換(読了)11.5.2 四半期の頻度**(読了)11.5.3 タイムスタンプから期間への変換(とその逆)(読了)11.5.4 配列からPeriodIndexを作成する(読了)
11.6 再サンプリングと頻度変換(読了)11.6.1 ダウンサンプリング(読了)11.6.2 アップサンプリングと穴埋め(読了)11.6.3 期間で再サンプリングする(読了)
11.7 移動する窓関数(読了)11.7.1 指数加重関数(読了)11.7.2 2つ値がある場合の移動する窓関数(読了)11.7.3 ユーザ定義の移動する窓関数(読了)
11.8 まとめ(読了)
-
12章 pandas:応用編(読了)12.1 カテゴリ型データ(読了)12.1.1 開発の背景と動機(読了)12.1.2 pandasにおけるカテゴリ型(読了)12.1.3 カテゴリを用いた計算(読了)12.1.4 カテゴリメソッド(読了)
12.2 グループ演算の使い方:応用編(読了)12.2.1 グループの変換とGroupByの「分解」(読了)12.2.2 時系列データの再サンプリングを伴うグループ化(読了)
12.3 メソッドチェーンを行うためのテクニック(読了)12.3.1 pipeメソッド(読了)
12.4 まとめ(読了)
-
13章 Pythonにおけるモデリングライブラリ入門
- 13.1 pandasとモデルとのやり取りを行う
- 13.2 Patsyを使ったモデルの記述
- 13.2.1 Patsy式におけるデータ変換
- 13.2.2 カテゴリ型データとPatsy
- 13.3 statsmodels入門
- 13.3.1 線形モデルの推定
- 13.3.2 時系列モデルの推定
- 13.4 scikit-learn入門
- 13.5 この後の学びのために
-
14章 データ分析の実例
- 14.1 短縮URL Bitlyにおける1.usa.govへの変換データ
- 14.1.1 Python標準機能でのタイムゾーン情報の集計
- 14.1.2 pandasを使用したタイムゾーン情報の集計
- 14.2 MovieLens 1M(映画評価データ)
- 14.2.1 評価の分かれた映画の抽出
- 14.3 アメリカの赤ちゃんに名付けられた名前リスト(1880-2010)
- 14.3.1 名付けの傾向分析
- 14.4 アメリカ合衆国農務省の食糧データベース
- 14.5 2012年度連邦選挙委員会データベース
- 14.5.1 職業別・雇用者別の寄付の分析
- 14.5.2 寄付金額ごとの分析
- 14.5.3 州ごとの寄付の分析
- 14.6 まとめ
- 14.1 短縮URL Bitlyにおける1.usa.govへの変換データ
-
付録A NumPy:応用編
- A.1 ndarrayオブジェクトの内部構造
- A.1.1 NumPy dtypeの階層構造
- A.2 配列操作:応用編
- A.2.1 配列の形状の再成形
- A.2.2 C型の順序とFortran型の順序
- A.2.3 配列の結合と分割
- A.2.4 要素の繰り返し:tileとrepeat
- A.2.5 ファンシーインデックス参照の別法:takeとput
- A.3 ブロードキャスト
- A.3.1 他の軸へのブロードキャスト
- A.3.2 ブロードキャストによる配列への値の設定
- A.4 ufuncの使い方:応用編
- A.4.1 ufuncのインスタンスメソッド
- A.4.2 Pythonで新しいufuncを書く方法
- A.5 構造化配列とレコード配列
- A.5.1 ネストした構造を持つdtypeと多次元フィールド
- A.5.2 構造化配列を使うべき理由
- A.6 ソートについてさらに詳しく
- A.6.1 間接ソート:argsortとlexsort
- A.6.2 使用可能な他のソートアルゴリズム
- A.6.3 配列の一部分をソートする
- A.6.4 numpy.searchsorted:ソート済みの配列内で要素を探す
- A.7 Numbaを用いて高速なNumPy関数を書く
- A.7.1 独自定義のnumpy.ufuncオブジェクトをNumbaを用いて作成する
- A.8 配列の入出力:応用編
- A.8.1 メモリマップファイル
- A.8.2 HDF5やその他の配列保存方法
- A.9 パフォーマンス改善のための豆知識
- A.9.1 連続したメモリの重要性
- A.1 ndarrayオブジェクトの内部構造
-
付録B IPythonシステム上級編
- B.1 コマンド履歴
- B.1.1 コマンド履歴の検索とその再利用
- B.1.2 入出力変数
- B.2 オペレーティングシステムとの連携
- B.2.1 シェルコマンドとエイリアス(別名定義)
- B.2.2 ディレクトリブックマークシステム
- B.3 ソフトウェア開発ツール
- B.3.1 対話的デバッガ
- B.3.2 処理時間の計測:%timeと%timeit
- B.3.3 プロファイリングの基礎:%prunと%run -p
- B.3.4 行ごとのプロファイリング
- B.4 IPythonでの生産的コード開発に向けたヒント
- B.4.1 依存関係を考慮したモジュールの再読み込み
- B.4.2 コード設計のヒント
- B.5 高度なIPython機能
- B.5.1 自前のクラスのIPythonへの親和性を高める技法
- B.5.2 IPythonプロファイルと構成機能
- B.6 まとめ
- B.1 コマンド履歴
-
以上です。
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。