Python最速データ収集術 〜スクレイピングでWeb情報を自動で集める

書籍情報

発売日 : 2022年01月22日

著者/編集 : 清水 義孝

出版社 : 技術評論社

発行形態 : 単行本

書籍説明

内容紹介

「プログラミングは難しそう」「仕事が忙しくて勉強時間があまりない」本書では実践的なサンプルで最小限のコツを押さえられます!プログラミングは難しいものではありません。あらかじめ用意されたプログラムの部品を活用して、少ないコードでたくさんの自動化を実現できます!

目次

●はじめに

■第1章 データ収集をハックする
■■1-1 プログラムを使って自動でデータを集める
■■■データを集める重要性が高まっている自動収集の必要性とメリット
■■■本書で取り上げるトピック
■■1-2 自動で集められるデータとは
■■■データの分類を知る
■■■データの提供方法を知る
■■■本書で取り上げる自動収集データ
■■1-3 自動収集の注意点を押さえる
■■■1. サイトの利用規約を守る
■■■2. データ取得には十分な間隔をあけて、サーバーに負担をかけすぎない
■■■3. 取得したデータの利用に際しては、著作権や個人情報を侵害しない

■第2章 Webからデータを集める準備
■■2-1 データ収集に役立つPython
■■2-2 Pythonが使える環境を準備する
■■■Anacondaを準備する
■■■Jupyter Notebookの使い方を理解する
■■■Jupyter Notebookを起動する
■■■Pythonのプログラムを実行する
■■■エディットモード・コマンドモードを理解する
■■■ショートカットキーを理解する
■■■作成したノートブックを保存する
■■■Jupyter Notebookを終了する
■■2-3 Python超入門
■■■データ型と変数を理解する
■■■数値計算をする
■■■文字や数値を画面に出力する(print関数)
■■■データ構造を押さえる(リスト、タプル、辞書)
■■■条件で処理を分岐させる(if文、else)
■■■くり返し処理を押さえる(for文、while文)
■■■関数で何度もおこなう処理をまとめる
■■■ライブラリの使い方を理解する

■第3章 データ自動収集のしくみを押さえる
■■3-1 Webページ・WebAPIのしくみを理解する
■■■Webページの通信方法を押さえる
■■■HTMLを理解しよう
■■■HTMLタグの種類を押さえる
■■■HTMLタグの属性を押さえる
■■■HTMLの階層構造を理解する
■■■CSSを理解しよう
■■■JavaScriptを知ろう
■■■Web APIを理解しよう
■■3-2 データのフォーマットや種類を理解する
■■■フォーマットの種類と特徴
■■■データのおもな種類とオープンデータ
■■3-3 Webページからデータを取得する方法を理解する
■■■データ取得の3ステップ
■■3-4 ステップ1:HTMLをダウンロードする
■■■requestsをインストールする
■■■requestsの使い方を理解する
■■■ダウンロードしたHTMLの内容を確認する
■■3-5 ステップ2:データを抽出する
■■■Beautiful Soupをインストールする
■■■Beautiful Soupの使い方を理解する
■■■Chrome開発者ツールの使い方を理解する
■■■データを抽出する3つの方法
■■■抽出方法1 要素を検索して取り出す
■■■抽出方法2 HTMLの階層を移動して探し出す
■■■抽出方法3 CSSセレクタを用いて要素を指定する
■■■3つの抽出方法の選び方
■■■3つの方法を組み合せて使う
■■■CSSセレクタをもっと理解する
■■3-6 ステップ3:データを保存する
■■■テキストデータを保存する
■■■バイナリデータ(画像、PDF、EXCELファイル)を保存する
■■3-7 Webページから実際にデータを取得する
■■■練習用ページを確認する
■■■作成するプログラムを理解する
■■■データ取得方法を検討する
■■■一覧・詳細ページからデータを取得する
■■■取得したデータを保存する

■第4章 Pythonでデータを自動で集める
■■4-1 売れ筋ランキング情報を収集しよう
■■■売れ筋でマーケットトレンドを把握しよう
■■■Webページからの情報収集の準備
■■■データ取得方法を検討する
■■■ライブラリをインポートする
■■■一覧ページからデータを取得する
■■■詳細ページからデータを取得する
■■4-2 人気商品の画像情報を集めよう
■■■活用の幅が広がる画像情報
■■■画像情報収集の準備
■■■データ取得方法を検討するライブラリをインポートする
■■■一覧ページからデータを取得する
■■■一覧ページから取得したデータを保存する
■■■画像データをダウンロード・保存する
■■4-3 メディアから記事情報を収集しよう
■■■メディアから定性情報を収集しよう
■■■記事情報収集の準備
■■■データ取得方法を検討する
■■■ライブラリをインポートする
■■■記事データを取得する
■■■取得した記事データを保存する
■■4-4 オープンデータの統計情報を収集しよう
■■■オープンデータで自社サービスを強化しよう
■■■政府統計の総合窓口e-Statとは
■■■e-Stat APIの基本的な使い方
■■■統計データを取得する
■■■取得した統計データを保存する
■■4-5 TwitterAPIから口コミ情報を集めよう
■■■口コミ情報でサービス・製品の改善点を分析しよう
■■■Twitter APIを準備する
■■■Twitter APIの基本的な使い方
■■■ツイートデータを取得する取得したツイートデータを保存する

■第5章 集めたデータを活用しやすい形にする
■■5-1 データ活用までに必要な準備
■■5-2 保存したデータを取り出す
■■■データ表の形式を理解する
■■■CSVファイルを読み込む
■■■読み込んだデータを確認する
■■5-3 データを整形する
■■■不要な列データを取り除く
■■■欠損データに対応する
■■■データ型を変換する
■■■整形したデータを保存する
■■5-4 データをグラフで表示する
■■■必要な行だけを取り出す
■■■データフレームを結合する
■■■統計値を取得する
■■■グラフに表示する

●索引
●著者プロフィール

著者情報

清水 義孝
●清水義孝(しみずよしたか) 大手製造業でデータサイエンティストとして、ビックデータの分析に携わっている。その経験を活かして、データ収集・分析、BIツールに関する社内講座を担当。オンライン動画講座サイト「Udemy」で動画講座「Pythonによるビジネスに役立つWebスクレイピング」などを制作・販売中。4000名以上の受講生を持つ。
清水, 義孝