1,980円 (税込)

Python最速データ収集術　〜スクレイピングでWeb情報を自動で集める

プログラミング言語

Python, HTML, Jupyter

書籍情報

発売日：2022年01月22日

著者／編集：清水義孝

出版社：技術評論社

発行形態：単行本

書籍説明

内容紹介

「プログラミングは難しそう」「仕事が忙しくて勉強時間があまりない」本書では実践的なサンプルで最小限のコツを押さえられます！プログラミングは難しいものではありません。あらかじめ用意されたプログラムの部品を活用して、少ないコードでたくさんの自動化を実現できます！

●はじめに ■第1章　データ収集をハックする ■■1-1　プログラムを使って自動でデータを集める ■■■データを集める重要性が高まっている自動収集の必要性とメリット ■■■本書で取り上げるトピック ■■1-2　自動で集められるデータとは ■■■データの分類を知る ■■■データの提供方法を知る ■■■本書で取り上げる自動収集データ ■■1-3　自動収集の注意点を押さえる ■■■1. サイトの利用規約を守る ■■■2. データ取得には十分な間隔をあけて、サーバーに負担をかけすぎない ■■■3. 取得したデータの利用に際しては、著作権や個人情報を侵害しない ■第2章　Webからデータを集める準備 ■■2-1　データ収集に役立つPython ■■2-2　Pythonが使える環境を準備する ■■■Anacondaを準備する ■■■Jupyter Notebookの使い方を理解する ■■■Jupyter Notebookを起動する ■■■Pythonのプログラムを実行する ■■■エディットモード・コマンドモードを理解する ■■■ショートカットキーを理解する ■■■作成したノートブックを保存する ■■■Jupyter Notebookを終了する ■■2-3　Python超入門 ■■■データ型と変数を理解する ■■■数値計算をする ■■■文字や数値を画面に出力する(print関数) ■■■データ構造を押さえる(リスト、タプル、辞書) ■■■条件で処理を分岐させる(if文、else) ■■■くり返し処理を押さえる(for文、while文) ■■■関数で何度もおこなう処理をまとめる ■■■ライブラリの使い方を理解する ■第3章　データ自動収集のしくみを押さえる ■■3-1　Webページ・WebAPIのしくみを理解する ■■■Webページの通信方法を押さえる ■■■HTMLを理解しよう ■■■HTMLタグの種類を押さえる ■■■HTMLタグの属性を押さえる ■■■HTMLの階層構造を理解する ■■■CSSを理解しよう ■■■JavaScriptを知ろう ■■■Web APIを理解しよう ■■3-2　データのフォーマットや種類を理解する ■■■フォーマットの種類と特徴 ■■■データのおもな種類とオープンデータ ■■3-3　Webページからデータを取得する方法を理解する ■■■データ取得の3ステップ ■■3-4　ステップ1：HTMLをダウンロードする ■■■requestsをインストールする ■■■requestsの使い方を理解する ■■■ダウンロードしたHTMLの内容を確認する ■■3-5　ステップ2：データを抽出する ■■■Beautiful Soupをインストールする ■■■Beautiful Soupの使い方を理解する ■■■Chrome開発者ツールの使い方を理解する ■■■データを抽出する3つの方法 ■■■抽出方法1　要素を検索して取り出す ■■■抽出方法2　HTMLの階層を移動して探し出す ■■■抽出方法3　CSSセレクタを用いて要素を指定する ■■■3つの抽出方法の選び方 ■■■3つの方法を組み合せて使う ■■■CSSセレクタをもっと理解する ■■3-6　ステップ3：データを保存する ■■■テキストデータを保存する ■■■バイナリデータ(画像、PDF、EXCELファイル)を保存する ■■3-7　Webページから実際にデータを取得する ■■■練習用ページを確認する ■■■作成するプログラムを理解する ■■■データ取得方法を検討する ■■■一覧・詳細ページからデータを取得する ■■■取得したデータを保存する ■第4章　Pythonでデータを自動で集める ■■4-1　売れ筋ランキング情報を収集しよう ■■■売れ筋でマーケットトレンドを把握しよう ■■■Webページからの情報収集の準備 ■■■データ取得方法を検討する ■■■ライブラリをインポートする ■■■一覧ページからデータを取得する ■■■詳細ページからデータを取得する ■■4-2　人気商品の画像情報を集めよう ■■■活用の幅が広がる画像情報 ■■■画像情報収集の準備 ■■■データ取得方法を検討するライブラリをインポートする ■■■一覧ページからデータを取得する ■■■一覧ページから取得したデータを保存する ■■■画像データをダウンロード・保存する ■■4-3　メディアから記事情報を収集しよう ■■■メディアから定性情報を収集しよう ■■■記事情報収集の準備 ■■■データ取得方法を検討する ■■■ライブラリをインポートする ■■■記事データを取得する ■■■取得した記事データを保存する ■■4-4　オープンデータの統計情報を収集しよう ■■■オープンデータで自社サービスを強化しよう ■■■政府統計の総合窓口e-Statとは ■■■e-Stat APIの基本的な使い方 ■■■統計データを取得する ■■■取得した統計データを保存する ■■4-5　TwitterAPIから口コミ情報を集めよう ■■■口コミ情報でサービス・製品の改善点を分析しよう ■■■Twitter APIを準備する ■■■Twitter APIの基本的な使い方 ■■■ツイートデータを取得する取得したツイートデータを保存する ■第5章　集めたデータを活用しやすい形にする ■■5-1　データ活用までに必要な準備 ■■5-2　保存したデータを取り出す ■■■データ表の形式を理解する ■■■CSVファイルを読み込む ■■■読み込んだデータを確認する ■■5-3　データを整形する ■■■不要な列データを取り除く ■■■欠損データに対応する ■■■データ型を変換する ■■■整形したデータを保存する ■■5-4　データをグラフで表示する ■■■必要な行だけを取り出す ■■■データフレームを結合する ■■■統計値を取得する ■■■グラフに表示する ●索引 ●著者プロフィール

著者情報

清水義孝

●清水義孝（しみずよしたか）大手製造業でデータサイエンティストとして、ビックデータの分析に携わっている。その経験を活かして、データ収集・分析、BIツールに関する社内講座を担当。オンライン動画講座サイト「Udemy」で動画講座「Pythonによるビジネスに役立つWebスクレイピング」などを制作・販売中。4000名以上の受講生を持つ。

清水, 義孝