TECH PLAY

Python最速データ収集術 〜スクレイピングでWeb情報を自動で集める

1,980円 (税込)

楽天

Python最速データ収集術 〜スクレイピングでWeb情報を自動で集める

書籍情報

発売日:

著者/編集:清水 義孝

出版社:技術評論社

発行形態:単行本

書籍説明

内容紹介

「プログラミングは難しそう」「仕事が忙しくて勉強時間があまりない」本書では実践的なサンプルで最小限のコツを押さえられます!プログラミングは難しいものではありません。あらかじめ用意されたプログラムの部品を活用して、少ないコードでたくさんの自動化を実現できます!

目次

●はじめに ■第1章 データ収集をハックする ■■1-1 プログラムを使って自動でデータを集める ■■■データを集める重要性が高まっている自動収集の必要性とメリット ■■■本書で取り上げるトピック ■■1-2 自動で集められるデータとは ■■■データの分類を知る ■■■データの提供方法を知る ■■■本書で取り上げる自動収集データ ■■1-3 自動収集の注意点を押さえる ■■■1. サイトの利用規約を守る ■■■2. データ取得には十分な間隔をあけて、サーバーに負担をかけすぎない ■■■3. 取得したデータの利用に際しては、著作権や個人情報を侵害しない ■第2章 Webからデータを集める準備 ■■2-1 データ収集に役立つPython ■■2-2 Pythonが使える環境を準備する ■■■Anacondaを準備する ■■■Jupyter Notebookの使い方を理解する ■■■Jupyter Notebookを起動する ■■■Pythonのプログラムを実行する ■■■エディットモード・コマンドモードを理解する ■■■ショートカットキーを理解する ■■■作成したノートブックを保存する ■■■Jupyter Notebookを終了する ■■2-3 Python超入門 ■■■データ型と変数を理解する ■■■数値計算をする ■■■文字や数値を画面に出力する(print関数) ■■■データ構造を押さえる(リスト、タプル、辞書) ■■■条件で処理を分岐させる(if文、else) ■■■くり返し処理を押さえる(for文、while文) ■■■関数で何度もおこなう処理をまとめる ■■■ライブラリの使い方を理解する ■第3章 データ自動収集のしくみを押さえる ■■3-1 Webページ・WebAPIのしくみを理解する ■■■Webページの通信方法を押さえる ■■■HTMLを理解しよう ■■■HTMLタグの種類を押さえる ■■■HTMLタグの属性を押さえる ■■■HTMLの階層構造を理解する ■■■CSSを理解しよう ■■■JavaScriptを知ろう ■■■Web APIを理解しよう ■■3-2 データのフォーマットや種類を理解する ■■■フォーマットの種類と特徴 ■■■データのおもな種類とオープンデータ ■■3-3 Webページからデータを取得する方法を理解する ■■■データ取得の3ステップ ■■3-4 ステップ1:HTMLをダウンロードする ■■■requestsをインストールする ■■■requestsの使い方を理解する ■■■ダウンロードしたHTMLの内容を確認する ■■3-5 ステップ2:データを抽出する ■■■Beautiful Soupをインストールする ■■■Beautiful Soupの使い方を理解する ■■■Chrome開発者ツールの使い方を理解する ■■■データを抽出する3つの方法 ■■■抽出方法1 要素を検索して取り出す ■■■抽出方法2 HTMLの階層を移動して探し出す ■■■抽出方法3 CSSセレクタを用いて要素を指定する ■■■3つの抽出方法の選び方 ■■■3つの方法を組み合せて使う ■■■CSSセレクタをもっと理解する ■■3-6 ステップ3:データを保存する ■■■テキストデータを保存する ■■■バイナリデータ(画像、PDF、EXCELファイル)を保存する ■■3-7 Webページから実際にデータを取得する ■■■練習用ページを確認する ■■■作成するプログラムを理解する ■■■データ取得方法を検討する ■■■一覧・詳細ページからデータを取得する ■■■取得したデータを保存する ■第4章 Pythonでデータを自動で集める ■■4-1 売れ筋ランキング情報を収集しよう ■■■売れ筋でマーケットトレンドを把握しよう ■■■Webページからの情報収集の準備 ■■■データ取得方法を検討する ■■■ライブラリをインポートする ■■■一覧ページからデータを取得する ■■■詳細ページからデータを取得する ■■4-2 人気商品の画像情報を集めよう ■■■活用の幅が広がる画像情報 ■■■画像情報収集の準備 ■■■データ取得方法を検討するライブラリをインポートする ■■■一覧ページからデータを取得する ■■■一覧ページから取得したデータを保存する ■■■画像データをダウンロード・保存する ■■4-3 メディアから記事情報を収集しよう ■■■メディアから定性情報を収集しよう ■■■記事情報収集の準備 ■■■データ取得方法を検討する ■■■ライブラリをインポートする ■■■記事データを取得する ■■■取得した記事データを保存する ■■4-4 オープンデータの統計情報を収集しよう ■■■オープンデータで自社サービスを強化しよう ■■■政府統計の総合窓口e-Statとは ■■■e-Stat APIの基本的な使い方 ■■■統計データを取得する ■■■取得した統計データを保存する ■■4-5 TwitterAPIから口コミ情報を集めよう ■■■口コミ情報でサービス・製品の改善点を分析しよう ■■■Twitter APIを準備する ■■■Twitter APIの基本的な使い方 ■■■ツイートデータを取得する取得したツイートデータを保存する ■第5章 集めたデータを活用しやすい形にする ■■5-1 データ活用までに必要な準備 ■■5-2 保存したデータを取り出す ■■■データ表の形式を理解する ■■■CSVファイルを読み込む ■■■読み込んだデータを確認する ■■5-3 データを整形する ■■■不要な列データを取り除く ■■■欠損データに対応する ■■■データ型を変換する ■■■整形したデータを保存する ■■5-4 データをグラフで表示する ■■■必要な行だけを取り出す ■■■データフレームを結合する ■■■統計値を取得する ■■■グラフに表示する ●索引 ●著者プロフィール

著者情報

清水 義孝

●清水義孝(しみずよしたか) 大手製造業でデータサイエンティストとして、ビックデータの分析に携わっている。その経験を活かして、データ収集・分析、BIツールに関する社内講座を担当。オンライン動画講座サイト「Udemy」で動画講座「Pythonによるビジネスに役立つWebスクレイピング」などを制作・販売中。4000名以上の受講生を持つ。

清水, 義孝