Python 実践データ加工/可視化 100本ノック
書籍情報
発売日 : 2021年07月31日
著者/編集 : 下山輝昌/伊藤淳二/露木宏志
出版社 : 秀和システム
発行形態 : 単行本
書籍説明
内容紹介
どんな現場のデータでも軽くこなせる!データの基本を学び、様々な特徴のデータを練習すれば、どんなデータが来ても怖くない!システムデータの加工・可視化から、機械学習の前処理まで。Excel・時系列・言語・画像・音データ・特殊な加工・可視化。ビジネス現場で即戦力になれる「基礎力」を身につけよう!
目次
第1部 構造化データ
第1章 システムデータの加工・可視化を行う20本ノック
ノック1: 法人情報データを読み込んでみよう
ノック2: 読み込んだデータを確認しよう
ノック3: ヘッダ用のテキストファイルを読み込もう
ノック4: ヘッダ行を追加しよう
ノック5: 統計量や欠損値を確認しよう
ノック6: 繰り返し処理で新しいデータを追加しよう
ノック7: マスタを読み込んで項目を横に繋げよう
ノック8: テキストの連結や分割をしよう
ノック9: 日付を加工しよう
ノック10: 年度を設定しよう
ノック11: 加工したデータをファイルに出力しよう
ノック12: 不要な項目の削除と並べ替えをしよう
ノック13: まとまった単位で集計しよう
ノック14: 市区町村別の法人数を可視化しよう
ノック15: グラフの縦横と表示順を変えてみよう
ノック16: グラフのタイトルとラベルを設定しよう
ノック17: グラフの見た目をもっと変えてみよう
ノック18: 90日以内に新規登録された法人数を可視化しよう
ノック19: 年度別の推移を可視化しよう
ノック20: グラフとデータを出力しよう
第2章 Excelデータの加工・可視化を行う20本ノック
ノック21: Excelデータを読み込んでみよう
ノック22: カラムを抽出して付与してみよう
ノック23: 全シートのデータを読み込んでみよう
ノック24: データの値を計算で修正しよう
ノック25: 必要なカラムだけに絞り込もう
ノック26: 縦持ちデータを作成しよう
ノック27: 縦持ちデータを整形しよう
ノック28: 発電実績データを加工しよう
ノック29: 可視化用データを仕上げよう
ノック30: データの分布をヒストグラムで可視化してみよう
ノック31: データの分布を箱ひげ図で可視化してみよう
ノック32: 最近の発電量を可視化してみよう
ノック33: 先月の発電量とあわせて可視化してみよう
ノック34: 電力の時系列変化を可視化してみよう
ノック35: 電力の割合を可視化してみよう
ノック36: 電力量の多い都道府県を比較してみよう
ノック37: 都道府県、年月別の電力量を可視化してみよう
ノック38: 変数の関係性を可視化してみよう
ノック39: データを整形してExcel形式で出力しよう
ノック40: シート別にExcelデータを出力しよう
第3章 時系列データの加工・可視化を行う10本ノック
ノック41: 時系列データを読み込んでみよう
ノック42: 日付の範囲を確認しよう
ノック43: 日毎のデータ件数を確認しよう
ノック44: 日付から曜日を算出しよう
ノック45: 特定範囲のデータに絞り込もう
ノック46: 秒単位のデータを作成しよう
ノック47: 秒単位のデータを整形しよう
ノック48: 秒間の欠損データを処理しよう
ノック49: 通った人数を可視化しよう
ノック50: 移動平均を計算して可視化しよう
第2部 非構造化データ
第4章 言語データの加工・可視化を行う10本ノック
ノック51: テキストファイルを読み込もう
ノック52: 本文を抽出して1つに纏めよう
ノック53: 本文以外の項目を取り出そう
ノック54: 形態素解析で単語に分割しよう
ノック55: 分割した単語をデータフレームで保持しよう
ノック56: 名詞と動詞を取り出そう
ノック57: 不要な単語を除外しよう
ノック58: 単語の使用状況をグラフで可視化しよう
ノック59: Word Cloudで可視化してみよう
ノック60: n-gramを作ってみよう
まとめ
第5章 画像データの加工・可視化を行う10本ノック
ノック61: 画像ファイルを読み込んで表示してみよう
ノック62: 画像データの中身を確認しよう
ノック63: 画像データを切り出してみよう
ノック64: カラーヒストグラムを可視化してみよう
ノック65: RGB変換を行って画像を表示してみよう
ノック66: 画像のサイズを変更してみよう
ノック67: 画像を回転させてみよう
ノック68: 画像処理をしてみよう
ノック69: 画像にテキストや線を描画してみよう
ノック70: 画像を保存してみよう
第6章 音データの加工・可視化を行う10本ノック
ノック71: 音データを再生してみよう
ノック72: 音データを読み込んでみよう
ノック73: 音データの一部を取得してみよう
ノック74: 音データのサンプリングレートを変えてみよう
ノック75: 音データを可視化してみよう
ノック76: 音データの大きさを取得してみよう
ノック77: 周波数スペクトルを表示してみよう
ノック78: スペクトログラムを可視化してみよう
ノック79: 音の高さや長さを変えてみよう
ノック80: 音データを保存しよう
第3部 機械学習向けの加工と特殊なデータ加工
第7章 機械学習の前処理を行う10本ノック
ノック81: 機械学習で予測するデータを設定しよう
ノック82: TrainデータとTestデータに分割しよう
ノック83: データを機械学習に適した形式へ変換しよう
ノック84: 外れ値の検出をしよう
ノック85: データの分布をみてスケーリング手法を考えよう
ノック86: 分布に従ってスケーリングをやってみよう
ノック87: スケーラーを保存しよう
ノック88: 欠損値の処理をやってみよう
ノック89: 学習時のサンプル比率を調整しよう
ノック90: Testデータの前処理をしよう
第8章 特殊な加工・可視化を行う10本ノック
ノック91: 大容量CSVデータを扱ってみよう
ノック92: Json形式のファイルを扱ってみよう
ノック93: Webからデータを取得してみよう
ノック94: configファイルを扱ってみよう
ノック95: 動画ファイルを音声ファイルへ変換してみよう
ノック96: 動画ファイルを画像ファイルへ分割してみよう
ノック97: PowerPointやWordファイルを読み込んでみよう
ノック98: PDFデータを読み込んでみよう
ノック99: インタラクティブなグラフを作成してみよう
ノック100: 3次元グラフを作成してみよう
第1章 システムデータの加工・可視化を行う20本ノック
ノック1: 法人情報データを読み込んでみよう
ノック2: 読み込んだデータを確認しよう
ノック3: ヘッダ用のテキストファイルを読み込もう
ノック4: ヘッダ行を追加しよう
ノック5: 統計量や欠損値を確認しよう
ノック6: 繰り返し処理で新しいデータを追加しよう
ノック7: マスタを読み込んで項目を横に繋げよう
ノック8: テキストの連結や分割をしよう
ノック9: 日付を加工しよう
ノック10: 年度を設定しよう
ノック11: 加工したデータをファイルに出力しよう
ノック12: 不要な項目の削除と並べ替えをしよう
ノック13: まとまった単位で集計しよう
ノック14: 市区町村別の法人数を可視化しよう
ノック15: グラフの縦横と表示順を変えてみよう
ノック16: グラフのタイトルとラベルを設定しよう
ノック17: グラフの見た目をもっと変えてみよう
ノック18: 90日以内に新規登録された法人数を可視化しよう
ノック19: 年度別の推移を可視化しよう
ノック20: グラフとデータを出力しよう
第2章 Excelデータの加工・可視化を行う20本ノック
ノック21: Excelデータを読み込んでみよう
ノック22: カラムを抽出して付与してみよう
ノック23: 全シートのデータを読み込んでみよう
ノック24: データの値を計算で修正しよう
ノック25: 必要なカラムだけに絞り込もう
ノック26: 縦持ちデータを作成しよう
ノック27: 縦持ちデータを整形しよう
ノック28: 発電実績データを加工しよう
ノック29: 可視化用データを仕上げよう
ノック30: データの分布をヒストグラムで可視化してみよう
ノック31: データの分布を箱ひげ図で可視化してみよう
ノック32: 最近の発電量を可視化してみよう
ノック33: 先月の発電量とあわせて可視化してみよう
ノック34: 電力の時系列変化を可視化してみよう
ノック35: 電力の割合を可視化してみよう
ノック36: 電力量の多い都道府県を比較してみよう
ノック37: 都道府県、年月別の電力量を可視化してみよう
ノック38: 変数の関係性を可視化してみよう
ノック39: データを整形してExcel形式で出力しよう
ノック40: シート別にExcelデータを出力しよう
第3章 時系列データの加工・可視化を行う10本ノック
ノック41: 時系列データを読み込んでみよう
ノック42: 日付の範囲を確認しよう
ノック43: 日毎のデータ件数を確認しよう
ノック44: 日付から曜日を算出しよう
ノック45: 特定範囲のデータに絞り込もう
ノック46: 秒単位のデータを作成しよう
ノック47: 秒単位のデータを整形しよう
ノック48: 秒間の欠損データを処理しよう
ノック49: 通った人数を可視化しよう
ノック50: 移動平均を計算して可視化しよう
第2部 非構造化データ
第4章 言語データの加工・可視化を行う10本ノック
ノック51: テキストファイルを読み込もう
ノック52: 本文を抽出して1つに纏めよう
ノック53: 本文以外の項目を取り出そう
ノック54: 形態素解析で単語に分割しよう
ノック55: 分割した単語をデータフレームで保持しよう
ノック56: 名詞と動詞を取り出そう
ノック57: 不要な単語を除外しよう
ノック58: 単語の使用状況をグラフで可視化しよう
ノック59: Word Cloudで可視化してみよう
ノック60: n-gramを作ってみよう
まとめ
第5章 画像データの加工・可視化を行う10本ノック
ノック61: 画像ファイルを読み込んで表示してみよう
ノック62: 画像データの中身を確認しよう
ノック63: 画像データを切り出してみよう
ノック64: カラーヒストグラムを可視化してみよう
ノック65: RGB変換を行って画像を表示してみよう
ノック66: 画像のサイズを変更してみよう
ノック67: 画像を回転させてみよう
ノック68: 画像処理をしてみよう
ノック69: 画像にテキストや線を描画してみよう
ノック70: 画像を保存してみよう
第6章 音データの加工・可視化を行う10本ノック
ノック71: 音データを再生してみよう
ノック72: 音データを読み込んでみよう
ノック73: 音データの一部を取得してみよう
ノック74: 音データのサンプリングレートを変えてみよう
ノック75: 音データを可視化してみよう
ノック76: 音データの大きさを取得してみよう
ノック77: 周波数スペクトルを表示してみよう
ノック78: スペクトログラムを可視化してみよう
ノック79: 音の高さや長さを変えてみよう
ノック80: 音データを保存しよう
第3部 機械学習向けの加工と特殊なデータ加工
第7章 機械学習の前処理を行う10本ノック
ノック81: 機械学習で予測するデータを設定しよう
ノック82: TrainデータとTestデータに分割しよう
ノック83: データを機械学習に適した形式へ変換しよう
ノック84: 外れ値の検出をしよう
ノック85: データの分布をみてスケーリング手法を考えよう
ノック86: 分布に従ってスケーリングをやってみよう
ノック87: スケーラーを保存しよう
ノック88: 欠損値の処理をやってみよう
ノック89: 学習時のサンプル比率を調整しよう
ノック90: Testデータの前処理をしよう
第8章 特殊な加工・可視化を行う10本ノック
ノック91: 大容量CSVデータを扱ってみよう
ノック92: Json形式のファイルを扱ってみよう
ノック93: Webからデータを取得してみよう
ノック94: configファイルを扱ってみよう
ノック95: 動画ファイルを音声ファイルへ変換してみよう
ノック96: 動画ファイルを画像ファイルへ分割してみよう
ノック97: PowerPointやWordファイルを読み込んでみよう
ノック98: PDFデータを読み込んでみよう
ノック99: インタラクティブなグラフを作成してみよう
ノック100: 3次元グラフを作成してみよう
著者情報
下山, 輝昌
下山輝昌
《下山輝昌》
日本電気株式会社(NEC)の中央研究所にてハードウェアの研究開発に従事した後、独立。機械学習を活用したデータ分析やダッシュボードデザイン等に裾野を広げ、データ分析コンサルタントとして幅広く案件に携わる。それと同時に、最先端テクノロジーの効果的な活用による社会の変革を目指し、2017年に合同会社 アイキュベータを共同創業。2021年にはテクノロジーとビジネスの橋渡しを行い、クライアントと一体となってビジネスを創出する株式会社Iroribiを創業。人工知能、Internet of Things(IoT)、情報デザインの新しい方向性 や可能性を研究しつつビジネス化に取り組んでいる。
共著『Tableau データ分析〜実践から活用まで〜』『Python 実践データ分析100本ノック』『Python 実践機械学習システム100本ノック』(秀和システム)。
伊藤, 淳二
伊藤淳二
《伊藤淳二》
携帯電話会社のバックオフィスに従事し、当時課題であった業務効率化 / 情報連携ツールを独自に開発したことをきっかけにシステム開発の喜びを知る。それを契機に、システムエンジニアとして本格的に転身した後、鉄道系や電力系の基幹システム開発等に従事。要件定義から設計、開発、運用までの各工程で力を発揮。現場目線で提案できるエンジニア兼プロジェクトマネージャとして、数々の案件を成功に導く。その後、合同会社アイキュベータに合流。現場目線を重視したAI導入を推進し、AI システム開発、データ分析に関する数多くの案件を牽引。2021年には株式会社Iroribiに初期メンバーとして参画し、会社の方向性や案件の立ち上げに関わり、現在も多くのクライアントとプロジェクトを推進している。
露木, 宏志
露木宏志
《露木宏志》
筑波大学在学中にプログラミングを独学し、複数企業でのインターンシップを経験する傍ら、競技プログラミングを通して代数学やグラフ理論、数え上げなどの数多の数理的な難問に挑む。大学中退後、合同会社アイキュベータに参画。自然言語処理を用いた記事カテゴリ分類や類似記事検索、機械学習を用いた売上の予測、画像認識を用いた物体検知、人物姿勢推定、トラッキング、動作の良し悪しを判定するアルゴリズムの開発、それらを効率的に処理するデータ通信を伴うシステムの開発など、幅広い技術に取り組む。現在、株式会社IroribiにてDX推進事業に携わりながら、日夜、多角的な技術開拓を行っている。