Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]
書籍情報
発売日 : 2021年02月20日
著者/編集 : 下田 倫大/寳野 雄太/饗庭 秀一郎/吉田 啓二
出版社 : 技術評論社
発行形態 : 単行本
書籍説明
内容紹介
データ分析・活用・管理のためのデータ基盤の要件とGoogle Cloudの各種サービスをこの1冊で体系的に学ぶ。BigQuery徹底活用。
目次
第1章 データ基盤の概要
1.1 データ基盤に取り組む意義
1.2 データ基盤とは?
1.3 Google Cloud上で構築するデータ基盤
1.4 まとめ
第2章 BigQueryのコンセプトと利用方法
2.1 DWHとは
2.2 Googleのデータ処理を支える技術
2.3 BigQueryの内部アーキテクチャを理解する
2.4 DWHとしてのBigQueryの基本操作
2.5 BigQueryユーザー向けのクエリの最適化
2.6 まとめ
第3章 データウェアハウスの構築
3.1 データウェアハウスに求められるさまざまな要件
3.2 高可用性、Disaster Recovery計画
3.3 用途別の影響隔離
3.4 サイジング
3.5 目的環境別の影響隔離
3.6 テーブルを設計する
3.7 データの投入
3.8 バックアップとリストア
3.9 BigQueryにおけるトランザクションとパーティションを用いたDMLの最適化
3.10 DMLをまとめる/パーティションの利用
3.11 外部接続の最適化 - Storage APIの利用とBI Engineの利用
3.12 データマートジョブの設計最適化
3.13 まとめ
Column マルチクラウドでのクラウドデータ基盤の利用
第4章 データレイクの構築
4.1 データレイクとは
4.2 Hadoopとは
4.3 Google Cloudで構築するデータレイク
4.4 Google Cloudのおもなデータレイク関連のサービス
4.5 Google Cloudでデータレイクを中心としたデータ分析基盤を構築することのメリット
4.6 オンプレミス環境からGoogle Cloudへのデータレイクの移行
4.7 まとめ
第5章 ETL/ELT処理
5.1 ETL/ELTとは
5.2 ETL/ELT 処理を実施するサンプルシナリオ
5.3 サンプルシナリオ実施用の環境の構築
5.4 BigQueryでのELT
5.5 BigQueryでのETL
5.6 DataflowでのETL
5.7 DataprocでのETL
5.8 サンプルシナリオ実施用の環境の破棄
5.9 その他のETL/ELT処理の実施方法
5.10 ETLとELTの各手法の使い分け
5.11 まとめ
Column Apache BeamとDataflow の関係は?
第6章 ワークフロー管理とデータ統合
6.1 Google Cloudのワークフロー管理とデータ統合のためのサービス
6.2 Cloud Composerの特徴
6.3 Cloud Composerでのワークフロー管理
6.4 Cloud Data Fusionの特徴
6.5 Cloud Data Fusionでのワークフロー管理
6.6 Cloud ComposerとCloud Data Fusionの比較と使い分けのポイント
6.7 まとめ
Column Google Cloudにおけるジョブオーケストレーションの選択肢
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
7.1 Google Cloud Platformのセキュリティサービス
7.2 Google Cloudのリソース構成とエンタープライズ向けの管理機能
7.3 IAMを利用したBigQueryのアクセス制御
7.4 IAMとAccess Control List(ACL)を利用したCloud Storageのアクセス制御
7.5 VPC Service Controlsを利用したアクセス制御とデータ持ち出し防止
7.6 監査
7.7 Security Command Centerを利用したデータリスクの検知と自動修復
7.8 組織のポリシーサービスの適用
7.9 アクセス管理とコスト管理の設計
7.10 まとめ
Column データ暗号化とデータ損失防止
第8章 BigQuery へのデータ集約
8.1 BigQueryへデータ集約を行うメリット
8.2 BigQueryへのデータ集約の方法
8.3 BigQuery Data Transfer Service(BigQuery DTS)
8.4 BigQueryへのデータパイプライン構築
8.5 サービス間連携によるBigQueryへのデータ連携
8.6 まとめ
Column BigQueryのデータ取り込み方法の使い分け
Column Firebaseを用いたデータ分析の活用方法
第9章 ビジネスインテリジェンス
9.1 BIとBIツール
9.2 コネクテッドシート
9.3 データポータル
9.4 Looker
9.5 BIツールと親和性の高いBigQueryの機能
9.6 まとめ
第10章 リアルタイム分析
10.1 リアルタイム分析とユースケース
10.2 リアルタイム分析基盤に求められるもの
10.3 Google Cloudを利用したリアルタイム分析基盤のアーキテクチャ
10.4 Pub/Sub
10.5 Dataflow
10.6 BigQuery
10.7 リアルタイムタクシーデータを用いたリアルタイム分析基盤の構築
10.8 まとめ
Column Dataflow のアーキテクチャと分散処理におけるコンピュート、ストレージ、
メモリの分離
第11章 発展的な分析
11.1 Google Cloudによる発展的な分析
11.2 BigQueryによる地理情報分析
11.3 BigQuery上での機械学習
11.4 AutoML Tables
11.5 AI Platformを活用したデータサイエンスと機械学習
11.6 まとめ
Column Pub/Subのアーキテクチャ
1.1 データ基盤に取り組む意義
1.2 データ基盤とは?
1.3 Google Cloud上で構築するデータ基盤
1.4 まとめ
第2章 BigQueryのコンセプトと利用方法
2.1 DWHとは
2.2 Googleのデータ処理を支える技術
2.3 BigQueryの内部アーキテクチャを理解する
2.4 DWHとしてのBigQueryの基本操作
2.5 BigQueryユーザー向けのクエリの最適化
2.6 まとめ
第3章 データウェアハウスの構築
3.1 データウェアハウスに求められるさまざまな要件
3.2 高可用性、Disaster Recovery計画
3.3 用途別の影響隔離
3.4 サイジング
3.5 目的環境別の影響隔離
3.6 テーブルを設計する
3.7 データの投入
3.8 バックアップとリストア
3.9 BigQueryにおけるトランザクションとパーティションを用いたDMLの最適化
3.10 DMLをまとめる/パーティションの利用
3.11 外部接続の最適化 - Storage APIの利用とBI Engineの利用
3.12 データマートジョブの設計最適化
3.13 まとめ
Column マルチクラウドでのクラウドデータ基盤の利用
第4章 データレイクの構築
4.1 データレイクとは
4.2 Hadoopとは
4.3 Google Cloudで構築するデータレイク
4.4 Google Cloudのおもなデータレイク関連のサービス
4.5 Google Cloudでデータレイクを中心としたデータ分析基盤を構築することのメリット
4.6 オンプレミス環境からGoogle Cloudへのデータレイクの移行
4.7 まとめ
第5章 ETL/ELT処理
5.1 ETL/ELTとは
5.2 ETL/ELT 処理を実施するサンプルシナリオ
5.3 サンプルシナリオ実施用の環境の構築
5.4 BigQueryでのELT
5.5 BigQueryでのETL
5.6 DataflowでのETL
5.7 DataprocでのETL
5.8 サンプルシナリオ実施用の環境の破棄
5.9 その他のETL/ELT処理の実施方法
5.10 ETLとELTの各手法の使い分け
5.11 まとめ
Column Apache BeamとDataflow の関係は?
第6章 ワークフロー管理とデータ統合
6.1 Google Cloudのワークフロー管理とデータ統合のためのサービス
6.2 Cloud Composerの特徴
6.3 Cloud Composerでのワークフロー管理
6.4 Cloud Data Fusionの特徴
6.5 Cloud Data Fusionでのワークフロー管理
6.6 Cloud ComposerとCloud Data Fusionの比較と使い分けのポイント
6.7 まとめ
Column Google Cloudにおけるジョブオーケストレーションの選択肢
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
7.1 Google Cloud Platformのセキュリティサービス
7.2 Google Cloudのリソース構成とエンタープライズ向けの管理機能
7.3 IAMを利用したBigQueryのアクセス制御
7.4 IAMとAccess Control List(ACL)を利用したCloud Storageのアクセス制御
7.5 VPC Service Controlsを利用したアクセス制御とデータ持ち出し防止
7.6 監査
7.7 Security Command Centerを利用したデータリスクの検知と自動修復
7.8 組織のポリシーサービスの適用
7.9 アクセス管理とコスト管理の設計
7.10 まとめ
Column データ暗号化とデータ損失防止
第8章 BigQuery へのデータ集約
8.1 BigQueryへデータ集約を行うメリット
8.2 BigQueryへのデータ集約の方法
8.3 BigQuery Data Transfer Service(BigQuery DTS)
8.4 BigQueryへのデータパイプライン構築
8.5 サービス間連携によるBigQueryへのデータ連携
8.6 まとめ
Column BigQueryのデータ取り込み方法の使い分け
Column Firebaseを用いたデータ分析の活用方法
第9章 ビジネスインテリジェンス
9.1 BIとBIツール
9.2 コネクテッドシート
9.3 データポータル
9.4 Looker
9.5 BIツールと親和性の高いBigQueryの機能
9.6 まとめ
第10章 リアルタイム分析
10.1 リアルタイム分析とユースケース
10.2 リアルタイム分析基盤に求められるもの
10.3 Google Cloudを利用したリアルタイム分析基盤のアーキテクチャ
10.4 Pub/Sub
10.5 Dataflow
10.6 BigQuery
10.7 リアルタイムタクシーデータを用いたリアルタイム分析基盤の構築
10.8 まとめ
Column Dataflow のアーキテクチャと分散処理におけるコンピュート、ストレージ、
メモリの分離
第11章 発展的な分析
11.1 Google Cloudによる発展的な分析
11.2 BigQueryによる地理情報分析
11.3 BigQuery上での機械学習
11.4 AutoML Tables
11.5 AI Platformを活用したデータサイエンスと機械学習
11.6 まとめ
Column Pub/Subのアーキテクチャ
著者情報
下田 倫大
下田倫大Google CloudのCustomer Enginner。Web系企業の研究開発職、データ分析企業のエンジニアマネジャーを経て2017年より現職。テクノロジーを活用したデータの価値創出に興味があり、興味の赴くままに仕事をしていると気づいたらクラウドプラットフォーマーに所属していた。現在は、小売業界のお客様を中心にGoogle Cloudの導入や活用をお手伝いしており、データ基盤のお仕事が多め。BigQuery以外で好きなGoogle CloudのプロダクトはDataflowとDataproc。Dataflowはもっと活用が広がってもいいし、Dataprocはもっと評価されてもいいと常々思っている。
下田, 倫大, 1985-
寳野 雄太
寳野雄太Google CloudのCustomer Engineering Solution&Technology部門の技術部長(Analytics&DB)を務める。日系通信会社でPdMとして意思決定のためのデータ基盤を作ったり、エンジニアとしてさまざまなサービスのマイグレーションをしているうち、データ活用の魅力に惹かれ入社。Google Cloud東京リージョン立ち上げから在籍し、さまざまなお客様のデータ基盤構築立案、構築支援をしながらBigQuery東京リージョンのローンチなどのプロジェクトに携わる。2019年より現職。現在は日本におけるアナリティクスとデータベース技術統括の傍ら、社内の意思決定のためのデータマートの整備もやっているBigQueryヘビーユーザー。好きなプロダクトはData Catalog。メタデータ管理がBigQueryの自動補完と連携するのはアツいと感じている。
寳野, 雄太
饗庭 秀一郎
饗庭秀一郎Google CloudのCustomer Engineer Data Analytics Specialist。モビリティ系ベンチャー企業でBigQueryを用いた分析基盤の構築と運用や分析業務に携わった後、2020年より現職。自分の興味が技術の仕組みや中身からいかにビジネスに活かすかに移るにつれ、キャリアも研究開発からシステム開発、データ分析、プリセールス技術支援へと変わってきました。現在は、データ分析の領域に特化してお客様のビジネスを加速するクラウド活用のお手伝いをしています。BigQuery以外で好きなGoogle Cloudのサービスは、Cloud Shellです。ユーザとして、Google Cloudに出会ったときからこの便利さに常に魅了されてきました。
饗庭, 秀一郎
吉田 啓二
吉田啓二オープンソース ソフトウェアを活用したデータ分析プラットフォームを提供している企業の Solutions Architect。Web 系企業でのデータ エンジニア、Google Cloud での Data Analytics Specialist を経て、2020 年より現職。Google Cloud 在籍時には、主にゲームやメディア業界のお客様へ、Google Cloud のデータ分析ソリューションの提案や導入、活用支援を実施。好きなプロダクトは、Google アナリティクス、Firebase、BigQuery、AI Platform、Google 広告など。Google と Google Cloud のフルマネージドなプロダクトを組み合わせることで、データ基盤の運用保守コストを削減しながら、データの収集、蓄積、処理、分析、活用を、一気通貫で効率的に実施できることに魅力を感じている。
吉田, 啓二, ソリューションアーキテクト