TECH PLAY

[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

2,992円 (税込)

楽天

[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

書籍情報

発売日:

著者/編集:斎藤 友樹

出版社:技術評論社

発行形態:単行本

書籍説明

目次

@@@@@gihyo.jpの書誌情報ページに関して:以下の目次テキストの「全角スペースから行末」まで「サブタイトル」のため、サブタイトル風の文字スタイル(級数下げ/書体を細くするなど)希望です # 第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」 ## 1.1 データ分析基盤の変遷 多様化を受け入れるために進化する ## 1.2 処理基盤/クラスターの変遷 よりマネージレスにしてコストを減らし、より本来の業務へ集中する時代 ## 1.3 データの変遷 ExcelからWeb、IoT、そして何でもあり(!?)へ ## 1.4 データ分析基盤に関わる人の変遷 データにまつわる多様な人材 ## 1.5 データへの価値観の変化 データ品質の重要度が高まってきた ## 1.6 データにおける開発の変遷 複雑化するプロダクトと人の関係 ## 1.7 本章のまとめ # 第2章 データエンジニアリングの基礎知識 4つのレイヤー ## 2.1 データエンジニアリングの基本 ポイントと本書内の関連章について ## 2.2 データの世界のレイヤー データ分析基盤の世界を俯瞰する ## 2.3 コレクティングレイヤー データを集める ## 2.4 プロセシングレイヤー データを変換する ## 2.5 ストレージレイヤー データやメタデータを貯蔵する ## 2.6 アクセスレイヤー データ分析基盤と外の世界との連携 ## 2.7 本章のまとめ # 第3章 データ分析基盤の管理&構築 セルフサービス、SSoT、タグ、ゾーン、メタデータ管理 ## 3.1 セルフサービスの登場 全員参加時代への移行期 ## 3.2 SSoT データは1ヵ所に集めよう ## 3.3 データ管理デザインパターン ゾーンとタグ ## 3.4 データの管理とバックアップ データ整理と、もしものときの準備 ## 3.5 データのアクセス制御 ほど良いアクセス権限の適用 ## 3.6 One Size Fits All問題 デカップリングで数々の問題を解決しよう ## 3.7 データのライフサイクルマネジメント 不要なデータを残さないために ## 3.8 メタデータとデータ品質による管理 データを知る基本ツール ## 3.9 ハイブリット構成 ハイブリッドが抱える問題 ## 3.10 本章のまとめ # 第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで ## 4.1 データ分析基盤の技術スタック 全体像を俯瞰する ## 4.2 データ分析基盤のためのクラスター選択 無理な利用にも耐えられる必要がある ## 4.3 コレクティングレイヤーの技術スタック セルフサービス時代のデータの取り込み ## 4.4 プロセシングレイヤーの技術スタック データ変換を行うレイヤー ## 4.5 ワークフローエンジン データ取り込みと変換を統括する ## 4.6 ストレージレイヤーの技術スタック データの保存方法 ## 4.7 アクセスレイヤー構築の技術スタック セルフサービス時代のユーザーへのデータ提供 ## 4.8 アクセス制御 アクセスレイヤーに対するアクセス制御 ## 4.9 本章のまとめ # 第5章 メタデータ管理 データを管理する「データ」の重要性 ## 5.1 データより深いメタデータの世界 データは氷山の一角 ## 5.2 メタデータとデータ 3つのメタデータを整理/整備しよう ## 5.3 データプロファイリング データの状態を見る ## 5.4 データカタログ 手元にないメタデータはカタログ化しよう ## 5.5 データアーキテクチャ リネージュ、プロバナンス。メタデータの総合力 ## 5.6 本章のまとめ # 第6章 データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール ## 6.1 データを整備するためのモデル DIKWモデル ## 6.2 データマートの役割 「Data」を整備して知恵の創出をサポートする ## 6.3 スキーマ設計 データに関するルールを設計する ## 6.4 データマートの生成サポート コミュニケーションの省略&活用 ## 6.5 データマートのプロパゲーション メタデータやルールの作成 ## 6.6 ストリーミングとデータマート 瞬時にKnowledge化する ## 6.7 本章のまとめ # 第7章 データ品質管理 質の高いデータを提供する ## 7.1 データ品質管理の基礎 データ蓄積から次の段階へ進む ## 7.2 データの劣化 データは放置するだけで劣化する ## 7.3 データ品質テスト 劣化に気づくための品質チェック ## 7.4 メタデータ品質 生産性を向上させるために ## 7.5 データ品質を向上させる 品質テストの結果を活かす ## 7.6 本章のまとめ # 第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定 ## 8.1 データ分析基盤とデータドリブン エンジニアもデータドリブンに行こう ## 8.2 データドリブンを実現するための準備 データ分析基盤のPDCAと数値 ## 8.3 KPIをどのように開発に活かすのか データ分析基盤の「コスト削減KGI」の例 ## 8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点 ## 8.5 本章のまとめ # Appendix [ビッグデータでも役立つ]RDB基礎講座 ## A.1 データベースとは何か? 検索、更新、制約機能を持った入れ物 ## A.2 RDBの基本 データベースの基本を振り返る ## A.3 RDBにおけるアーキテクチャ RDBの設計 ## A.4 Appendixのまとめ

著者情報

斎藤 友樹

斎藤 友樹 Saito Yuki SIerで官公庁、年金、広告などのシステムの要件定義~保守運用まで、SEやマネージャーとしてフロントエンド~サーバーサイドまでひととおり経験。現在は、事業会社にてビッグデータ分析に関するシステムの構築、蓄積したデータの活用を行う仕事に従事している。直近では利用者が数千万を超える環境で、ストリーミングデータの処理や一日あたり5000超のETLジョブを捌くデータ分析基盤のアーキテクチャ設計やデータ活用のためのしくみ作りを担当。また、AWSなどのパブリッククラウドイベントの登壇などを通して積極的に情報発信を行っている。

斎藤, 友樹

類似書籍