TECH PLAY

Salesforce

イベント

マガジン

技術ブログ

はじめに こんにちは。 開発本部 開発1部 デリッシュリサーチでデータエンジニアをしている吉田です。 今回は、Databricksのマネージドなデータ取り込み機能であるLakeflow Connectを使って、複数の広告プラットフォームからデータを取り込んだ事例を紹介します。 注意点 本記事で扱うLakeflow Connectのマネージドコネクタは、執筆時点でいずれもベータ版の機能です。 利用している機能とその結果は執筆時点のものです。 また、 リリースタイプの一覧 のとおり、ベータ版は本番環境での利用が推奨されておらず、仕様変更の可能性がある点にご注意ください。 背景 広告運用の分析には、各広告プラットフォームのデータ(キャンペーンやインサイトなど)が必須です。 これらをデータ基盤に取り込むには、プラットフォームごとに取り込みJobを作成する必要があります。 しかし、取り込みJobの作成には以下のような辛さがあります。 API仕様の調査、実装 認証情報の管理 APIのアップデート追従 特にAPIのアップデートに合わせた取り込みJobの追従などは都度工数が発生するため、運用における負担となります。 そこで、取り込みをマネージドに任せられるLakeflow Connectのマネージドコネクタを採用しました。 Lakeflow Connectとは Lakeflow Connectは、Databricksの統合データエンジニアリング機能群Lakeflowの取り込みコンポーネントです。 SaaSやデータベース向けのマネージドコネクタなどを提供し、取り込み処理をサーバーレスで実行します。取り込み先のテーブルはUnity Catalogで一元管理されます。 マネージド SaaS コネクタ コネクタには2種類あります。 マネージドコネクタ Salesforceなどのアプリやデータベース向け Lakeflow Spark Declarative Pipelinesの上に構築され、ソース固有の認証・CDC(増分取り込み)・スキーマ展開・自動リトライを提供する 標準コネクタ クラウドストレージやメッセージバス向けのカスタマイズ可能なコネクタ マネージドコネクタは、様々なSaaSに対応するコネクタが用意されており、今回はGoogle Ads、Meta Ads、TikTok Adsのコネクタを利用しました。 アーキテクチャ SaaS系コネクタの取り込みは、以下のシンプルな構成です。 Connection 各プラットフォームへの認証情報を保持するUnity Catalogのオブジェクト Ingestion pipeline 接続を通じてデータを取り込み、ストリーミングテーブルへ書き込む Destination Unity Catalog上のストリーミングテーブル パイプラインの作成 パイプラインはUI・Databricks Asset Bundles・REST APIなどから作成できますが、今回はPipelines API( /api/2.0/pipelines )をノートブックから呼び出して作成しました。 パイプライン定義を用意することで、容易に取り込みパイプラインを作成することができます。 パイプライン定義の例(Meta Ads) 以下のJsonはMeta Adsのパイプライン定義の例です。 { " name ": " <pipeline-name> ", " catalog ": " <catalog-name-for-event-logs> ", " schema ": " <schema-name-for-event-logs> ", " ingestion_definition ": { " connection_name ": " <connection-name> ", " objects ": [ { " table ": { " source_schema ": " act_<account-id> ", " source_table ": " campaigns ", -- キャンペーンの取り込み " destination_catalog ": " <save-to-catalog> ", " destination_schema ": " <save-to-schema> ", " table_configuration ": { " scd_type ": " SCD_TYPE_1 " } } } , { " table ": { " source_schema ": " act_<account-id> ", " source_table ": " ad_insights ", -- インサイトの取り込み " destination_catalog ": " <save-to-catalog> ", " destination_schema ": " <save-to-schema> ", " table_configuration ": { " scd_type ": " SCD_TYPE_1 ", " metamarketing_parameters ": { " level ": " campaign ", " start_date ": " 2026-01-01 ", " time_increment ": " 1 " } } } } ] } } table_configuration では取り込み時の挙動を指定します。 scd_type で履歴の保持方式( SCD_TYPE_1 は最新の状態のみを保持)を、 metamarketing_parameters でレポートの集計レベル( level )や粒度( time_increment )などコネクタ固有のパラメータを指定します。 UI上での管理 作成したLakeflow Connectのパイプラインは、Jobs & Pipelinesから確認できます。 取り込みは指定したテーブル単位で行われ、失敗したテーブルや特定のテーブルのみを再実行することも可能です。 現時点での使用感 現在、3つのコネクタを利用していますが、最終的にMeta Adsのコネクタは使用を停止しました。 Meta Adsコネクタでは、データ量の多いアカウントでは取り込みが安定しないケースがありました。 私たちの環境では主に ad_insights 、 ad_sets の取り込みで、以下のエラーが発生しました。 The Meta API failed since the amount of data requested exceeds the limit the Meta servers can process. 取得するカラムや期間を絞る対応を加えましたが解決せず、最終的には自前実装に切り替える選択をしました。 Tokenの更新の実装や、アカウントや取得したい項目が増えるたびの対応など、マネージドに任せることができない辛さがあり、コネクタの今後のアップデートに期待したいです。 まとめ Lakeflow Connectにより、Google Ads / TikTok Adsの広告データ取り込みは、API実装なしにパイプライン定義だけで作成できました。 複数アカウント・複数テーブルの定義をspecとしてコードで管理でき、増分取り込みも設定だけで実現できています。 一方でMeta Adsのように、データ量やコネクタの制約から現時点ではマネージドに任せきれず、自前実装で補ったケースもありました。 それでも、取り込みの作り込みの大部分から解放され、データ活用そのものに集中できるようになったメリットは大きいと感じています。ベータ版ゆえの制約は今後のアップデートでの改善に期待したいです。
はじめに 2026年4月にInformatica Intelligent Data Management Cloud (IDMC)のメジャーリリースがありましたね。 CLAIRE GPTの機能拡張をはじめ盛りだくさんな内容で、こうしたアップデートの恩恵を速やかに受けられるのは、SaaSサービスならではというところでしょうか。 前置きはさておき、今回は以前の記事でも少し触れたデータ移行で、汚染データを見つけた場合について書いてみようかと思います。 堅苦しいですが前提 データ移行を行う時に、移行元のデータをさっと吸い上げて、さっと移行できると良いのですが、移行するタイミング(業務フロ
1. はじめに 本記事では、Informatica(インフォマティカ) のクラウドデータマネジメントプラットフォーム「Intelligent Data Management Cloud」(IDMC ※旧称はIICS)のデータ取り込みソリューションであるCloud Data Ingestion and Replication (CDIR)の概要・利用シーンについて、筆者の理解をもとに整理しようと思います。 近年、AI活用やデータドリブンな意思決定の重要性が説かれるなかで、まずは早く・簡単にデータを蓄積・集約し、分析やAI活用につなげたいというニーズが高まっているのではないでしょうか。一

動画

書籍