「Embulk」に関連する技術ブログ

企業やコミュニティが発信する「Embulk」に関連する技術ブログの一覧です。

請求書発行のためにEmbulkを使って爆速でデータを集約した話

こんにちは。宿泊開発チームの菊地です! このエントリは 一休.com Advent Calendar 2023 12日目の記事です。昨日は id:rotom による Slack Enterprise Grid における情報バリアの設計 でした。その他の素敵なエントリも以下のリンクからご覧ください。 qiita.com 私はEmbulkを使って、各プロダクトの請求データを集約する機能を担当しました。今回は、Embulkの紹介とふりかえりをしていき

Cloud Data FusionをIaCで構築し、データパイプラインのマイグレーションを行いました

はじめまして。CADDiでバックエンドエンジニアとして働いている中野です。 この記事では、Cloud Data Fusionを利用して作成したデータパイプラインについてご紹介します。 TL;DR Salesforce とBigQuery間のデータ連携にHeroku Connectをこれまで利用していたのですが、Cloud Data Fusionに乗り換えることでダウンタイムなしで約1/8までコストダウンができました。 モチベーション 弊社では

ETL ワークフローに Aurora DB Cluster Export を導入してみた

はじめに こんにちは、カケハシの坂本です。 「AI 在庫管理」というプロダクトの ETL ワークフローに Amazon Aurora のマネージドサービスである Aurora DB Cluster Export という機能を導入したことについてお話しします。 AI 在庫管理では、医薬品などの需要予測を行うために深夜に日次バッチを実行しています。 日次バッチでは、バックエンドの Aurora MySQL に格納されているデー

RubyKaigi 2023参加レポート 〜エンジニアによるセッション紹介〜

こんにちは、バックエンドエンジニアの 近 です! 2023/5/11〜13に長野県にて開催されたRubyKaigi 2023でプラチナスポンサーとして協賛し、スポンサーブースを出展しました。 また、今年は我々が運営しているファッションコーディネートアプリ「WEAR」のサービス紹介CMを作成し、RubyKaigiの会場にて放映させていただきました。 technote.zozo.com technote.zozo.com 実際に放映されたCMは

アジリティを保ってデータ基盤を作る取り組み

はじめに この記事は BASE Advent Calendar 2022 と Looker Advent Calender 2022 2日目の記事です。 こんにちは。BASE 株式会社 New Division BASE BANK Section にて、Engineering Program Manager (以下EPM) 1 をしている永野( @glassmonekey ) です。 私達のBASE BANK Section チーム (以下 BANK チーム) はBASEの中でも、新規事業の金融系のプロダクトにフォーカスしたチームになります。特に新規事業なので、日々の不

全社共通データ基盤を廃止して新しいデータ基盤に引越した話

こんにちは、データ基盤の開発、運用をしていた谷口( case-k )です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていまし

サーバーレスな新ETL基盤で転送時間とコストを大幅削減した話

はじめに リプレイスの背景 旧ETL基盤の構成 課題感 転送時間 コスト 汎用性 新ETL基盤 構成 Step Function AWS Glue Job AWS Lambda 成果 転送時間 コスト 汎用性 まとめ はじめに こんにちは!スマートキャンプエンジニアの中田です。 直近で、BOXIL SaaSのDBのデータをBig Queryへロードするために利用していたETL基盤をリプレイスし、運用コスト・転送時間を改善しました。 旧基盤 新基

BigQueryでのデータ追記処理における冪等化の取り組み

こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。

「Looker User Meetup Online #8」に登壇しました。

2022/7/21(木曜日)にオンラインで開催された「 Looker User Meetup Online #8 」に BASE BANK Dev Groupの永野(@glssmonekey)が登壇しました。 looker-japan-user-group.connpass.com イベントについて 今回のテーマは「Lookerまでのデータデリバリー、みんなどうしてる?」でした。 各社のLookerまでのデータパイプラインの構成やチーム構成など、Lookerを中心にしたデータに関する話題でわいわいしました

Embulkでかんたんデータ集約

こんにちは、negimixです。 ファイルやデータベースなど、各所に散らばっているデータをデータベースに集約して活用したいなぁと漠然と思っていました。 単純にデータを読み込んで、データベースに登録するプログラムを作ればいいんですが、今回はEmbulkを使ってみたので、Embulkの利用方法を紹介したいと思います。   【目次】 Embulkとは Embulk環境構築 サンプル実行

BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み

こんにちは、データ基盤の開発・運用をしている谷口( case-k )です。 本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。 ポリシータグとは ポリシータグを採用した理由 匿名化による機密性の高さ 機密性と

タイミーのデータ基盤品質。これまでとこれから。

はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川( @tvtg_24 )です。

AI在庫管理の需要予測、発注レコメンド機能の技術スタックをご紹介

こんにちは、この秋リリースした Musubi AI在庫管理 の開発チームでデータサイエンティスト・エンジニアをしている保坂です。 こちらの記事は カケハシ Advent Calendar 2021 の10日目の記事になります。 今日はAI在庫管理における需要予測・発注レコメンド機能で使用している技術スタックを紹介したいと思います。 これまでAI在庫管理チーム、とくにその需要予測・発注レコ

Lookerでショップのサービス活用カルテを作成した話

この記事は BASE アドベントカレンダー と Looker アドベントカレンダー 8 日目の記事です。 はじめに BASE BANK 株式会社にて事業開発を担当している猪瀬 ( @Masahiro_Inose )です。 私達のチームでは、BASE ショップを運営しているショップオーナー様が簡単に資金調達をできる「 YELL BANK 」というサービスの開発・運営しています。 thebase.in 今回の記事は以下の二部構成となります

ショッピングアプリ「BASE」の検索基盤を移行しました!【基盤編】

こんにちは、BASE株式会社Data Strategyチームの杉です。 ショッピングアプリ「BASE」では、検索にAmazon Cloudsearchを使用していました。今回、検索基盤をAmazon Elasticsearch Service(以下、ES)に移行し、Data Strategyチームで管理をする方針にしました。 この記事では商品が更新された際などにどのように検知し、データをESにいれるようにしたかなど、基盤の部分をメインにご紹介をし
12
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?