「Embulk」に関連する技術ブログ

全 47 件中 16 - 30 件目

2022年12月02日

はじめにこの記事は BASE Advent Calendar 2022 と Looker Advent Calender 2022 2日目の記事です。こんにちは。BASE 株式会社 New Division BASE BANK Section にて、Engineering Program Manager (以下EPM) 1 をしている永野( @glassmonekey ) です。私達のBASE BANK Section チーム (以下 BANK チーム) はBASEの中でも、新規事業の金融系のプロダ

Python, Google BigQuery, Embulk, データ分析, Looker

BASE株式会社

2022年09月15日

全社共通データ基盤を廃止して新しいデータ基盤に引越した話

こんにちは、データ基盤の開発、運用をしていた谷口（ case-k ）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新

AWS, Go, Google Cloud, Java, MySQL, Python, SQLServer, Google BigQuery, Embulk

株式会社ZOZO

2022年08月26日

サーバーレスな新ETL基盤で転送時間とコストを大幅削減した話

はじめにリプレイスの背景旧ETL基盤の構成課題感転送時間コスト汎用性新ETL基盤構成 Step Function AWS Glue Job AWS Lambda 成果転送時間コスト汎用性まとめはじめにこんにちは！スマートキャンプエンジニアの中田です。直近で、BOXIL SaaSのDBのデータをBig Queryへロードするために利用していたETL基盤をリプレイスし、運用コスト・転送時間を改善しました。旧基盤新基盤運用コスト(料金) 約 $750/月約 $70/月転送

AWS, MySQL, PostgreSQL, Embulk, データ分析, Serverless, Terraform

スマートキャンプ株式会社

2022年08月16日

BigQueryでのデータ追記処理における冪等化の取り組み

こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライ

PostgreSQL, SQL, Google BigQuery, Embulk, ネットワーク

株式会社ZOZO

2022年07月22日

「Looker User Meetup Online #8」に登壇しました。

2022/7/21(木曜日)にオンラインで開催された「 Looker User Meetup Online #8 」に BASE BANK Dev Groupの永野(@glssmonekey)が登壇しました。 looker-japan-user-group.connpass.com イベントについて今回のテーマは「Lookerまでのデータデリバリー、みんなどうしてる？」でした。各社のLookerまでのデータパイプラインの構成やチーム構成など、Lookerを中心にしたデータに関する話題でわいわいしました

Go, PHP, Python, SQL, Embulk, データ分析, ソフトウェアテスト, インフラ, テスト, Looker

BASE株式会社

2022年05月16日

Embulkでかんたんデータ集約

こんにちは、negimixです。ファイルやデータベースなど、各所に散らばっているデータをデータベースに集約して活用したいなぁと漠然と思っていました。単純にデータを読み込んで、データベースに登録するプログラムを作ればいいんですが、今回はEmbulkを使ってみたので、Embulkの利用方法を紹介したいと思います。　【目次】 Embulkとは Embulk環境構築サンプル実行データをデータベースに登録まとめ Embulkとは Embulkは、さまざまなストレージ、データベース、NoSQL、クラウ

PostgreSQL, Embulk, データベース

株式会社ラクス

2022年02月18日

BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み

こんにちは、データ基盤の開発・運用をしている谷口（ case-k ）です。本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。ポリシータグとはポリシータグを採用した理由匿名化による機密性の高さ機密性と利便性の両立データ基盤を保守運用しやすい秘密情報をテーブルに新規追加しやすい秘密情報の権限管理がしやすいポリシータグを活用したデータ連携の仕組

AWS, Git, Google Cloud, Ruby, SQLServer, Google BigQuery, Embulk, データ分析, データベース, Terraform

株式会社ZOZO

2022年01月24日

タイミーのデータ基盤品質。これまでとこれから。

はじめに以前のデータ基盤 3つの問題解決と振り返り問題1: データパイプラインの更新遅延解決策実装振り返り問題2: 分析チームへのクエリ修正依頼の増加解決策実装振り返り問題3: ETLパイプラインにおける加工処理の負債解決策実装振り返りこれからの品質に関する改善はじめに初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川( @tvtg_24 )です。本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振

Python, 機械学習, Google BigQuery, Embulk, データ分析, インフラ, テスト, データベース, Looker, 設計

タイミー

2021年12月10日

AI在庫管理の需要予測、発注レコメンド機能の技術スタックをご紹介

こんにちは、この秋リリースしたMusubi AI在庫管理の開発チームでデータサイエンティスト・エンジニアをしている保坂です。こちらの記事はカケハシ Advent Calendar 2021の10日目の記事になります。今日はAI在庫管理における需要予測・発注レコメンド機能で使用している技術スタックを紹介したいと思います。これまでAI在庫管理チーム、とくにその需要予測・発注レコメンド機能の開発についてはあまり技術発信を行うことができておらず、今回がはじめての記事投稿ということで、技術スタックのご紹介を選

AWS, Embulk

株式会社カケハシ

2021年12月08日

Lookerでショップのサービス活用カルテを作成した話

この記事は BASE アドベントカレンダーと Looker アドベントカレンダー 8 日目の記事です。はじめに BASE BANK 株式会社にて事業開発を担当している猪瀬 ( @Masahiro_Inose )です。私達のチームでは、BASE ショップを運営しているショップオーナー様が簡単に資金調達をできる「 YELL BANK 」というサービスの開発・運営しています。 thebase.in 今回の記事は以下の二部構成となります。前半部分は私から Looker という BI ツールを使って、サービ

MySQL, SQL, Google BigQuery, Embulk, 初心者, Looker, 設計

BASE株式会社

2021年05月26日

ショッピングアプリ「BASE」の検索基盤を移行しました！【基盤編】

こんにちは、BASE株式会社Data Strategyチームの杉です。ショッピングアプリ「BASE」では、検索にAmazon Cloudsearchを使用していました。今回、検索基盤をAmazon Elasticsearch Service(以下、ES)に移行し、Data Strategyチームで管理をする方針にしました。この記事では商品が更新された際などにどのように検知し、データをESにいれるようにしたかなど、基盤の部分をメインにご紹介をします。 1. 背景検索は新しいショップに出会うきっかけを作

AWS, Elasticsearch, Python, Embulk, データ分析, API, データベース

BASE株式会社

2021年05月19日

J-SOX対応のためにreportシステムを作ったら経理業務改善にもつながった話

はじめにこんにちは。BASEのCSEチームの秋谷です。 CSEチームは社内業務の効率化と財務の信頼性担保することを専門とするチームとして開発や社内の整備を行なっています。そんなCSEの取り組みを紹介できればと思います。 CSEについて詳しくはこちらをご覧ください devblog.thebase.in BASEショップの売上金の担保とJ-SOX対応 BASEではショップの売上を一時的にプラットフォーム側が預かっており、申請があった段階で売上金を引き出せるようになっています。そのため、ECプラットフォーム

AWS, SQL, Embulk

BASE株式会社

2020年12月30日

リアルタイムマーケティングシステム検証環境の構築ビフォーアフター

はじめにこんにちは。2020年5月に入社しましたMA基盤チームの辻岡です。 MA基盤チームでは、マーケティングに関わる様々なプロダクトやシステムの施策開発・運用を行っています。その中の1つにリアルタイムマーケティングシステムというものがあります。これまでこのシステムには検証環境が存在しませんでした。そこで、検証環境を新たに作る事でシステムの開発や運用の効率化並びに品質の担保に貢献した事について紹介します。また、検証フェーズの効率化手段としてDigdagを利用したデータ転送機能は使ってみると想像以上に

AWS, PostgreSQL, Ruby, Windows, SQL, HTML, SQLServer, Google BigQuery, Embulk, CI/CD

株式会社ZOZO

2020年08月27日

ZOZOTOWNを支えるリアルタイムデータ連携基盤

こんにちは、SRE部MA基盤チームの谷口（ case-k ）です。私達のチームでは、データ連携基盤の開発・運用をしています。データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。既存のデータ連携基盤の紹介リアルタイムデータ連携基盤の紹介なぜ必要なのか活用事例の紹介データ連携の仕組みと課題　リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討

Google Cloud, Java, SQLServer, Google BigQuery, Embulk, データ分析, OSS, SRE, Terraform

株式会社ZOZO

2020年07月01日

ZOZOTOWNのインハウス広告運用を支援するデータと仕組みの話

こんにちは。ECプラットフォーム部推薦基盤チームで、DWH・DMP・広告まわりのデータエンジニアリングを担当している大谷です。本記事では、マーケティング部門の広告運用のインハウス化に伴ってこれまで取り組んできた広告データの収集と活用、その仕組みにフォーカスして事例をご紹介します。背景データの収集と活用 Arm Treasure Data Integrations Hub ログ収集アクセスログ検索インプレッションログ Workflow フィードローダー (Google) レポーティング Goog