「Apache Spark」に関連する技術ブログ
企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。
全45件中 16 - 30件目
Amazon EMR における高可用性キー配布センターの実装
2023/08/10
ブックマーク
このブログは Lorenzo Ripani (Big Data Solutions Architect) と Stefano Sandona (Analytics Specialist Solutions Architect) によって執筆された内容を日本語化したものです。原文は こちら を参照して下さい。 高可用性(HA)とは、指定された期間、故障することなく継続的に稼働するシステムまたはサービスの特性です。システム全体に HA 特性を実装することで、通常、サービスの中断につながる
AWS GlueのCI/CD環境を作ってみた
2023/07/13
ブックマーク
こんにちは、カケハシの横田です。今回は我々の会社で実践しているテクノロジーについてお話しします。我々の開発チームは、日々 Apache Spark を活用し 100 個以上のバッチ処理を運用する中で、 AWS Glue という Apache Spark のマネージドサービスに大いにお世話になっています。 しかし、バッチ処理のテストを行う際にはいくつかの課題に直面します。特に想定外のデータへ
シリーズ・すこしずつがんばる streaming data 処理 (4) Apache Flink を試す
2023/06/13
ブックマーク
シリーズ・すこしずつがんばる streaming data 処理の四回目です。 (初回はこちら) ステップを踏んですこしずつ進めていますので、ぜひ他の記事も見てみてください。 今回は、streaming data 処理の他の例として Apache Flink を試してみます。Flink を触るのは今回はじめてです。Beam の他にどんなものがあるのかな? と調べてみると思った以上にいろいろとあり、その中で 比較的シ
Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた
2023/04/26
ブックマーク
こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。 カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行す
DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した
2023/02/21
ブックマーク
初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。 最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い?)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは 全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し てから半年以上経過しました。 Databricksを導入し
DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した
2023/01/31
ブックマーク
初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。 最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い?)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは 全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し てから半年以上経過しました。 Databricksを導入し
2022年版 AWS Glue の Spark Job で Aurora MySQL にデータを書き込む方法まとめ
2023/01/31
ブックマーク
KAKEHASHI でバックエンドエンジニアをしている横田です。 私が運用している Web サービスでは、AWS Glue で ETL 処理をしたデータを Aurora MySQL に投入することでユーザーが利用できるようにしています。 その中でも「データを Aurora MySQL に投入する」方法に関して、今まで色々なパターンを試してきました。 AWS Glue の Job で作成したデータを Aurora に投入するいくつかのパター
pandasユーザーがPandas API on Sparkでつまづいたあれこれ
2022/12/24
ブックマーク
こちらの記事は Databricks Advent Calendar 2022 の24日目の記事です。 はじめに 初めまして。カケハシでデータサイエンティストをしている赤池です。 弊社はフルリモートで業務できるため今年9月から地元の仙台市で業務していますが、本格的な冬の到来を前に戦々恐々しています。(寒い。雪。路面凍結。) さて、あなたは「Pandas API on Spark」を知っていますか? これは「panda
Databricks導入でデータ分析における苦しみや悩みが消え、夢も叶った話
2022/12/23
ブックマーク
こちらの記事は Databricks Advent Calendar 2022 の23日目の記事です。 はじめに 初めまして。カケハシにてデータサイエンティストをしている赤池です。 業種的に、自己紹介の際に統計学のビッグネームとの関係性を聞かれることがたまにありますが 全く関係ありません 。統計学もがんばります。 突然ですが、あなたの分析環境では「 DBから抽出したデータをPythonやRなどで利
Redash から Databricks SQL へ移行すると何がどう変わる??
2022/12/22
ブックマーク
こちらの記事は Databricks Advent Calendar 2022 の22日目の記事になります。 こんにちは、カケハシで Musubi Insight のバックエンドエンジニアをしている末松です。 カケハシでは 全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用 しておりますが、それまでは Redash を利用していました。 Redash は Databricks社にM&A された背景もあり、基本的には Redash を使っていた
Spark未経験のチームが2年間模索して実感した、効果的なパフォーマンス改善6選
2022/12/17
ブックマーク
こちらの記事は カケハシ Advent Calendar 2022 の17日目の記事になります。 こんにちは、カケハシで Musubi Insight のバックエンドエンジニアをしている末松です。 Musubi Insight に表示するデータは夜間の日次バッチで集計しているのですが、テスト・品質担保・パフォーマンスなどなど悩みが絶えません... 以前もバッチ処理のテストに関するブログを掲載しましたが、今回はパフ
re:Invent 2022 で発表された AWS Glue for Rayを使ってみた!
2022/12/15
ブックマーク
本記事は2022/12/14時点の情報です。 サーバーワークス DS1課の吉岡です。 re:Invent 2022においてAWS Glue for Rayが発表されました。 この記事ではAWS Glue for Rayの使い方についてまとめたいと思います。 aws.amazon.com はじめに プレビュー版環境 Rayとは 並列分散処理とは SparkとRay Sparkの特徴 Rayの特徴 実際にやってみた コード内容 サンプルコード概要 コードの中身 Rayを用いてのジョ
求人取り込み周りのリプレイスについて
2022/12/06
ブックマーク
はじめに ジョブデータコアグループに所属している池田です。 ジョブデータコアグループでは、求人情報の取り込み、求人情報の管理、検索エンジンまでのインデックスを行っております。 我々のチームでは2020年11月からスタンバイのクローリングシステムをリアーキテクト・リプレイスしたのですが、 今回はその時の一部のプロダクトについて課題と実際に2年間運
AWS GlueのSpark Jobでクローラーを使わずにデータカタログにテーブルを作成する
2022/11/02
ブックマーク
KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、一般的にクローラーを使って作成するであろう、データカタログのテーブルを Spark だけで実現する方法について紹介できればと思います。 背景・目的 MusubiInsight のプロダクトでは、薬剤師さんや薬局のマネージャーさん向けに業務実績データの可視化を行っています 可視化するデータは、夜間にバッチ処
ユニットテストで学ぶDataflowの基本
2022/09/28
ブックマーク
みなさんこんにちは、 電通国際情報サービス (ISID)コーポレート本部 システム推進部の佐藤太一です。 このエントリでは Google Dataflowを使ったデータ分析パイプライン構築において中心的な API の使い方について説明します。 Google Dataflowとはなにか Dataflowの開発環境構築 GradleによるDataflowプロジェクトの作り方 Apache Beamの基礎 Pipelineについて PCollectionについて ParDoを使