「Apache Spark」に関連する技術ブログ

企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。

AWS Weekly Roundup – Amazon MWAA、EMR Studio、生成系 AI など – 2023 年 8 月 14 日

夏を満喫するためにカリフォルニアで数日を過ごしている間に AWS では多くのことが起こりました。一緒に見ていきましょう! 8月7日週のリリース 私が注目したリリースを以下に記載しました。 Amazon MWAA での Apache Airflow バージョン 2.6 のサポート – Amazon Managed Workflows for Apache Airflow (Amazon MWAA) は エンドツーエンドのデータパイプラインをクラウドでセットアップして運用

Amazon SageMaker Processingによるシフトスケジュール、輸送経路選択、資源配分などの数理最適化問題の解決

この記事では、 Amazon SageMaker Processing API を使用して数値最適化問題を解く方法について説明します。最適化とは、様々な制約条件のもと、ある関数の最小値(または最大値)を求めるプロセスです。このパターンは、作業スタッフのシフト作成や輸送ルート選定、在庫配分、形状や軌跡の最適化など、ビジネスにおける重要な問題の解決に役立ちます。このような問題を

AWS Storage Day 2023 にようこそ

第 5 回の AWS Storage Day へようこそ! このバーチャルイベントは、8月9日、太平洋標準時の午前 9:00 (東部標準時正午) に開催され、 AWS On Air Twitch チャンネル で視聴できます。最初の AWS Storage Day は 2019 年に開催されました。このイベントはイノベーションデーへと発展し、毎年皆様をお迎えできることを楽しみにしています。 昨年の Storage Day の投稿 で、データを安全に保護

Amazon EMR における高可用性キー配布センターの実装

このブログは Lorenzo Ripani (Big Data Solutions Architect) と Stefano Sandona (Analytics Specialist Solutions Architect) によって執筆された内容を日本語化したものです。原文は こちら を参照して下さい。 高可用性(HA)とは、指定された期間、故障することなく継続的に稼働するシステムまたはサービスの特性です。システム全体に HA 特性を実装することで、通常、サービスの中断につながる

AWS GlueのCI/CD環境を作ってみた

こんにちは、カケハシの横田です。今回は我々の会社で実践しているテクノロジーについてお話しします。我々の開発チームは、日々 Apache Spark を活用し 100 個以上のバッチ処理を運用する中で、 AWS Glue という Apache Spark のマネージドサービスに大いにお世話になっています。 しかし、バッチ処理のテストを行う際にはいくつかの課題に直面します。特に想定外のデータへ

シリーズ・すこしずつがんばる streaming data 処理 (4) Apache Flink を試す

シリーズ・すこしずつがんばる streaming data 処理の四回目です。 (初回はこちら) ステップを踏んですこしずつ進めていますので、ぜひ他の記事も見てみてください。 今回は、streaming data 処理の他の例として Apache Flink を試してみます。Flink を触るのは今回はじめてです。Beam の他にどんなものがあるのかな? と調べてみると思った以上にいろいろとあり、その中で 比較的シ

Dataproc Serverlessを利用してPySparkを触ってみた

はじめに こんにちは、クラウドエース データ/MLディビジョン所属の金です。 前回はDataprocを利用してJupyter notebook上、PySparkでデータ処理を試してみました。 そこで一つ残念だったのがやはりクラスタ管理が面倒なことでした。 今回はDataproc Serverlessを利用して前回面倒だったクラスタ管理などもせずにPySparkでデータ処理を試してみます。 前回の記事が気になる方は下記

Dataprocを利用してPySparkを触ってみた(feat.Jupyter Notebook)

はじめに こんにちは、クラウドエース データ/MLディビジョン所属の金です。 最近ビッグデータの重要度が高くなっているのでビッグデータ処理ができるさまざまな方法の一つのPySparkを試してみます。 今回はGoogle CloudサービスのDataprocでクラスタを起動し、そこからJupyter Notebookを起動してPySparkを試してみます。 Cloud Dataprocとは? Dataprocは、「Apache Hadoop、Apache Sparkなどの

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。 カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行す

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。 最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い?)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは 全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し てから半年以上経過しました。 Databricksを導入し

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。 最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い?)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは 全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し てから半年以上経過しました。 Databricksを導入し

2022年版 AWS Glue の Spark Job で Aurora MySQL にデータを書き込む方法まとめ

KAKEHASHI でバックエンドエンジニアをしている横田です。 私が運用している Web サービスでは、AWS Glue で ETL 処理をしたデータを Aurora MySQL に投入することでユーザーが利用できるようにしています。 その中でも「データを Aurora MySQL に投入する」方法に関して、今まで色々なパターンを試してきました。 AWS Glue の Job で作成したデータを Aurora に投入するいくつかのパター

Google Cloudバッチ処理ツールざっくり整理2022

まえがき クラウドエース株式会社の亀梨と申します。SIインフラ領域を担当しております。 Batch (Cloud Batchではない)が 2022-10-11にGAとなりました。 Batchとは何なのか?似たような名前のWorkflows、Cloud Composer(こっちはCloudがつく)との関連は…? そんなことが気になって脳裏にチラついていたため、ざっくり調べてみました。 書いていないこと Pub/Subはバッチ処理の枠に収まら

pandasユーザーがPandas API on Sparkでつまづいたあれこれ

こちらの記事は Databricks Advent Calendar 2022 の24日目の記事です。 はじめに 初めまして。カケハシでデータサイエンティストをしている赤池です。 弊社はフルリモートで業務できるため今年9月から地元の仙台市で業務していますが、本格的な冬の到来を前に戦々恐々しています。(寒い。雪。路面凍結。) さて、あなたは「Pandas API on Spark」を知っていますか? これは「panda

Databricks導入でデータ分析における苦しみや悩みが消え、夢も叶った話

こちらの記事は Databricks Advent Calendar 2022 の23日目の記事です。 はじめに 初めまして。カケハシにてデータサイエンティストをしている赤池です。 業種的に、自己紹介の際に統計学のビッグネームとの関係性を聞かれることがたまにありますが 全く関係ありません 。統計学もがんばります。 突然ですが、あなたの分析環境では「 DBから抽出したデータをPythonやRなどで利
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?

エラータイトル

エラー本文