TECH PLAY

Apache Spark」に関連する技術ブログ

159 件中 1 - 15 件目
はじめに 前回の記事では、Apache Spark(以下Spark)からApache Iceberg(以下Iceberg)に対してMERGE INTOを実行する際に、ON句でtarget側のデータを絞り込むことで、shuffleに流れ込むデータ量を減らす方法を確認しました。 https://zenn.dev/kentyy/articles/485a2b368370bc しかし、データの特性上ON句でtarget側のデータ量を絞り込めない場合もあります。またJOIN自体は無くならないため、source側のデ
G-gen の杉村です。2026年4月に発表された、Google Cloud や Google Workspace のイチオシアップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。 はじめに Google Cloud Next '26 の開催 プロダクトの名称変更 概要 Looker Studio → Data Studio(和名: データポータル) Dataplex Universal Catalog → Knowledge Catalog Cloud Compose
はじめに Apache Spark(以下Spark)からApache Iceberg(以下Iceberg)に対して、MERGE INTOを実行するユースケースは、差分更新やCDC(Change Data Capture)の取り込み、冪等性の担保においてよく使われます。実際にupsertを実現したいという要件から、MERGE INTOが利用できるIcebergを選択するケースもあります。 一方で、MERGE INTOは単純なINSERTやUPDATEと比較して、処理が複雑です。内部的にはsourceテーブル
G-gen の佐々木です。当記事では、Google Cloud Next '26 で発表された BigQuery に関する新機能について、公式の投稿記事「 What’s new in BigQuery: Powering the Agentic Era 」の内容をもとに紹介します。 はじめに Open, cross-cloud lakehouse Managed Iceberg Tables(GA) Iceberg REST Catalog の読み書き相互運用性(Preview) Cross-Cloud
こんにちは、クロスイノベーション本部リーディングエッジテクノロジーセンターの山下です。 最近は、gpt-ossやQwen3.5といったローカルLLM(Local Large Language Model)も注目されており、これらを活用したプロジェクトも増えてきています。 今回の記事では、ローカルLLMのベンチマークソフトウェアである GuideLLM について紹介します。LLMの性能には様々な観点がありますが、GuideLLMはLLMサーバ自体の応答速度などを測るためのベンチマークソフトウェアです。 Gu
こんにちは。SCSKの岡尾です。 皆さん、S3 Tablesについてご存じでしょうか。 AWS re:Invent 2024で発表され、話題を呼んだ新機能「 Amazon S3 Tables 」。データレイクの構築・運用を根本から変えるポテンシャルを秘めたこのサービスについて、「実際にどう使えるの?」「既存のS3バケットと何が違うの?」と気になっている方も多いのではないでしょうか。 本記事では、S3 Tablesの基本的な概要を紹介しつつ、実際にS3 Tablesへのデータ連携(ETL処理)を実装する中で
AWS(Amazon Web Services)のデータレイク機能 Amazon S3 Tables を利用して、 Apache Icebergテーブルの作成からアクセス制御まで一通り検証しました。 本記事では、S3 Tablesの検証を通して発生した ハマりポイントとその対処方法を中心に紹介します。 1. 前提 本記事では S3 Tablesを利用したApache Icebergテーブルを検証しています。 最初にIcebergとS3 Tablesについて簡単に説明します。 参考記事: Amazon S3
本記事は アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 疋田、畠 と、Fivetran による共著です。 はじめに 本記事では、 Fivetran の Managed Data Lake Service 及び CDC 機能を活用して業務システムの RDBMS から Amazon S3 上の Apache Iceberg テーブルへリアルタイムにデータ連携が必要となるユースケースや構成イメージ、実装例を記載します。 本記事では、業務システムの RDBMS からリアルタイムにデータ
こんにちは、SCSKの松岡です🔗 データ連携の実装でAWS Glue (Python Shell Job)を導入した際の試行錯誤を整理しました。 RDSからデータレイクであるS3 Tablesに連携する際に、横展開可能な軽量なデータ連携ジョブを実現するために気にしたポイントについて紹介します。 背景 データ活用基盤を構築するにあたり、「データをどのように集めるか」は重要なテーマの一つです。 仮に収集元のシステムが単一であっても、対象となるテーブルが複数存在する場合、テーブルごとに連携方法を検討し、ジョブと
こんにちは。SCSKの岡尾です。 今回は、AWS Glueを利用したETL処理を実装していた中でハマったポイントを紹介したいと思います。 私自身、ETLの実装は初めてでした。これからGlueを使ったETL処理実装していこうとしている方が同じようにつまずかないようにハマりポイントをご紹介できればと思います。   目次 はじめに ハマりどころ ネットワーク:Glueセキュリティグループの「自己参照」 トランザクション:Commit Failed Exception PySpark:メモリ不足エラー
本記事は 2026 年 1 月 12 日 に公開された「 Navigating architectural choices for a lakehouse using Amazon SageMaker 」を翻訳したものです。 組織がデータを活用して意思決定やイノベーションを推進する動きは加速しています。ペタバイト規模の情報を扱う中で、従来はデータレイクとデータウェアハウスという 2 つの異なるパラダイムに分かれてきました。それぞれ特定のユースケースに強みがある一方、データ資産間に意図しない障壁を生むことが
本記事は 2026 年 1 月 26 日 に公開された「 Top 10 best practices for Amazon EMR Serverless 」を翻訳したものです。 Amazon EMR Serverless は Amazon EMR のデプロイオプションの 1 つで、 Apache Spark や Apache Hive などのオープンソースビッグデータ分析フレームワークを、クラスターやサーバーの設定・管理・スケーリングなしで実行できます。EMR Serverless は、データストレージ、
みなさん、こんにちは。ソリューションアーキテクトの古屋です。今週も 週刊AWS をお届けします。 4月14日(火)14:00-17:00 にオンラインセミナー 「これから始める AWS のコンテナサービス活用」 が開催されます。お客様とお話しする中で、「運用負担を抑えつつある程度カスタマイズもしたい」「オンプレミスでもコンテナ環境を構築する必要がある」といったお声をいただくことがあります。本セミナーでは、そうしたお客様のニーズにお応えする形で、コンテナの意義やメリット、開発・設計の考え方、AWS コンテナ
本記事は 2025 年 10 月 5 日 に公開された「 Integral Ad Science scales over 100 M documents with Amazon OpenSearch Service 」を翻訳したものです。 ソーシャルメディアプラットフォーム全体でコンテンツ量が急増し、リアルタイムの機械学習 (ML) モデルトレーニングが求められる中、 Integral Ad Science (IAS) にはソリューションが必要でした。コンテンツ分類器の継続的な開発を支え、手動アノテーショ
2025/10/7~9 に、アメリカのシアトルで開催された Airflow Summit というイベントに参加・登壇してきました。この記事では印象に残ったセッションを中心に、イベントの模様を共有します。 Airflow Summit とは オープンソースのワークフロー管理ソフトウェアとしては、おそらく最大級の知名度と導入実績を持つであろう Apache Airflow に関する、コミュニティ主催の年次イベントです。 2020年から毎年開催されており、前回 (2024年) は3日間で参加者650名、登壇者1

ブログランキング

集計期間: 2026年5月1日 2026年5月7日

タグからブログをさがす

ソフトウェア開発

XcodeWebRTCServerlessPlaywright

プログラミング

NestJSVisual BasicPHPJava

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。 情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?
無料でイベントをはじめる