「Apache Spark」に関連する技術ブログ

全 147 件中 1 - 15 件目

2026年06月29日

秒間数万リクエストを処理する大規模HDFSにObserver NameNodeを導入した話

はじめにLINEヤフーで大規模データ処理基盤の開発を担当している浅沼と楊です。この記事では、秒間数万リクエストを処理する社内の HDFS（Hadoop Distributed File System）...

Hadoop, Apache Spark, アルゴリズム, API, 設計

LINEヤフー Tech

2026年06月24日

「Microsoft Build 2026」in サンフランシスコに参加してきたよ

報告者：柾本彬（技師 / 技術推進グループ・softcreate）　会期：2026年6月2日(火)〜3日(水) 会場：Fort Mason Center マイクロソフトが毎年開催している開発者向けイベント「Microsoft Build 2026」に参加してきました。ガチガチの技術レポートは参加した各社の優秀なエンジニアの方々が書いてくれていますし、同行した若き？エンジニア達も書いてくれそうなので一旦置いておいて、「現地に行って参加するってこんな感じなんだなぁ」というレポートをさせていただきます！個

Azure, GitHub, Apache Spark, Windows, 人工知能, インフラ, Serverless, スマートスピーカー, Alexa, GitHub Copilot

株式会社ソフトクリエイト

2026年06月23日

合計容量1EB超、異なる歴史を持つHDFSをどうつなぐか：LINEヤフーのデータ基盤間連携で直面した課題と設計判断

LINEヤフーの技術カンファレンス「Tech-Verse 2026」の公式記事です。はじめにこんにちは。LINEヤフーで大規模データ基盤の運用を担当している平山、沼田、小笠原、小川です。LINEヤフー...

AWS, Hadoop, Apache Spark, セキュリティ, データ分析, インフラ, ネットワーク, アーキテクチャ, 設計, 組み込み

LINEヤフー Tech

2026年05月26日

ワンキャリアエンジニアに聞いた。新卒エンジニアに進めたい！オライリーで学びになった書籍紹介 Part2

みなさんこんにちは！ワンキャリアのプロダクト開発部ワンキャリア転職チームの越川（X：@kosshii_）です。前回は、プロダクト開発チームのエンジニア4名に「学びになった技術書トップ3」を聞いてみました。新卒エンジニアの「本を読んで勉強したいけど、何から読めばいいかわからない」という悩みに寄り添った記事になっておりますので、是非、本記事と一緒にご一読いただきたいです！ ▼ Part1はこちら

JavaScript, Python, Apache Spark, キャリア, SQL, HTML, ビッグデータ, インフラ, Terraform, MLOps

株式会社ワンキャリア

2026年05月12日

SparkからIcebergへのMERGE INTO最適化 - SPJでシャッフルを回避する方法

はじめに前回の記事では、Apache Spark（以下Spark）からApache Iceberg（以下Iceberg）に対してMERGE INTOを実行する際に、ON句でtarget側のデータを絞り込むことで、shuffleに流れ込むデータ量を減らす方法を確認しました。 https://zenn.dev/kentyy/articles/485a2b368370bc しかし、データの特性上ON句でtarget側のデータ量を絞り込めない場合もあります。またJOIN自体は無くならないため、source側のデ

AWS, Apache Spark, ネットワーク, OSS, 設計

NTTデータ

2026年05月01日

2026年4月のイチオシGoogle Cloud・Google Workspaceアップデート

G-gen の杉村です。2026年4月に発表された、Google Cloud や Google Workspace のイチオシアップデートをまとめてご紹介します。記載は全て、記事公開当時のものですのでご留意ください。はじめに Google Cloud Next '26 の開催プロダクトの名称変更概要 Looker Studio → Data Studio（和名: データポータル） Dataplex Universal Catalog → Knowledge Catalog Cloud Compose

Google Cloud, Apache Spark, Google BigQuery, ネットワーク, OSS, macOS, Looker, オンプレミス, Google Workspace, 組み込み

株式会社G-gen

2026年04月27日

SparkからIcebergへのMERGE INTO最適化 - ON句でシャッフルを減らす方法

はじめに Apache Spark（以下Spark）からApache Iceberg（以下Iceberg）に対して、MERGE INTOを実行するユースケースは、差分更新やCDC（Change Data Capture）の取り込み、冪等性の担保においてよく使われます。実際にupsertを実現したいという要件から、MERGE INTOが利用できるIcebergを選択するケースもあります。一方で、MERGE INTOは単純なINSERTやUPDATEと比較して、処理が複雑です。内部的にはsourceテーブル

AWS, Apache Spark

NTTデータ

2026年04月27日

What’s new in BigQuery（Google Cloud Next '26速報）

G-gen の佐々木です。当記事では、Google Cloud Next '26 で発表された BigQuery に関する新機能について、公式の投稿記事「 What’s new in BigQuery: Powering the Agentic Era 」の内容をもとに紹介します。はじめに Open, cross-cloud lakehouse Managed Iceberg Tables（GA） Iceberg REST Catalog の読み書き相互運用性（Preview） Cross-Cloud

AWS, Azure, Google Cloud, Apache Spark, SQL, Google BigQuery, オープンデータ, テスト, OSS, Looker

株式会社G-gen

2026年04月20日

GuideLLMを使ってローカルLLMの性能測定をしてみた

こんにちは、クロスイノベーション本部リーディングエッジテクノロジーセンターの山下です。最近は、gpt-ossやQwen3.5といったローカルLLM（Local Large Language Model）も注目されており、これらを活用したプロジェクトも増えてきています。今回の記事では、ローカルLLMのベンチマークソフトウェアである GuideLLM について紹介します。LLMの性能には様々な観点がありますが、GuideLLMはLLMサーバ自体の応答速度などを測るためのベンチマークソフトウェアです。 Gu

Python, Apache Spark, UX, キャリア, HTML, ソフトウェアテスト, テスト, ChatGPT, 大規模言語モデル（LLM）

電通総研

2026年04月16日

Amazon S3 Tablesを触ってみた

こんにちは。SCSKの岡尾です。皆さん、S3 Tablesについてご存じでしょうか。 AWS re:Invent 2024で発表され、話題を呼んだ新機能「 Amazon S3 Tables 」。データレイクの構築・運用を根本から変えるポテンシャルを秘めたこのサービスについて、「実際にどう使えるの？」「既存のS3バケットと何が違うの？」と気になっている方も多いのではないでしょうか。本記事では、S3 Tablesの基本的な概要を紹介しつつ、実際にS3 Tablesへのデータ連携（ETL処理）を実装する中で

AWS, Apache Spark, SQL, データベース

SCSKクラウドソリューション

2026年04月14日

S3 Tables × Iceberg を検証してみた（ハマりポイントまとめ）

AWS（Amazon Web Services）のデータレイク機能 Amazon S3 Tables を利用して、 Apache Icebergテーブルの作成からアクセス制御まで一通り検証しました。本記事では、S3 Tablesの検証を通して発生したハマりポイントとその対処方法を中心に紹介します。 1. 前提本記事では S3 Tablesを利用したApache Icebergテーブルを検証しています。最初にIcebergとS3 Tablesについて簡単に説明します。参考記事： Amazon S3

AWS, Apache Spark, セキュリティ, データベース, 組み込み

NTTデータ

2026年03月31日

Fivetran の Managed Data Lake Service の CDC で実現する業務システムから Apache Iceberg へのリアルタイムデータ連携

本記事はアマゾンウェブサービスジャパン合同会社ソリューションアーキテクト疋田、畠と、Fivetran による共著です。はじめに本記事では、 Fivetran の Managed Data Lake Service 及び CDC 機能を活用して業務システムの RDBMS から Amazon S3 上の Apache Iceberg テーブルへリアルタイムにデータ連携が必要となるユースケースや構成イメージ、実装例を記載します。本記事では、業務システムの RDBMS からリアルタイムにデータ

AWS, Oracle, PostgreSQL, Apache Spark, インフラ, データベース, アーキテクチャ, ハードウェア, オンプレミス, ノーコード/ローコード

AWS

2026年03月30日

【ここを気にした!】AWS Glue Python Shellジョブによるデータ連携

こんにちは、SCSKの松岡です🔗 データ連携の実装でAWS Glue (Python Shell Job)を導入した際の試行錯誤を整理しました。 RDSからデータレイクであるS3 Tablesに連携する際に、横展開可能な軽量なデータ連携ジョブを実現するために気にしたポイントについて紹介します。背景データ活用基盤を構築するにあたり、「データをどのように集めるか」は重要なテーマの一つです。仮に収集元のシステムが単一であっても、対象となるテーブルが複数存在する場合、テーブルごとに連携方法を検討し、ジョブと

AWS, PostgreSQL, Apache Spark, SQL, Power BI, 設計, 組み込み

SCSKクラウドソリューション

2026年03月26日

AWS GlueのETL処理実装のハマりどころ

こんにちは。SCSKの岡尾です。今回は、AWS Glueを利用したETL処理を実装していた中でハマったポイントを紹介したいと思います。私自身、ETLの実装は初めてでした。これからGlueを使ったETL処理実装していこうとしている方が同じようにつまずかないようにハマりポイントをご紹介できればと思います。   目次はじめにハマりどころネットワーク：Glueセキュリティグループの「自己参照」トランザクション：Commit Failed Exception PySpark：メモリ不足エラー

AWS, Python, Apache Spark, セキュリティ, Shell, ネットワーク

SCSKクラウドソリューション

2026年03月19日

Amazon SageMaker を使用したレイクハウスのアーキテクチャ選択ガイド

本記事は 2026 年 1 月 12 日に公開された「 Navigating architectural choices for a lakehouse using Amazon SageMaker 」を翻訳したものです。組織がデータを活用して意思決定やイノベーションを推進する動きは加速しています。ペタバイト規模の情報を扱う中で、従来はデータレイクとデータウェアハウスという 2 つの異なるパラダイムに分かれてきました。それぞれ特定のユースケースに強みがある一方、データ資産間に意図しない障壁を生むことが