「Apache Spark」に関連する技術ブログ

全 160 件中 46 - 60 件目

2025年06月30日

週刊AWS – 2025/6/23週

みなさん、こんにちは。ソリューションアーキテクトの戸塚です。今週も週刊AWS をお届けします。先週は年に一度のAWS Summitが開催され、私はいくつかのブースで展示の担当をしていました。会場では、興味津々で「これを家に帰ってすぐ作ってみたい！」と言いながら、一生懸命メモを取っているお客様もいて、デモを開発して本当によかったと感じました。展示ブースではAIやIoTを組み合わせたものが多く、実際に動く様子を見てもらえると、楽しさやワクワク感がさらに増すなと思いました。それでは、先週の主なアップデート

AWS, Git, Java, Apache Spark, アルゴリズム, インフラ, ネットワーク, ハードウェア, オンプレミス

AWS

2025年06月27日

新機能: sort コンパクションと z-order コンパクションで Amazon S3 内での Apache Iceberg クエリパフォーマンスを向上

sort コンパクションと z-order コンパクションを使用して、 Amazon S3 Tables と汎用 S3 バケットでの Apache Iceberg クエリパフォーマンスを向上させることが可能になりました。通常、Iceberg は AWS Glue データカタログや S3 Tables で Amazon Simple Storage Service (Amazon S3) 内の大規模な分析データセットを管理するために使用します。Iceberg テーブルは、同時ストリーミングやバッチイ

AWS, Apache Spark, テスト, 設計

AWS

2025年06月20日

Mercari Pipeline (旧Mercari Dataflow Template) v1(β版)を公開しました

はじめにこんにちは。メルペイ Solutionsチーム所属のデータエンジニア @orfeon です。この記事は、 Merpay & Mercoin Tech Openness Month 2025 の15日目の記事です。 2020年にデータパイプラインをJSONで定義して実行することができるツールとしてmercari/DataflowTemplateを開発して OSSとして公開しました。最近このツールに大幅な機能追加を行い、 mercari/pipeline と名前を変更してv1.0.0(

Google Cloud, Apache Spark, Google BigQuery, ビッグデータ, インフラ, フロントエンド, API, macOS, 大規模言語モデル（LLM）, MCP

株式会社メルカリ

2025年06月13日

DatabricksのOLTPデータベース『Lakebase』を使ってみた！

はじめに Databricksビジネス推進室の井能です。現在サンフランシスコで現地参加しているDatabricksの年次カンファレンス『Data+AI Summit 2025』にて、フルマネージドのPostgresデータベースをホストする機能である『Lakebase』が発表されました。 https://www.databricks.com/product/lakebase https://www.databricks.com/blog/what-is-a-lakebase 2025年3月にはサーバレスPo

Git, Apache Spark, ハンズオン, データ分析, 人工知能, ビッグデータ, テスト, OSS, データベース, Snowflake

NTTデータ

2025年06月13日

ETLだけじゃない！AWS Glueで学ぶ分散処理入門編～NRIネットコム TECH AND DESIGN STUDY #69～

こんにちは、ブログ運営担当の海野です。 6/23（月）19:00～20:00 当社主催の勉強会「NRIネットコム TECH & DESIGN STUDY #69」が開催されます!! AWS Glueで分散処理ができることは知っていても、実際に構築したことがない人も多いのではないでしょうか。今回はGlueの特色の一つである分散処理にスポットを当てます。 Glueの主要機能を紹介しつつ、Apache Sparkのアーキテクチャや検証事例を交えて解説していきます。 ETLだけでないAWS Glueの特色に、こ

Apache Spark, アーキテクチャ

NRIネットコム

2025年05月30日

Databricksで実現するデータ名寄せ【確率的マッチング編】

こんにちは。エンタープライズ第三本部マーケティング IT部の熊倉です。このブログでは、高速に動作する分散処理エンジン「 Apache Spark」とオープンテーブルフォーマット「Delta Lake」を基盤としたレイクハウス環境を構築できるDatabricks上で管理しているデータセットに対して、名寄せ処理を行うアプローチについて紹介します。実際のノートブックの処理についても紹介しようと思っていますが、想定よりも内容が多くなってしまったので、名寄せの概要を紹介する「概要編」、

AWS, GitHub, Apache Spark, 機械学習, キャリア, HTML, 設計

電通総研

2025年05月29日

Databricksで実現するデータ名寄せ【決定論的マッチング編】

R, Apache Spark, キャリア, SQL, OSS

電通総研

2025年05月28日

Databricksで実現するデータ名寄せ【概要編】

Python, Scala, Apache Spark, キャリア, SQL, データ分析, TensorFlow, API, OSS, CRM

電通総研

2025年05月23日

Vertex AI Pipelinesを解説

G-gen の佐々木です。当記事では Google Cloud の機械学習ワークフローオーケストレーションツールである Vertex AI Pipelines を解説します。 MLOps と ML パイプラインの必要性 Vertex AI Pipelines パイプラインの定義 2種類のインターフェース Kubeflow Pipelines SDK TensorFlow Extended SDK パイプラインコンポーネントコンポーネントの基本 Google Cloud パイプラインコンポーネント概

Google Cloud, Python, Apache Spark, アルゴリズム, Google BigQuery, TensorFlow, DevOps, インフラ, テスト, MLOps

株式会社G-gen

2025年05月14日

Yahoo!ショッピング：データ基盤における次世代クエリエンジン（Spark/Trino）移行の取り組みについて

はじめに本ブログシリーズでは、Yahoo!ショッピングのデータ分析基盤を最適化するために取り組んだ大規模プロジェクト――Apache HiveからTrinoとApache Sparkへの移行――につい...

Hadoop, Apache Spark, SQL, データ分析, インフラ, テスト, アーキテクチャ, プロジェクトマネジメント, 設計

LINEヤフー Tech

2025年05月12日

AWS Lambda と AWS Glue Iceberg REST エンドポイントを使用した PyIceberg による軽量な分析環境の実現

本記事は、2025/5/9 に公開された Accelerate lightweight analytics using PyIceberg with AWS Lambda and an AWS Glue Iceberg REST endpoint を翻訳したものです。翻訳は Solutions Architect の深見が担当しました。データインサイトに基づき決定を行う現代の組織にとって、効果的なデータ管理は、高度な分析と効率的な機械学習の利用を実現するための重要な要素です。データ利用のユースケースがよ

AWS, Python, Apache Spark, データ分析, ビッグデータ, インフラ, テスト, OSS, データベース, アーキテクチャ

AWS

2025年04月23日

DatabricksのAIエージェント評価機能の実力を検証してみた

はじめにこんにちは、データエンジニアをしているMaruです。近年、データ基盤と統合したAIエージェント開発のプラットフォームとしてDatabricksが注目を集めています。DatabricksはAIエージェントの開発および運用を効率化するために多くの機能を提供しており、その一つにAIエージェントの性能を評価するMosaic AI Agent Evaluationがあります。本記事では、その中でもLLMを利用した精度評価機能LLM-as-a-Judgeに焦点を当て、日本語環境でどの程度活用できるかを検

Apache Spark, セキュリティ, インフラ, ネットワーク, テスト, ライフスタイル, OSS, 大規模言語モデル（LLM）, データサイエンス

NTTデータ

2025年04月23日

IcebergテーブルをDuckDBで手軽に読み取ろう

はじめにデータエンジニアをやっておりますTaichiです。最近Apache Icebergという単語をよく耳にするようになりました。 Icebergの処理エンジンといえば Apache Spark Apache Flink Trino などでしょうか。このラインナップ、構築/運用するのは結構ハードなものが多いと思いませんか？例えば、私のプロジェクトではSparkを使った構成でデータ処理を実施していますが、以下のような具体的な課題に直面しました。 Apache Hadoopのクラスタ構築作業や、Spa

Hadoop, Python, Apache Spark, ハンズオン, SQL, Apache, SQLite, Kubernetes, OSS, オンプレミス

NTTデータ

2025年04月14日

Docker コンテナを使って AWS Glue 5.0 のジョブをローカルで開発・テストする

AWS Glue は、さまざまなデータソースからのデータを大規模に処理・統合できるサーバーレスのデータ統合サービスです。Apache Spark ジョブ用の最新バージョンである AWS Glue 5.0 は、バッチ処理とストリーム処理に最適化された Apache Spark 3.5 ランタイム環境を提供します。AWS Glue 5.0 を使えば、パフォーマンスの向上、セキュリティの強化、次世代の Amazon SageMaker のサポート、その他の機能強化が得られます。AWS Glue 5.0 により、

AWS, Docker, Python, Scala, Apache Spark, Windows, セキュリティ, Linux, Apache, テスト

AWS

2025年04月11日

BigQueryの新発表を解説（Google Cloud Next '25速報）

G-gen の杉村です。当記事では、Google Cloud Next '25 で発表された BigQuery の新機能について紹介します。概要 BigQuery と AI の統合全体像 BigQuery data preparation データセットレベルのインサイト（BigQuery データキャンバス） BigQuery pipelines にデータエンジニアリングエージェントが組み込み Colab Notebook にデータサイエンスエージェントが組み込み BigQuery AI query e