TECH PLAY

Apache Spark」に関連する技術ブログ

125 件中 16 - 30 件目
6 月 25 日より、 Amazon S3 Access Points を Amazon FSx for OpenZFS ファイルシステムにアタッチして、 Amazon Simple Storage Service (Amazon S3) に格納されているかのようにデータにアクセスできるようになりました。この新機能を使用すると、S3 と連動する Amazon Web Services (AWS) の幅広い 人工知能 (AI)、 機械学習 (ML)、 分析 サービスやアプリケーションで使用するデータとして
みなさん、こんにちは。ソリューションアーキテクトの戸塚です。今週も 週刊AWS をお届けします。 先週は年に一度のAWS Summitが開催され、私はいくつかのブースで展示の担当をしていました。会場では、興味津々で「これを家に帰ってすぐ作ってみたい!」と言いながら、一生懸命メモを取っているお客様もいて、デモを開発して本当によかったと感じました。展示ブースではAIやIoTを組み合わせたものが多く、実際に動く様子を見てもらえると、楽しさやワクワク感がさらに増すなと思いました。 それでは、先週の主なアップデート
sort コンパクションと z-order コンパクションを使用して、 Amazon S3 Tables と 汎用 S3 バケット での Apache Iceberg クエリパフォーマンスを向上させることが可能になりました。 通常、Iceberg は AWS Glue データカタログ や S3 Tables で Amazon Simple Storage Service (Amazon S3) 内の大規模な分析データセットを管理するために使用します。Iceberg テーブルは、同時ストリーミングやバッチイ
はじめに こんにちは。メルペイ Solutionsチーム所属のデータエンジニア @orfeon です。 この記事は、 Merpay & Mercoin Tech Openness Month 2025 の15日目の記事です。 2020年にデータパイプラインをJSONで定義して実行することができるツールとしてmercari/DataflowTemplateを開発して OSSとして公開 しました。 最近このツールに大幅な機能追加を行い、 mercari/pipeline と名前を変更してv1.0.0(
はじめに Databricksビジネス推進室の井能です。現在サンフランシスコで現地参加しているDatabricksの年次カンファレンス『Data+AI Summit 2025』にて、フルマネージドのPostgresデータベースをホストする機能である『Lakebase』が発表されました。 https://www.databricks.com/product/lakebase https://www.databricks.com/blog/what-is-a-lakebase 2025年3月にはサーバレスPo
こんにちは、ブログ運営担当の海野です。 6/23(月)19:00~20:00 当社主催の勉強会「NRIネットコム TECH & DESIGN STUDY #69」が開催されます!! AWS Glueで分散処理ができることは知っていても、実際に構築したことがない人も多いのではないでしょうか。 今回はGlueの特色の一つである分散処理にスポットを当てます。 Glueの主要機能を紹介しつつ、Apache Sparkのアーキテクチャや検証事例を交えて解説していきます。 ETLだけでないAWS Glueの特色に、こ
こんにちは。 エンタープライズ 第三本部 マーケティング IT部の熊倉です。 このブログでは、 高速に動作する分散処理エンジン「 Apache Spark」 と オープンテーブルフォーマット「Delta Lake」 を基盤としたレイクハウス環境を構築できるDatabricks上で管理しているデー タセット に対して、 名寄せ 処理を行うアプローチについて紹介します。 実際のノートブックの処理についても紹介しようと思っていますが、想定よりも内容が多くなってしまったので、 名寄せ の概要を紹介する「概要編」、
こんにちは。 エンタープライズ 第三本部 マーケティング IT部の熊倉です。 このブログでは、 高速に動作する分散処理エンジン「 Apache Spark」 と オープンテーブルフォーマット「Delta Lake」 を基盤としたレイクハウス環境を構築できるDatabricks上で管理しているデー タセット に対して、 名寄せ 処理を行うアプローチについて紹介します。 実際のノートブックの処理についても紹介しようと思っていますが、想定よりも内容が多くなってしまったので、 名寄せ の概要を紹介する「概要編」、
こんにちは。 エンタープライズ 第三本部 マーケティング IT部の熊倉です。 このブログでは、 高速に動作する分散処理エンジン「 Apache Spark」 と オープンテーブルフォーマット「Delta Lake」 を基盤としたレイクハウス環境を構築できるDatabricks上で管理しているデー タセット に対して、 名寄せ 処理を行うアプローチについて紹介します。 実際のノートブックの処理についても紹介しようと思っていますが、想定よりも内容が多くなってしまったので、 名寄せ の概要を紹介する「概要編」、
G-gen の佐々木です。当記事では Google Cloud の機械学習ワークフローオーケストレーションツールである Vertex AI Pipelines を解説します。 MLOps と ML パイプラインの必要性 Vertex AI Pipelines パイプラインの定義 2種類のインターフェース Kubeflow Pipelines SDK TensorFlow Extended SDK パイプライン コンポーネント コンポーネントの基本 Google Cloud パイプライン コンポーネント 概
はじめに本ブログシリーズでは、Yahoo!ショッピングのデータ分析基盤を最適化するために取り組んだ大規模プロジェクト――Apache HiveからTrinoとApache Sparkへの移行――につい...
本記事は、2025/5/9 に公開された Accelerate lightweight analytics using PyIceberg with AWS Lambda and an AWS Glue Iceberg REST endpoint を翻訳したものです。翻訳は Solutions Architect の深見が担当しました。 データインサイトに基づき決定を行う現代の組織にとって、効果的なデータ管理は、高度な分析と効率的な機械学習の利用を実現するための重要な要素です。データ利用のユースケースがよ
はじめに こんにちは、データエンジニアをしているMaruです。 近年、データ基盤と統合したAIエージェント開発のプラットフォームとしてDatabricksが注目を集めています。DatabricksはAIエージェントの開発および運用を効率化するために多くの機能を提供しており、その一つにAIエージェントの性能を評価するMosaic AI Agent Evaluationがあります。 本記事では、その中でもLLMを利用した精度評価機能LLM-as-a-Judgeに焦点を当て、日本語環境でどの程度活用できるかを検
はじめに データエンジニアをやっておりますTaichiです。 最近Apache Icebergという単語をよく耳にするようになりました。 Icebergの処理エンジンといえば Apache Spark Apache Flink Trino などでしょうか。このラインナップ、構築/運用するのは結構ハードなものが多いと思いませんか? 例えば、私のプロジェクトではSparkを使った構成でデータ処理を実施していますが、以下のような具体的な課題に直面しました。 Apache Hadoopのクラスタ構築作業や、Spa
AWS Glue は、さまざまなデータソースからのデータを大規模に処理・統合できるサーバーレスのデータ統合サービスです。Apache Spark ジョブ用の最新バージョンである AWS Glue 5.0 は、バッチ処理とストリーム処理に最適化された Apache Spark 3.5 ランタイム環境を提供します。AWS Glue 5.0 を使えば、パフォーマンスの向上、セキュリティの強化、次世代の Amazon SageMaker のサポート、その他の機能強化が得られます。AWS Glue 5.0 により、