「Apache Spark」に関連する技術ブログ

全 139 件中 1 - 15 件目

2026年01月29日

Airflow Summit 2025 参加レポート：Airflow 3.0 の進化と注目セッションまとめ

2025/10/7～9 に、アメリカのシアトルで開催された Airflow Summit というイベントに参加・登壇してきました。この記事では印象に残ったセッションを中心に、イベントの模様を共有します。 Airflow Summit とはオープンソースのワークフロー管理ソフトウェアとしては、おそらく最大級の知名度と導入実績を持つであろう Apache Airflow に関する、コミュニティ主催の年次イベントです。 2020年から毎年開催されており、前回 (2024年) は3日間で参加者650名、登壇者1

AWS, Hadoop, Java, Python, Apache Spark, SQL, SaaS, ビッグデータ, テスト, OSS

NTTデータ

2026年01月29日

【DataRobotでExcel/CSVデータ加工】ラングリング機能紹介

本記事の対象者 DataRobot上でデータ加工（結合、値置換、フィルタリング、列削除、特徴量生成など）がしたい方 Snowflake等の連携ではなく、ローカルのファイル(Excel/CSV)をアップロードして加工したい方はじめに本記事ではDataRobotというソリューションを使ってデータの加工を実施できる「ラングリング」機能を紹介します。データ分析を進めるうえで、「分析可能なデータを用意する」ことに対して、手元でExcelやプログラム(Pythonなど)、加工に特化したソリューションを活用し成形

Python, Salesforce, Apache Spark, SQL, Tableau, データ分析, 人工知能, ビッグデータ, プロジェクトマネジメント, Snowflake

NTTデータ

2026年01月25日

自動車および製造業界むけ AWS re:Invent 2025 のダイジェスト

AWS の年次フラッグシップイベントである  AWS re:Invent 2025  は、 2025 年 12 月 1 日から 5 日にかけて開催され、5 日間にわたる基調講演、ブレイクアウトセッション、製品発表、ライブデモが行われました。本イベントでは、多数の新しいサービスや機能が発表されました。本振り返りでは、自動車および製造業にとって特に重要なハイライトとして、主要な発表内容、実際のお客様事例、注目のデモを取り上げます。内容は戦略的なワークロード領域ごとに整理されており、現在

AWS, Apache Spark, 人工知能, インフラ, テスト, データベース, ロボット, SAP, CS, 設計

AWS

2026年01月25日

自動車および製造業界むけ AWS re:Invent 2025 のダイジェスト

AWS, Apache Spark, 人工知能, インフラ, テスト, データベース, ロボット, SAP, CS, 設計

AWS

2026年01月19日

Google Cloudのデータサイエンスエージェントを解説

G-gen の佐々木です。当記事では、Google Cloud が提供するデータサイエンスエージェント（Data Science Agent）について解説します。データサイエンスエージェントは、Colab Enterprise ノートブック上で、AI エージェントがデータクレンジングや分析などのタスクを自動的に行う機能です。概要データサイエンスエージェントとは注意点 Google Colab のデータサイエンスエージェント制限事項料金開始方法 IAM ロールの設定 Gemini in Co

Google Cloud, Apache Spark, アルゴリズム, 機械学習, Google BigQuery, データ分析, Google Colab, データサイエンス

株式会社G-gen

2026年01月14日

AWS Glue 5.1でIceberg Table Spec 3を試してみる

はじめに先月AWS（Amazon Web Services）でGlue 5.1がGAされました。私がAWS Glue（以下Glueと表記）に関わり始めてから３年経過しますが、初めてのマイナーバージョンアップです。今回のリリースではApache Spark 3.5.4 → Apache Spark 3.5.6のようなエンジンのバージョンアップもありましたが、個人的に最も大きなアップデートはApache Iceberg（以下Icebergと表記）のTable Spec Version 3のサポートが導入され

AWS, Apache Spark, SQL, OSS, データベース

NTTデータ

2025年12月24日

「LINEヤフー Developer Meetup #2 in Fukuoka」を開催しました！（イベントレポート）

こんにちは。LINEヤフーの永吉です。今回は2025年の締めくくりとして開催した「LINEヤフー Developer Meetup #2 in Fukuoka」の様子を振り返ります。イベント概要12月...

Android, Elasticsearch, Java, Jenkins, Kotlin, MongoDB, MySQL, Python, Apache Spark, ChatGPT

LINEヤフー Tech

2025年12月24日

DuckDB as a Pipeline: Findyデータ基盤におけるDuckDBの活用事例

この記事は「ファインディエンジニア #1 Advent Calendar 2025 」の24日目の記事です。沢山のアドベントカレンダー記事が執筆されていますので、年末のお供に是非読んでみてください。 adventar.org はじめにソフトウェアエンジニアの土屋(@shunsock) です。私の所属するデータソリューションチームでは、ファインディ全体のデータ活用を推進するためのデータ基盤を構築しています。今回、我々はデータ基盤のRDSとBigQueryのテーブル同期システム (EL Pipeli

AWS, GitHub, Google Cloud, Apache Spark, Google BigQuery, Embulk, フロントエンド, テスト, OSS, UIデザイン

Findy/ファインディ

2025年12月22日

Amazon S3 Tables のレプリケーションサポートと Intelligent-Tiering の発表

2025 年 12 月 2 日、 Amazon S3 Tables の 2 つの新機能を発表しました。1 つは、アクセスパターンに基づいてコストを自動的に最適化する新しい Intelligent-Tiering ストレージクラスのサポート、もう 1 つは、手動同期なしで AWS リージョンやアカウント間で一貫性のある Apache Iceberg テーブルレプリカを自動的に維持するレプリケーションサポートです。表形式のデータを扱う組織は、2 つの共通の課題に直面しています。まず、データセットが増大

AWS, Apache Spark, Apache, API, データベース, アーキテクチャ

AWS

2025年12月22日

AWS Glue 5.0 の Apache Spark におけるオープンテーブルフォーマット機能の活用

本記事は 2024 年 12 月 4 日に公開された「 Use open table format libraries on AWS Glue 5.0 for Apache Spark 」を翻訳したものです。オープンテーブルフォーマットは、急速に進化するビッグデータ管理の領域で台頭しており、データストレージと分析の状況を根本的に変えています。Apache Iceberg、Apache Hudi、Delta Lake に代表されるこれらのフォーマットは、柔軟性、パフォーマンス、ガバナンス機能の高度な組み

AWS, Apache Spark, ビッグデータ, OSS, 組み込み

AWS

2025年12月21日

AWS Glue Data Catalog での Apache Iceberg マテリアライズドビューのご紹介

本記事は 2025 年 12 月 9 日に公開された「 Introducing Apache Iceberg materialized views in AWS Glue Data Catalog 」を翻訳したものです。数十万のお客様が AWS 上で人工知能と機械学習 (AI/ML) およびアナリティクスアプリケーションを構築しており、クエリパフォーマンスを向上させるために、生データから処理済みデータセット、最終的な分析テーブルまで、複数のステージを経てデータを変換しています。データエンジニアは、ベー

AWS, Apache Spark, 機械学習, SQL, 人工知能, インフラ, OSS, 組み込み

AWS

2025年12月17日

2種類のS3バケットをナレッジDBとして活用する

こんにちは、AIチームの干飯( @hosimesi11_ )です。この記事は AI Shift Advent Calendar 17日目の記事になります。今回は、ナレッジDBとして使用して2種類のS3バケットを使用し、高コスパなチャットシステムを作成しました。本記事で扱ったコードはこちらで公開しています。はじめに生成AIのプロダクトへの組み込みが増えるにつれて、検索システムの重要性も高まっています。さまざまなマネージドなナレッジDBが増え、ユーザーがインフラを意識せずに運用できるようにもなってき

AWS, Apache Spark, 機械学習, SQL, 自然言語処理, インフラ, データベース, Bot, 組み込み

株式会社AI Shift（株式...

2025年12月16日

TROCCO の CDC 機能をつかった RDB と Apache Iceberg on AWS の連携

はじめにこんにちは。AWS Analytics Specialist ソリューションアーキテクトの深見です。データベースの変更をリアルタイムに分析基盤へ反映したいというニーズに高まりを感じています。実際に多くのお客様から相談をいただいております。またデータベースの差分をもとに連携することが望まれる場面も多くあります。そういう場合の選択肢の一つが CDC（Change Data Capture）と呼ばれる MySQL の binlogなどの変更履歴をもとにデータを連携する手法になります。しかし、CDC

AWS, MySQL, PostgreSQL, Apache Spark, データ分析, インフラ, ネットワーク, テスト, OSS, ノーコード/ローコード

AWS

2025年12月15日

Amazon CloudWatch は、運用、セキュリティ、コンプライアンスのための統合データ管理と分析を導入します

2025 年 12 月 2 日、 Amazon CloudWatch の機能を拡張して、運用、セキュリティ、コンプライアンスのさまざまなユースケースでログデータを統合して管理し、柔軟で強力な分析を 1 か所で行い、データの重複とコストを削減しました。今回の機能強化により、CloudWatch は、 Open Cybersecurity Schema Framework (OCSF) および Open Telemetry (OTel) 形式の組み込みサポートにより、ソース間の一貫性が保たれるようにデータを

AWS, GitHub, Apache Spark, セキュリティ, SQL, ネットワーク, 組み込み

AWS

2025年12月01日

週刊生成AI with AWS – 2025/11/24週

みなさん、こんにちは。AWS ソリューションアーキテクトの木村です。週末は千葉県のキャンプ場で綺麗な夜空を見て気分をリフレッシュし、きたる re:Invent 2025 に備えていました。そう、今週はついに re:Invent 2025 ですね！どんな発表があるのか私自身もとても楽しみです！毎年おなじみAWS Japanから提供する re:invent 速報を今年も開催いたします。ぜひこちらのページより事前登録をお願いいたします。先日 2つの新しいプランを追加した「 AWS ジャパン生成 AI