TECH PLAY

Apache Spark」に関連する技術ブログ

139 件中 1 - 15 件目
2025/10/7~9 に、アメリカのシアトルで開催された Airflow Summit というイベントに参加・登壇してきました。この記事では印象に残ったセッションを中心に、イベントの模様を共有します。 Airflow Summit とは オープンソースのワークフロー管理ソフトウェアとしては、おそらく最大級の知名度と導入実績を持つであろう Apache Airflow に関する、コミュニティ主催の年次イベントです。 2020年から毎年開催されており、前回 (2024年) は3日間で参加者650名、登壇者1
本記事の対象者 DataRobot上でデータ加工(結合、値置換、フィルタリング、列削除、特徴量生成など)がしたい方 Snowflake等の連携ではなく、ローカルのファイル(Excel/CSV)をアップロードして加工したい方 はじめに 本記事ではDataRobotというソリューションを使ってデータの加工を実施できる「ラングリング」機能を紹介します。 データ分析を進めるうえで、「分析可能なデータを用意する」ことに対して、手元でExcelやプログラム(Pythonなど)、加工に特化したソリューションを活用し成形
AWS の年次フラッグシップイベントである  AWS re:Invent 2025  は、 2025 年 12 月 1 日から 5 日にかけて開催され、5 日間にわたる基調講演、ブレイクアウトセッション、製品発表、ライブデモが行われました。本イベントでは、多数の 新しいサービスや機能 が発表されました。本振り返りでは、自動車および製造業にとって特に重要なハイライトとして、主要な発表内容、実際のお客様事例、注目のデモを取り上げます。内容は戦略的なワークロード領域ごとに整理されており、現在
AWS の年次フラッグシップイベントである  AWS re:Invent 2025  は、 2025 年 12 月 1 日から 5 日にかけて開催され、5 日間にわたる基調講演、ブレイクアウトセッション、製品発表、ライブデモが行われました。本イベントでは、多数の 新しいサービスや機能 が発表されました。本振り返りでは、自動車および製造業にとって特に重要なハイライトとして、主要な発表内容、実際のお客様事例、注目のデモを取り上げます。内容は戦略的なワークロード領域ごとに整理されており、現在
G-gen の佐々木です。当記事では、Google Cloud が提供する データサイエンスエージェント (Data Science Agent)について解説します。データサイエンスエージェントは、Colab Enterprise ノートブック上で、AI エージェントがデータクレンジングや分析などのタスクを自動的に行う機能です。 概要 データサイエンスエージェントとは 注意点 Google Colab のデータサイエンスエージェント 制限事項 料金 開始方法 IAM ロールの設定 Gemini in Co
はじめに 先月AWS(Amazon Web Services)でGlue 5.1がGAされました。私がAWS Glue(以下Glueと表記)に関わり始めてから3年経過しますが、初めてのマイナーバージョンアップです。今回のリリースではApache Spark 3.5.4 → Apache Spark 3.5.6のようなエンジンのバージョンアップもありましたが、個人的に最も大きなアップデートはApache Iceberg(以下Icebergと表記)のTable Spec Version 3のサポートが導入され
こんにちは。LINEヤフーの永吉です。今回は2025年の締めくくりとして開催した「LINEヤフー Developer Meetup #2 in Fukuoka」の様子を振り返ります。イベント概要12月...
この記事は「 ファインディエンジニア #1 Advent Calendar 2025 」の24日目の記事です。 沢山のアドベントカレンダー記事が執筆されていますので、年末のお供に是非読んでみてください。 adventar.org はじめに ソフトウェアエンジニアの 土屋(@shunsock) です。私の所属するデータソリューションチームでは、ファインディ全体のデータ活用を推進するためのデータ基盤を構築しています。 今回、我々はデータ基盤のRDSとBigQueryのテーブル同期システム (EL Pipeli
2025 年 12 月 2 日、 Amazon S3 Tables の 2 つの新機能を発表しました。1 つは、アクセスパターンに基づいてコストを自動的に最適化する新しい Intelligent-Tiering ストレージクラスのサポート、もう 1 つは、手動同期なしで AWS リージョン や アカウント 間で一貫性のある Apache Iceberg テーブルレプリカを自動的に維持するレプリケーションサポートです。 表形式のデータを扱う組織は、2 つの共通の課題に直面しています。まず、データセットが増大
本記事は 2024 年 12 月 4 日 に公開された「 Use open table format libraries on AWS Glue 5.0 for Apache Spark 」を翻訳したものです。 オープンテーブルフォーマットは、急速に進化するビッグデータ管理の領域で台頭しており、データストレージと分析の状況を根本的に変えています。Apache Iceberg、Apache Hudi、Delta Lake に代表されるこれらのフォーマットは、柔軟性、パフォーマンス、ガバナンス機能の高度な組み
本記事は 2025 年 12 月 9 日 に公開された「 Introducing Apache Iceberg materialized views in AWS Glue Data Catalog 」を翻訳したものです。 数十万のお客様が AWS 上で人工知能と機械学習 (AI/ML) およびアナリティクスアプリケーションを構築しており、クエリパフォーマンスを向上させるために、生データから処理済みデータセット、最終的な分析テーブルまで、複数のステージを経てデータを変換しています。データエンジニアは、ベー
こんにちは、AIチームの干飯( @hosimesi11_ )です。 この記事は AI Shift Advent Calendar 17日目の記事になります。今回は、ナレッジDBとして使用して2種類のS3バケットを使用し、高コスパなチャットシステムを作成しました。本記事で扱ったコードは こちら で公開しています。 はじめに 生成AIのプロダクトへの組み込みが増えるにつれて、検索システムの重要性も高まっています。さまざまなマネージドなナレッジDBが増え、ユーザーがインフラを意識せずに運用できるようにもなってき
はじめに こんにちは。AWS Analytics Specialist ソリューションアーキテクトの深見 です。 データベースの変更をリアルタイムに分析基盤へ反映したいというニーズに高まりを感じています。実際に多くのお客様から相談をいただいております。またデータベースの差分をもとに連携することが望まれる場面も多くあります。そういう場合の選択肢の一つが CDC(Change Data Capture)と呼ばれる MySQL の binlogなどの変更履歴をもとにデータを連携する手法になります。しかし、CDC
2025 年 12 月 2 日、 Amazon CloudWatch の機能を拡張して、運用、セキュリティ、コンプライアンスのさまざまなユースケースでログデータを統合して管理し、柔軟で強力な分析を 1 か所で行い、データの重複とコストを削減しました。 今回の機能強化により、CloudWatch は、 Open Cybersecurity Schema Framework (OCSF) および Open Telemetry (OTel) 形式の組み込みサポートにより、ソース間の一貫性が保たれるようにデータを
みなさん、こんにちは。AWS ソリューションアーキテクトの木村です。 週末は千葉県のキャンプ場で綺麗な夜空を見て気分をリフレッシュし、きたる re:Invent 2025 に備えていました。 そう、今週はついに re:Invent 2025 ですね!どんな発表があるのか私自身もとても楽しみです! 毎年おなじみAWS Japanから提供する re:invent 速報を今年も開催いたします。ぜひ こちらのページ より事前登録をお願いいたします。 先日 2つの新しいプランを追加した「 AWS ジャパン生成 AI