「Apache Spark」に関連する技術ブログ

企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。

Docker コンテナを使って AWS Glue 5.0 のジョブをローカルで開発・テストする

AWS Glue は、さまざまなデータソースからのデータを大規模に処理・統合できるサーバーレスのデータ統合サービスです。Apache Spark ジョブ用の最新バージョンである AWS Glue 5.0 は、バッチ処理とストリーム処理に最適化された Apache Spark 3.5 ランタイム環境を提供します。AWS Glue 5.0 を使えば、パフォーマンスの向上、セキュリティの強化、次世代の Amazon SageMaker のサポート、

BigQueryの新発表を解説(Google Cloud Next '25速報)

G-gen の杉村です。当記事では、Google Cloud Next '25 で発表された BigQuery の新機能について紹介します。 概要 BigQuery と AI の統合 全体像 BigQuery data preparation データセットレベルのインサイト(BigQuery データキャンバス) BigQuery pipelines にデータエンジニアリングエージェントが組み込み Colab Notebook にデータサイエンスエージェントが組み込み BigQuery AI query engine BigQuery DataFrames

氷山を穿つ - Apache Icebergに大量データを投入するTopic -

こんにちは、柴犬がかわいい。Tech本部の前多です。 先日、弊社でApache IcebergとTrinoによる活用事例についての記事を上げました。 caddi.tech 記事では、Icebergへのデータ投入について次の記述がありました。 ユーザがアップロードしたCSVファイルをパースしてIcebergに保存する 図面の解析結果を一定間隔のバッチで受け取りIcebergに保存する 実際のところ、ファイルからIceberg

NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第二回 パフォーマンス改善)

※ この記事はお客様に寄稿いただき AWS が加筆・修正したものとなっています。 本稿は株式会社 NTT ドコモ モバイル空間統計 における AWS Glue を活用したリアルタイムストリーミング処理の取り組みについてご紹介します。取り組みのご紹介は全二回となっており、第二回となる本編では Glue を新規採用する際の開発面での課題と Glue ストリーミングジョブのパフォーマ

NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第一回 コスト削減)

※ この記事はお客様に寄稿いただき、AWS が加筆・修正したものとなっています。 本稿は株式会社 NTT ドコモ モバイル空間統計 における AWS Glue を活用したリアルタイムストリーミング処理の取り組みについてご紹介します。取り組みのご紹介は全二回となっており、第一回の本編ではモバイル空間統計で Glue が採用された背景とストリーミング ETL アプリにおけるコスト

LINEヤフーのAIプラットフォームにおけるバッチスケジューリング戦略

こんにちは。LINEヤフーでAIプラットフォーム向けのKubernetesクラスタの設計や構築、運用を担当している大村です。 LINEヤフーでは、100を超えるサービス向けにAI/機械学習を活用したサ...

AWS Glue と SAP データで RISE 拡張

多くのお客様がSAP のソースデータと SAP 以外のソースデータを組み合わせて活用したいと考えています。このようなデータ分析のユースケースは、データウェアハウスやデータレイクを構築することで実現できます。お客様は AWS Glue の SAP OData コネクタを使用して、SAP からデータを抽出できます。SAP OData コネクタは、オンプレミス又はクラウド (ネイティブと SAP RISE) で

AWS Pi Day 2025: 分析と AI のためのデータ基盤

毎年 3 月 14 日 (3.14) に開催される AWS Pi Day では、データの管理と利用に役立つ AWS のイノベーションを重点的に取り上げます 。2021 年に Amazon Simple Storage Service (Amazon S3) のリリース 15 周年を記念して始まったこのイベントは、現在ではクラウドテクノロジーがデータ管理、分析、AI をどのように変革しているのかに重点を置くイベントに成長しました。 2025 年の AWS Pi Day は

Amazon S3 Tables と Amazon SageMaker Lakehouse の統合の一般提供を開始

re:Invent 2024 では、表形式データの保存を大規模に効率化する組み込みの Apache Iceberg サポートを備えた初のクラウドオブジェクトストアである Amazon S3 Tables と、オープンで安全な統合データレイクハウスで分析と AI を簡素化する Amazon SageMaker Lakehouse をリリースしました。また、 Amazon Athena 、 Amazon Data Firehose 、 Amazon EMR 、 AWS Glue 、 Amazon Redshift 、 Amazon QuickSight を利用して S3

キャディでの Apache Iceberg 活用事例

こんにちは。Drawer Growth グループの江良です。 キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについ

週刊AWS – 2025/3/10週

みなさん、こんにちは。ソリューションアーキテクトの西村です。 今週も 週刊AWS をお届けします。 AWS はSecurity を最優先事項と考えており、Security に特化したグローバルイベント AWS re:Inforce を毎年開催しております。少し先の日程ではありますが、今年も 6 月 16 日 から 18 日 にフィラデルフィア (米国ペンシルベニア州) で実施される予定です。詳細は ブログ でもご確

【Google Cloud】Associate Data Practitioner 受験前レポート

こんにちは。SCSKの山口です。 今回は、Google Cloud認定資格の受験レポート その①です。 はじめに 先日、Google CloudのAssociateレベルの認定資格として、下記二つの認定資格が追加されました。 ・ Associate Data Practitioner ・ Associate Google Workspace Administrator 全冠維持継続中の私にとっては見逃せないニュースでしたが、 Associate Google Workspace Administrator に関しては、前身となるProfessio

週刊AWS – 2025/2/17週

みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 関東は寒い風の強い日が続きますが体調いかがでしょうか?花粉の飛散量予報はまだ多くなさそうに見えるのですが、私は先週から花粉症に似た症状が出ており・・・暖かくなるのに戦々恐々しております。 さて、日本時間の今朝、AnthropicのClaude 3.7 Sonnetがリリースされ

Databricks Asset Bundlesを活用したAIプロダクトのCI/CDパイプライン

こんにちは。 開発本部のデータ&AIチームでデータサイエンティストをしている古濵です。 最近はAIプロダクト開発をメインで担当しています。 今回は、Databricks Asset Bundlesを活用して、AIプロダクト開発向けにCI/CDパイプラインを整備した内容をまとめます。 Databricks Asset Bundlesとは Databricks Asset Bundlesは、データやAIプロジェクトでソフトウェア開発におけるソース管理、

言語モデル活用によるショッピングレコメンドの改善

機械学習エンジニアの山口です。業務ではYahoo!ショッピング向けのレコメンドを開発しています。 近年はTransformer による自然言語処理(NLP)分野の発展が著しく、BERTによる文章埋め込...
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?

エラータイトル

エラー本文