「Apache Spark」に関連する技術ブログ

オープンソースの Apache Spark から AWS Glue Iceberg Rest Catalog を使って S3 Iceberg テーブルを読み書きする

2024/12/31

今日のデータ主導の世界では、企業はデータレイクやウェアハウスにまたがる膨大な量の情報を処理および分析する効率的な方法を常に模索しています。 Amazon SageMaker Lakehouse を使用すると、 Amazon Simple Storage Service ( Amazon S3 ) 上のデータレイクと Amazon Redshift データウェアハウスにまたがるすべてのデータを統合することができ、強力なアナリティクスと AI / ML アプリ

AWS, Python, Apache Spark, データ分析, 人工知能, ビッグデータ, HealthTech, OSS, データベース, 設計

Iceberg Table for BigQuery の Iceberg Table の中身を見て触れて実感を持ちたかった

2024/12/23

ブックマーク

はじめに Iceberg とは？ Iceberg Table for BigQuery Iceberg Table を作る用意するものテーブル作成データを入れる Time Travelできないし、なんだかメタデータがめっちゃ少ない！！！次へはじめに当記事を開いていただきありがとうございます。電通総研エンジニアリングオフィスの徳山です。この記事は、テーブルフォーマットの Iceberg についての初歩的な内容を説明します

AWS, Google Cloud, Hadoop, Apache Spark, キャリア, Google BigQuery, データ分析, データベース, Snowflake

AWS Weekly Roundup: Amazon EC2 F2 インスタンス、Amazon Bedrock Guardrails の値下げ、Amazon SES アップデートなど (2024 年 12 月 16 日)

2024/12/18

ブックマーク

AWS re:Invent の次の週は、イベントの興奮とエネルギーがさらに高まります。これは、詳細について学び、最新の発表が課題の解決にどのように役立つかを理解する良い機会です。いつものように、 AWS re:Invent 2024 の注目の発表の記事をご用意しました。 AWS イベントの YouTube チャンネルで、基調講演やセッションを視聴できるようになりました。今年、Amazon の President 兼 CE

Android, AWS, iOS, Oracle, Apache Spark, セキュリティ, SQLServer, データベース, SAP, 設計

第 2 世代 FPGA 搭載の Amazon EC2 インスタンス (F2) が使用可能に

2024/12/18

ブックマーク

最大 8 個の AMD FPGA、最大 192 コアの AMD EPYC (Milan) プロセッサ、高帯域幅メモリ (HBM)、最大 8 TiB の SSD ベースのインスタンスストレージ、最大 2 TiB のメモリを搭載した F2 インスタンスは、2 つのサイズからお選びいただけます。このインスタンスを使用すると、ゲノミクス、マルチメディア処理、ビッグデータ、衛星通信、ネットワーキング、シリコンシミュレーション、

AWS, Apache Spark, アジャイル, Linux, SQL, ビッグデータ, インフラ, ネットワーク, テスト, FPGA

Amazon S3 バケットについてのクエリ可能なオブジェクトメタデータのご紹介 (プレビュー)

2024/12/11

ブックマーク

AWS のお客様は、 Amazon Simple Storage Service (Amazon S3) を信じられないほどの規模で利用し、数十億または数兆のオブジェクトを含む個別のバケットを定期的に作成しています。その規模では、特定の基準を満たすオブジェクト (パターンに一致するキーを持つオブジェクト、特定のサイズのオブジェクト、特定のタグを持つオブジェクトなど) を見つけることは困難です。お客

AWS, Apache Spark, 人工知能, テスト, API, OSS

Amazon S3 の新しいテーブル: 分析ワークロードのために最適化されたストレージ

2024/12/11

ブックマーク

Amazon S3 テーブルは、日々の購入取引、ストリーミングセンサーデータ、Apache Iceberg 形式の広告インプレッションなどの表形式データのために最適化されたストレージを提供します。これを使用することで、 Amazon Athena 、 Amazon EMR 、 Apache Spark などの一般的なクエリエンジンを使用して簡単にクエリを実行できます。セルフマネージドテーブルストレージと比較すると、ク

AWS, Scala, Apache Spark, セキュリティ, テスト

Amazon S3 Tablesを使ってクエリを実行してみた

2024/12/09

ブックマーク

AWS re:Invent 2024から帰国した小菅です。 2024年12月02日～06日でラスベガスで開催されたAWS re:invent 2024に参加してまいりました。 Keynoteでのアップデート、数多くのブレイクアウトセッションがある中で今回は、Keynoteで紹介がありましたAmazon S3 Tablesを実際にクエリを実行してみるところまで実施してみました。 Amazon S3 Tablesとは検証 1. テーブルバケット作成 2. Amazon EMR クラス

AWS, Apache Spark

Amazon S3 Tables と Rust で戯れる

2024/12/07

ブックマーク

この記事は株式会社LabBase テックカレンダー Advent Calendar 2024 7日目の記事です。ありがたいことに Advent Calendar の時期には AWS re:Invent があります。 AWS re:Invent で発表されたサービスを触れば記事が書けるのです。ありがたいですねぇ。正月は笑っている方が絶対いいですからね。今回は新しく発表された Amazon S3 Tables を触ります。 https://aws.amazon.com/jp/blogs/aws/new-amazon-s3-table

AWS, Apache Spark, SQL, Apache, Rust

Testcontainersを利用したApache Kyuubiのユニットテスト環境構築

2024/12/02

ブックマーク

LINEヤフー Advent Calendar 2024の参加記事です。こんにちは。LINEヤフー株式会社ビジネスPF開発本部で LINE DMP の開発を担当している yamaguchi です...

Hadoop, Java, Nginx, Apache Spark, プログラミング, SQL, ネットワーク, テスト, データベース, Serverless

週刊生成AI with AWS – 2024/11/18週

2024/11/25

ブックマーク

みなさん、こんにちは。AWS ソリューションアーキテクトの小林です。 11 月 15 日に、「生成AI Frontier Meet Up」というイベントを開催しました。このイベントは「AWSジャパン生成AI実用化推進プログラム」の一環として開催したもので、様々な課題を独自のモデル開発によって解決しようとするお客様、公開モデルを利用することで解決しようとするお客様の両方に登壇をい

AWS, JavaScript, Salesforce, Apache Spark, 機械学習, 人工知能, インフラ, データベース, Bot, 大規模言語モデル（LLM）

Amazon Data Firehose を使用して、データベースから Apache Iceberg テーブルに変更をレプリケート (プレビュー)

2024/11/21

ブックマーク

11 月 15 日、PostgreSQL や MySQL などのデータベースで行われた変更をキャプチャし、その更新を Amazon Simple Storage Service (Amazon S3) 上の Apache Iceberg テーブルにレプリケートする、 Amazon Data Firehose の新機能がプレビューで使用可能になったことをお知らせします。 Apache Iceberg は、ビッグデータ分析を実行するための高性能なオープンソーステーブル形式です。Apache Iceberg は、SQL

AWS, MySQL, PostgreSQL, Apache Spark, データ分析, ビッグデータ, テスト, OSS, データベース, Terraform

Associate Data Practitioner試験対策マニュアル

2024/11/12

ブックマーク

G-gen の杉村です。Google Cloud（旧称 GCP）の認定資格である Associate Data Practitioner 資格の試験対策に有用な情報を記載します。基本的な情報 Associate Data Practitioner とは難易度出題傾向試験対策 ETL と ELT ETL と ELT の基本オープンソースツールとフルマネージドサービス Cloud Data Fusion イベントドリブンアーキテクチャデータベースの選択 BigQuery BigQuery の基本 ELT と ETL 半構造

Google Cloud, MySQL, Python, Apache Spark, SQL, Google BigQuery, データ分析, テスト, 初心者, Looker

Dataplex のデータリネージ機能を BigQuery で試してみた

2024/11/01

ブックマーク

こんにちは、クラウドエース第三開発部の丸山です。本記事では、Google Cloud で提供されている Dataplex の機能の一部である「データリネージ」機能をご紹介します。データリネージとはデータリネージ (Data Lineage) とは、システム内のデータの移動を追跡するプロセスのことを指します。データの送信元、データの送信先、データに適用される変換など、データのライフ

Google Cloud, Apache Spark, SQL, Google BigQuery, API, OSS, Serverless

Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方

2024/10/24

ブックマーク

Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合の一般提供(GA)を発表できることをうれしく思います。これにより、DynamoDB 上の本番ワークロードへの影響をほとんどまたはまったく与えることなく、Amazon Redshift で DynamoDB データに対して高パフォーマンスな分析を実行できます。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため

AWS, Apache Spark, 機械学習, SQL, データ分析, ゲーム, API, データベース, Serverless, アーキテクチャ

Amazon Athena のパフォーマンスチューニング Tips トップ 10

2024/10/11

ブックマーク

2024 年 2 月に更新された原文を日本語版として 9 月に反映しました：この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納された

AWS, Hadoop, Apache Spark, キャリア, SQL, データ分析, ビッグデータ, インフラ, ネットワーク, 電子工作

オープンソースの Apache Spark から AWS Glue Iceberg Rest Catalog を使って S3 Iceberg テーブルを読み書きする

Iceberg Table for BigQuery の Iceberg Table の中身を見て触れて実感を持ちたかった

AWS Weekly Roundup: Amazon EC2 F2 インスタンス、Amazon Bedrock Guardrails の値下げ、Amazon SES アップデートなど (2024 年 12 月 16 日)

第 2 世代 FPGA 搭載の Amazon EC2 インスタンス (F2) が使用可能に

Amazon S3 バケットについてのクエリ可能なオブジェクトメタデータのご紹介 (プレビュー)

Amazon S3 の新しいテーブル: 分析ワークロードのために最適化されたストレージ

Amazon S3 Tablesを使ってクエリを実行してみた

Amazon S3 Tables と Rust で戯れる

Testcontainersを利用したApache Kyuubiのユニットテスト環境構築

週刊生成AI with AWS – 2024/11/18週

Amazon Data Firehose を使用して、データベースから Apache Iceberg テーブルに変更をレプリケート (プレビュー)

Associate Data Practitioner試験対策マニュアル

Dataplex のデータリネージ機能を BigQuery で試してみた

Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方

Amazon Athena のパフォーマンスチューニング Tips トップ 10

アクセス数ランキング

地味に嬉しい！Geminiを使ってGoogleドキュメントを瞬間的に要約する機能

「人を活かすAI」が明日の医療を切り拓く。カケハシの生成AI研究開発チームが描くビジョン

ソートアルゴリズムの基礎を深める

技術ブログに書けることがないわけない！

「なんでできないの？」と感じたときに、そっと読みたい話

タグから技術ブログをさがす

ソフトウェア開発

プログラミング

領域

TECH PLAY でイベントをはじめよう

エラータイトル