「Apache Spark」に関連する技術ブログ
企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。
全79件中 1 - 15件目
AWS Weekly Roundup: Amazon EC2 F2 インスタンス、Amazon Bedrock Guardrails の値下げ、Amazon SES アップデートなど (2024 年 12 月 16 日)
2024/12/18
ブックマーク
AWS re:Invent の次の週は、イベントの興奮とエネルギーがさらに高まります。これは、詳細について学び、最新の発表が課題の解決にどのように役立つかを理解する良い機会です。いつものように、 AWS re:Invent 2024 の注目の発表の記事 をご用意しました。 AWS イベントの YouTube チャンネル で、基調講演やセッションを視聴できるようになりました。今年、Amazon の President 兼 CE
第 2 世代 FPGA 搭載の Amazon EC2 インスタンス (F2) が使用可能に
2024/12/18
ブックマーク
最大 8 個の AMD FPGA、最大 192 コアの AMD EPYC (Milan) プロセッサ、高帯域幅メモリ (HBM)、最大 8 TiB の SSD ベースのインスタンスストレージ、最大 2 TiB のメモリを搭載した F2 インスタンスは、2 つのサイズからお選びいただけます。このインスタンスを使用すると、ゲノミクス、マルチメディア処理、ビッグデータ、衛星通信、ネットワーキング、シリコンシミュレーション、
Amazon S3 バケットについてのクエリ可能なオブジェクトメタデータのご紹介 (プレビュー)
2024/12/11
ブックマーク
AWS のお客様は、 Amazon Simple Storage Service (Amazon S3) を信じられないほどの規模で利用し、数十億または数兆のオブジェクトを含む個別のバケットを定期的に作成しています。 その規模では、特定の基準を満たすオブジェクト (パターンに一致するキーを持つオブジェクト、特定のサイズのオブジェクト、特定のタグを持つオブジェクトなど) を見つけることは困難です。お客
Amazon S3 の新しいテーブル: 分析ワークロードのために最適化されたストレージ
2024/12/11
ブックマーク
Amazon S3 テーブル は、日々の購入取引、ストリーミングセンサーデータ、Apache Iceberg 形式の広告インプレッションなどの表形式データのために最適化されたストレージを提供します。これを使用することで、 Amazon Athena 、 Amazon EMR 、 Apache Spark などの一般的なクエリエンジンを使用して簡単にクエリを実行できます。セルフマネージドテーブルストレージと比較すると、ク
Amazon S3 Tablesを使ってクエリを実行してみた
2024/12/09
ブックマーク
AWS re:Invent 2024から帰国した小菅です。 2024年12月02日~06日でラスベガスで開催されたAWS re:invent 2024に参加してまいりました。 Keynoteでのアップデート、数多くのブレイクアウトセッションがある中で 今回は、Keynoteで紹介がありましたAmazon S3 Tablesを実際にクエリを実行してみるところまで実施してみました。 Amazon S3 Tablesとは 検証 1. テーブルバケット作成 2. Amazon EMR クラス
Amazon S3 Tables と Rust で戯れる
2024/12/07
ブックマーク
この記事は株式会社LabBase テックカレンダー Advent Calendar 2024 7日目の記事です。 ありがたいことに Advent Calendar の時期には AWS re:Invent があります。 AWS re:Invent で発表されたサービスを触れば記事が書けるのです。 ありがたいですねぇ。正月は笑っている方が絶対いいですからね。 今回は新しく発表された Amazon S3 Tables を触ります。 https://aws.amazon.com/jp/blogs/aws/new-amazon-s3-table
Testcontainersを利用したApache Kyuubiのユニットテスト環境構築
2024/12/02
ブックマーク
LINEヤフー Advent Calendar 2024の参加記事です。 こんにちは。LINEヤフー株式会社ビジネスPF開発本部で LINE DMP の開発を担当している yamaguchi です...
週刊生成AI with AWS – 2024/11/18週
2024/11/25
ブックマーク
みなさん、こんにちは。AWS ソリューションアーキテクトの小林です。 11 月 15 日に、「生成AI Frontier Meet Up」というイベントを開催しました。このイベントは「AWSジャパン生成AI実用化推進プログラム」の一環として開催したもので、様々な課題を独自のモデル開発によって解決しようとするお客様、公開モデルを利用することで解決しようとするお客様の両方に登壇をい
Amazon Data Firehose を使用して、データベースから Apache Iceberg テーブルに変更をレプリケート (プレビュー)
2024/11/21
ブックマーク
11 月 15 日、PostgreSQL や MySQL などのデータベースで行われた変更をキャプチャし、その更新を Amazon Simple Storage Service (Amazon S3) 上の Apache Iceberg テーブルにレプリケートする、 Amazon Data Firehose の新機能がプレビューで使用可能になったことをお知らせします。 Apache Iceberg は、ビッグデータ分析を実行するための高性能なオープンソーステーブル形式です。Apache Iceberg は、SQL
Associate Data Practitioner試験対策マニュアル
2024/11/12
ブックマーク
G-genの杉村です。Google Cloud(旧称 GCP)の認定資格である Associate Data Practitioner 資格の試験対策に有用な情報を記載します。 基本的な情報 Associate Data Practitioner とは 難易度 出題傾向 試験対策 ETL と ELT ETL と ELT の基本 オープンソースツールとフルマネージドサービス Cloud Data Fusion イベントドリブンアーキテクチャ データベースの選択 BigQuery BigQuery の基本 ELT と ETL 半構造化
Dataplex の データリネージ機能を BigQuery で試してみた
2024/11/01
ブックマーク
こんにちは、クラウドエース第三開発部の丸山です。 本記事では、Google Cloud で提供されている Dataplex の機能の一部である 「データリネージ」機能をご紹介します。 データリネージとは データリネージ (Data Lineage) とは、システム内のデータの移動を追跡するプロセスのことを指します。 データの送信元、データの送信先、データに適用される変換など、データのライフ
Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方
2024/10/24
ブックマーク
Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合の一般提供(GA)を発表できることをうれしく思います。これにより、DynamoDB 上の本番ワークロードへの影響をほとんどまたはまったく与えることなく、Amazon Redshift で DynamoDB データに対して高パフォーマンスな分析を実行できます。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため
Amazon Athena のパフォーマンスチューニング Tips トップ 10
2024/10/11
ブックマーク
2024 年 2 月に 更新された原文を日本語版として 9 月に反映しました: この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納された
週刊AWS – 2024/9/30週
2024/10/07
ブックマーク
みなさん、こんにちは。ソリューションアーキテクトの杉山です。今週も 週刊AWS をお届けします。 10 月 31 日 (木) 14:00-18:00 に、 AWS AI Day を開催します。物理的に来場する点に加えて、ライブ配信での視聴が事前登録できるようになりました。現地では、QuizKnock が審査員を行う AI ハッカソン決勝戦、展示ブース、スピーカーと会話ができる Ask a Speaker の場があるため、可
提供開始: Graviton4 を搭載したメモリで最適化された Amazon EC2 X8g インスタンス
2024/10/07
ブックマーク
Graviton 4 を搭載し、メモリを最適化した X8g インスタンスは、現在、最大 3 TiB の DDR5 メモリと最大 192 個の vCPU を備えた、10 の仮想サイズと 2 つのベアメタルサイズで利用できるようになりました。X8g インスタンスは、これまでで最もエネルギー効率が良く、これまでで同等の EC2 Graviton インスタンスの中で最高の料金パフォーマンスとスケールアップ機能を備えています