TECH PLAY

Apache Spark」に関連する技術ブログ

125 件中 46 - 60 件目
はじめに Iceberg とは? Iceberg Table for BigQuery Iceberg Table を作る 用意するもの テーブル作成 データを入れる Time Travelできないし、なんだかメタデータがめっちゃ少ない!!! 次へ はじめに 当記事を開いていただきありがとうございます。 電通 総研 エンジニアリングオフィスの徳山です。 この記事は、テーブルフォーマットの Iceberg についての初歩的な内容を説明します。 BigQuery で Iceberg 形式のデータを作成し、実体
AWS re:Invent の次の週は、イベントの興奮とエネルギーがさらに高まります。これは、詳細について学び、最新の発表が課題の解決にどのように役立つかを理解する良い機会です。いつものように、 AWS re:Invent 2024 の注目の発表の記事 をご用意しました。 AWS イベントの YouTube チャンネル で、基調講演やセッションを視聴できるようになりました。今年、Amazon の President 兼 CEO となった Andy Jassy は、 re:Invent に戻り、これらの動画
最大 8 個の AMD FPGA、最大 192 コアの AMD EPYC (Milan) プロセッサ、高帯域幅メモリ (HBM)、最大 8 TiB の SSD ベースのインスタンスストレージ、最大 2 TiB のメモリを搭載した F2 インスタンスは、2 つのサイズからお選びいただけます。このインスタンスを使用すると、ゲノミクス、マルチメディア処理、ビッグデータ、衛星通信、ネットワーキング、シリコンシミュレーション、ライブ動画ワークロードを加速できます。 FPGA の簡単なまとめ FPGA を搭載した第
AWS のお客様は、 Amazon Simple Storage Service (Amazon S3) を信じられないほどの規模で利用し、数十億または数兆のオブジェクトを含む個別のバケットを定期的に作成しています。 その規模では、特定の基準を満たすオブジェクト (パターンに一致するキーを持つオブジェクト、特定のサイズのオブジェクト、特定のタグを持つオブジェクトなど) を見つけることは困難です。お客様は、この情報を取得、保存、およびクエリするシステムを構築する必要がありました。これらのシステムは複雑で、か
Amazon S3 テーブル は、日々の購入取引、ストリーミングセンサーデータ、Apache Iceberg 形式の広告インプレッションなどの表形式データのために最適化されたストレージを提供します。これを使用することで、 Amazon Athena 、 Amazon EMR 、 Apache Spark などの一般的なクエリエンジンを使用して簡単にクエリを実行できます。セルフマネージドテーブルストレージと比較すると、クエリパフォーマンスが最大 3 倍高速になり、1 秒あたりのトランザクション数が最大 10
AWS re:Invent 2024から帰国した小菅です。 2024年12月02日~06日でラスベガスで開催されたAWS re:invent 2024に参加してまいりました。 Keynoteでのアップデート、数多くのブレイクアウトセッションがある中で 今回は、Keynoteで紹介がありましたAmazon S3 Tablesを実際にクエリを実行してみるところまで実施してみました。 Amazon S3 Tablesとは 検証 1. テーブルバケット作成 2. Amazon EMR クラスターを作成し、Spar
この記事は株式会社LabBase テックカレンダー Advent Calendar 2024 7日目の記事です。 ありがたいことに Advent Calendar の時期には AWS re:Invent があります。 AWS re:Invent で発表されたサービスを触れば記事が書けるのです。 ありがたいですねぇ。正月は笑っている方が絶対いいですからね。 今回は新しく発表された Amazon S3 Tables を触ります。 https://aws.amazon.com/jp/blogs/aws/new-
LINEヤフー Advent Calendar 2024の参加記事です。 こんにちは。LINEヤフー株式会社ビジネスPF開発本部で LINE DMP の開発を担当している yamaguchi です...
みなさん、こんにちは。AWS ソリューションアーキテクトの小林です。 11 月 15 日に、「生成AI Frontier Meet Up」というイベントを開催しました。このイベントは「AWSジャパン生成AI実用化推進プログラム」の一環として開催したもので、様々な課題を独自のモデル開発によって解決しようとするお客様、公開モデルを利用することで解決しようとするお客様の両方に登壇をいただき、取り組みの概要や現在のチャレンジについて共有をいただきました。また、このイベントには経済産業省が展開するGENIAC(Ge
11 月 15 日、PostgreSQL や MySQL などのデータベースで行われた変更をキャプチャし、その更新を Amazon Simple Storage Service (Amazon S3) 上の Apache Iceberg テーブルにレプリケートする、 Amazon Data Firehose の新機能がプレビューで使用可能になったことをお知らせします。 Apache Iceberg は、ビッグデータ分析を実行するための高性能なオープンソーステーブル形式です。Apache Iceberg は
G-gen の杉村です。Google Cloud(旧称 GCP)の認定資格である Associate Data Practitioner 資格の試験対策に有用な情報を記載します。 基本的な情報 Associate Data Practitioner とは 難易度 出題傾向 試験対策 ETL と ELT ETL と ELT の基本 オープンソースツールとフルマネージドサービス Cloud Data Fusion イベントドリブンアーキテクチャ データベースの選択 BigQuery BigQuery の基本
こんにちは、クラウドエース第三開発部の丸山です。 本記事では、Google Cloud で提供されている Dataplex の機能の一部である 「データリネージ」機能をご紹介します。 データリネージとは データリネージ (Data Lineage) とは、システム内のデータの移動を追跡するプロセスのことを指します。 データの送信元、データの送信先、データに適用される変換など、データのライフサイクル全体を可視化することで、データの信頼性向上やエラー分析を支援します。 「リネージ」は、日本語では「血統」「家柄
Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合の一般提供(GA)を発表できることをうれしく思います。これにより、DynamoDB 上の本番ワークロードへの影響をほとんどまたはまったく与えることなく、Amazon Redshift で DynamoDB データに対して高パフォーマンスな分析を実行できます。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため、複雑なデータパイプラインを構築およびメ
2024 年 2 月に 更新された原文を日本語版として 9 月に反映しました: この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納されたオープンテーブルおよびファイル形式のデータを簡単に分
みなさん、こんにちは。ソリューションアーキテクトの杉山です。今週も 週刊AWS をお届けします。 10 月 31 日 (木) 14:00-18:00 に、 AWS AI Day を開催します。物理的に来場する点に加えて、ライブ配信での視聴が事前登録できるようになりました。現地では、QuizKnock が審査員を行う AI ハッカソン決勝戦、展示ブース、スピーカーと会話ができる Ask a Speaker の場があるため、可能でしたら来場いただいたほうが良いですが、お時間の都合で難しい場合は、ライブ配信をご