TECH PLAY

Apache Spark」に関連する技術ブログ

155 件中 61 - 75 件目
毎年 3 月 14 日 (3.14) に開催される AWS Pi Day では、データの管理と利用に役立つ AWS のイノベーションを重点的に取り上げます 。2021 年に Amazon Simple Storage Service (Amazon S3) のリリース 15 周年を記念して始まったこのイベントは、現在ではクラウドテクノロジーがデータ管理、分析、AI をどのように変革しているのかに重点を置くイベントに成長しました。 2025 年の AWS Pi Day は、AWS 上の統合データ基盤を使用し
re:Invent 2024 では、表形式データの保存を大規模に効率化する組み込みの Apache Iceberg サポートを備えた初のクラウドオブジェクトストアである Amazon S3 Tables と、オープンで安全な統合データレイクハウスで分析と AI を簡素化する Amazon SageMaker Lakehouse をリリースしました。また、 Amazon Athena 、 Amazon Data Firehose 、 Amazon EMR 、 AWS Glue 、 Amazon Redshi
こんにちは。Drawer Growth グループの江良です。 キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについて紹介したいと思います。 製造業におけるデータ活用の難しさ 本題に入る前に、まずは背景について少し補足します。 (
みなさん、こんにちは。ソリューションアーキテクトの西村です。 今週も 週刊AWS をお届けします。 AWS はSecurity を最優先事項と考えており、Security に特化したグローバルイベント AWS re:Inforce を毎年開催しております。少し先の日程ではありますが、今年も 6 月 16 日 から 18 日 にフィラデルフィア (米国ペンシルベニア州) で実施される予定です。詳細は ブログ でもご確認いただけます。「セキュリティ」にどっぷり浸かれる3日間ですので、ぜひ参加のご検討と、早め渡
こんにちは。SCSKの山口です。 今回は、Google Cloud認定資格の受験レポート その①です。 はじめに 先日、Google CloudのAssociateレベルの認定資格として、下記二つの認定資格が追加されました。 ・ Associate Data Practitioner ・ Associate Google Workspace Administrator 全冠維持継続中の私にとっては見逃せないニュースでしたが、 Associate Google Workspace Administrator
みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 関東は寒い風の強い日が続きますが体調いかがでしょうか?花粉の飛散量予報はまだ多くなさそうに見えるのですが、私は先週から花粉症に似た症状が出ており・・・暖かくなるのに戦々恐々しております。 さて、日本時間の今朝、AnthropicのClaude 3.7 Sonnetがリリースされましたね。週刊AWSでも次週取り扱うと思いますがAmazon Bedrockでもサポートされているので、ぜひ試してみてください。 そ
こんにちは。 開発本部のデータ&AIチームでデータサイエンティストをしている古濵です。 最近はAIプロダクト開発をメインで担当しています。 今回は、Databricks Asset Bundlesを活用して、AIプロダクト開発向けにCI/CDパイプラインを整備した内容をまとめます。 Databricks Asset Bundlesとは Databricks Asset Bundlesは、データやAIプロジェクトでソフトウェア開発におけるソース管理、コードレビュー、テスト、CI/CDなどを導入しやす
機械学習エンジニアの山口です。業務ではYahoo!ショッピング向けのレコメンドを開発しています。 近年はTransformer による自然言語処理(NLP)分野の発展が著しく、BERTによる文章埋め込...
今日の データ主導の世界 では、企業は データレイク や ウェアハウス にまたがる 膨大な量の情報 を処理および分析する効率的な方法を常に模索しています。 Amazon SageMaker Lakehouse を使用すると、 Amazon Simple Storage Service ( Amazon S3 ) 上のデータレイクと Amazon Redshift データウェアハウスにまたがるすべてのデータを統合することができ、強力なアナリティクスと AI / ML アプリケーションを一元化されたデータで構
はじめに Iceberg とは? Iceberg Table for BigQuery Iceberg Table を作る 用意するもの テーブル作成 データを入れる Time Travelできないし、なんだかメタデータがめっちゃ少ない!!! 次へ はじめに 当記事を開いていただきありがとうございます。 電通 総研 エンジニアリングオフィスの徳山です。 この記事は、テーブルフォーマットの Iceberg についての初歩的な内容を説明します。 BigQuery で Iceberg 形式のデータを作成し、実体
AWS re:Invent の次の週は、イベントの興奮とエネルギーがさらに高まります。これは、詳細について学び、最新の発表が課題の解決にどのように役立つかを理解する良い機会です。いつものように、 AWS re:Invent 2024 の注目の発表の記事 をご用意しました。 AWS イベントの YouTube チャンネル で、基調講演やセッションを視聴できるようになりました。今年、Amazon の President 兼 CEO となった Andy Jassy は、 re:Invent に戻り、これらの動画
最大 8 個の AMD FPGA、最大 192 コアの AMD EPYC (Milan) プロセッサ、高帯域幅メモリ (HBM)、最大 8 TiB の SSD ベースのインスタンスストレージ、最大 2 TiB のメモリを搭載した F2 インスタンスは、2 つのサイズからお選びいただけます。このインスタンスを使用すると、ゲノミクス、マルチメディア処理、ビッグデータ、衛星通信、ネットワーキング、シリコンシミュレーション、ライブ動画ワークロードを加速できます。 FPGA の簡単なまとめ FPGA を搭載した第
AWS のお客様は、 Amazon Simple Storage Service (Amazon S3) を信じられないほどの規模で利用し、数十億または数兆のオブジェクトを含む個別のバケットを定期的に作成しています。 その規模では、特定の基準を満たすオブジェクト (パターンに一致するキーを持つオブジェクト、特定のサイズのオブジェクト、特定のタグを持つオブジェクトなど) を見つけることは困難です。お客様は、この情報を取得、保存、およびクエリするシステムを構築する必要がありました。これらのシステムは複雑で、か
Amazon S3 テーブル は、日々の購入取引、ストリーミングセンサーデータ、Apache Iceberg 形式の広告インプレッションなどの表形式データのために最適化されたストレージを提供します。これを使用することで、 Amazon Athena 、 Amazon EMR 、 Apache Spark などの一般的なクエリエンジンを使用して簡単にクエリを実行できます。セルフマネージドテーブルストレージと比較すると、クエリパフォーマンスが最大 3 倍高速になり、1 秒あたりのトランザクション数が最大 10
AWS re:Invent 2024から帰国した小菅です。 2024年12月02日~06日でラスベガスで開催されたAWS re:invent 2024に参加してまいりました。 Keynoteでのアップデート、数多くのブレイクアウトセッションがある中で 今回は、Keynoteで紹介がありましたAmazon S3 Tablesを実際にクエリを実行してみるところまで実施してみました。 Amazon S3 Tablesとは 検証 1. テーブルバケット作成 2. Amazon EMR クラスターを作成し、Spar