TECH PLAY

Hadoop」に関連する技術ブログ

53 件中 1 - 15 件目
はじめに こんにちは! Amazon S3 Tables を利用して、データレイクを構築する機会がありました。 最初は、「S3 + Parquet(Hive 形式)」を検討していましたが、特定のレコードを上書きしたいと思った時に、うまく実装することができませんでした。 S3 Tables を利用すると、特定のデータの更新・削除が可能であることから、S3 Tables を採用することにしました。 S3 Tables(Iceberg 形式) は、S3 + Parquet(Hive 形式) に比べて以下のような
本投稿は、 Caius Brindescu と Mahesh Kansara による記事 「 Real-time Iceberg ingestion with AWS DMS 」を翻訳したものです。 これは、AWS とのパートナーシップに基づいた、Etleap の主任エンジニアである Caius Brindescu によるゲスト投稿です。 タイムリーな意思決定には、低レイテンシーで最新のデータにアクセスすることが不可欠です。しかし、多くのチームにとって、データレイクへのレイテンシーを削減することは、更新の
こんにちは、人材プラットフォーム本部CTO室の奥澤です。2025年9月、株式会社メドレーに入社して人材プラットフォーム本部へ配属されました。メドレーの人材プラットフォーム本部では既に複数のモバイルアプリを開発していますが、モバイルアプリ開発をさらに加速させていくためにジョインしました。 さて、9月に入って8月ほどの暑さはなくなり、夏の終わりを感じています。そして例年、自分にとって暑い夏の終わりと秋の始まりを告げるイベントである、DroidKaigiに今年も参加してきました!DroidKaigiは、日本国内
サーバーワークスの村上です。 今回はAmazon S3上にあるデータを外部テーブルとして分析する際、どのような方法があるか、主にHiveとApache Icebergを中心に比べてみました。 想定シーン パターン一覧 結論:Hive形式 とApache Iceberg形式の比較 扱うJSONデータ 想定オペレーション 参考比較:Amazon S3内のJSONを直接クエリ(非推奨) パターン①:S3にParquet保存 + Hive形式テーブル AWS Glue Data Catalog のテーブル作成 A
毎週月曜日に、先週注目されたベストリリースとブログについてお伝えします。 この AWS Weekly Roundup を続ける前に、6 月、私は家族と一緒にカリフォルニア州サンフランシスコに引っ越し、Developer Advocate/SDE, GenAI としての新しい役割を始めたことをお伝えしたいと思います。 私はこれにワクワクしています。エキサイティングな新しい課題に取り組みながら、ベイエリアの新しいコミュニティとつながる機会があるからです。あなたが生成 AI とエージェンティックアプリケーション
はじめに本ブログシリーズでは、Yahoo!ショッピングのデータ分析基盤を最適化するために取り組んだ大規模プロジェクト――Apache HiveからTrinoとApache Sparkへの移行――につい...
はじめに データエンジニアをやっておりますTaichiです。 最近Apache Icebergという単語をよく耳にするようになりました。 Icebergの処理エンジンといえば Apache Spark Apache Flink Trino などでしょうか。このラインナップ、構築/運用するのは結構ハードなものが多いと思いませんか? 例えば、私のプロジェクトではSparkを使った構成でデータ処理を実施していますが、以下のような具体的な課題に直面しました。 Apache Hadoopのクラスタ構築作業や、Spa
こんにちは。Drawer Growth グループの江良です。 キャディが「製造業 AI データプラットフォーム」の構想を打ち出してから半年ほどが経ちました。 caddi.com このコンセプトの実現にあたっては、「AI」の部分だけでなく、「データ」の部分を支える仕組みづくりも重要になってきます。今回は、私が携わっているプロジェクトで導入した Apache Iceberg とその使いどころについて紹介したいと思います。 製造業におけるデータ活用の難しさ 本題に入る前に、まずは背景について少し補足します。 (
みなさん、こんにちは。ソリューションアーキテクトの西村です。 今週も 週刊AWS をお届けします。 AWS はSecurity を最優先事項と考えており、Security に特化したグローバルイベント AWS re:Inforce を毎年開催しております。少し先の日程ではありますが、今年も 6 月 16 日 から 18 日 にフィラデルフィア (米国ペンシルベニア州) で実施される予定です。詳細は ブログ でもご確認いただけます。「セキュリティ」にどっぷり浸かれる3日間ですので、ぜひ参加のご検討と、早め渡
はじめに こんにちは、クラウドエース 第三開発部の松本です。 普段はデータ基盤や機械学習システムを構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しています。 今回は、Professional Data Engineer 完全攻略ガイドのデータ取り込み編として、データエンジニアリング基礎編に続き、データ取り込みプロダクトを中心に試験対策の内容をご紹介します! 尚、前回のデータエンジニアリング基礎編をまだ見ていない方は、以下をぜひご覧ください。 https://zenn.dev/
AIとビッグデータの正の連鎖。事例やビジネス成長のポイントも解説 2025.1.20 株式会社Laboro.AI リードマーケター 熊谷勇一 執行役員 マーケティング部長 和田崇 概 要 ビッグデータの活用は、現在AIがこれほど進展する前から言われてきましたが、そのAIの進展にはビッグデータが欠かせません。AIが学習するデータも、解析の対象にするデータも、ビッグデータであることが多いからです。本コラムでは、AIとビッグデータの正の連鎖にある関係を再確認し、AIをより深く理解して活用するためのポイントを解説
はじめに みなさん、こんにちは! Actapio, inc.(LINEヤフー株式会社の100%子会社)の立見です。 今回から始まるこの連載では、AIインフラストラクチャについて、じっくりと掘り下げてい...
はじめに Iceberg とは? Iceberg Table for BigQuery Iceberg Table を作る 用意するもの テーブル作成 データを入れる Time Travelできないし、なんだかメタデータがめっちゃ少ない!!! 次へ はじめに 当記事を開いていただきありがとうございます。 電通 総研 エンジニアリングオフィスの徳山です。 この記事は、テーブルフォーマットの Iceberg についての初歩的な内容を説明します。 BigQuery で Iceberg 形式のデータを作成し、実体
こんにちは。NTTコミュニケーションズでエバンジェリストをやっている西塚です。今日が10年目の結婚記念日です。 この記事は、 NTT Communications Advent Calendar 2024 6日目の記事です。 情報通信白書 によると、デジタルデータの活用が企業経営に対して効果があると複数の先行研究で明らかにされています。 ビッグデータを活用している企業はそうでない企業に比べて、イノベーションの創出が統計学的に有意な差で多いと言われています。 私自身もNTTコミュニケーションズにおいて全社デ
LINEヤフー Advent Calendar 2024の参加記事です。 こんにちは。LINEヤフー株式会社ビジネスPF開発本部で LINE DMP の開発を担当している yamaguchi です...