「Hadoop」に関連する技術ブログ

企業やコミュニティが発信する「Hadoop」に関連する技術ブログの一覧です。

Ray on Vertex AI 入門

はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析まで

Google Cloud Next'24 Day 3 Uber 事例紹介セッションレポート

こんにちは。バックエンドエンジニアリング部の吉崎です。 好きなハンバーガーは Gordon Ramsay Burger の 24 Hour Burger です。食べてないんですけどね。 そうです。Google Cloud Next'24 @ Las Vegas に参加してきました。 本記事では、Day 3 に行われた Uber の事例紹介のセッションを紹介します。 このセッションでは、Uber の事例を紹介するとともに、Google Cloud Storage(GCS) に関するアップ

JANOG53 登壇レポート「データセンターネットワークでの輻輳対策どうしてる?」

こんにちは。Site Operation本部の深澤と小林です。普段は同じチームのメンバーとしてデータセンターネットワークの運用などを担当しています。 2024年1月17日(水) ~ 19日(金) に開...

【初級編】 Amazon EMRとはなんぞや?(概要と他社SaaS比較)

こんにちは、近藤(りょう)です!社内で複数の近藤さんがいますので識別するために()付きにしています。 ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます~! EMRとは? Hadoop, Spark, Hive, Presto などの オープンソースフレームワークを使⽤した ペタバイトスケ

Google Cloud Next Tokyo ’23に参加してみた

本記事は TechHarmony Advent Calendar 12/2付の記事です。 こんにちは。SCSKの江木です。 Goolge Cloud Next Tokyo ’23に参加してきたので、イベントの内容と感想を投稿します。 Google Cloud Next Tokyo ’23とは? Google Cloud Next Tokyo ’23は2023年11月15日・16日に東京ビッグサイトで開催されたGoogle Cloudのカンファレンスイベントです。日本では4年ぶりの現地開催となりました。 本イベン

Google Cloud Next Tokyo ’23 の Innovators Hive で Ask the Expert を担当しました

こんにちは、クラウドエースの阿部です。 今回の記事では、 2023年11月15日~16日に開催された Google Cloud Next Tokyo ’23 で対応した Ask the Expert の感想を書いていきたいと思います。 前置き (TL;DR) 参加したイベントや用語についてざっと説明します。 Google Cloud Next Tokyo ’23 について Google Cloud Next は Google Cloud のグローバルカンファレンスであり、 Google Cloud に関する最新技術

BigLake メタデータ キャッシュ対応テーブルに対してのマテリアライズド ビュー作成が GA になりました

はじめに こんにちは、クラウドエース データ ML ディビジョン所属の仲佐です。 クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。 データ ML ディビジョンでは活動の一環として、毎週 Google Cloud の新規リリースを調

AWS Storage Day 2023 にようこそ

第 5 回の AWS Storage Day へようこそ! このバーチャルイベントは、8月9日、太平洋標準時の午前 9:00 (東部標準時正午) に開催され、 AWS On Air Twitch チャンネル で視聴できます。最初の AWS Storage Day は 2019 年に開催されました。このイベントはイノベーションデーへと発展し、毎年皆様をお迎えできることを楽しみにしています。 昨年の Storage Day の投稿 で、データを安全に保護

Amazon EMR における高可用性キー配布センターの実装

このブログは Lorenzo Ripani (Big Data Solutions Architect) と Stefano Sandona (Analytics Specialist Solutions Architect) によって執筆された内容を日本語化したものです。原文は こちら を参照して下さい。 高可用性(HA)とは、指定された期間、故障することなく継続的に稼働するシステムまたはサービスの特性です。システム全体に HA 特性を実装することで、通常、サービスの中断につながる

2023年6月5日週のGoogle Cloudの主なリリースに関するニュース

クラウドエース北野です。 6月に入って、関東も梅雨入して、じめじめした天気が続きますが、体調はいかがでしょうか。 6月5~9日までのGoogle Cloudの主なリリースに関して紹介します。 ! 該当の日のすべての情報ではないので、すべてのリリースノートを確認されたい方は、当該ページからご確認ください。 Compute Engine Hyperdisk Throughput の提供 (GA) Hyperdisk Throughputは柔軟な容

trocco®でお手軽ETLワークフロー管理

クラウドエースData/MLディビジョン所属のODRです。 今回は、データ分析基盤構築・運用の支援 SaaS である trocco® のワークフロー機能を使用して、GUIでワークフローを作成してみたので、手順と感想をまとめました。 最後に、Google Cloud のワークフロー管理ツールとの比較も行いました。 trocco とは trocco®は、ELT/データ転送・データマート生成・ジョブ管理・データガバナン

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。 カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行す

Google Cloudバッチ処理ツールざっくり整理2022

まえがき クラウドエース株式会社の亀梨と申します。SIインフラ領域を担当しております。 Batch (Cloud Batchではない)が 2022-10-11にGAとなりました。 Batchとは何なのか?似たような名前のWorkflows、Cloud Composer(こっちはCloudがつく)との関連は…? そんなことが気になって脳裏にチラついていたため、ざっくり調べてみました。 書いていないこと Pub/Subはバッチ処理の枠に収まら

AWS GlueのSpark Jobでクローラーを使わずにデータカタログにテーブルを作成する

KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、一般的にクローラーを使って作成するであろう、データカタログのテーブルを Spark だけで実現する方法について紹介できればと思います。 背景・目的 MusubiInsight のプロダクトでは、薬剤師さんや薬局のマネージャーさん向けに業務実績データの可視化を行っています 可視化するデータは、夜間にバッチ処

AWS Outpostsで実現するオンプレデータレイク

はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記
12
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?