「Hadoop」に関連する技術ブログ(17件)

企業やコミュニティが発信する「Hadoop」に関連する技術ブログの一覧です。

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。 カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行す

DataSolution事業を支える技術

DataSolution事業において提供しているサービスを、ユーザ利便性を考慮しつつ、どのようにシステムとして実現しているのか紹介します。

数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修

Yahoo!ショッピングのレコメンドを支える、レコメンドシステムのログ収集に関するシステム改修について紹介します。

AWS GlueのSpark Jobでクローラーを使わずにデータカタログにテーブルを作成する

KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、一般的にクローラーを使って作成するであろう、データカタログのテーブルを Spark だけで実現する方法について紹介できればと思います。 背景・目的 MusubiInsight のプロダクトでは、薬剤師さんや薬局のマネージャーさん向けに業務実績データの可視化を行っています 可視化するデータは、夜間にバッチ処

AWS Outpostsで実現するオンプレデータレイク

はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記

Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

Yahoo!広告のデータレイクに Apache Hudi を導入し、削除・更新が可能なデータレイクを実現した事例を紹介します。

MLOpsを支えるヤフー独自のモデルモニタリングサービス

MLOpsの実現に向けてデータドリフトを検知するモデルモニタリングを内製しました。HDFS, Hive, S3など幅広くサポートしています。

高性能分散SQLエンジン「Trino」最速ガイド

こんにちは。なんの因果か NTTコミュニケーションズのエバンジェリスト をやっている 西塚 です。 この記事は、 NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープン

社内でデータ分析コンペティションを開催しました

こんにちは、デジタル改革推進部の河合と浅野です! 私たちデジタル改革推進部では、普段から全社で使うためのデータ分析環境の開発・提供を行っています。 今回は社内でデータ分析コンペティションを開催したのでその内容を報告します。 社内データ分析コンペティションとは? 社内にある様々なデータ活用課題をコンペティション形式に落とし込み、全社で知恵

Athenaを活用した問い合わせ対応

初めまして、こんにちは。 セーフィー株式会社 プラットフォーム開発部の大友です。 サーバーサイド周りの開発を担当しています。 今回はユーザーより問い合わせを受け、システム内を調べなければならないとき、サーバーサイドはどのように対応しているのか!その一例を紹介したいと思います。 テーマはログ解析を用いた問い合わせ対応です。 Amazon Athena と お問

データウェアハウスとして使う Amazon Redshift について

はじめに こんにちは。開発本部の阪本です。 今回は私が社内勉強会(TechLunch)にて Amazon Redshift(以下 Redshift)についてお話した内容を紹介させていただきます。 Redshift とは 概要 Redshift とは AWS サービスが提供しているデータウェアハウスで、高可用/高パフォーマンス/柔軟なスケーラビリティを実現しているのが特徴です。 競合としては BigQuery や Hadoop 、また同じ AWS サービ

Google Cloud Next '18 参加レポート

こんにちは! スタートトゥデイテクノロジーズ新事業創造部の塩崎です。 2018年7月24日〜26日にかけてサンフランシスコでGoogle Cloud Next '18が開催されました。 このイベントに新事業創造部の塩崎、今村、そして代表取締役CIOの金山の3名で参加してきました。 この記事では多数あった講演の中で特に印象に残ったものをいくつか紹介いたします。 講演 Building A Petabyte Scale Wa

Treasure Dataのhivemallで類似ユーザレコメンドを試す

メディアシステム開発部の野崎です。 メディアシステム開発部では、「 auWebポータル 」や「 auスマートパス 」といった、サービスを担当しています。 弊社では一部のサービスでアクセスログなどをTreasure Dataに貯めています。 今後はこのデータを分析活用し、より良いサービスを提供していきたいと考えています。 その一歩として、今回はTreasure Data内で使える機械学習

BigQueryによるデータ分析のための前処理Tips

こんにちは。 使うSQLが200行を超えるのが当たり前になってきたデータチームの後藤です。 本記事では、VASILYデータチームで利用しているBigQueryによるデータの前処理のTipsを紹介します。 VASILYではサービスのマスタデータやログデータをGoogle BigQueryに集約して分析に活用しています。機械学習やデータ分析のための前処理を行う際、軽量なデータであれば抽出結果をPython

自由に使える巨大なWebログデータはないの?

こんにちは、リッテルラボラトリーの清田です。 現在、巨大なWebログデータを活用して、ユーザーの潜在的なニーズを解析するという取り組みが盛んにおこなわれています。ネクストでも、HOME'Sのログデータを主な対象として、住まい探しのユーザーのニーズをとらえてサイト改善や情報レコメンデーションに活用するための取り組みが進められています。 「Webログデー
12