「Hadoop」に関連する技術ブログ

企業やコミュニティが発信する「Hadoop」に関連する技術ブログの一覧です。

高性能分散SQLエンジン「Trino」最速ガイド

こんにちは。なんの因果か NTTコミュニケーションズのエバンジェリスト をやっている 西塚 です。 この記事は、 NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープン

社内でデータ分析コンペティションを開催しました

こんにちは、デジタル改革推進部の河合と浅野です! 私たちデジタル改革推進部では、普段から全社で使うためのデータ分析環境の開発・提供を行っています。 今回は社内でデータ分析コンペティションを開催したのでその内容を報告します。 社内データ分析コンペティションとは? 社内にある様々なデータ活用課題をコンペティション形式に落とし込み、全社で知恵

Amazon EMRのチュートリアルをやってみました

Amazon EMRを一度も利用したことがなかったので、data-analytics-specialty試験の学習ついでに実際にさわりながら自分へのメモを兼ねて情報を残します。 Amazon EMRとは aws.amazon.com Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースのツールを 使用して膨大な量のデータを処理するための業界をリードするビッグデータのクラウドプラットフォーム と

Athenaを活用した問い合わせ対応

初めまして、こんにちは。 セーフィー株式会社 プラットフォーム開発部の大友です。 サーバーサイド周りの開発を担当しています。 今回はユーザーより問い合わせを受け、システム内を調べなければならないとき、サーバーサイドはどのように対応しているのか!その一例を紹介したいと思います。 テーマはログ解析を用いた問い合わせ対応です。 Amazon Athena と お問

データウェアハウスとして使う Amazon Redshift について

はじめに こんにちは。開発本部の阪本です。 今回は私が社内勉強会(TechLunch)にて Amazon Redshift(以下 Redshift)についてお話した内容を紹介させていただきます。 Redshift とは 概要 Redshift とは AWS サービスが提供しているデータウェアハウスで、高可用/高パフォーマンス/柔軟なスケーラビリティを実現しているのが特徴です。 競合としては BigQuery や Hadoop 、また同じ AWS サービ

Google Cloud Next '18 参加レポート

こんにちは! スタートトゥデイテクノロジーズ新事業創造部の塩崎です。 2018年7月24日〜26日にかけてサンフランシスコでGoogle Cloud Next '18が開催されました。 このイベントに新事業創造部の塩崎、今村、そして代表取締役CIOの金山の3名で参加してきました。 この記事では多数あった講演の中で特に印象に残ったものをいくつか紹介いたします。 講演 Building A Petabyte Scale Wa

Treasure Dataのhivemallで類似ユーザレコメンドを試す

メディアシステム開発部の野崎です。 メディアシステム開発部では、「 auWebポータル 」や「 auスマートパス 」といった、サービスを担当しています。 弊社では一部のサービスでアクセスログなどをTreasure Dataに貯めています。 今後はこのデータを分析活用し、より良いサービスを提供していきたいと考えています。 その一歩として、今回はTreasure Data内で使える機械学習

BigQueryによるデータ分析のための前処理Tips

こんにちは。 使うSQLが200行を超えるのが当たり前になってきたデータチームの後藤です。 本記事では、VASILYデータチームで利用しているBigQueryによるデータの前処理のTipsを紹介します。 VASILYではサービスのマスタデータやログデータをGoogle BigQueryに集約して分析に活用しています。機械学習やデータ分析のための前処理を行う際、軽量なデータであれば抽出結果をPython

自由に使える巨大なWebログデータはないの?

こんにちは、リッテルラボラトリーの清田です。 現在、巨大なWebログデータを活用して、ユーザーの潜在的なニーズを解析するという取り組みが盛んにおこなわれています。ネクストでも、HOME'Sのログデータを主な対象として、住まい探しのユーザーのニーズをとらえてサイト改善や情報レコメンデーションに活用するための取り組みが進められています。 「Webログデー

『DynamoDB:SSD Hot S3 Cold パターン』を試してみた。

みなさん、こんにちは。 新規開発チームの小田切です。 最近は、仕事の合間にいろいろ検証を行ったりしているのですが、その中で見つけた「SSD Hot S3 Coldパターン」という物があり、気になったので、検証を行ってみました。 「SSD Hot S3 Coldパターン」は簡単にいうと、『SSD(DynamoDB)はストレージ料金がそれなりに高いから、使わないデータは価格の安いS3に移動させちゃ

Hadoop Conference 2011 参加レポート (2)

こんにちは。ネクストの吉次です。 日本 Hadoop ユーザー会の主催により、2011年9月26日に東京のベルサール汐留で開かれた「 Hadoop Conference Japan 2011 Fall 」カンファレンスの詳細です。 今回の数ある講演の中で、私にとって面白かった「 MapR 」「基幹バッチ処理から見た Hadoop 」と「 Hadoop 0.23 と MapReduce v2 」について報告します。 MapR 「MapR」 ( http://www.mapr.com/ ) は Hadoop をベー

Hadoop Conference 2011 参加レポート (1)

こんにちは。ネクストの吉次と申します。 ネクスト リッテル研究所では、大量データを解析してレコメンデーションなどユーザ体験の向上に役立てる研究を行っています。リッテル研究所で大量データの解析に用いるミドルウェアとして用いているのが Hadoop というソフトウェアです。 Hadoop を用いる事で大量データの解析を手軽に分散処理できるので、1台のコンピュー
12
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?