PLAZMA TD Internal Day: TD Tech Talk 2018

2018/02/19(月)13:00 〜 22:00 開催
ブックマーク
参加枠申込形式参加費 参加者
一般
先着順 無料 116人 / 定員130人

イベント内容

PLAZMA TD Internal Day: TD Tech Talk 2018

TD Internal Day of Treasure Data's PLAZMA

概要

Treasure Data PLAZMAの一環として、今回は平日午後に2日間をつかって TD Tech Talk を行います!

2日目はTD Internal Dayとして、Treasure Dataの分散処理技術や新アプリケーションであるCDPについて、機能や実装の詳細、および最近のアップデートについてたっぷり話します!

またイベント後に懇親会(無料)を用意しています。ぜひご参加ください。

※ TD外部からの方にもいくつもトークを行っていただきます! こちらは個別に今後アップデートします

※ 当日は取材が入る可能性があります。またイベント内容等が後日公開される可能性があります。

会場

会場は東京駅前、丸の内です。また 2/15 と 2/19 では会場が異なります。ご注意ください。

  • JPタワーホール&カンファレンス
  • 東京都千代田区丸の内2丁目7−2 KITTE 4階

タイムスケジュール

時間 内容 登壇者
12:30〜 開場・受付
13:00〜13:10 オープニング
13:10〜13:30 PTD and beyond: A look at what Hadoop team have been up to Johan
13:30〜13:50 UDP: A New Partitioning Strategy accelerating CDP Workload @Lewuathe
13:50〜14:05 TDと弊社との軌跡 川崎泰一(株式会社ファンコミュニケーションズ)
14:05〜14:20 動画系メディア[DELISTH KITCHEN]の運用開発を支えるデータウェアハウスの活用事例 島田雅年 (株式会社エブリー)
14:20〜14:30 break
14:30〜15:00 Treasure CDPシステムアーキテクチャ: 10億ユニークデバイスをリアルタイム追跡するシステム構築 @frsyuki
15:00〜15:30 Machine Learning and Natural Language Processing on Treasure CDP @takuti
15:30〜15:45 アサインナビのWEBアクセスログの活用事例 - Log visualization with BI tool & Advanced analytics with Python 渡辺 翔太 (株式会社エル・ティー・エス)
15:45〜16:00 break
16:00〜16:30 Treasure CDP のユーザインタフェース構築に関するあれこれ Tsubasa
16:30〜16:45 Treasure Dataで構築したデータ分析基盤、この1年の振り返り 戸井田明俊 (株式会社リクルートマーケティングパートナーズ)
16:45〜17:00 break
17:00〜17:30 消えゆくLegacy System ー Event Collectorの苦難と改善の歴史 @komamitsu_tw
17:30〜18:00 Planet-scale Data Ingestion Pipeline: Bigdam @tagomoris
18:00〜20:00 懇親会

※ 当日予告なく時間配分・内容が変更になる可能性がございます。

トーク概要

13:10〜 PTD and beyond: A look at what Hadoop team have been up to

by Johan Gustavsson (Treasure Data)

2017年、Treasure DataのHadoopチームはクラスタをHDPからコミュニティリリース版に切り替えるという大きな変更を行いました。また同時にクラスタや設定の管理方法についても方針の変更を行いました。これは単純な変更や性能の改善というだけでなく、様々なものの自動化やクエリエンジンのHive2への移行も視野に入れたものです。

このセッションではPTD (Patchset by TD)とは何か、Hadoopのバージョン移行がどのように行われたのか、またその経過における我々のチャレンジは何だったのかについて話します。

13:30〜 UDP: A New Partitioning Strategy accelerating CDP Workload

by Kai Sasaki (@Lewuathe, Treasure Data)

Treasure Data内で動くPrestoクエリをより柔軟に、より高速に走らせるためにUDP (User Defined Partitioning)という機能を開発、テスト中です。

各ユーザが独自のPartitioningの設定を用いてそれぞれのワークロードにあった最適化を図ることができ、とりわけCDPのような多様な軸での分析を高速に行うことを可能にします。このセッションでは近日リリース予定のUDPとそれを支えるPlazmaDBの詳細について話します。

13:50〜 TDと弊社との軌跡

by 川崎泰一 (株式会社ファンコミュニケーションズ)

TDを使い始めて3年余りの振り返り、何がTDヘビーユーザにさせたのかを話します。

14:05〜 動画系メディア[DELISTH KITCHEN]の運用開発を支えるデータウェアハウスの活用事例

by 島田雅年 (株式会社エブリー)

DELISH KITCHENの運用開発では、Treasure Data/BigQuery/Redshiftなどデータウェアハウスをフル活用した運用開発体制となっております。そこで、DELISH KITCHENにおけるアプリケーションとログ基盤の概要と活用事例について紹介させて頂ければと思います。

14:30〜 Treasure CDPシステムアーキテクチャ: 10億ユニークデバイスをリアルタイム追跡するシステム構築

by Sadayuki Furuhashi (@frsyuki, Treasure Data)

Treasure CDPは「顧客を理解する」ためのデータを集中処理し、SQLの知識がなくても解析からコンテンツの出し分けまでを可能にするシステムであり、その技術的実体はTreasure Dataプラットフォームのあらゆる機能を駆使して実装されたアプリケーションです。Digdag、Embulk、Fluentd、Presto、Hadoop、Hivemallなど我々が運用する要素技術を連携させ、過去何年にも渡る全データを統合した顧客データベースを構築し、その巨大なデータセットに対してウェブUIを使ってインタラクティブに解析を行うことを可能にしました。

ここではTreasure CDPの概要とシステム構成を紹介するとともに、AWSを使って構築した分散型時系列データベースについて解説します。

15:00〜 Machine Learning and Natural Language Processing on Treasure CDP

by Takuya Kitazawa (@takuti, Treasure Data)

Treasure Dataが提供するCDPというサービスに実装された機械学習・自然言語処理機能の実体は、Apache Hivemallを利用したクエリ群からなるDigdagワークフローです。

このワークフローがどのようなアルゴリズム(とヒューリスティクス)の上に成り立っているのか、その一端をお見せします。また、多様なユーザの大小様々なデータに対して適用可能な、汎用的な機械学習ワークフローを構築することの難しさや、その可能性と今後の展望についてお話します。

15:30〜 アサインナビのWEBアクセスログの活用事例 - Log visualization with BI tool & Advanced analytics with Python

by 渡辺 翔太 (株式会社エル・ティー・エス Business Development & Insights)

エル・ティー・エスの子会社であるアサインナビ(エンジニア・IT企業とIT案件のマッチングサイト)にて Treasure dataを活用したWEBアクセスログの活用事例を紹介します。 アジェンダを主に2点を予定しております。

  1. BIツールを活用した基本的なアクセス状況の可視化・環境を紹介
  2. Pythonでログデータを直接読込み、インサイト発見に向けたデータ分析を紹介

16:00〜 Treasure CDP のユーザインタフェース構築に関するあれこれ

by Tsubasa Tomoda (Treasure Data)

Treasure CDP のユーザインタフェースは既存の Console アプリケーションとは別のユーザインタフェースとして開発、提供されています。ただし、フロントエンドに関わっているチームメンバーはたったひとり。。。 開発開始から約1年が経った今、どの様にしてユーザインタフェースをゼロから構築してきたのか、振り返りつつ紹介します。

16:30〜 Treasure Dataで構築したデータ分析基盤、この1年の振り返り

by 戸井田明俊 (株式会社リクルートマーケティングパートナーズ ネットビジネス本部 プロダクトディベロップメント部 データ基盤グループ)

スタディサプリのデータ分析基盤運用にまつわる Tips を、ここ1年間の Treasure Data のアップデートを振り返りながらご紹介します

17:00〜 消えゆくLegacy System ー Event Collectorの苦難と改善の歴史

by Mitsunori Komatsu (@komamitsu_tw / @komamitsu, Treasure Data)

Treasure Data JavaScript SDK / Mobile SDKs等からのData Ingestionを扱うEvent Collectorは、負荷の増加とともに性能の改善を繰り返し運用に耐えてきました。新しいData Ingestion PipelineであるBigdamの登場により消えゆく運命のLegacy Systemの一つですが、このセッションではEvent Collectorの苦難と改善の歴史についてお話しします。

17:30〜 Planet-scale Data Ingestion Pipeline: Bigdam

by Satoshi Tagomori (@tagomoris, Treasure Data)

Treasure Dataが提供するプラットフォームの顧客は全世界に及び、その顧客からのTreasure Dataへのデータ送信における高スループット・低レイテンシ・高信頼性の重要度は日々高まっています。Treasure Dataのデータ入力パイプラインは創業時から大きく設計を変えることなくスケールを増大させてきましたが、今後の更なる新機能・利便性向上・コスト削減を考えると限界のあるものでした。

BigdamはTreasure Dataのデータ入力系統を一新するため、根本的にアーキテクチャから刷新した一連の分散システムプロジェクトです。全世界から膨大なデータ入力を低レイテンシで受け付け、Treasure Dataのバックエンドデータベースに高効率で格納するために設計されています。これはH2Oとmrubyにより構成された高機能フロントエンドHTTPサーバ、独自の可用性ポリシーのために新規開発された分散ストレージおよび高スループットタスクキューなどを含みます。

このセッションでは、なぜそういったものの開発が必要だったのか、各々のコンポーネントが何を目的にどのように設計されているかについて解説します。

参加対象

  • ソフトウェアエンジニア
  • リクルーティング、勧誘など、採用目的でのイベント参加はお断りしております
  • 飲食のみを目的としたご応募・ご来場はご遠慮ください
  • 補欠者の方は、ご来場いただいてもご入場いただくことが出来ませんのでご了承ください
  • 欠席される場合は、お手数ですが速やかにキャンセル処理をお願い致します

参加費

無料

ハッシュタグ

#tdtech