2018/03/20(火)18:00 〜 21:30

「アプリケーションエンジニアのためのApache Spark入門」出版記念セミナー（第一回）

現地開催

基本情報

日時: 2018/03/20(火) 18:00〜21:30
開催形式: 現地開催
会場: 銀座松竹スクエア 13F ドワンゴセミナールーム
住所: 東京都中央区築地1-13-1

イベント内容

セミナー概要

「アプリケーションエンジニアのためのApache Spark入門」の出版を記念して、著者が本の内容の紹介とSparkのプログラミングに関する説明を中心に、Sparkと連携するFluentd、Kafka、Cassandraについても著者自身から説明します。Sparkの細かい技術紹介ではなく、データ分析に必要な技術を俯瞰し製品の選択に役立つような情報提供を目的としています。本書は、以下で構成されます。

第１章は、データ分析プラットフォームの概要について説明し、Sparkで実装可能な処理機能とSpark以外のソフトウェアを使うべき処理機能について説明します。また第１章の最後に、第２章以降のSparkの詳しい説明の参考になるようSparkでよくある質問をまとめます。
第２章は、Sparkの概要説明とインストールおよび動作確認方法について説明します。
第３章から第９章で実際のサンプルユースケースの説明とユースケースで用いる各機能の実装方法について説明します。
最後に、第１０章で実際の商用のシステムとして実装するさいの変更点および留意点について説明します。

日時

2018/3/20（火）18:00 - 21:10
受付: 17:30

場所

東京都中央区築地1-13-1 銀座松竹スクエア 13F ドワンゴセミナールーム
東銀座駅（日比谷線, 浅草線）5番出口より徒歩3分

注意

前日・当日のキャンセルはご遠慮下さい。キャンセルされる場合は、2日前までに当サイトからキャンセルをお願いします。
プログラム内容は予告なく変更する可能性があります。

参加費

勉強会: 無料

対象

なんらかのプログラミングについて基本的な知識や実装経験がある方
Sparkをこれから初めてみようと思っている方
エンタープライズ環境でプロダクトを選定する立場の方

アジェンダ

時間	講演者
17:30 - 18:00	受付
18:00 - 18:30	書籍の紹介、データ分析プラットフォームの紹介	新郷　美紀（NEC)
18:30 - 19:00	Fluentd, Kafka の紹介	須田　桂伍（フューチャーアークテクト）
19:00 - 19:30	Spark Streaming の紹介	木村　宗太郎（ドワンゴ）
19:30 - 19:40	休憩
19:40 - 20:10	Spark SQL, Cassandra の紹介	森下　雄貴（DataStax）
20:10 - 20:40	Spark MLlib の紹介	高木　章光（ブレインズコンサルティング）
20:40 - 21:10	プロダクションに向けたヒントの紹介	今井雄太（ソラコム）

講演内容

書籍の紹介、データ分析プラットフォームの概要説明

監修・著者新郷　美紀（日本電気株式会社）
本書の冒頭で、大規模なデータ収集や分析処理までを実装してみたい方向けに、一連の処理を実現可能なデータ分析プラットフォームについて説明し、各処理で用いられるプロダクトとその役割についてSparkを中心に説明します。ここでは、本書の要点を掻い摘みながら、以下の点について説明します。
データ分析プラットフォームとは何か？
データ分析プラットフォームで用いられるプロダクトにはどのようなものがあるか?
Sparkの役割

Fluentd, Kafkaの紹介

著者　須田　桂伍（フューチャーアーキテクト）
本セクションでは、データの収集方法と活用につなげていくための方法について説明します。またハンズオンで準備しているデータ収集部分を構築のキーポイントについて説明し、最後にプロダクトション環境ならでは考慮事項やその対応方針などについて説明を加えます。

Cassandraの紹介

著者　森下雄貴（DataStax社）
本セクションでは、全セクションで収集したセンサデータを長い時間軸で分析したい場合に必要な「データの蓄積」について説明します。そのためにはストリーム処理で受け取ったデータをどこかに貯めておく必要があります。さらに、蓄積したデータを分析に活用できるデータまで整形するためのSpark SQL、DataFrameを用いたデータの加工・集計・集約処理のキーポイントについて説明します。

Spark Streaming処理の紹介

著者　木村　宗太郎（ドワンゴ）
本セクションでは、最初に常にデータを処理し続ける「ストリーム処理」で遅延を小さくデータを処理するという概念と、具体的なストリーム処理をSparkで構築する方法について説明します。次にストリーム処理固有の事情について説明し、最後に、実際のSpark Structured Streamingで集計や分析処理に関するキーポイントについて説明します。

SparkMLlibの紹介

著者　高木　章光（ブレインズコンサルティング）
本セクションでは、加工されたデータを集計してからデータを分析するまでの一連のプロセスについて説明します。その後、実際にSpark MLlibを用いて分析を行うアプリケーションを実装するためのキーポイントについて説明します。

プロダクションに向けたヒントの紹介

著者　今井　雄太（ソラコム）
本セクションでは、本書で扱われたアプリケーション全体のアーキテクチャ設計について全体像を説明し、さらにはSparkアプリケーションを実際の業務環境で利用するために必要な仕組みやステップのキーポイントについて説明します。

その他

開催中の事故・天災・その他の事象によってもたらされたすべての不利益に関して、当勉強会、および会場提供者はその責任を負いかねます。
当日の様子のお写真をウェブサイトやSNSで公開する可能性があります。予めご了承ください。
当イベントでは全ての参加者がこのイベントを楽しめるよう、有志による運営のもと開催しています。そのため、以下のような行動を取られた方は、退室いただく場合があります。また次回以降の参加をお断りしますのでご了承下さい。
- 講師および参加者に対して、勉強会の妨害と見られる言動や行動
- 人材紹介、転職、マルチ商法、宗教など、本勉強会とは関係のない勧誘