2015/03/07(土)11:00 〜 20:00

PyData.Tokyo Tutorial & Hackathon #1

現地開催

基本情報

日時: 2015/03/07(土) 11:00〜20:00
開催形式: 現地開催
会場: デンソーアイティーラボラトリ
住所: 東京都渋谷区渋谷2-15−1 (渋谷クロスタワー28F)

イベント内容

PyData.Tokyoについて

企業・スタートアップ・学会等の各方面で活躍しているPythonistaの皆さんが、データ分析・機械学習関連のトピックについて深く議論、交流するためのコミュニティです。「Python+Dataを通じて、世界のPyDataエクスパートと繋がれるコミュニティを作る」ことを目標としています。

こちらのグループでメンバーを募集しています。

PyData.Tokyo Tutorial & Hackathon #1

PyData.Tokyoでは毎月開催している中上級者向けの勉強会に加え、初心者の育成を目的としたチュートリアルイベントを開催します。今回のイベントでは下記の項目にフォーカスします。

データの読み込み
データの前処理・整形
集計・統計解析
データの可視化
機械学習を使った分類モデルの生成
モデル分類結果の検証

このチュートリアルでは実際のデータを使ったコーディングを行うことで実践力をつけることを目的とします。扱う事例はタイタニックの乗客データを使った生存者推定モデルの生成です（このKaggleのデータを使います）。乗客の年齢、性別その他の情報を機械学習アルゴリズムに学習させることで、初心者でも80％に近い精度で生存者を当てることができるようになります。

また中上級者の方々には、更に進んだ手法を使ってハッカソン形式で結果を競い、知見の共有とディスカッションを通してお互いの技術を高めて頂く場をご用意します。

当日はデータサイエンティストが技術を競うKaggleへの参加方法をご紹介します。皆さんで結果を投稿し、高得点を競いましょう！

参加をご検討の方へ（対象レベル）

このイベントでは2つのレベルの参加者を募集します。

初心者：主にチュートリアルへのご参加

Pythonの基本的な文法を習得しており、ライブラリを使った開発の経験はあるが、データ分析関連のツールはまだ使ったことがない方。または初歩的なデータ分析の経験はあるが、機械学習ライブラリの使用経験はない方。

中上級者：主にハッカソンへのご参加

既にPythonでのデータ分析を行ったことが有り、機械学習ライブラリ（scikit-learn等）の使い方が分かる方。

事前準備

今回はチュートリアル、ハッカソン形式のイベントのため、データ分析環境が設定済のパソコンの持参をお願い致します。データ分析環境については、以下のページに説明を記載しておりますので、参考にして下さい。チュートリアルに参加される初心者の方は環境を簡単に作成できるAnacondaの利用をお勧めします。
https://pydata.tokyo/news/pydata.tokyo-tutorial-hackathon-1
※推奨するPythonのバージョンはPython3.4です。Python2.7系に慣れている方は2.7系をご利用頂いても構いませんが、チュートリアルの対象となるのは3.4系の文法です。
機械学習のコンペティションサイト「Kaggle」を使用しますので、アカウントの作成をお願いします。
https://www.kaggle.com/c/titanic-gettingStarted
※ハッカソンに参加される方は、データと簡単なチュートリアルがありますので、事前に目を通しておくことをお勧めします。

アジェンダ

時間	内容	対象
10:30 - 11:00	開場 & 受付
11:00 - 11:15	「PyData.Tokyoについて」	シバタアキラ (スピーカー)
11:15 - 12:00	自己紹介(30秒/1人) ＆ランチ	全員
12:00 - 14:00	チュートリアル1 & ハッカソン	池内孝啓 (講師)
14:00 - 15:00	コーヒーブレイク & ディスカッション	全員
15:00 - 17:00	チュートリアル2 & ハッカソン	田中秀樹 (講師)
17:00 - 18:00	ハッカソン	全員
18:00 - 19:45	懇親会 & 成果発表会	全員

※参加費はランチ、コーヒーブレイク、懇親会の飲食代です。

テーマと使用するデータ

テーマ：タイタニックの乗客データを使った生存者の推定モデルの生成

内容：タイタニックの乗客データを見ると、生存者は男性より女性の方が多いといった傾向が見られます。今回は乗客の名前、年齢、性別、乗船クラスなどの情報から、機械学習を使って生存者を推定するモデルを作成して頂きます。機械学習のコンペティションサイト「Kaggle」にデータと簡単なチュートリアルがありますので、事前に目を通しておくことをお勧めします。

タイタニックの乗客データ： Titanic: Machine Learning from Disaster

※データのダウンロードには、Kaggleのアカウントが必要です。

使用予定ライブラリ：

Numpy
SciPy
Pandas
scikit-learn
matplotlib

チュートリアル1 概要

時間	内容	講師
12:00 - 14:00	チュートリアル1	池内孝啓

データの読み込み
データの前処理・整形
集計・統計解析
データの可視化

チュートリアル2 概要

時間	内容	講師
15:00 - 17:00	チュートリアル2	田中秀樹

機械学習を使った分類モデルの生成
モデル分類結果の検証

スピーカー & 講師紹介

シバタアキラ (@punkphysicist)

PyDataTokyoオーガナイザー、白ヤギコーポレーションCEO。ニュースアプリ「カメリオ」を提供。サイエンスとビジネスをつなげるアントレプレナー。物理学博士。NYU研究員時代にデータサイエンティストとして加速器データの統計モデル構築を行い「神の素粒子」ヒッグスボゾン発見に貢献。その後ボストン・コンサルティング・グループではTMTやヘルスケアでのコンサルティング業務に加え戦略インスティチュート研究員として企業戦略の定量化の研究を行った。

池内孝啓 (@iktakahiro)

PyDataTokyoオーガナイザー、株式会社ALBERT 執行役員。2012年4月より、部門再編に伴い受託開発、自社サービス開発の責任者を務め、商品力の強化と開発部門の技術力の底上げに注力。2014年1月、執行役員、システム開発・コンサルティング部部長に就任。PyCon JPでチュートリアル講師を務めるなど、Pythonコミュニティの発展のため精力的に活動中。

田中秀樹 (@atelierhide)

PyDataTokyoオーガナイザー。シリコンバレーでPython×Dataの魅力に出会う。帰国後、ディープラーニングに興味を持ち、PyCon JP 2014に登壇したことがきっかけとなりPyData.Tokyoをスタート。カメラレンズの光学設計エンジニアをする傍ら、画像認識を用いた火星および太陽系惑星表面の構造物探索を行うMarsface Project（@marsfaceproject）に参加。