PyData.Tokyo Tutorial & Hackathon #1
イベント内容
PyData.Tokyoについて
企業・スタートアップ・学会等の各方面で活躍しているPythonistaの皆さんが、データ分析・機械学習関連のトピックについて深く議論、交流するためのコミュニティです。「Python+Dataを通じて、世界のPyDataエクスパートと繋がれるコミュニティを作る」ことを目標としています。
こちらのグループでメンバーを募集しています。
PyData.Tokyo Tutorial & Hackathon #1
PyData.Tokyoでは毎月開催している中上級者向けの勉強会に加え、初心者の育成を目的としたチュートリアルイベントを開催します。今回のイベントでは下記の項目にフォーカスします。
- データの読み込み
- データの前処理・整形
- 集計・統計解析
- データの可視化
- 機械学習を使った分類モデルの生成
- モデル分類結果の検証
このチュートリアルでは実際のデータを使ったコーディングを行うことで実践力をつけることを目的とします。扱う事例はタイタニックの乗客データを使った生存者推定モデルの生成です(このKaggleのデータを使います)。乗客の年齢、性別その他の情報を機械学習アルゴリズムに学習させることで、初心者でも80%に近い精度で生存者を当てることができるようになります。
また中上級者の方々には、更に進んだ手法を使ってハッカソン形式で結果を競い、知見の共有とディスカッションを通してお互いの技術を高めて頂く場をご用意します。
当日はデータサイエンティストが技術を競うKaggleへの参加方法をご紹介します。皆さんで結果を投稿し、高得点を競いましょう!
参加をご検討の方へ(対象レベル)
このイベントでは2つのレベルの参加者を募集します。
初心者: 主にチュートリアルへのご参加
Pythonの基本的な文法を習得しており、ライブラリを使った開発の経験はあるが、データ分析関連のツールはまだ使ったことがない方。または初歩的なデータ分析の経験はあるが、機械学習ライブラリの使用経験はない方。
中上級者: 主にハッカソンへのご参加
既にPythonでのデータ分析を行ったことが有り、機械学習ライブラリ(scikit-learn等)の使い方が分かる方。
事前準備
-
今回はチュートリアル、ハッカソン形式のイベントのため、データ分析環境が設定済のパソコンの持参をお願い致します。データ分析環境については、以下のページに説明を記載しておりますので、参考にして下さい。チュートリアルに参加される初心者の方は環境を簡単に作成できるAnacondaの利用をお勧めします。
https://pydata.tokyo/news/pydata.tokyo-tutorial-hackathon-1
※推奨するPythonのバージョンはPython3.4です。Python2.7系に慣れている方は2.7系をご利用頂いても構いませんが、チュートリアルの対象となるのは3.4系の文法です。 -
機械学習のコンペティションサイト「Kaggle」を使用しますので、アカウントの作成をお願いします。
https://www.kaggle.com/c/titanic-gettingStarted
※ハッカソンに参加される方は、データと簡単なチュートリアルがありますので、事前に目を通しておくことをお勧めします。
アジェンダ
時間 | 内容 | 対象 |
---|---|---|
10:30 - 11:00 | 開場 & 受付 | |
11:00 - 11:15 | 「PyData.Tokyoについて」 | シバタ アキラ (スピーカー) |
11:15 - 12:00 | 自己紹介(30秒/1人) & ランチ | 全員 |
12:00 - 14:00 | チュートリアル1 & ハッカソン | 池内 孝啓 (講師) |
14:00 - 15:00 | コーヒーブレイク & ディスカッション | 全員 |
15:00 - 17:00 | チュートリアル2 & ハッカソン | 田中 秀樹 (講師) |
17:00 - 18:00 | ハッカソン | 全員 |
18:00 - 19:45 | 懇親会 & 成果発表会 | 全員 |
※参加費はランチ、コーヒーブレイク、懇親会の飲食代です。
テーマと使用するデータ
テーマ: タイタニックの乗客データを使った生存者の推定モデルの生成
内容: タイタニックの乗客データを見ると、生存者は男性より女性の方が多いといった傾向が見られます。今回は乗客の名前、年齢、性別、乗船クラスなどの情報から、機械学習を使って生存者を推定するモデルを作成して頂きます。機械学習のコンペティションサイト「Kaggle」にデータと簡単なチュートリアルがありますので、事前に目を通しておくことをお勧めします。
タイタニックの乗客データ: Titanic: Machine Learning from Disaster
※データのダウンロードには、Kaggleのアカウントが必要です。
使用予定ライブラリ:
- Numpy
- SciPy
- Pandas
- scikit-learn
- matplotlib
チュートリアル1 概要
時間 | 内容 | 講師 |
---|---|---|
12:00 - 14:00 | チュートリアル1 | 池内 孝啓 |
- データの読み込み
- データの前処理・整形
- 集計・統計解析
- データの可視化
チュートリアル2 概要
時間 | 内容 | 講師 |
---|---|---|
15:00 - 17:00 | チュートリアル2 | 田中 秀樹 |
- 機械学習を使った分類モデルの生成
- モデル分類結果の検証
スピーカー & 講師紹介
シバタアキラ (@punkphysicist)
PyDataTokyoオーガナイザー、白ヤギコーポレーションCEO。ニュースアプリ「カメリオ」を提供。サイエンスとビジネスをつなげるアントレプレナー。物理学博士。NYU研究員時代にデータサイエンティストとして加速器データの統計モデル構築を行い「神の素粒子」ヒッグスボゾン発見に貢献。その後ボストン・コンサルティング・グループではTMTやヘルスケアでのコンサルティング業務に加え戦略インスティチュート研究員として企業戦略の定量化の研究を行った。
池内 孝啓 (@iktakahiro)
PyDataTokyoオーガナイザー、株式会社ALBERT 執行役員。2012年4月より、部門再編に伴い受託開発、自社サービス開発の責任者を務め、商品力の強化と開発部門の技術力の底上げに注力。2014年1月、執行役員、システム開発・コンサルティング部 部長に就任。PyCon JPでチュートリアル講師を務めるなど、Pythonコミュニティの発展のため精力的に活動中。
田中 秀樹 (@atelierhide)
PyDataTokyoオーガナイザー。シリコンバレーでPython×Dataの魅力に出会う。帰国後、ディープラーニングに興味を持ち、PyCon JP 2014に登壇したことがきっかけとなりPyData.Tokyoをスタート。カメラレンズの光学設計エンジニアをする傍ら、画像認識を用いた火星および太陽系惑星表面の構造物探索を行うMarsface Project(@marsfaceproject)に参加。
会場
- 株式会社デンソーアイティーラボラトリさん(地図)のセミナースペースをお借りして開催します。
- 渋谷クロスタワーのエレベータで28Fまでお越しください。
- 飲食物の持込みは可能です。
- 電源の数が限られているため、電源タップ持参のご協力をお願いします。
- 使用人数によってはWi-Fiが不安定になる可能性があります。モバイルWi-Fiルーターをお持ちの方はそちらを使用頂けると幸いです。
参加費
3000円
ランチ、コーヒーブレイク、懇親会の飲食代として頂いておりますので準備をお願い致します。参加者同士の交流を重視しているため、懇親会への参加は必須とさせて頂いております。どうしても懇親会に参加できない方も、参加費としてお支払いお願い致します。
懇親会(成果発表会)
19:00から同会場で懇親会及び成果発表会を行います。
成果発表は、ハッカソンの成果や行き詰まったところなどを共有する時間として、希望される方は自由に発表してください。濃いディスカッションをしましょう!
ご質問・ご相談
この勉強会に関するご質問等は@PyDataTokyoまでお願い致します。
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。