BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:【オンライン開催】『Vision Transformer入門』読
 書会#3
X-WR-CALNAME:【オンライン開催】『Vision Transformer入門』読
 書会#3
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:890732@techplay.jp
SUMMARY:【オンライン開催】『Vision Transformer入門』読書会#
 3
DTSTART;TZID=Asia/Tokyo:20230215T200000
DTEND;TZID=Asia/Tokyo:20230215T210000
DTSTAMP:20260429T051706Z
CREATED:20230201T142324Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/89073
 2?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n2月8日は不
 開催ですので、ご注意ください。\n次回は第2章4の5「Mu
 lti-Head Self-Attention」からスタートします。\n開催趣旨\n
 本勉強会では、画像認識モデルについて理解を深める
 ことを目的とし、下記の本を一章ずつ取り上げていく
 予定です。事前に予習し、コードを一通り動かしてか
 ら参加されることをオススメします。参加者同士の質
 問・意見交換やディスカッションをメインに進めてい
 く予定です。  \n『Vision Transformer入門 Computer Vision Library
 』（\n片岡裕雄　監修，山本晋太郎，徳永匡臣，箕浦
 大晃，邱玥（QIU YUE），品川政太朗　著\, 技術評論社\, 
 2022年9月）    \n※ 書籍はご自身で入手のうえ、ご参加
 ください。  \n参加対象者\n\n画像認識モデルの理解・Py
 thonによる実装力を高め、業務や研究に活用した社会人
 ・学生・研究者の方  \nPythonの基礎的な文法やJupter Noteb
 ook、Google Colaboratoryの基本的な使い方を習得されている
 方\n\n参加方法\nConnpassの「参加者への情報」に記載のzo
 omリンクよりご参加ください。  \n勉強会の進め方\n\nそ
 の日に取り扱う章を前もって各自ご自身で読み進めて
 おいてください。  \n勉強会では、皆で書籍の内容を確
 認しながら、必要に応じて実際にコードを動かしてい
 きます。  \nポイントごとに立ち止まって疑問点をぶつ
 け合い、意見交換し、理解を深めていければと思いま
 す。  \n\n※ 一人が資料準備してきて一方的にレクチャ
 ーする形式ではなく、参加者同士インタラクティブに
 ディスカッションしながら進めていきます。\n書籍の
 紹介文（https://gihyo.jp/book/2022/978-4-297-13058-9）\n以下、書
 籍紹介ページより抜粋  \n自然言語処理分野におけるブ
 レイクスルーとなったTransformerをコンピュータビジョ
 ンに応用したモデルがVision Transformer（ViT）です。さま
 ざまなコンピュータビジョンのタスクにおいて，ディ
 ープラーニングではスタンダードとなっているRNN，CNN
 ，および既存手法を用いた処理精度を上回ることが確
 認されています。  \n本書は注目のViTの入門書です。Tra
 nsformerの成り立ちからはじめ，その理論と実装を解説
 していきます。今後のViTの活用が期待される応用タス
 ク，ViTから派生したモデルを紹介したあと，Transoformer
 とViTを分析し，その謎を解明していきます。今後も普
 及が期待されるViTを盛りだくさんでお届けします。    
 \n【目次】  \n第1章 TransformerからVision Transformerへの進化
 \n1-1 自然言語処理におけるTransformerの登場\n1-2 Vision and 
 languageへの拡張\n1-3 コンピュータビジョンにおけるTrans
 former\n第2章 Vision Transformerの基礎と実装\n2-1 準備\n2-2 ViT
 の全体像\n2-3 Input Layer\n2-4 Self-Attention\n2-5 Encoder\n2-6 ViT
 の実装\n第3章 実験と可視化によるVision Transformerの探求
 \n3-1 実験の概要\n3-2 使用するデータセット\n3-3 実験条
 件\n3-4 既存手法との比較\n3-5 データ拡張における比較\
 n3-6 位置埋め込みの可視化\n3-7 ViTにおける判断根拠の
 可視化\n3-8 ViTが捉えているモノ\n第4章 コンピュータビ
 ジョンタスクへの応用\n4-1 コンピュータビジョンのサ
 ブタスク\n4-2 画像認識への応用\n4-3 物体検出、セマン
 ティックセグメンテーションへの応用\n4-4 ビデオ認識
 への応用\n4-5 オブジェクトトラッキングへの応用\n4-6 3
 Dビジョンへの応用\n4-7 その他のコンピュータビジョン
 サブタスクへの応用\n4-8 Transformer応用のまとめと展望\n
 第5章 Vision and Languageタスクへの応用\n5-1 Vision and Language
 のサブタスク\n5-2 VQAへの応用\n5-3 Image Captioningへの応用
 \n5-4 Embodied AIへの応用\n5-5 その他のVision and Languageサブ
 タスクへの応用\n5-6 Vision and Languageのまとめと展望\n第6
 章 Vision Transformerの派生手法\n6-1 ViT派生手法の分類\n6-2 
 Swin Transformer\n6-3 DeiT\n6-4 CvT\n6-5 SegFormer\n6-6 TimeSformer\n6-7 
 MAE\n第7章 Transformerの謎を読み解く\n7-1 Transformerの謎に
 人々は驚き困惑した\n7-2 Positional embeddingの謎\n7-3 Multi-he
 ad Attentionの謎\n7-4 Layer Normalizationの謎\n第8章 Vision Transfo
 rmerの謎を読み解く\n8-1 ViT vs CNN vs MLPの三国時代の到来\
 n8-2 ViTはCNNと同じく局所特徴を学習する\n8-3 ViTはより
 形状に反応する?\n8-4 ViTは早期から大域的な領域も見て
 いる\n8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健
 ？\n8-6 3つのモデルの特性と使い分けの勘どころ\n8-7 ViT
 の新常識  \n参加者同士の質問・情報交換\nScribble Osaka L
 ab（SOL）のSlackワークスペースで、参加者同士の質問・
 情報共有用チャンネルを設けております。参加ご希望
 の方は、申込みフォームで招待メール送り先のEmailア
 ドレスをお教えください。
LOCATION:オンライン開催
URL:https://techplay.jp/event/890732?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
