BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:【オンライン開催】『Vision Transformer入門』読
 書会#6
X-WR-CALNAME:【オンライン開催】『Vision Transformer入門』読
 書会#6
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:894484@techplay.jp
SUMMARY:【オンライン開催】『Vision Transformer入門』読書会#
 6
DTSTART;TZID=Asia/Tokyo:20230308T200000
DTEND;TZID=Asia/Tokyo:20230308T210000
DTSTAMP:20260407T192345Z
CREATED:20230301T142846Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/89448
 4?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n次回は第4章
 6の2からスタートします。\n開催趣旨\n本勉強会では、
 画像認識モデルについて理解を深めることを目的とし
 、下記の本を一章ずつ取り上げていく予定です。事前
 に予習し、コードを一通り動かしてから参加されるこ
 とをオススメします。参加者同士の質問・意見交換や
 ディスカッションをメインに進めていく予定です。  \n
 『Vision Transformer入門 Computer Vision Library』（\n片岡裕雄
 　監修，山本晋太郎，徳永匡臣，箕浦大晃，邱玥（QIU 
 YUE），品川政太朗　著\, 技術評論社\, 2022年9月）    \n
 ※ 書籍はご自身で入手のうえ、ご参加ください。  \n
 参加対象者\n\n画像認識モデルの理解・Pythonによる実装
 力を高め、業務や研究に活用した社会人・学生・研究
 者の方  \nPythonの基礎的な文法やJupter Notebook、Google Colab
 oratoryの基本的な使い方を習得されている方\n\n参加方
 法\nConnpassの「参加者への情報」に記載のzoomリンクよ
 りご参加ください。  \n勉強会の進め方\n\nその日に取
 り扱う章を前もって各自ご自身で読み進めておいてく
 ださい。  \n勉強会では、皆で書籍の内容を確認しなが
 ら、必要に応じて実際にコードを動かしていきます。 
  \nポイントごとに立ち止まって疑問点をぶつけ合い、
 意見交換し、理解を深めていければと思います。  \n\n
 ※ 一人が資料準備してきて一方的にレクチャーする形
 式ではなく、参加者同士インタラクティブにディスカ
 ッションしながら進めていきます。\n書籍の紹介文（ht
 tps://gihyo.jp/book/2022/978-4-297-13058-9）\n以下、書籍紹介ペ
 ージより抜粋  \n自然言語処理分野におけるブレイクス
 ルーとなったTransformerをコンピュータビジョンに応用
 したモデルがVision Transformer（ViT）です。さまざまなコ
 ンピュータビジョンのタスクにおいて，ディープラー
 ニングではスタンダードとなっているRNN，CNN，および
 既存手法を用いた処理精度を上回ることが確認されて
 います。  \n本書は注目のViTの入門書です。Transformerの
 成り立ちからはじめ，その理論と実装を解説していき
 ます。今後のViTの活用が期待される応用タスク，ViTか
 ら派生したモデルを紹介したあと，TransoformerとViTを分
 析し，その謎を解明していきます。今後も普及が期待
 されるViTを盛りだくさんでお届けします。    \n【目次
 】  \n第1章 TransformerからVision Transformerへの進化\n1-1 自
 然言語処理におけるTransformerの登場\n1-2 Vision and language
 への拡張\n1-3 コンピュータビジョンにおけるTransformer\n
 第2章 Vision Transformerの基礎と実装\n2-1 準備\n2-2 ViTの全
 体像\n2-3 Input Layer\n2-4 Self-Attention\n2-5 Encoder\n2-6 ViTの実
 装\n第3章 実験と可視化によるVision Transformerの探求\n3-1 
 実験の概要\n3-2 使用するデータセット\n3-3 実験条件\n3-
 4 既存手法との比較\n3-5 データ拡張における比較\n3-6 
 位置埋め込みの可視化\n3-7 ViTにおける判断根拠の可視
 化\n3-8 ViTが捉えているモノ\n第4章 コンピュータビジョ
 ンタスクへの応用\n4-1 コンピュータビジョンのサブタ
 スク\n4-2 画像認識への応用\n4-3 物体検出、セマンティ
 ックセグメンテーションへの応用\n4-4 ビデオ認識への
 応用\n4-5 オブジェクトトラッキングへの応用\n4-6 3Dビ
 ジョンへの応用\n4-7 その他のコンピュータビジョンサ
 ブタスクへの応用\n4-8 Transformer応用のまとめと展望\n第
 5章 Vision and Languageタスクへの応用\n5-1 Vision and Languageの
 サブタスク\n5-2 VQAへの応用\n5-3 Image Captioningへの応用\n5
 -4 Embodied AIへの応用\n5-5 その他のVision and Languageサブタ
 スクへの応用\n5-6 Vision and Languageのまとめと展望\n第6章
  Vision Transformerの派生手法\n6-1 ViT派生手法の分類\n6-2 Swi
 n Transformer\n6-3 DeiT\n6-4 CvT\n6-5 SegFormer\n6-6 TimeSformer\n6-7 MAE
 \n第7章 Transformerの謎を読み解く\n7-1 Transformerの謎に人
 々は驚き困惑した\n7-2 Positional embeddingの謎\n7-3 Multi-head 
 Attentionの謎\n7-4 Layer Normalizationの謎\n第8章 Vision Transforme
 rの謎を読み解く\n8-1 ViT vs CNN vs MLPの三国時代の到来\n8-
 2 ViTはCNNと同じく局所特徴を学習する\n8-3 ViTはより形
 状に反応する?\n8-4 ViTは早期から大域的な領域も見てい
 る\n8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健？\
 n8-6 3つのモデルの特性と使い分けの勘どころ\n8-7 ViTの
 新常識  \n参加者同士の質問・情報交換\nScribble Osaka Lab
 （SOL）のSlackワークスペースで、参加者同士の質問・
 情報共有用チャンネルを設けております。参加ご希望
 の方は、申込みフォームで招待メール送り先のEmailア
 ドレスをお教えください。
LOCATION:オンライン開催
URL:https://techplay.jp/event/894484?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
