BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:【オンライン開催】『Vision Transformer入門』読
 書会#2
X-WR-CALNAME:【オンライン開催】『Vision Transformer入門』読
 書会#2
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:889773@techplay.jp
SUMMARY:【オンライン開催】『Vision Transformer入門』読書会#
 2
DTSTART;TZID=Asia/Tokyo:20230201T200000
DTEND;TZID=Asia/Tokyo:20230201T210000
DTSTAMP:20260423T000559Z
CREATED:20230125T143904Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/88977
 3?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n次回は第2章
 からスタートします。\n開催趣旨\n本勉強会では、画像
 認識モデルについて理解を深めることを目的とし、下
 記の本を一章ずつ取り上げていく予定です。事前に予
 習し、コードを一通り動かしてから参加されることを
 オススメします。参加者同士の質問・意見交換やディ
 スカッションをメインに進めていく予定です。  \n『Vis
 ion Transformer入門 Computer Vision Library』（\n片岡裕雄　監
 修，山本晋太郎，徳永匡臣，箕浦大晃，邱玥（QIU YUE）
 ，品川政太朗　著\, 技術評論社\, 2022年9月）    \n※ 書
 籍はご自身で入手のうえ、ご参加ください。  \n参加対
 象者\n\n画像認識モデルの理解・Pythonによる実装力を高
 め、業務や研究に活用した社会人・学生・研究者の方 
  \nPythonの基礎的な文法やJupter Notebook、Google Colaboratoryの
 基本的な使い方を習得されている方\n\n参加方法\nConnpas
 sの「参加者への情報」に記載のzoomリンクよりご参加
 ください。  \n勉強会の進め方\n\nその日に取り扱う章
 を前もって各自ご自身で読み進めておいてください。 
  \n勉強会では、皆で書籍の内容を確認しながら、必要
 に応じて実際にコードを動かしていきます。  \nポイン
 トごとに立ち止まって疑問点をぶつけ合い、意見交換
 し、理解を深めていければと思います。  \n\n※ 一人が
 資料準備してきて一方的にレクチャーする形式ではな
 く、参加者同士インタラクティブにディスカッション
 しながら進めていきます。\n書籍の紹介文（https://gihyo.
 jp/book/2022/978-4-297-13058-9）\n以下、書籍紹介ページより
 抜粋  \n自然言語処理分野におけるブレイクスルーとな
 ったTransformerをコンピュータビジョンに応用したモデ
 ルがVision Transformer（ViT）です。さまざまなコンピュー
 タビジョンのタスクにおいて，ディープラーニングで
 はスタンダードとなっているRNN，CNN，および既存手法
 を用いた処理精度を上回ることが確認されています。 
  \n本書は注目のViTの入門書です。Transformerの成り立ち
 からはじめ，その理論と実装を解説していきます。今
 後のViTの活用が期待される応用タスク，ViTから派生し
 たモデルを紹介したあと，TransoformerとViTを分析し，そ
 の謎を解明していきます。今後も普及が期待されるViT
 を盛りだくさんでお届けします。    \n【目次】  \n第1
 章 TransformerからVision Transformerへの進化\n1-1 自然言語処
 理におけるTransformerの登場\n1-2 Vision and languageへの拡張\
 n1-3 コンピュータビジョンにおけるTransformer\n第2章 Visio
 n Transformerの基礎と実装\n2-1 準備\n2-2 ViTの全体像\n2-3 Inp
 ut Layer\n2-4 Self-Attention\n2-5 Encoder\n2-6 ViTの実装\n第3章 実
 験と可視化によるVision Transformerの探求\n3-1 実験の概要\
 n3-2 使用するデータセット\n3-3 実験条件\n3-4 既存手法
 との比較\n3-5 データ拡張における比較\n3-6 位置埋め込
 みの可視化\n3-7 ViTにおける判断根拠の可視化\n3-8 ViTが
 捉えているモノ\n第4章 コンピュータビジョンタスクへ
 の応用\n4-1 コンピュータビジョンのサブタスク\n4-2 画
 像認識への応用\n4-3 物体検出、セマンティックセグメ
 ンテーションへの応用\n4-4 ビデオ認識への応用\n4-5 オ
 ブジェクトトラッキングへの応用\n4-6 3Dビジョンへの
 応用\n4-7 その他のコンピュータビジョンサブタスクへ
 の応用\n4-8 Transformer応用のまとめと展望\n第5章 Vision and
  Languageタスクへの応用\n5-1 Vision and Languageのサブタスク
 \n5-2 VQAへの応用\n5-3 Image Captioningへの応用\n5-4 Embodied AI
 への応用\n5-5 その他のVision and Languageサブタスクへの応
 用\n5-6 Vision and Languageのまとめと展望\n第6章 Vision Transfo
 rmerの派生手法\n6-1 ViT派生手法の分類\n6-2 Swin Transformer\n
 6-3 DeiT\n6-4 CvT\n6-5 SegFormer\n6-6 TimeSformer\n6-7 MAE\n第7章 Trans
 formerの謎を読み解く\n7-1 Transformerの謎に人々は驚き困
 惑した\n7-2 Positional embeddingの謎\n7-3 Multi-head Attentionの謎
 \n7-4 Layer Normalizationの謎\n第8章 Vision Transformerの謎を読
 み解く\n8-1 ViT vs CNN vs MLPの三国時代の到来\n8-2 ViTはCNN
 と同じく局所特徴を学習する\n8-3 ViTはより形状に反応
 する?\n8-4 ViTは早期から大域的な領域も見ている\n8-5 ViT
 はCNNやMLPよりもノイズや敵対的攻撃に頑健？\n8-6 3つの
 モデルの特性と使い分けの勘どころ\n8-7 ViTの新常識  \n
 参加者同士の質問・情報交換\nScribble Osaka Lab（SOL）のSl
 ackワークスペースで、参加者同士の質問・情報共有用
 チャンネルを設けております。参加ご希望の方は、申
 込みフォームで招待メール送り先のEmailアドレスをお
 教えください。
LOCATION:オンライン開催
URL:https://techplay.jp/event/889773?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
