【オンライン開催】『Vision Transformer入門』読書会#8

2023/03/22(水)20:00 〜 21:00 開催

ブックマーク

#Python, #読書会, #自然言語処理

イベント内容

次回は第6章からスタートします。

開催趣旨

本勉強会では、画像認識モデルについて理解を深めることを目的とし、下記の本を一章ずつ取り上げていく予定です。事前に予習し、コードを一通り動かしてから参加されることをオススメします。参加者同士の質問・意見交換やディスカッションをメインに進めていく予定です。

『Vision Transformer入門 Computer Vision Library』（片岡裕雄　監修，山本晋太郎，徳永匡臣，箕浦大晃，邱玥（QIU YUE），品川政太朗　著, 技術評論社, 2022年9月）

※ 書籍はご自身で入手のうえ、ご参加ください。

参加対象者

画像認識モデルの理解・Pythonによる実装力を高め、業務や研究に活用した社会人・学生・研究者の方
Pythonの基礎的な文法やJupter Notebook、Google Colaboratoryの基本的な使い方を習得されている方

参加方法

Connpassの「参加者への情報」に記載のzoomリンクよりご参加ください。

勉強会の進め方

その日に取り扱う章を前もって各自ご自身で読み進めておいてください。
勉強会では、皆で書籍の内容を確認しながら、必要に応じて実際にコードを動かしていきます。
ポイントごとに立ち止まって疑問点をぶつけ合い、意見交換し、理解を深めていければと思います。

※ 一人が資料準備してきて一方的にレクチャーする形式ではなく、参加者同士インタラクティブにディスカッションしながら進めていきます。

書籍の紹介文（https://gihyo.jp/book/2022/978-4-297-13058-9）

以下、書籍紹介ページより抜粋

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer（ViT）です。さまざまなコンピュータビジョンのタスクにおいて，ディープラーニングではスタンダードとなっているRNN，CNN，および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ，その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク，ViTから派生したモデルを紹介したあと，TransoformerとViTを分析し，その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

【目次】

第1章 TransformerからVision Transformerへの進化
1-1 自然言語処理におけるTransformerの登場
1-2 Vision and languageへの拡張
1-3 コンピュータビジョンにおけるTransformer
第2章 Vision Transformerの基礎と実装
2-1 準備
2-2 ViTの全体像
2-3 Input Layer
2-4 Self-Attention
2-5 Encoder
2-6 ViTの実装
第3章実験と可視化によるVision Transformerの探求
3-1 実験の概要
3-2 使用するデータセット
3-3 実験条件
3-4 既存手法との比較
3-5 データ拡張における比較
3-6 位置埋め込みの可視化
3-7 ViTにおける判断根拠の可視化
3-8 ViTが捉えているモノ
第4章コンピュータビジョンタスクへの応用
4-1 コンピュータビジョンのサブタスク
4-2 画像認識への応用
4-3 物体検出、セマンティックセグメンテーションへの応用
4-4 ビデオ認識への応用
4-5 オブジェクトトラッキングへの応用
4-6 3Dビジョンへの応用
4-7 その他のコンピュータビジョンサブタスクへの応用
4-8 Transformer応用のまとめと展望
第5章 Vision and Languageタスクへの応用
5-1 Vision and Languageのサブタスク
5-2 VQAへの応用
5-3 Image Captioningへの応用
5-4 Embodied AIへの応用
5-5 その他のVision and Languageサブタスクへの応用
5-6 Vision and Languageのまとめと展望
第6章 Vision Transformerの派生手法
6-1 ViT派生手法の分類
6-2 Swin Transformer
6-3 DeiT
6-4 CvT
6-5 SegFormer
6-6 TimeSformer
6-7 MAE
第7章 Transformerの謎を読み解く
7-1 Transformerの謎に人々は驚き困惑した
7-2 Positional embeddingの謎
7-3 Multi-head Attentionの謎
7-4 Layer Normalizationの謎
第8章 Vision Transformerの謎を読み解く
8-1 ViT vs CNN vs MLPの三国時代の到来
8-2 ViTはCNNと同じく局所特徴を学習する
8-3 ViTはより形状に反応する?
8-4 ViTは早期から大域的な領域も見ている
8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健？
8-6 3つのモデルの特性と使い分けの勘どころ
8-7 ViTの新常識