コンピュータビジョン最前線 Winter 2024
書籍情報
発売日 : 2024年12月10日
著者/編集 : 井尻 善久/牛久 祥孝/片岡 裕雄/藤吉 弘亘/延原 章平
出版社 : 共立出版
発行形態 : 全集・双書
書籍説明
内容紹介
【最新動向サーベイ】「イマドキノDNNの枝刈り」高性能で軽量なDNN(deep neural network)を作成するために、既存の大規模モデルの性能を維持しつつ、DNNのモデルサイズを圧縮する試みがある。そのアプローチの一つが、DNNの重みに対する枝刈りである。本稿では枝刈りに焦点を当て、モデルサイズを圧縮するための枝刈り技術の代表的な手法を紹介するとともに、より低い計算量で枝刈りを行うイマドキノ試みについても紹介。/「イマドキノマルチモーダルLLM」マルチモーダルLLM(MM-LLM)の包括的なサーベイを、最近の進歩に焦点を当てて紹介。モデルアーキテクチャを5つの構成要素に分類し、一般的な設計定式化と訓練パイプラインの概要を示したのち、様々な最先端のMM-LLMをそれぞれ特有の定式化により分けて解説する。
【論文フカヨミ】「フカヨミマルチカメラBEV認識」3次元のシーン理解を行うための認識技術の一例として、マルチカメラによるBEV(bird’s eye view; 鳥瞰視点)認識技術を解説。自動運転分野におけるBEV 認識の定義について筆者なりの解釈を述べ、マルチカメラBEV認識を理解に欠かせないコア技術として、画像をBEVに変換する視点変換のアプローチについて、いくつかの潮流に分けて説明。次にマルチカメラBEV認識の代表的な手法BEVDetとBEVFormerの2つを解説し、最新の技術動向をもとに今後の展望について議論する。/「フカヨミ計画指向End-to-End自動運転」自動運転システムにおけるDNNベースのアプローチで特に注目を集めているのがビジョンベースのEnd-to-End自動運転フレームワークである。UniAD は、End-to-Endフレームワークを発展させ、経路計画を念頭において設計を行う計画指向哲学を提案した研究である。本稿では、計画指向なEnd-to-End自律走行モデルについての研究動向と、UniADモデルの詳細について解説する。
【チュートリアル】「ニュウモン一人称ビジョン」『コンピュータビジョン Winter2023』掲載の「イマドキノ一人称ビジョン」に続く「一人称ビジョン」記事第2弾。本稿では、『Winter 2023』で扱いきれなかった個々の手法の詳細に重点を置いて解説。一人称視点映像を用いたタスクに取り組むためのテクニックや具体的なデータセット・モデルに焦点を当てた、より実践的な入門ガイドを提供する。
そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(後編)」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「Happy AI」を掲載。
巻頭言(斎藤英雄)
イマドキノDNNの枝刈り -より軽量なネットワークを目指して!-(小濱大和)
イマドキノマルチモーダルLLM -マルチモーダルLLM の最新動向を深追い!-(Chenhui Chu・Duzhen Zhang・Yahan Yu)
フカヨミマルチカメラBEV認識 -自動運転の未来を切り拓く画像認識の世界ー(重中亨介)
フカヨミ計画指向End-to-End -自動運転UniAD の核心に迫れ!-(阿部理也)
ニュウモン一人称ビジョン -人間中心の視覚理解に向けた処方箋ー(八木拓真)
CV人材のための作業効率アップ研究所(後編)(中村凌)
CVイベントカレンダー
Happy AI(こしあんホワイト(原作)・ひーみや(作画))
【論文フカヨミ】「フカヨミマルチカメラBEV認識」3次元のシーン理解を行うための認識技術の一例として、マルチカメラによるBEV(bird’s eye view; 鳥瞰視点)認識技術を解説。自動運転分野におけるBEV 認識の定義について筆者なりの解釈を述べ、マルチカメラBEV認識を理解に欠かせないコア技術として、画像をBEVに変換する視点変換のアプローチについて、いくつかの潮流に分けて説明。次にマルチカメラBEV認識の代表的な手法BEVDetとBEVFormerの2つを解説し、最新の技術動向をもとに今後の展望について議論する。/「フカヨミ計画指向End-to-End自動運転」自動運転システムにおけるDNNベースのアプローチで特に注目を集めているのがビジョンベースのEnd-to-End自動運転フレームワークである。UniAD は、End-to-Endフレームワークを発展させ、経路計画を念頭において設計を行う計画指向哲学を提案した研究である。本稿では、計画指向なEnd-to-End自律走行モデルについての研究動向と、UniADモデルの詳細について解説する。
【チュートリアル】「ニュウモン一人称ビジョン」『コンピュータビジョン Winter2023』掲載の「イマドキノ一人称ビジョン」に続く「一人称ビジョン」記事第2弾。本稿では、『Winter 2023』で扱いきれなかった個々の手法の詳細に重点を置いて解説。一人称視点映像を用いたタスクに取り組むためのテクニックや具体的なデータセット・モデルに焦点を当てた、より実践的な入門ガイドを提供する。
そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(後編)」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「Happy AI」を掲載。
巻頭言(斎藤英雄)
イマドキノDNNの枝刈り -より軽量なネットワークを目指して!-(小濱大和)
イマドキノマルチモーダルLLM -マルチモーダルLLM の最新動向を深追い!-(Chenhui Chu・Duzhen Zhang・Yahan Yu)
フカヨミマルチカメラBEV認識 -自動運転の未来を切り拓く画像認識の世界ー(重中亨介)
フカヨミ計画指向End-to-End -自動運転UniAD の核心に迫れ!-(阿部理也)
ニュウモン一人称ビジョン -人間中心の視覚理解に向けた処方箋ー(八木拓真)
CV人材のための作業効率アップ研究所(後編)(中村凌)
CVイベントカレンダー
Happy AI(こしあんホワイト(原作)・ひーみや(作画))
著者情報
井尻 善久
牛久 祥孝
片岡 裕雄
藤吉 弘亘
延原 章平