ビジョン技術の実利用ワークショップ「ViEW2023」参加報告

この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。

はじめに

こんにちは、イノベーションセンター　テクノロジー部門メディアAI PJ所属の和田、小林です。普段は画像/映像/言語/音声等メディアを入力としたAI技術（メディアAI技術）を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。

今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW2023は2023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。

ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html

ViEWについて

ViEW (Vision Engineering Workshop) は、1989年に「外観検査の⾃動化ワークショップ」としてスタートし、2003年より「ビジョン技術の実利⽤ワークショップ」と変わりました。（外観検査とは、製品や部品の表面を確認する検査業務のことを指します。）外観検査技術をはじめとした産業応用を根幹に据えながらも、現在では極めて幅広い分野をカバーしています。

今年のワークショップは2日間に渡り開催され、それぞれの日程のプログラムは以下のようなものでした。

（出典：https://view.tc-iaip.org/view/2023/index.html より引用）

各オーラルセッションではテーマが決められており（OS1は「産業応用」、OS2は「3次元・計測」等）、研究発表に加え基調講演も行われました。

インタラクティブセッションは現地でのポスター発表となっており、さまざまな大学や企業から2日間で計79件の発表が行われました。

さらに、特別講演では数理工学の世界的権威とも呼ばれる甘利俊一氏（帝京大学先端総合研究機構）の「脳と人工知能」に関する講演や、満倉靖恵氏（慶應義塾大）による「脳研究の観点からみた生成型AI」ついての講演があり、興味深い内容を聴講できました。

流行りのテーマ

今回のViEW2023で発表された全ての研究タイトルに対してWord Cloudを適用し、どんなキーワードが流行しているのかを分析してみました。

Word Cloudによる結果を見ると、「画像」や「検出」（検知）等の単語が大きく見えています。 ViEWは2002年までは外観検査の自動化を目的とするワークショップであったため、 ViEW2023でも画像から製品の状態を検出するような、産業分野での実利用を想定した研究が多く発表されました。また、「学習」や「精度」等の単語も大きく見えており、これらは検出精度を改善させるためにモデルの学習方法に対してアプローチした発表が多かったことが起因していると考えられます。

これらを踏まえて、今回は最優秀論文に選ばれた研究と未知データに対するアプローチに関する研究の2つの論文を紹介します。

小田原賞

ViEWでは毎年、最優秀論文に対して「小田原賞」が授与されています。第29回（ViEW2023）の小田原賞に選ばれたのは以下の発表でした。本節ではこちらの研究について紹介します。

山田悠正，et al，大規模視覚言語モデルのIn-Context Learningによる少量データからの外観検査

概要

こちらの研究では Large Vision-Language Model(LVLM)とIn-Context Learning（ICL）を組み合わせることで、汎用的な外観検査における新しいアプローチを提案しています。既存の Large Vision-Language Model（LVLM）に外観検査の知識を付与するため、Web 上から収集した多様な良品・不良品画像で追加学習し、In-Context Learning（ICL）を用いて良品・不良品を例示し、これらに基づいて検査画像に対して良否判定をする枠組みとなっています。

外観検査

外観検査手法の例として良品の画像データのみから学習されるPaDiM¹や画像と言語を組み合わせたSAA²が挙げられていますが、前者には検査対象の製品ごとに学習サンプルの収集とモデルの学習が必要であること、また後者には製品ごとにハイパーパラメータの調整が必要であるという課題があり、どちらも汎用外観検査モデルとはなりえないと考えられています。

手法

これから論文中で用いられている各手法について紹介します。

In-Context Learning

In-Context Learning（ICL）³とは、与えられた少数の例を用いてモデルのパラメータを更新せずに学習し、未知のデータに対して推論をする手法を指します。

Large Vision-Language Model

Large Vision-Language Model（LVLM）はLLMの知識を活用し、視覚的特徴を言語空間にマッピングすることで、CaptioningやVisual Question Answeringなどのさまざまな視覚言語タスクにおいて優れた性能を示しています。

本研究では、この既存のLarge Vision-Language Model（LVLM）に対して外観検査タスクを追加学習させることで外観検査に関する専門的な知識を強化したLarge Vision-Language Model（LVLM）とIn-Context Learning（ICL）を組み合わせることで汎用的な外観検査モデルを提案しています。

（出典：元論文図1 より引用）

Otter

OtterはIn-Context Learning（ICL）能力と指示追従能力を合わせ持つマルチモーダルモデルの開発を目的とし、Open Flamingo⁴をIn-Context Learning（ICL）かつInstruction Tuning⁵形式のデータセットで追加学習したモデルです。 Instruction Tuningは、さまざまなタスクにおいて、入力の指示に従った出力をするようにモデルの追加学習する手法です。これにより、未知のタスクに対しても指示を与えることでタスクを実行することが可能となります。

（出典：元論文図2 より引用）

Otterは、画像特徴を抽出するための画像エンコーダと言語を生成するための言語モデルと、画像エンコーダと言語モデルを接続するためのPerceiver Resamplerから構成されます。使用する画像エンコーダは CLIP ViT-L/14⁶であり、言語モデルは MosaicML Pretrained Transformer 7B⁷となっています。

実験

実験のデータセットはWeb上から収集した多様な製品の良品、不良品画像（計4,693枚）を学習データと検証データとして8：2に分割して使用しています。また、学習データ3,738枚のうち1,834枚を例示画像として使用し、1,904枚を検査画像として使用しています。

提案手法の有効性を検証するために、データセットによる追加学習の前後で、Otterの性能比較を行っています。また、評価には外観検査画像データセットであるMVTec-AD⁸を使用しています。

実験の結果、追加学習なしの場合は"Yes"や"No"で答えることができず、定量的評価が不可能な結果となっています。（例えば、"Carpet"の"Color"に対して、"This is a close-up image of a carpet, but it does not provide enough information to determine if the carpet　has any specific defects."と回答）

一方で、追加学習ありの場合は一貫した出力形式が得られ、出力形式を統一したデータセットで学習することで、定量的評価が可能であることを確認しています。

定量的評価が可能であった、追加学習後の性能を製品ごとに評価した結果が以下のように示されています。

（出典：元論文表1 より引用）

各行はMVTec-ADの各製品を表し、"Acc"の列は、各製品に対する良否判定の平均正解率を指しており、 "Carpet"、"Leather"、"Wood"において提案手法は高精度に良否判定が可能なことを確認しています。

課題・所感

論文中の実験結果では学習データに含まれていない物体を検知できていないため、従来手法のように検査対象ごとに学習サンプルを収集しモデルを学習する必要があります。汎用外観検査モデルとするためには、学習方法の改善が必要であると感じました。

未知データへの対応

ViEWでは製品検査や物体検出に関する発表が多く見られましたが、なかでも未知データに対する検出や学習のデータ作成などの工夫が見られました。機械学習による実問題の解決を考えた際にデータ不足や未知データへの対応は多くの研究者の中で課題となっていると感じます。本節では、未知物体の検出を試みた以下の発表を紹介したいと思います。

堀内裕生, et al, 未知物体の検出とクラスタリング機能を備えた物体認識手法の提案

概要

この研究は既知物体の識別性能を維持したまま、未知物体を検出してクラス識別するモデルを提案しています。工事現場や工場などの自立型作業車では周囲の環境を認識して適切に動作する必要がありますが、そのような現場では一般の画像認識データセットに含まれない特有の物体も存在しており、それらの認識が必要になります。

手法

この手法では2つのステージから構成されていました。第1ステージでは、教師ありデータを用いた未知物体検出モデルのVirtual Outlier Syhthesis（VOS）⁹によって公開大規模データセットから未知データを収集します。

第2ステージでは、まず第1ステージで取得したデータに対してDeep Clustering¹⁰を用いてラベル生成をします。具体的には画像をCNNに入力して特徴量を作成し、その特徴量を主成分分析（PCA）および正規化で次元圧縮します。それに対してk-meansによって疑似ラベルを生成し、エポックごとに疑似ラベルを更新します。次に既知・未知物体を含む画像のResNet、Region Proposal Networkによって特徴量と提案領域を取得し、物体ごとのクラス尤度を算出して学習しています。ResNetの重みは共有されるため、疑似ラベルはエポックスが進むごとに良いラベルへと更新される様になっています。

（出典：元論文図2 より引用）

実験

実験では既知・未知物体の識別精度を確認しています。ステージ1に15クラスを既知、5クラスを未知と設定したPASCAL VOCデータセット¹¹を使用し、ステージ2の推論にMS COCOデータセット¹²を使用していました。比較手法はResNet50を用いたFaster R-CNN¹³です。

識別精度の比較は下図に示します。IDが既知クラスを示し、OODが未知のクラスを示しています。これを見ると提案手法は従来手法と同等の既知クラスへの精度を維持するとともに、未知物体への識別も可能としていることがわかります。

（出典：元論文表1 より引用）

課題・所感

提案手法の課題としては疑似ラベル作成の設定があります。k-meansにおけるクラス数はユーザによる指定が必要です。未知物体のクラス数が把握できるような閉鎖的なシーンでは、ある程度指定は可能ですが他の環境・現場では未知クラス数を柔軟に変化させる必要があります。また、本来は別クラスの物体が同一クラスに分類されてしまう場合や、同一クラスの物体が別クラスに分類されてしまうと誤ったラベルで学習することになるため、疑似ラベル作成する際の分類の精度向上が必要だと感じました。

おわりに

本記事では「ViEW2023」に参加することで経験した、ワークショップ全体の内容やピックアップした研究発表を紹介しました。このような場でしか得られない知見を技術開発や支援の業務に活かしていきたいと考えています。また、今回のViEWだけではなく、私たちのチームでは技術調査としてさまざまなイベントに参加しているため、今後も機会があれば投稿したいと考えています。ありがとうございました。

Thomas Defard, et al, "PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization", ICPR, 2021.↩
Yunkang Cao, et al, "Segment Any Anomaly without Training via Hybrid Prompt Regularization", arXiv:2305.10724, 2023.↩
Tom B. Brown, et al, "Language Models are Few-Shot Learners", Advances in neural information, NeurlPS, 2020.↩
Anas Awadalla, et al, "OpenFlamingo: An Open-Source Framework for Training Large Autoregressive VisionLanguage Models", arXiv:2308.01390, 2023.↩
Jason Wei, et al, "Finetuned Language Models Are Zero-Shot Learners", arXiv:2109.01652, 2022.↩
Alec Radford, et al, "Learning Transferable Visual Models From Natural Language .Supervision", PMLR, 2021.↩
The MosaicML NLP Team, "Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs", https://www.mosaicml.com/blog/mpt-7b accessed 2023. 12.20.↩
Paul Bergmann, et al, "MVTec AD — A Comprehensive RealWorld Dataset for Unsupervised Anomaly Detection", CVPR, 2019.↩
Xuefeng Du, et al," VOS: LEARNING WHAT YOU DON'T KNOW BY VIRTUAL OUTLIER SYNTHESIS ", ICLR, (2022).↩
Mathilde Caron, et al,"Deep Clustering for Unsupervised Learning of Visual Features ", ECCV, (2018).↩
Mark Everingham, et al, "The pascal visual object classes (VOC) challenge", IJCV, (2010).↩
Tsung-Yi Lin, et al, "Microsoft coco: Common objects in context", ECCV, (2014).↩
Shaoqing Ren, et al, " Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks ", IEEE Trans. PAMI, (2017).↩