こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、 画像も扱うことができるGPT-4 with vision(GPT-4V)が発表 されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT