VLMは結構興味あって、案件やプライベート含めちょいちょい試しています👀
身も蓋も無いこと言うと、現時点ではGPT4V(要課金)の性能が図抜けているのですが、、、
OSSで簡単に動かせるVLMも、turingmotors/heron や tosiyuki/LLaVA-JP など出てきていて、前提や用途を限定すればかなり使える状況になってきました。
以下は、LLaVA-JPをお試ししている時に画像です。
LLaVA-JP-1.3Bさん特に修正無しで、CPUで推論できるじゃん👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年1月9日
良き🦔 pic.twitter.com/QaiVymEdif
お試しに使用したColaboratoryノートブックはZennの投稿と共に公開しています🦔