SmolVLM2の味見をしています👀
比較的軽量(256M、500M、2.2B)なVLMですが、Flash Attention2 必須のため、Ampere GPU以上(L4以上)が必要です。
SmolVLM2の推論味見と、ファインチューニング味見をしている👀
— 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年9月1日
ただ、ファインチューニングの確認に使っている医療用QA向け小規模データセットが難易度高めなので、正直回答は当たらない🦔 pic.twitter.com/tNx8P2V4mD
今までもちょいちょいVLM試してきましたが、数枚の画像を推論したくらいだと、正直もう制度の違いがあんまり判らない状況です(推論速度は結構違いますが)
なので、今回からはファインチューニングも併せて試していこうかと思っています。
医療用QA向け小規模データセットを使っているのですが、これはちょっと難しすぎるので、なんかよいデータセット探すか、自分で作るかしたいですね🦔
今回、お試ししたノートブックは以下にコミットしています。