高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

SmolVLM2 を Colaboratory でお試し🦔

SmolVLM2の味見をしています👀
比較的軽量(256M、500M、2.2B)なVLMですが、Flash Attention2 必須のため、Ampere GPU以上(L4以上)が必要です。

 

今までもちょいちょいVLM試してきましたが、数枚の画像を推論したくらいだと、正直もう制度の違いがあんまり判らない状況です(推論速度は結構違いますが)

なので、今回からはファインチューニングも併せて試していこうかと思っています。
医療用QA向け小規模データセットを使っているのですが、これはちょっと難しすぎるので、なんかよいデータセット探すか、自分で作るかしたいですね🦔

 

今回、お試ししたノートブックは以下にコミットしています。

github.com