Alibaba が 公開した Qwen2-VL を Colaboratoryでお試ししています👀
いくらか試していますが、かなり認識性能が高い気がします。
多言語対応していて、日本語入力、日本語回答が出来るのもポイント高いですね。
そういえば、オープンな重みで日本語入力、日本語回答が出せるVLMって珍しいな👀 https://t.co/dtmCl3N75K pic.twitter.com/BjfE20Uk33
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月4日
動画の処理も可能なのですが、、、
かなりGPU RAMが必要なので、強めのGPU用意必須です。
ColaboratoryのサンプルではT4 GPU前提で作成していて、動画は冒頭5秒のみ1fpsでの処理で動かしています。
今回お試ししたノートブックは以下にコミットしています🦔