サイバーエージェントのVLM（LLaVA-CALM2-SigLIP）を Colaboratory で味見👀 - 高橋かずひとのプログラミング、その他、備忘録。

サンプルスクリプト動かしただけですが、、、精度良さそうな気がします👀

遅くなったけど、サイバーのCALM2の日本語VLMをColabで味見した👀
最低L4のGPUじゃないとメモリ不足で動かない🦔 pic.twitter.com/5KKQxCxqLP
— 高橋かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年6月19日

以下をColaboratoryで動かしただけです。
ハイメモリ、GPUは最低L4にしないとメモリ不足で落ちます🦔

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch

model = LlavaForConditionalGeneration.from_pretrained(
    "cyberagent/llava-calm2-siglip",
    torch_dtype=torch.bfloat16,
).to(0)

processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")

prompt = """USER: <image>
この画像を説明してください。
ASSISTANT: """

url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
                              max_length=500,
                              do_sample=True,
                              temperature=0.2,
                    )
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)

print(output)