サンプルスクリプト動かしただけですが、、、 精度良さそうな気がします👀
遅くなったけど、サイバーのCALM2の日本語VLMをColabで味見した👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年6月19日
最低L4のGPUじゃないとメモリ不足で動かない🦔 pic.twitter.com/5KKQxCxqLP
以下をColaboratoryで動かしただけです。
ハイメモリ、GPUは最低L4にしないとメモリ不足で落ちます🦔
from PIL import Image import requests from transformers import AutoProcessor, LlavaForConditionalGeneration import torch model = LlavaForConditionalGeneration.from_pretrained( "cyberagent/llava-calm2-siglip", torch_dtype=torch.bfloat16, ).to(0) processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip") prompt = """USER: <image> この画像を説明してください。 ASSISTANT: """ url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640" image = Image.open(requests.get(url, stream=True).raw).convert("RGB") inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16) generate_ids = model.generate(**inputs, max_length=500, do_sample=True, temperature=0.2, ) output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False) print(output)