1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。
ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している👀?
性能は中々だと思います。
ただ、Flash Attention2必須なので、ColaboratoryだとL4以上のGPUが必要です。
うーん、1.3Bでこの性能はなかなか、、、🤔
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年10月18日
と言うか、最近のVLMさん、MITSUKOSHIくらいなら余裕で読み取るな👀 pic.twitter.com/nZznwZ3I5H
公式のサンプルを少し整理して動かしただけですが、ノートブックは以下にコミットしています。