VLMもじゃんじゃんリリースされますね。
Apache2.0 の OSS で GPT4V より認識性能が高いらしいです🦔
GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月26日
2枚目は可視化したものだけど、位置も良さそう🤔 pic.twitter.com/J4NvC7CrT5
レトロゲームの画面認識も、今までのVLMよりもかなり性能高い気がします👀
【Molmo-7B-D-0924の追加情報】
— 金のニワトリ (@gosrum) 2024年9月26日
日本語OCRはできなかったけど、画像中のオブジェクトの座標を精度良く取得出来ると聞いてデモで試してみました。
確かにかなり精度が良さそうで、このモデル実はめちゃくちゃ汎用性が高いかも知れない...! https://t.co/HhBlnWGbq8 pic.twitter.com/AKbdrAx1KV
ノートブックは以下にコミットしています。