高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

MiniCPM-V2.6 を Colaboratory でお試し🔍

MiniCPM-V2.6 は、単一画像、複数画像、動画などを処理できるマルチモーダルLLMです。
個人的な感想ですが、この手のローカルで動かせるVLMで、複数画像や動画を処理できるものは珍しい気がしますね👀

MiniCPM-V2.6は、公式の説明では以下のような特徴があるらしいです。

  • 合計8Bパラメータ
  • 単一画像、複数画像、およびビデオ理解においてGPT-4Vを上回ります
  • 単一画像理解ではGPT-4o mini、Gemini 1.5 Pro、Claude 3.5 Sonnetよりも優れている
  • 強力なOCR機能
  • 多言語サポート
  • エンドサイド展開
  • 優れたトークン密度で、MiniCPM-V 2.6はiPadなどのエンドサイドデバイスでのリアルタイムビデオ理解をサポート

Colaboratoryで試した感じ、速度の割に結構精度が良いように感じます🦔

 

今回試したノートブックは以下にコミットしています🦔

github.com