高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

VLM

PyCon mini 東海 2024で発表してきました & レポート

はじめに Pycon mini 東海 2024 でトーク発表してきました。今年は全然LTとか発表していなくて、ここでの発表で今年2回目でした。久々すぎて緊張しましたね。。。( ´ー`)y-~~でも、オフラインの発表でしか出ない脳汁があることを再認識しました 会場は、中…

Janus-1.3B を Colaboratory でお試し🦔

1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している? 性能は中々だと思います。ただ、…

OpenAI の Swarm で 画像認識したり、処理の移譲をするメモ🐝

以下を試したときのメモをZennに書きましたまあ、正直小細工ではあります。すぐにこんな小細工も必要ないくらいGPT進化すると思っていますが。。。 OpenAIのSwarmさんで画像認識を試しています。とりあえず、GPT-4o miniが苦手な座標取得を依頼された時に、F…

Phantom を Colaboratory でお試し🦔

Molmoより先に試していたのですが、、、Molmoが突如現れて、一部の認識機能(位置把握とかカウント能力)でちょっと衝撃的だったので、後回しにしてしまっていました。。。 一番小さいモデルで0.5BのVLMです。ただ、Flash Attention採用してて、Ampereアーキ…

Molmo を Colaboratory でお試し🦔

VLMもじゃんじゃんリリースされますね。Apache2.0 の OSS で GPT4V より認識性能が高いらしいです GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな2枚目は可視化したものだけど、位置も良さそう pic.twitter.com/J4NvC7CrT5 — 高橋 か…

Phi3.5-Vision を Colaboratory でお試し👀

とりあえず動かしたノートブックです。ちょっと色々試す時間なかったので、いったん共有です👻 github.com

Qwen2-VLをColaboratoryでお試し🦔

Alibaba が 公開した Qwen2-VL を Colaboratoryでお試ししていますいくらか試していますが、かなり認識性能が高い気がします。多言語対応していて、日本語入力、日本語回答が出来るのもポイント高いですね。 そういえば、オープンな重みで日本語入力、日本語…

Large Language Mario:VLMはやっぱり位置関係の把握が苦手🍄?

苦手です ※2024年8月30日現在 と言うか、前々から色々なVLMに対して言及されていた課題ではありますが、、、(特にGPT4Vで指摘されることが多い印象) お仕事でプロトタイプ検証した時も感じておりましたが、仕事の内容なので、はてブに書くわけにもいかず、…

MiniCPM-V2.6 を Colaboratory でお試し🔍

MiniCPM-V2.6 は、単一画像、複数画像、動画などを処理できるマルチモーダルLLMです。個人的な感想ですが、この手のローカルで動かせるVLMで、複数画像や動画を処理できるものは珍しい気がしますね MiniCPM-V2.6は、公式の説明では以下のような特徴があるら…

Florence 2 を Colaboratory でお試し🔍

Microsoft が 公開している軽量VLMのFlorence 2をColaboratoryで味見しています。 Florence 2 は以下のようなタスクが実行できるモデルです。一般的にVLMで言う、フリーワードでのプロンプトではなく、タスクに応じたプロンプトの指定が必要です。 CAPTION:…

MobileVLM V2 を Colaboratory でお試し🔍

軽量なVLMのMobileVLM V2です。以下はシンプルなプロンプトですが、T4 GPUで約250msとかなり早いです そーいえば、MobileVLMも触りかけて放置してたのですが、Colaboratoryで改めて触りましたシンプルなプロンプトですが、T4 GPUで約250msと言うのは流石に早…

サイバーエージェントのVLM(LLaVA-CALM2-SigLIP)を Colaboratory で味見👀

サンプルスクリプト動かしただけですが、、、 精度良さそうな気がします 遅くなったけど、サイバーのCALM2の日本語VLMをColabで味見した最低L4のGPUじゃないとメモリ不足で動かない pic.twitter.com/5KKQxCxqLP— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs)…

ChatGPTのAPI(モデル:gpt-4o-2024-05-13)をお試し👀

進化していますね どーいう学習とかアーキ変更とかしたら、スキマナースに対応できるよーになるのか分からん https://t.co/cL8eh9tcuK — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年5月13日 これ読めてるのすげーな「鉢は金属製で、1つの鉢には「TOD…

LLaVA-JPをColaboratoryでお試し。

VLMは結構興味あって、案件やプライベート含めちょいちょい試しています 身も蓋も無いこと言うと、現時点ではGPT4V(要課金)の性能が図抜けているのですが、、、OSSで簡単に動かせるVLMも、turingmotors/heron や tosiyuki/LLaVA-JP など出てきていて、前提…