Colaboratory
ColaboratoryでStreamlitを起動するメモです。もう少し正確に言うとColaboratoryで起動したStreamlitをトンネルして、公開URLにしてアクセスするメモです👀 zenn.dev
Qwen3-VL を味見 Qwen2-VLやQwen2.5-VLも性能高くて良かったのですが、Qwen3-VLは、多様なタスク(2D物体検出や3D物体検出、OCRなど)をサポートし、日本語性能も高いので大変良いです。また個人的にはT4 CPU(2B、4B、8Bあたり)で動くのがポイント高いです…
性能が良い物体検出モデルDEIMのv2です。個人的には以下の表のとおり、AttoやFemto、Picoなど超軽量系のラインナップがあるのが凄く好みです 直近で使う予定はないのですが、使いたくなった時にすぐ使えるように、いつも通りONNX変換とColaboratory上でのト…
LFM2-VL をお試ししています軽量なVLMです。CPUでも多少時間かかりますが動作します。ただし、ライセンスがちょっと独特なので、状況によっては仕事とかだと使いにくいかも。 LFM2-VL を味見しているかなり軽量(450M、1.6B)でCPU推論も何とか動くっぽい。…
SmolVLM2の味見をしています比較的軽量(256M、500M、2.2B)なVLMですが、Flash Attention2 必須のため、Ampere GPU以上(L4以上)が必要です。 SmolVLM2の推論味見と、ファインチューニング味見をしているただ、ファインチューニングの確認に使っている医療…
Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています Gemini-2.5-Flash で 物体検出とセグメンテーション味見している物体検出はFlorence-2と同等かちょっと悪い?プロンプトの柔軟性はGemini(2枚目のプロンプトは”Find the…
Voxtral-Mini-3B を味見しています3Bでありながら、それなりのチャット性能を持ち、テキスト+オーディオへの回答や、文字起こしなども出来るモデルです。3Bの他に24Bも公開されていますが、fp16でGPU RAMが55GB必要らしいので、僕の扱える環境では動かすこ…
GLM-4.1V-9B-Thinking を味見しています👀 GLM-4.1V-9B-Thinking 味見している👀<think>てタグと、<answer>ってタグが推論結果にある pic.twitter.com/lQKSI9hkr7 — 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月5日 著者曰く、9Bというモデルサイズでありながら、18のベン</answer></think>…
AppleのFastVLMを味見しています出力トークン数が少なくなるようにすれば、それなりに早いです。 試してから気付いたのですが、Apple独自ライセンスのため、正直使いにくいと思います。 FastVLMを味見アウトプットを短くすれば、そこそこ早い pic.twitter.co…
Dense Point Tracking の alltracker を味見しています追跡性能はかなり高いと思います。が、GPU RAMはがっつり食います alltracker味見している精度は良いと思うんだけど、GPU RAM食うなーこれ。。。 pic.twitter.com/RxUZtv9nyg — 高橋 かずひと@パワポLT…
Kimi-VLを味見しています精度は良いのでしょうけど、、、試した例では、L4 GPUで推論が3分かかって、ちょっと重い感じするなー Kimi-VL味見Q.What is the dome building in the picture? Think step by step(写真のドーム型の建物は何でしょうか?段階的に…
Heron-NVILAを味見しています1B、2B、15B、33B の4種類があります(2025/5/12現在) 詳細はTuringさんのZennのテックブログに記載されています。 1Bでも、かなり良い感じに推論してくれますね Heron-NVILA を Colaboratoryで味見している1Bでもこの精度は凄…
1X年くらい音声信号処理から離れていましたが、最近触る機会があったため、ちょこちょこ色々なモデルとかアルゴリズムを味見しています 今回は、新しめ(ICASSP2024)のSpeech Enhancement(音声強調)モデルのGTCRNです。この分野だとRNNoiseとかDeepFilter…
Sarashina2-Visionを味見しています8B、14B の2種類があります(2025/3/17現在) SB Intuitionsが開発した日本語VLMで、公開されている正解率はかなり高いです。 / SB Intuitionsテックブログ新着記事のお知らせ‼️\先ほど公開した8B, 14BパラメータのVLMに…
DEIMは、RT-DETR-v2とD-FINEについて、より高速な収束と精度の向上を可能にするように設計された高度なトレーニング フレームワークです👀 いつものようにColaboratoryでトレーニングして、ONNX推論するサンプルを作りました🦔 github.com
Qwen2.5-VL を味見 Qwen2も性能高かったので、こちらも良い感じ。個人的にはT4(3B、7B)で動くのがポイント高いです。72BはColaboratoryでは動きませんが。 Qwen2.5-VLが性能高いのは分ってたけど試していなかったのでColaboratoryで実行 pic.twitter.com/W…
Ovis2を味見しています日本語も対応しているVLMも増えましたね。 1B、2B、4B、8B、16B、34Bのモデルがあります。Ampere対応のGPU必要なのでL4以上じゃないと動きませんが、推論は結構早いです(試した範囲だと5~10秒くらい)1~8BはL4 GPUで動作可能、16Bは…
Asagiを味見しています2B、4B、8B、14B の4種類があります(2025/3/1現在) VRAMの使用量はモデルサイズ相応ですね。個人的な印象ですが、ちょっと推論は重い気がします。あまり試していないので、何とも言えませんが、日本特有のものに対しての回答率が若干…
Ivy-VLを味見しています3BオンリーのVLMのようです。3Bの割には精度が高いと思いますが、Ampereアーキテクチャ対応のGPU必要なのでL4以上必須ですね。 Ivy-VLも味見中こっちは3Bオンリー?3Bの割には推論結果ボチボチだと思う。What is shown in this image?…
InternVLを味見しています 1Bや2Bなどの軽いモデルもあり、T4 GPUでも動きます。精度はふつー?いや、細かい検証とかVLMベンチ試していないので、大きな違いが分からないのですけども。 InternVLの味見1B、2B、4B、8B、26B、40Bとあるけど、1Bとか2BはT4でも…
「D-FINE は、DETR の境界ボックス回帰タスクをFDR として再定義し、GO-LSDを導入する強力なリアルタイム オブジェクト検出器であり、追加の推論およびトレーニング コストを導入することなく優れたパフォーマンスを実現します」とのこと D-FINE味見中https:…
1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している? 性能は中々だと思います。ただ、…
以下を試したときのメモをZennに書きましたまあ、正直小細工ではあります。すぐにこんな小細工も必要ないくらいGPT進化すると思っていますが。。。 OpenAIのSwarmさんで画像認識を試しています。とりあえず、GPT-4o miniが苦手な座標取得を依頼された時に、F…
以下の続きです。 ちょっとymlファイルが多いですが、あまり癖のないトレーニングコードで、サクッとColaboratoryで動かせました RT-DETR(v2)をColaboratoryでトレーニングするサンプルも放流https://t.co/EuKfAaR701 pic.twitter.com/pIk8vY0rCk — 高橋 か…
Molmoより先に試していたのですが、、、Molmoが突如現れて、一部の認識機能(位置把握とかカウント能力)でちょっと衝撃的だったので、後回しにしてしまっていました。。。 一番小さいモデルで0.5BのVLMです。ただ、Flash Attention採用してて、Ampereアーキ…
VLMもじゃんじゃんリリースされますね。Apache2.0 の OSS で GPT4V より認識性能が高いらしいです GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな2枚目は可視化したものだけど、位置も良さそう pic.twitter.com/J4NvC7CrT5 — 高橋 か…
とりあえず動かしたノートブックです。ちょっと色々試す時間なかったので、いったん共有です👻 github.com
CartoonSegmentation触った関連と言うことで、Anime-Segmentation を触っています。ちょっとタスクは違いますが。。。(CartoonSegmentationはインスタンスセグメンテーション、Anime-Segmentation はセマンティックセグメンテーションによる前景抽出、のよ…
SegGPTを試しています。 SegGPTをColaboratoryでお試ししているリファレンス画像とマスク指定を用意して、対象物のセグメンテーションを行うモデルですね pic.twitter.com/syYtm4uYCr — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月11日 試すだけ…
CartoonSegmentation のオリジナルはmmcv関連のパッケージがインストール必要で、ちょっと環境構築が面倒だったのですが、ONNXに変換してくれているリポジトリがあったため、Colaboratoryで試してみました。 CartoonSegmentationのONNX助かるーオリジナルリ…