Qwen3-VL を Colaboratory でお試し🦔

機械学習物体検出 VLM Python Colaboratory

Qwen3-VL を味見 Qwen2-VLやQwen2.5-VLも性能高くて良かったのですが、Qwen3-VLは、多様なタスク（2D物体検出や3D物体検出、OCRなど）をサポートし、日本語性能も高いので大変良いです。また個人的にはT4 CPU（2B、4B、8Bあたり）で動くのがポイント高いです…

2025-10-08

DEIMv2 の ONNX変換と Colaboratory上でのトレーニング👀

機械学習物体検出 Python ONNX Colaboratory

性能が良い物体検出モデルDEIMのv2です。個人的には以下の表のとおり、AttoやFemto、Picoなど超軽量系のラインナップがあるのが凄く好みです直近で使う予定はないのですが、使いたくなった時にすぐ使えるように、いつも通りONNX変換とColaboratory上でのト…

2025-10-07

音声強調モデル LiSenNet をONNXに変換🦔

機械学習 Python ONNX DSP

入力した音声のノイズ低減と音声強調を行うモデルです。軽量を謳っているモデルなのですが、Griffin-Limアルゴリズム（反復処理 & 出力チャンクより未来のデータが必要）を採用しているため、僕が使いたい用途では使いにくいため、リポジトリ公開して供養👻 g…

2025-10-02

音声復元モデル VoiceFixer をONNXに変換🦔

機械学習 Python ONNX DSP

劣化した音声をデノイズした上で、復元するモデルです。僕の使いたい用途には重すぎて、使い道がなくなってしまったので、リポジトリ公開して供養ちょっと古いモデルですが、精度は結構良いと思います供養供養ONNX変換したけど、僕の使いたい用途には重す…

2025-09-07

PINTO_model_zoo：インスタンスセグメンテーション（470_RHIS）味見👀

機械学習 Python ONNX Semantic Segmentation

インスタンスセグメンテーションです。特徴的な構造として、このモデルには物体検出部分は含まれないため、自分の好きな物体検出モデルの検出結果と組み合わせて使用します。そのため、このモデルの入力は、画像とROIの2入力ですセグメンテーション結果は…

2025-09-01

LFM2-VL を Colaboratory でお試し🦔

機械学習 VLM Python Colaboratory

LFM2-VL をお試ししています軽量なVLMです。CPUでも多少時間かかりますが動作します。ただし、ライセンスがちょっと独特なので、状況によっては仕事とかだと使いにくいかも。 LFM2-VL を味見しているかなり軽量（450M、1.6B）でCPU推論も何とか動くっぽい。…

2025-09-01

SmolVLM2 を Colaboratory でお試し🦔

機械学習 VLM Python Colaboratory

SmolVLM2の味見をしています比較的軽量（256M、500M、2.2B）なVLMですが、Flash Attention2 必須のため、Ampere GPU以上（L4以上）が必要です。 SmolVLM2の推論味見と、ファインチューニング味見をしているただ、ファインチューニングの確認に使っている医療…

2025-07-23

Gemini-2.5-Flash の物体検出・セグメンテーションをAPIでお試し🦔

Colaboratory Gemini 物体検出機械学習

Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています Gemini-2.5-Flash で物体検出とセグメンテーション味見している物体検出はFlorence-2と同等かちょっと悪い？プロンプトの柔軟性はGemini（2枚目のプロンプトは”Find the…

2025-07-19

Gemini CLI で Image-Processing-Node-Editor と Audio-Processing-Node-Editor のノードを作成🦔

機械学習 Python DearPyGui Gemini CLI Claude Code Image-Processing-Node-Editor IPN-Editor Audio-Processing-Node-Editor APN-Editor

Claude Code は会社のお金で試すので、趣味開発ではGemini CLI を試してみていますミニゲーム作成を試すのも良いのですが、今回は Image-Processing-Node-Editor と Audio-Processing-Node-Editor のノード追加をまかせてみました以下は、Gemini CLI に…

2025-07-06

GLM-4.1V-9B-Thinking を Colaboratory でお試し🦔

Colaboratory VLM 機械学習 Python

GLM-4.1V-9B-Thinking を味見しています👀 GLM-4.1V-9B-Thinking 味見している👀<think>てタグと、<answer>ってタグが推論結果にある pic.twitter.com/lQKSI9hkr7 — 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月5日著者曰く、9Bというモデルサイズでありながら、18のベン</answer></think>…

2025-07-02

FastVLM を Colaboratory でお試し🦔

機械学習 VLM Python Colaboratory

AppleのFastVLMを味見しています出力トークン数が少なくなるようにすれば、それなりに早いです。試してから気付いたのですが、Apple独自ライセンスのため、正直使いにくいと思います。 FastVLMを味見アウトプットを短くすれば、そこそこ早い pic.twitter.co…

2025-06-22

alltracker を Colaboratoryでお試し🦔

機械学習 Python PyTorch Colaboratory

Dense Point Tracking の alltracker を味見しています追跡性能はかなり高いと思います。が、GPU RAMはがっつり食います alltracker味見している精度は良いと思うんだけど、GPU RAM食うなーこれ。。。 pic.twitter.com/RxUZtv9nyg — 高橋かずひと@パワポLT…

2025-06-21

EdgeTAM のオブジェクトトラッキングを味見👀

機械学習 Semantic Segmentation

今回は、試した結果のみでソースコードとかノートブックの共有は無いです EdgeTAM を Colaboratory で味見しているまあ、サンプル動画はうまくいくよね pic.twitter.com/3wK4xKbOn8 — 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年6月21日 EdgeTAM いじめ…

2025-06-10

Kimi-VL を Colaboratory でお試し🦔

機械学習 VLM Python Colaboratory

Kimi-VLを味見しています精度は良いのでしょうけど、、、試した例では、L4 GPUで推論が3分かかって、ちょっと重い感じするなー Kimi-VL味見Q．What is the dome building in the picture? Think step by step（写真のドーム型の建物は何でしょうか？段階的に…

2025-05-26

ナンバープレート検出と認識ＡＩのプロトタイプ🚙

物体検出機械学習 Python ONNX

タイトルにプロトタイプとありますが、永遠に正式版は作られません（たぶん YOLOの新し目のやつを試してみたかったのと、ChatGPTにモデル構造作らせてみたかったのと、でテキトーに作ったリポジトリです検出用のデータセットは高橋宅周辺、認識用のデータセ…

2025-05-12

Heron-NVILA を Colaboratory でお試し🦔

機械学習 VLM Python Colaboratory

Heron-NVILAを味見しています1B、2B、15B、33B の4種類があります（2025/5/12現在）詳細はTuringさんのZennのテックブログに記載されています。 1Bでも、かなり良い感じに推論してくれますね Heron-NVILA を Colaboratoryで味見している1Bでもこの精度は凄…

2025-05-10

ノードエディターベースのオーディオ処理ツールを作りました🦔

Python DSP ONNX 機械学習 Audio-Processing-Node-Editor APN-Editor

以下のリポジトリで公開しています。名前は安直に「Audio-Processing-Node-Editor」としましたちなみに、これ↓のオーディオ版です。ちょっと仕事で音声処理を触ることがあって、たまたまGWの休み前後だったので、Image-Processing-Node-Editorベースでザッ…

2024-12-17

Qiita：PyScriptでOpenCVを使ってWebで画像処理AI

OpenCV Python 機械学習物体検出

Qiita の OpenCVアドベントカレンダー17日目の投稿です。PyScriptとOpenCVを使用してブラウザ上で画像処理AIを動かしてみる投稿です🦔 qiita.com

2024-12-12

Ivy-VL を Colaboratory でお試し🦔

機械学習 VLM Colaboratory

Ivy-VLを味見しています3BオンリーのVLMのようです。3Bの割には精度が高いと思いますが、Ampereアーキテクチャ対応のGPU必要なのでL4以上必須ですね。 Ivy-VLも味見中こっちは3Bオンリー？3Bの割には推論結果ボチボチだと思う。What is shown in this image?…

2024-12-11

InternVL を Colaboratory でお試し🦔

機械学習 VLM Colaboratory

InternVLを味見しています 1Bや2Bなどの軽いモデルもあり、T4 GPUでも動きます。精度はふつー？いや、細かい検証とかVLMベンチ試していないので、大きな違いが分からないのですけども。 InternVLの味見1B、2B、4B、8B、26B、40Bとあるけど、1Bとか2BはT4でも…

2024-12-10

Qiita：OpenCVのInpaintingでオクルージョン画像の物体検出精度向上🔍

物体検出機械学習 Qiita Python OpenCV

Qiita の OpenCVアドベントカレンダー10日目の投稿です。Inpaintingで邪魔なものを消して、物体検出の精度向上を試みたお話し🦔 ソースコード類はこちらに↓ github.com

2024-10-19

Janus-1.3B を Colaboratory でお試し🦔

Colaboratory VLM 機械学習

1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している？性能は中々だと思います。ただ、…

2024-10-17

PINTO_model_zoo：人検出＋顔向き＋属性判定＋パーツ検出モデル（460_RT-DETRv2-Wholebody25）味見👀

機械学習物体検出 ONNX

PINTO_model_zooの秋の新作です人検出＋顔向き（水平方向）＋属性判定（おとな/こども、男女）＋パーツ（目、鼻、口、耳、右手、左手、足）の検出が出来るRT-DETRv2です。この系統のモデルは、PINTO_model_zooでYOLOv9で公開されてきていたのですが、RT-DET…

2024-10-15

OpenAI の Swarm で画像認識したり、処理の移譲をするメモ🐝

機械学習 Colaboratory VLM LLM OpenAI

以下を試したときのメモをZennに書きましたまあ、正直小細工ではあります。すぐにこんな小細工も必要ないくらいGPT進化すると思っていますが。。。 OpenAIのSwarmさんで画像認識を試しています。とりあえず、GPT-4o miniが苦手な座標取得を依頼された時に、F…

2024-09-27

肌、服、髪セグメンテーションにイラストのデータセットを追加しトレーニング🦔

機械学習 Semantic Segmentation PyTorch ONNX

かなーり昔に作ったセグメンテーションモデルの続編ですね。元々目指していた方向性が、MediaPipeのSelfieMultiClassで達成できてしまうので、方向性を変えてイラストも追加して学習してみました。正直、精度はまだまだイマイチです。以下みたいな感じま…

2024-09-27

Phantom を Colaboratory でお試し🦔

Colaboratory 機械学習 VLM

Molmoより先に試していたのですが、、、Molmoが突如現れて、一部の認識機能（位置把握とかカウント能力）でちょっと衝撃的だったので、後回しにしてしまっていました。。。一番小さいモデルで0.5BのVLMです。ただ、Flash Attention採用してて、Ampereアーキ…

2024-09-26

Molmo を Colaboratory でお試し🦔

機械学習 VLM Colaboratory

VLMもじゃんじゃんリリースされますね。Apache2.0 の OSS で GPT4V より認識性能が高いらしいです GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな2枚目は可視化したものだけど、位置も良さそう pic.twitter.com/J4NvC7CrT5 — 高橋か…

2024-09-12

Anime-Segmentation の ONNX を Colaboraotry上でお試し📚

機械学習 Semantic Segmentation ONNX Colaboratory

CartoonSegmentation触った関連と言うことで、Anime-Segmentation を触っています。ちょっとタスクは違いますが。。。（CartoonSegmentationはインスタンスセグメンテーション、Anime-Segmentation はセマンティックセグメンテーションによる前景抽出、のよ…

2024-09-11

SegGPT を Colaboratory でお試し🦔

機械学習 Semantic Segmentation Colaboratory

SegGPTを試しています。 SegGPTをColaboratoryでお試ししているリファレンス画像とマスク指定を用意して、対象物のセグメンテーションを行うモデルですね pic.twitter.com/syYtm4uYCr — 高橋かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月11日試すだけ…

2024-09-08

暗闇補正のCoLIEをColaboratoryでお試し🌙

PyTorch 機械学習 Colaboratory

CoLIEと言うアルゴリズムのLLIEです。画像毎にtrain()を回して適応する仕組み上、現時点のONNX変換は不可ですただ、個人的な初見ですが、最近見たLLIE系の中では一番補正性能高いと思います。ただし、処理時間はそれなりに必要なので使いどころは考える必要…

高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。　お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

機械学習

Qwen3-VL を Colaboratory でお試し🦔

DEIMv2 の ONNX変換と Colaboratory上でのトレーニング👀

音声強調モデル LiSenNet をONNXに変換🦔

音声復元モデル VoiceFixer をONNXに変換🦔

PINTO_model_zoo：インスタンスセグメンテーション（470_RHIS）味見👀

LFM2-VL を Colaboratory でお試し🦔

SmolVLM2 を Colaboratory でお試し🦔

Gemini-2.5-Flash の物体検出・セグメンテーションをAPIでお試し🦔

Gemini CLI で Image-Processing-Node-Editor と Audio-Processing-Node-Editor のノードを作成🦔

GLM-4.1V-9B-Thinking を Colaboratory でお試し🦔

FastVLM を Colaboratory でお試し🦔

alltracker を Colaboratoryでお試し🦔

EdgeTAM のオブジェクトトラッキングを味見👀

Kimi-VL を Colaboratory でお試し🦔

ナンバープレート検出と認識ＡＩのプロトタイプ🚙

Heron-NVILA を Colaboratory でお試し🦔

ノードエディターベースのオーディオ処理ツールを作りました🦔

Qiita：PyScriptでOpenCVを使ってWebで画像処理AI

Ivy-VL を Colaboratory でお試し🦔

InternVL を Colaboratory でお試し🦔

Qiita：OpenCVのInpaintingでオクルージョン画像の物体検出精度向上🔍

Janus-1.3B を Colaboratory でお試し🦔

PINTO_model_zoo：人検出＋顔向き＋属性判定＋パーツ検出モデル（460_RT-DETRv2-Wholebody25）味見👀

OpenAI の Swarm で画像認識したり、処理の移譲をするメモ🐝

肌、服、髪セグメンテーションにイラストのデータセットを追加しトレーニング🦔

Phantom を Colaboratory でお試し🦔

Molmo を Colaboratory でお試し🦔

Anime-Segmentation の ONNX を Colaboraotry上でお試し📚

SegGPT を Colaboratory でお試し🦔

暗闇補正のCoLIEをColaboratoryでお試し🌙