高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

機械学習

Qwen3-VL を Colaboratory でお試し🦔

Qwen3-VL を味見 Qwen2-VLやQwen2.5-VLも性能高くて良かったのですが、Qwen3-VLは、多様なタスク(2D物体検出や3D物体検出、OCRなど)をサポートし、日本語性能も高いので大変良いです。また個人的にはT4 CPU(2B、4B、8Bあたり)で動くのがポイント高いです…

DEIMv2 の ONNX変換 と Colaboratory上でのトレーニング👀

性能が良い物体検出モデルDEIMのv2です。個人的には以下の表のとおり、AttoやFemto、Picoなど超軽量系のラインナップがあるのが凄く好みです 直近で使う予定はないのですが、使いたくなった時にすぐ使えるように、いつも通りONNX変換とColaboratory上でのト…

音声強調モデル LiSenNet をONNXに変換🦔

入力した音声のノイズ低減と音声強調を行うモデルです。 軽量を謳っているモデルなのですが、Griffin-Limアルゴリズム(反復処理 & 出力チャンクより未来のデータが必要)を採用しているため、僕が使いたい用途では使いにくいため、リポジトリ公開して供養👻 g…

音声復元モデル VoiceFixer をONNXに変換🦔

劣化した音声をデノイズした上で、復元するモデルです。僕の使いたい用途には重すぎて、使い道がなくなってしまったので、リポジトリ公開して供養 ちょっと古いモデルですが、精度は結構良いと思います 供養供養ONNX変換したけど、僕の使いたい用途には重す…

PINTO_model_zoo:インスタンスセグメンテーション(470_RHIS)味見👀

インスタンスセグメンテーションです。 特徴的な構造として、このモデルには物体検出部分は含まれないため、自分の好きな物体検出モデルの検出結果と組み合わせて使用します。そのため、このモデルの入力は、画像とROIの2入力です セグメンテーション結果は…

LFM2-VL を Colaboratory でお試し🦔

LFM2-VL をお試ししています軽量なVLMです。CPUでも多少時間かかりますが動作します。ただし、ライセンスがちょっと独特なので、状況によっては仕事とかだと使いにくいかも。 LFM2-VL を味見しているかなり軽量(450M、1.6B)でCPU推論も何とか動くっぽい。…

SmolVLM2 を Colaboratory でお試し🦔

SmolVLM2の味見をしています比較的軽量(256M、500M、2.2B)なVLMですが、Flash Attention2 必須のため、Ampere GPU以上(L4以上)が必要です。 SmolVLM2の推論味見と、ファインチューニング味見をしているただ、ファインチューニングの確認に使っている医療…

Gemini-2.5-Flash の物体検出・セグメンテーションをAPIでお試し🦔

Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています Gemini-2.5-Flash で 物体検出とセグメンテーション味見している物体検出はFlorence-2と同等かちょっと悪い?プロンプトの柔軟性はGemini(2枚目のプロンプトは”Find the…

Gemini CLI で Image-Processing-Node-Editor と Audio-Processing-Node-Editor のノードを作成🦔

Claude Code は 会社のお金で試すので、趣味開発ではGemini CLI を試してみています ミニゲーム作成を試すのも良いのですが、今回は Image-Processing-Node-Editor と Audio-Processing-Node-Editor の ノード追加をまかせてみました 以下は、Gemini CLI に…

GLM-4.1V-9B-Thinking を Colaboratory でお試し🦔

GLM-4.1V-9B-Thinking を味見しています👀 GLM-4.1V-9B-Thinking 味見している👀<think>てタグと、<answer>ってタグが推論結果にある pic.twitter.com/lQKSI9hkr7 — 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月5日 著者曰く、9Bというモデルサイズでありながら、18のベン</answer></think>…

FastVLM を Colaboratory でお試し🦔

AppleのFastVLMを味見しています出力トークン数が少なくなるようにすれば、それなりに早いです。 試してから気付いたのですが、Apple独自ライセンスのため、正直使いにくいと思います。 FastVLMを味見アウトプットを短くすれば、そこそこ早い pic.twitter.co…

alltracker を Colaboratoryでお試し🦔

Dense Point Tracking の alltracker を味見しています追跡性能はかなり高いと思います。が、GPU RAMはがっつり食います alltracker味見している精度は良いと思うんだけど、GPU RAM食うなーこれ。。。 pic.twitter.com/RxUZtv9nyg — 高橋 かずひと@パワポLT…

EdgeTAM のオブジェクトトラッキングを味見👀

今回は、試した結果のみでソースコードとかノートブックの共有は無いです EdgeTAM を Colaboratory で味見しているまあ、サンプル動画はうまくいくよね pic.twitter.com/3wK4xKbOn8 — 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年6月21日 EdgeTAM いじめ…

Kimi-VL を Colaboratory でお試し🦔

Kimi-VLを味見しています精度は良いのでしょうけど、、、試した例では、L4 GPUで推論が3分かかって、ちょっと重い感じするなー Kimi-VL味見Q.What is the dome building in the picture? Think step by step(写真のドーム型の建物は何でしょうか?段階的に…

ナンバープレート検出と認識AIのプロトタイプ🚙

タイトルにプロトタイプとありますが、永遠に正式版は作られません(たぶん YOLOの新し目のやつを試してみたかったのと、ChatGPTにモデル構造作らせてみたかったのと、でテキトーに作ったリポジトリです 検出用のデータセットは高橋宅周辺、認識用のデータセ…

Heron-NVILA を Colaboratory でお試し🦔

Heron-NVILAを味見しています1B、2B、15B、33B の4種類があります(2025/5/12現在) 詳細はTuringさんのZennのテックブログに記載されています。 1Bでも、かなり良い感じに推論してくれますね Heron-NVILA を Colaboratoryで味見している1Bでもこの精度は凄…

ノードエディターベースのオーディオ処理ツールを作りました🦔

以下のリポジトリで公開しています。名前は安直に「Audio-Processing-Node-Editor」としました ちなみに、これ↓のオーディオ版です。 ちょっと仕事で音声処理を触ることがあって、たまたまGWの休み前後だったので、Image-Processing-Node-Editorベースでザッ…

Qiita:PyScriptでOpenCVを使ってWebで画像処理AI

Qiita の OpenCVアドベントカレンダー17日目の投稿です。PyScriptとOpenCVを使用してブラウザ上で画像処理AIを動かしてみる投稿です🦔 qiita.com

Ivy-VL を Colaboratory でお試し🦔

Ivy-VLを味見しています3BオンリーのVLMのようです。3Bの割には精度が高いと思いますが、Ampereアーキテクチャ対応のGPU必要なのでL4以上必須ですね。 Ivy-VLも味見中こっちは3Bオンリー?3Bの割には推論結果ボチボチだと思う。What is shown in this image?…

InternVL を Colaboratory でお試し🦔

InternVLを味見しています 1Bや2Bなどの軽いモデルもあり、T4 GPUでも動きます。精度はふつー?いや、細かい検証とかVLMベンチ試していないので、大きな違いが分からないのですけども。 InternVLの味見1B、2B、4B、8B、26B、40Bとあるけど、1Bとか2BはT4でも…

Qiita:OpenCVのInpaintingでオクルージョン画像の物体検出精度向上🔍

Qiita の OpenCVアドベントカレンダー10日目の投稿です。Inpaintingで邪魔なものを消して、物体検出の精度向上を試みたお話し🦔 ソースコード類はこちらに↓ github.com

Janus-1.3B を Colaboratory でお試し🦔

1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している? 性能は中々だと思います。ただ、…

PINTO_model_zoo:人検出+顔向き+属性判定+パーツ検出モデル(460_RT-DETRv2-Wholebody25)味見👀

PINTO_model_zooの秋の新作です 人検出+顔向き(水平方向)+属性判定(おとな/こども、男女)+パーツ(目、鼻、口、耳、右手、左手、足)の検出が出来るRT-DETRv2です。この系統のモデルは、PINTO_model_zooでYOLOv9で公開されてきていたのですが、RT-DET…

OpenAI の Swarm で 画像認識したり、処理の移譲をするメモ🐝

以下を試したときのメモをZennに書きましたまあ、正直小細工ではあります。すぐにこんな小細工も必要ないくらいGPT進化すると思っていますが。。。 OpenAIのSwarmさんで画像認識を試しています。とりあえず、GPT-4o miniが苦手な座標取得を依頼された時に、F…

肌、服、髪セグメンテーション に イラストのデータセットを追加しトレーニング🦔

かなーり昔に作ったセグメンテーションモデルの続編ですね。 元々目指していた方向性が、MediaPipeのSelfieMultiClassで達成できてしまうので、方向性を変えてイラストも追加して学習してみました。 正直、精度はまだまだイマイチです。以下みたいな感じ ま…

Phantom を Colaboratory でお試し🦔

Molmoより先に試していたのですが、、、Molmoが突如現れて、一部の認識機能(位置把握とかカウント能力)でちょっと衝撃的だったので、後回しにしてしまっていました。。。 一番小さいモデルで0.5BのVLMです。ただ、Flash Attention採用してて、Ampereアーキ…

Molmo を Colaboratory でお試し🦔

VLMもじゃんじゃんリリースされますね。Apache2.0 の OSS で GPT4V より認識性能が高いらしいです GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな2枚目は可視化したものだけど、位置も良さそう pic.twitter.com/J4NvC7CrT5 — 高橋 か…

Anime-Segmentation の ONNX を Colaboraotry上でお試し📚

CartoonSegmentation触った関連と言うことで、Anime-Segmentation を触っています。ちょっとタスクは違いますが。。。(CartoonSegmentationはインスタンスセグメンテーション、Anime-Segmentation はセマンティックセグメンテーションによる前景抽出、のよ…

SegGPT を Colaboratory でお試し🦔

SegGPTを試しています。 SegGPTをColaboratoryでお試ししているリファレンス画像とマスク指定を用意して、対象物のセグメンテーションを行うモデルですね pic.twitter.com/syYtm4uYCr — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月11日 試すだけ…

暗闇補正のCoLIEをColaboratoryでお試し🌙

CoLIEと言うアルゴリズムのLLIEです。 画像毎にtrain()を回して適応する仕組み上、現時点のONNX変換は不可ですただ、個人的な初見ですが、最近見たLLIE系の中では一番補正性能高いと思います。ただし、処理時間はそれなりに必要なので使いどころは考える必要…