ONNX
性能が良い物体検出モデルDEIMのv2です。個人的には以下の表のとおり、AttoやFemto、Picoなど超軽量系のラインナップがあるのが凄く好みです 直近で使う予定はないのですが、使いたくなった時にすぐ使えるように、いつも通りONNX変換とColaboratory上でのト…
入力した音声のノイズ低減と音声強調を行うモデルです。 軽量を謳っているモデルなのですが、Griffin-Limアルゴリズム(反復処理 & 出力チャンクより未来のデータが必要)を採用しているため、僕が使いたい用途では使いにくいため、リポジトリ公開して供養👻 g…
劣化した音声をデノイズした上で、復元するモデルです。僕の使いたい用途には重すぎて、使い道がなくなってしまったので、リポジトリ公開して供養 ちょっと古いモデルですが、精度は結構良いと思います 供養供養ONNX変換したけど、僕の使いたい用途には重す…
インスタンスセグメンテーションです。 特徴的な構造として、このモデルには物体検出部分は含まれないため、自分の好きな物体検出モデルの検出結果と組み合わせて使用します。そのため、このモデルの入力は、画像とROIの2入力です セグメンテーション結果は…
タイトルにプロトタイプとありますが、永遠に正式版は作られません(たぶん YOLOの新し目のやつを試してみたかったのと、ChatGPTにモデル構造作らせてみたかったのと、でテキトーに作ったリポジトリです 検出用のデータセットは高橋宅周辺、認識用のデータセ…
以下のリポジトリで公開しています。名前は安直に「Audio-Processing-Node-Editor」としました ちなみに、これ↓のオーディオ版です。 ちょっと仕事で音声処理を触ることがあって、たまたまGWの休み前後だったので、Image-Processing-Node-Editorベースでザッ…
1X年くらい音声信号処理から離れていましたが、最近触る機会があったため、ちょこちょこ色々なモデルとかアルゴリズムを味見しています 今回は、新しめ(ICASSP2024)のSpeech Enhancement(音声強調)モデルのGTCRNです。この分野だとRNNoiseとかDeepFilter…
DEIMは、RT-DETR-v2とD-FINEについて、より高速な収束と精度の向上を可能にするように設計された高度なトレーニング フレームワークです👀 いつものようにColaboratoryでトレーニングして、ONNX推論するサンプルを作りました🦔 github.com
「D-FINE は、DETR の境界ボックス回帰タスクをFDR として再定義し、GO-LSDを導入する強力なリアルタイム オブジェクト検出器であり、追加の推論およびトレーニング コストを導入することなく優れたパフォーマンスを実現します」とのこと D-FINE味見中https:…
PINTO_model_zooの秋の新作です 人検出+顔向き(水平方向)+属性判定(おとな/こども、男女)+パーツ(目、鼻、口、耳、右手、左手、足)の検出が出来るRT-DETRv2です。この系統のモデルは、PINTO_model_zooでYOLOv9で公開されてきていたのですが、RT-DET…
以下の続きです。 ちょっとymlファイルが多いですが、あまり癖のないトレーニングコードで、サクッとColaboratoryで動かせました RT-DETR(v2)をColaboratoryでトレーニングするサンプルも放流https://t.co/EuKfAaR701 pic.twitter.com/pIk8vY0rCk — 高橋 か…
そーいえば、RT-DETR(v2)触ったことなかったな。と思って軽くお試し あー、CPU(Core i7-8750H CPU)だと思ったより早くて、GPU(GeForce GTX 1050 Ti)だと思ったより遅いな、、、いや、GPU古いってのもありますが、、、新しめのGPUだと速いんだろーなって雰囲…
かなーり昔に作ったセグメンテーションモデルの続編ですね。 元々目指していた方向性が、MediaPipeのSelfieMultiClassで達成できてしまうので、方向性を変えてイラストも追加して学習してみました。 正直、精度はまだまだイマイチです。以下みたいな感じ ま…
CartoonSegmentation触った関連と言うことで、Anime-Segmentation を触っています。ちょっとタスクは違いますが。。。(CartoonSegmentationはインスタンスセグメンテーション、Anime-Segmentation はセマンティックセグメンテーションによる前景抽出、のよ…
CartoonSegmentation のオリジナルはmmcv関連のパッケージがインストール必要で、ちょっと環境構築が面倒だったのですが、ONNXに変換してくれているリポジトリがあったため、Colaboratoryで試してみました。 CartoonSegmentationのONNX助かるーオリジナルリ…
ある程度近い距離だと綺麗に抜けますね複数人とか遠いとかだとイマイチなので、人検出と組み合わせたりしないとですが。 4年くらい前のU-Netベースのモデルですが、衣服セグメンテーション味見している眼鏡は衣服か、、、アイウェアだしそうか、、、? pic.t…
NSFW(Not Safe For Work:職場での閲覧注意)画像の判定ですNSFWと言ってもアダルト判定のみでグロとか暴力とかは対象外。 やりかけで放置していたサンプルソースがポコポコ出てくる、、、これはNSFWモデルをONNX変換したもの。たしか一時期Stable Diffusio…
MVANetです。BiRefNetと同じくDIS(Dichotomous Image Segmentation)モデルです。 あくまで、個人的な感覚ですが、BiRefNetの半分くらいの推論速度で、精度はそれなりと言う感じです重みファイルも半分くらい(約440MB) お試ししたソースコードは以下にコ…
雨除去と言うか水滴除去ですかね後処理がちょっと珍しい感じです。性能はボチボチ? 310_attentive-gan-derainnetちょっと珍しい後処理と言うか出力の補正が必要各チャンネルごとにスケーリング pic.twitter.com/eLjxGEmL17 — 高橋 かずひと@闇のパワポLT職…
BiRefNetをONNXに変換して動作を味見しています。いわゆるDIS(Dichotomous Image Segmentation)モデルです。背景除去、背景分離、Salient Object Detectionとか呼ばれたりもする?Salient Object Detectionは違うか? ONNX変換後の重みファイルが1GB弱あっ…
LLIE(Low Light Image Enhancement)のDiffusion-Low-Lightです。個人的な感想ですが、正直、性能に対して重い、、、 過去に、動物園のDiffusion Low Lightを味見しようとした形跡があったのだけど、何で途中でやめたんだっけ。。。仕事忙しくなったとかかし…
Zennに投稿しました。 OpenVINOさん、Colaboratory上でもサクッと動くようになったし、PaddlePaddleのモデルを直接読み込めるし、僕的には結構使い道ありそう zenn.dev ノートブックは以下のリポジトリで公開しています。 github.com 追記: 推論時間の比較↓…
Crowd Counting(群衆カウント、群衆密度推定)のモデルであるMPCountを味見しています 少し余裕が出てきたので、いくつか味見をしているこれは CVPR2024 paper "Single Domain Generalization for Crowd Counting" pic.twitter.com/XcCOCNNAsn — 高橋 かずひ…
CVPR'24 Paper の XFeatをONNXに変換してお試ししています。いわゆる特徴点抽出ですね 雑にONNXに変換して動かしてみているけど、、、まあ、精度も速度(CPU)も普通かなー、、、 pic.twitter.com/tARe4AQL5e — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) …
LLIE(Low-Light Image Enhancement)系モデルのLYT-Netお試しです。2024年の比較的新しめのモデルです。 比較的新しめのモデルではあるのですが、性能はボチボチふつー、、、と言うか、いつも試している動画の難易度が高すぎる。と言うのはあると思いますが…
この投稿の続編です。 kazuhito00.hatenablog.com MobileSAM と EfficientSAM の ONNX推論お試しコードを以下にコミットしています。MobileSAMはSAMと同様に、公式リポジトリでエンコーダーのONNXエクスポートが無かったため追加しています。EfficientSAMは…
本当はもっと早くやりたかったシリーズSAMが登場してから、もう1年たってるんですよね。。。 SAMは凄い良いモデルなのですが、、、公式リポジトリのONNXエクスポートとONNX推論周りのサポートはちょっとイマイチだと思っています。 どれくらいイマイチかと言…
ちょっと古いモデルなのですが、vehicle-reid-0001(正確には OSNet Ain Vehicle ReID)を動かしました 元はOpenVINO動物園のモデルですね。 と言うか、Vehicle ReIDって、結構な確率でモデルのリンク切れしてたり、パッケージの依存関係がアレすぎて、パッ…
PINTOさんがアノテーション気合入れて、トレーニングされたGold-YOLOです 昨晩つぶやいた無駄に高解像度だった 640x480 から 320x256 にモデルの入力解像度を落として Float32 CPU推論してみた。ほぼ 3.5倍速 になって精度はほとんど落ちなかった。予想外。…
MagicTouch 味見 速度の割に精度良いですね MagicTouch味見さすがに動作早いなー。これCPU推論(Core i7-8750H)です。マウスカーソル当てたところを対象にセグメンテーション https://t.co/SGywr3mL1T pic.twitter.com/TiSvte8Uxd — 高橋 かずひと@闇のパワポ…