Colaboratory
「D-FINE は、DETR の境界ボックス回帰タスクをFDR として再定義し、GO-LSDを導入する強力なリアルタイム オブジェクト検出器であり、追加の推論およびトレーニング コストを導入することなく優れたパフォーマンスを実現します」とのこと D-FINE味見中https:…
1.3B と言う軽さで、画像認識も画像生成も出来るJanusを味見しています。ただ、研究として異議はあるかもですが、運用として認識も生成もしたい状況ってないんですよねー。この構造のおかげで1.3Bと言う軽さに寄与している? 性能は中々だと思います。ただ、…
以下を試したときのメモをZennに書きましたまあ、正直小細工ではあります。すぐにこんな小細工も必要ないくらいGPT進化すると思っていますが。。。 OpenAIのSwarmさんで画像認識を試しています。とりあえず、GPT-4o miniが苦手な座標取得を依頼された時に、F…
以下の続きです。 ちょっとymlファイルが多いですが、あまり癖のないトレーニングコードで、サクッとColaboratoryで動かせました RT-DETR(v2)をColaboratoryでトレーニングするサンプルも放流https://t.co/EuKfAaR701 pic.twitter.com/pIk8vY0rCk — 高橋 か…
Molmoより先に試していたのですが、、、Molmoが突如現れて、一部の認識機能(位置把握とかカウント能力)でちょっと衝撃的だったので、後回しにしてしまっていました。。。 一番小さいモデルで0.5BのVLMです。ただ、Flash Attention採用してて、Ampereアーキ…
VLMもじゃんじゃんリリースされますね。Apache2.0 の OSS で GPT4V より認識性能が高いらしいです GPUメモリ的にColaboratoryだとA100必須だけど、このVLMの性能は凄いな2枚目は可視化したものだけど、位置も良さそう pic.twitter.com/J4NvC7CrT5 — 高橋 か…
とりあえず動かしたノートブックです。ちょっと色々試す時間なかったので、いったん共有です👻 github.com
CartoonSegmentation触った関連と言うことで、Anime-Segmentation を触っています。ちょっとタスクは違いますが。。。(CartoonSegmentationはインスタンスセグメンテーション、Anime-Segmentation はセマンティックセグメンテーションによる前景抽出、のよ…
SegGPTを試しています。 SegGPTをColaboratoryでお試ししているリファレンス画像とマスク指定を用意して、対象物のセグメンテーションを行うモデルですね pic.twitter.com/syYtm4uYCr — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年9月11日 試すだけ…
CartoonSegmentation のオリジナルはmmcv関連のパッケージがインストール必要で、ちょっと環境構築が面倒だったのですが、ONNXに変換してくれているリポジトリがあったため、Colaboratoryで試してみました。 CartoonSegmentationのONNX助かるーオリジナルリ…
CoLIEと言うアルゴリズムのLLIEです。 画像毎にtrain()を回して適応する仕組み上、現時点のONNX変換は不可ですただ、個人的な初見ですが、最近見たLLIE系の中では一番補正性能高いと思います。ただし、処理時間はそれなりに必要なので使いどころは考える必要…
生成AI全盛期の今では、正直あまり使いどころもありませんが、、、個人的にはWhite-box-Cartoonizationで変換された風景とか、味があって好きです もう4年くらい前のモデルだけど、今でも風景に対してのWhite-box-Cartoonizationの変換結果、味があって好きT…
Alibaba が 公開した Qwen2-VL を Colaboratoryでお試ししていますいくらか試していますが、かなり認識性能が高い気がします。多言語対応していて、日本語入力、日本語回答が出来るのもポイント高いですね。 そういえば、オープンな重みで日本語入力、日本語…
完全に個人的なメモです。Zennのスクラップです。 これ毎回ググってんな。。。とか、これ毎回GitHubで自分のリポジトリ検索かけてるな。。。みたいなやつを整理しています👀 zenn.dev
MiniCPM-V2.6 は、単一画像、複数画像、動画などを処理できるマルチモーダルLLMです。個人的な感想ですが、この手のローカルで動かせるVLMで、複数画像や動画を処理できるものは珍しい気がしますね MiniCPM-V2.6は、公式の説明では以下のような特徴があるら…
Microsoft が 公開している軽量VLMのFlorence 2をColaboratoryで味見しています。 Florence 2 は以下のようなタスクが実行できるモデルです。一般的にVLMで言う、フリーワードでのプロンプトではなく、タスクに応じたプロンプトの指定が必要です。 CAPTION:…
軽量なVLMのMobileVLM V2です。以下はシンプルなプロンプトですが、T4 GPUで約250msとかなり早いです そーいえば、MobileVLMも触りかけて放置してたのですが、Colaboratoryで改めて触りましたシンプルなプロンプトですが、T4 GPUで約250msと言うのは流石に早…
NSFW(Not Safe For Work:職場での閲覧注意)画像の判定ですNSFWと言ってもアダルト判定のみでグロとか暴力とかは対象外。 やりかけで放置していたサンプルソースがポコポコ出てくる、、、これはNSFWモデルをONNX変換したもの。たしか一時期Stable Diffusio…
MVANetです。BiRefNetと同じくDIS(Dichotomous Image Segmentation)モデルです。 あくまで、個人的な感覚ですが、BiRefNetの半分くらいの推論速度で、精度はそれなりと言う感じです重みファイルも半分くらい(約440MB) お試ししたソースコードは以下にコ…
BiRefNetをONNXに変換して動作を味見しています。いわゆるDIS(Dichotomous Image Segmentation)モデルです。背景除去、背景分離、Salient Object Detectionとか呼ばれたりもする?Salient Object Detectionは違うか? ONNX変換後の重みファイルが1GB弱あっ…
Zennに投稿しました。 OpenVINOさん、Colaboratory上でもサクッと動くようになったし、PaddlePaddleのモデルを直接読み込めるし、僕的には結構使い道ありそう zenn.dev ノートブックは以下のリポジトリで公開しています。 github.com 追記: 推論時間の比較↓…
先週お試ししていましたが、ちょっとバタバタしてて放置してしまっていました。。。 SAM2が発表されたので味見していましたが、これは凄いですね。静止画はちょっとSAMからの進歩分かりにくいですが、Videoトラッキングは結構エグイ うわ、SAM2(Segment Any…
ちょっと興味あって、OpenAI の Moderation API を味見しています 「The moderations endpoint is a tool you can use to check whether text is potentially harmful. Developers can use it to identify content that might be harmful and take action, f…
サンプルスクリプト動かしただけですが、、、 精度良さそうな気がします 遅くなったけど、サイバーのCALM2の日本語VLMをColabで味見した最低L4のGPUじゃないとメモリ不足で動かない pic.twitter.com/5KKQxCxqLP— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs)…
進化していますね どーいう学習とかアーキ変更とかしたら、スキマナースに対応できるよーになるのか分からん https://t.co/cL8eh9tcuK — 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年5月13日 これ読めてるのすげーな「鉢は金属製で、1つの鉢には「TOD…
最近サルベージしてたブレ補正系の作業はいったんMeshFlowでおしまいです 動画の動きと相性があるのか試したやつだと、あんまり良い見た目になりませんでした。あとMeshFlowは何ステップかに処理が分かれていて、かなり処理時間かかる MeshFlowというブレ補…
ひとつ前の投稿で書いたVidStabが、いわゆるレガシーな画像処理的なブレ補正だとすると、GlobalFlowNetは、いわゆるDeep系なブレ補正です。 ブレ補正の性能は高いと思いますが、、、処理時間がかかるのと、GlobalFlowNetは画像を出力する際に画質が劣化する…
この投稿の続編です。 kazuhito00.hatenablog.com MobileSAM と EfficientSAM の ONNX推論お試しコードを以下にコミットしています。MobileSAMはSAMと同様に、公式リポジトリでエンコーダーのONNXエクスポートが無かったため追加しています。EfficientSAMは…
本当はもっと早くやりたかったシリーズSAMが登場してから、もう1年たってるんですよね。。。 SAMは凄い良いモデルなのですが、、、公式リポジトリのONNXエクスポートとONNX推論周りのサポートはちょっとイマイチだと思っています。 どれくらいイマイチかと言…
YOLO-World試そう試そうとは思ってたのですが、仕事がバタバタしてて、 今更触りました 気が付いたらv2になっていたわけですが、v1との違いは良く分からないなー 以下の動画の最後のほうの「hand」は頑張っているとは思いますが。 YOLO-Worldもv2になってた…