Large Language Mario：VLMはやっぱり位置関係の把握が苦手🍄？

VLM 機械学習

苦手です ※2024年8月30日現在と言うか、前々から色々なVLMに対して言及されていた課題ではありますが、、、（特にGPT4Vで指摘されることが多い印象）お仕事でプロトタイプ検証した時も感じておりましたが、仕事の内容なので、はてブに書くわけにもいかず、…

2024-08-29

PythonでBrainfckのソースコードを生成して、BrainfckのソースコードをPythonで実行🙄

Zenn 雑記

難解プログラミング言語のソースコードを普通の言語で生成するという虚無👻 zenn.dev

2024-08-21

メモ：Colaboratoryで個人的に良く使うのに毎回ググったり探し回ったりしているもの

Colaboratory Zenn

完全に個人的なメモです。Zennのスクラップです。これ毎回ググってんな。。。とか、これ毎回GitHubで自分のリポジトリ検索かけてるな。。。みたいなやつを整理しています👀 zenn.dev

2024-08-20

MiniCPM-V2.6 を Colaboratory でお試し🔍

機械学習 Colaboratory VLM

MiniCPM-V2.6 は、単一画像、複数画像、動画などを処理できるマルチモーダルLLMです。個人的な感想ですが、この手のローカルで動かせるVLMで、複数画像や動画を処理できるものは珍しい気がしますね MiniCPM-V2.6は、公式の説明では以下のような特徴があるら…

2024-08-17

Florence 2 を Colaboratory でお試し🔍

機械学習 VLM Colaboratory 物体検出 Semantic Segmentation

Microsoft が公開している軽量VLMのFlorence 2をColaboratoryで味見しています。 Florence 2 は以下のようなタスクが実行できるモデルです。一般的にVLMで言う、フリーワードでのプロンプトではなく、タスクに応じたプロンプトの指定が必要です。 CAPTION：…

2024-08-17

MobileVLM V2 を Colaboratory でお試し🔍

機械学習 VLM Colaboratory

軽量なVLMのMobileVLM V2です。以下はシンプルなプロンプトですが、T4 GPUで約250msとかなり早いですそーいえば、MobileVLMも触りかけて放置してたのですが、Colaboratoryで改めて触りましたシンプルなプロンプトですが、T4 GPUで約250msと言うのは流石に早…

2024-08-16

Zennスクラップ：insightface と inswapper_128.onnx を用いてフェイススワップを行うColaboratoryノートブック

Zenn 機械学習

いわゆる顔交換ですねオリジナリティ等あんまないので、Zennスクラップ行きです。 inswapper でのフェイススワップこれに関しては完全に趣味だな、、、仕事じゃ絶対使わんし 1枚目：交換元画像 2枚目：交換先画像 3枚目：交換結果 pic.twitter.com/PdvrskzDK…

2024-08-16

nsfw_modelをONNXに変換して味見🦔

機械学習 ONNX Colaboratory

NSFW（Not Safe For Work：職場での閲覧注意）画像の判定ですNSFWと言ってもアダルト判定のみでグロとか暴力とかは対象外。やりかけで放置していたサンプルソースがポコポコ出てくる、、、これはNSFWモデルをONNX変換したもの。たしか一時期Stable Diffusio…

2024-08-16

MVANetをONNXに変換して味見👻

機械学習 Colaboratory ONNX

MVANetです。BiRefNetと同じくDIS（Dichotomous Image Segmentation）モデルです。あくまで、個人的な感覚ですが、BiRefNetの半分くらいの推論速度で、精度はそれなりと言う感じです重みファイルも半分くらい（約440MB）お試ししたソースコードは以下にコ…

2024-08-15

PINTO_model_zoo：雨除去（310_attentive-gan-derainnet）Pythonデモ追加

機械学習 ONNX

雨除去と言うか水滴除去ですかね後処理がちょっと珍しい感じです。性能はボチボチ？ 310_attentive-gan-derainnetちょっと珍しい後処理と言うか出力の補正が必要各チャンネルごとにスケーリング pic.twitter.com/eLjxGEmL17 — 高橋かずひと@闇のパワポLT職…

2024-08-14

BiRefNetをONNXに変換して味見👻

機械学習 ONNX Colaboratory

BiRefNetをONNXに変換して動作を味見しています。いわゆるDIS（Dichotomous Image Segmentation）モデルです。背景除去、背景分離、Salient Object Detectionとか呼ばれたりもする？Salient Object Detectionは違うか？ ONNX変換後の重みファイルが1GB弱あっ…

2024-08-13

PINTO_model_zoo：暗所ノイズ除去（418_Diffusion-Low-Light）味見👀

機械学習 ONNX

LLIE(Low Light Image Enhancement)のDiffusion-Low-Lightです。個人的な感想ですが、正直、性能に対して重い、、、過去に、動物園のDiffusion Low Lightを味見しようとした形跡があったのだけど、何で途中でやめたんだっけ。。。仕事忙しくなったとかかし…

2024-08-10

OpenVINOで各フレームワーク（ONNX、TensorFlow、TFLite、PaddlePad）の重みを読み込んで推論🦔

OpenVINO Colaboratory PyTorch ONNX Tensorflow PaddlePaddle

Zennに投稿しました。 OpenVINOさん、Colaboratory上でもサクッと動くようになったし、PaddlePaddleのモデルを直接読み込めるし、僕的には結構使い道ありそう zenn.dev ノートブックは以下のリポジトリで公開しています。 github.com 追記：推論時間の比較↓…

2024-08-06

MPCountで群衆カウントお試し👀

機械学習 ONNX CrowdCounting

Crowd Counting(群衆カウント、群衆密度推定)のモデルであるMPCountを味見しています少し余裕が出てきたので、いくつか味見をしているこれは CVPR2024 paper "Single Domain Generalization for Crowd Counting" pic.twitter.com/XcCOCNNAsn — 高橋かずひ…