高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

PINTO_model_zoo:セマンティックセグメンテーション(335_PIDNet)Pythonデモ追加

早いセマンティックセグメンテーションと噂のPIDNet味見👀

 

デモコードは以下にコミットしています🦔

github.com

PINTO_model_zoo:姿勢推定(333_E2Pose)デモ追加

E2Pose です👀

複数人の姿勢推定をEnd2Endで実行するモデルですね。

TensorRTでGPU推論するとかなり早い模様です。

今回はCPU推論でお試し。

 

もともとはGPLv2での公開だったのですが、より使用しやすいライセンスになりそうです。

大変ありがたい🦔

 

更に初版試していた時点では512x512の入力解像度のみだったのですが、

他解像度もご用意いただけるようです🦔

大変大変ありがたい🦔🦔


デモコードは以下にコミットしています👻

 

(追記)

ライセンスがApache v2.0に変わって、解像度が異なるモデルが沢山追加されていました👾👾👾

 

 

DAMO-YOLOのONNX推論お試し👀

PINTO さんがツイートしていた DAMO-YOLO の ONNX推論を試しています👀

 

グラフが寄っているため、YOLOv6、YOLOv7、YOLOXと比べると、同パラメータ帯においては、実はmAPとか速度は僅差な気もしますが。。。🤔

ただ、最近Object Detection界隈は発展が停滞している感もあるので、新しく性能が高いモデルは歓迎です。

※今は画像生成AI(Stable Diffusionとか)やチャットAI(ChatGPT)が流行っていて、他の話題が埋もれているだけかもですが。。。

 

ONNX推論スクリプトを手直しして試してみたのが以下です。

正直、YOLOv6、YOLOv7、YOLOXと比べて凄いかと言うと現時点の感想はどっこいどっこい。

独自データセットとかで比較してみないと、(自分の中で)今後主力とするモデルかは判断できないって感じです。

 

ちょっと動かした感じの直感ですが、DAMO-YOLOは若干存在しないオブジェクトを誤検出する気がする(物体検出における擬陽性でしたっけ?

ちょっと色々と試してみたいとは思いますが。

 

今回使用したソースコードとモデルは、以下のリポジトリにコミットしています👻

 

(追記)

PINTOさんの動物園にもデモを追加しました👻


Ogaki Mini Maker Faire 2022に出展しました🦔

Ogaki Mini Maker Faire 2022 に出展しました🦔

 

今回は、からあげさんと「AI Zoo Keeper」と言うグループで参加しています。

雑多にAI系のデモを展示する感じです。気合でアレやコレや乗せた感👻

 

高橋側の展示物は以下3点です👀

  • Deep写輪眼 & 写輪眼オーバーレイ (M1 Mac)
  • 姿勢推定ピクトグラム (Raspberry Pi4)
  • Image-Processing-Node-Editor (Thinkpad X1 Extreme)

 

Deep写輪眼 & 写輪眼オーバーレイ (M1 Mac)

Deep写輪眼による印の検出と、瞳への写輪眼オーバーレイを同時に動かした展示用バージョンです。

M1 Macで10~15fpsくらい出ています。

本当はMediaPipeとONNXランタイムをM1 Macでビルドしようと思っていたのですが、ちょっとバタバタしてしまったため、Rosettaでごまかしています。

 

「印見本を見るために覗きこむと瞳に写輪眼が発現する」みたいな演出を狙っています🦔

お試しいただいた方には、そこそこ楽しんでいただけたのかな?とは思っています。

ちなみに、ボーダー柄の服に弱いことが発覚しました😇

あと、物理的に光り輝いている方も検出不可能です😇

 

以下の2つのリポジトリの合わせ技ですね👀

 

姿勢推定ピクトグラム (Raspberry Pi4)

裸のラズパイでTokyo2020ピクトグラムに返信するプログラムを動かしている展示です。

一般の方も通りがかる時に、ちょいちょい試されていた感じですが、、、

どっちかと言うとエンジニアの方の食いつきのほうが良かったですね。

ラズパイで姿勢推定が5fps以上で動いていることに興味あり。と言う感じの方が多かったです。

質疑に対して、ご紹介した資料を覚えている範囲で列挙しておきます🦔

 
Image-Processing-Node-Editor (Thinkpad X1 Extreme)

画像処理をノードベースで実行するツールの展示です。

ただ、一般向けにはあんまり面白くないかと思い、Tokyo2020ピクトグラムアプリを同時に展示しました。

 

実は一番食いついた方は、外国の方で英語での応対、、、

だったのですが、私は英語全然ダメで、からあげさんが応対してくれました。

これは申し訳ない🙇🙇🙇

 

からあげさんの展示

  • AI Zoo Keeper
  • マリオAIチャレンジ
  • AIルンバ

が展示されていました🦔

詳しくは、からあげさんのブログへ👻


雑感

久々のリアルイベントで出展して良かったな。と思います。

昨年今年はオンラインのイベントにはちょいちょい参加はしていましたが、

やはり、感想とか議論とか質疑応答が活性化しにくい感じです。

リアルイベントだと、そのあたりが活発で楽しいです(オンラインも工夫次第ではあると思いますが)

 

そして、リアルイベントは慣らし運転が要りますね。。。

1日目は体力配分ミスって、帰宅後即死でした👻

2日目は余力を残して対応できましたが。。。

 

あと、思った以上に来場者が多く、

休憩するタイミングとか他の展示を見回るタイミングを上手く取れずに、

終了間際に他の方のところへバタバタと挨拶いったりしてました。

ほとんど他の方の展示を見ていないのが一番の反省点です。

次回はもう少し余裕を持とう🦔

PINTO_model_zoo:単眼深度推定(210_SC_Depth_pl v3)デモ追加

SC Depth pl の v3です。

192x320で、このエッジの取れ具合は凄いな👀

Image-Processing-Node-Editorに取り込もうかしら🤔

→(2022/11/15追記) SC Depth pl が GPL v3なので取り込まない🦔

 

デモコードはPINTOさんのmodel zooにコミットしています👻

github.com

OpenCVのremap()を用いてメッシュ変形👻

OpenCVのremap()を用いてメッシュ変形的な変換を行うサンプルを作成しました。

 

ソースコードは以下にコミットしています👻


Pop2PianoでPop音楽ベースのピアノカバー生成お試し👀

Pop音楽ベースのピアノカバーのMIDI生成が出来るPop2Pianoの味見をしています。

以下のプロジェクトページではいくつかのデモも聞くことが出来ます。

 

公式でColaboratoryのノートブックが提供されているので、それを開いてGPUランタイムで上から実行していけばサクッと動作します👻

以下は試したもの。