早いセマンティックセグメンテーションと噂のPIDNet味見👀
pidnet_S_cityscapes_544x960 CPUで味見👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年12月10日
このサイズでこのスピードは速いかしら。
少々検出が不安定にも見えますが🤔 https://t.co/IgSWP8Bo0H pic.twitter.com/eXvZQBOyNq
デモコードは以下にコミットしています🦔
早いセマンティックセグメンテーションと噂のPIDNet味見👀
pidnet_S_cityscapes_544x960 CPUで味見👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年12月10日
このサイズでこのスピードは速いかしら。
少々検出が不安定にも見えますが🤔 https://t.co/IgSWP8Bo0H pic.twitter.com/eXvZQBOyNq
デモコードは以下にコミットしています🦔
E2Pose です👀
複数人の姿勢推定をEnd2Endで実行するモデルですね。
TensorRTでGPU推論するとかなり早い模様です。
今回はCPU推論でお試し。
PINTOさん動物園のE2PoseをCPU推論でお試し確認中👀 pic.twitter.com/V3kyU19EUy
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年12月7日
もともとはGPLv2での公開だったのですが、より使用しやすいライセンスになりそうです。
大変ありがたい🦔
GPL外すようにしますね。
— とべた (@T8jZgNZ3NjeSTBr) 2022年12月6日
GUIにQtを使っている関係でGPLにしていました。
更に初版試していた時点では512x512の入力解像度のみだったのですが、
他解像度もご用意いただけるようです🦔
大変大変ありがたい🦔🦔
デモコードは以下にコミットしています👻
(追記)
ライセンスがApache v2.0に変わって、解像度が異なるモデルが沢山追加されていました👾👾👾
PINTO さんがツイートしていた DAMO-YOLO の ONNX推論を試しています👀
もはや何を認識しているのか分からない。凄いのかもしれない。"DAMO-YOLO" pic.twitter.com/62NRc8xqYV
— Super PINTO (@PINTO03091) 2022年12月6日
すばらしい。 pic.twitter.com/XxcWEHdmYS
— Super PINTO (@PINTO03091) 2022年12月6日
グラフが寄っているため、YOLOv6、YOLOv7、YOLOXと比べると、同パラメータ帯においては、実はmAPとか速度は僅差な気もしますが。。。🤔
ただ、最近Object Detection界隈は発展が停滞している感もあるので、新しく性能が高いモデルは歓迎です。
※今は画像生成AI(Stable Diffusionとか)やチャットAI(ChatGPT)が流行っていて、他の話題が埋もれているだけかもですが。。。
ONNX推論スクリプトを手直しして試してみたのが以下です。
正直、YOLOv6、YOLOv7、YOLOXと比べて凄いかと言うと現時点の感想はどっこいどっこい。
独自データセットとかで比較してみないと、(自分の中で)今後主力とするモデルかは判断できないって感じです。
ひとまず、DAMO-YOLOのONNX推論をCPUで試してみる👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年12月7日
前処理と後処理からはPyTorchを撲滅した。
精度と速度のバランスはそこそこ?
うーん、、、自前データでトレーニングして比較してみないと使えるか使えないか分からないなー👻 pic.twitter.com/Mcx6W91y4k
DAMO-YOLO追加おためし👀 https://t.co/yvE434Aakm pic.twitter.com/vLXukVJeoK
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年12月7日
ちょっと動かした感じの直感ですが、DAMO-YOLOは若干存在しないオブジェクトを誤検出する気がする(物体検出における擬陽性でしたっけ?
ちょっと色々と試してみたいとは思いますが。
今回使用したソースコードとモデルは、以下のリポジトリにコミットしています👻
(追記)
PINTOさんの動物園にもデモを追加しました👻
Ogaki Mini Maker Faire 2022 に出展しました🦔
今回は、からあげさんと「AI Zoo Keeper」と言うグループで参加しています。
雑多にAI系のデモを展示する感じです。気合でアレやコレや乗せた感👻
高橋側の展示物は以下3点です👀
OMMF展示用に写輪眼のオーバーレイと印検出を統合👀 pic.twitter.com/annHkgH4iC
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月30日
Deep写輪眼による印の検出と、瞳への写輪眼オーバーレイを同時に動かした展示用バージョンです。
M1 Macで10~15fpsくらい出ています。
本当はMediaPipeとONNXランタイムをM1 Macでビルドしようと思っていたのですが、ちょっとバタバタしてしまったため、Rosettaでごまかしています。
「印見本を見るために覗きこむと瞳に写輪眼が発現する」みたいな演出を狙っています🦔
お試しいただいた方には、そこそこ楽しんでいただけたのかな?とは思っています。
ちなみに、ボーダー柄の服に弱いことが発覚しました😇
あと、物理的に光り輝いている方も検出不可能です😇
以下の2つのリポジトリの合わせ技ですね👀
裸のラズパイでTokyo2020ピクトグラムに返信するプログラムを動かしている展示です。
一般の方も通りがかる時に、ちょいちょい試されていた感じですが、、、
どっちかと言うとエンジニアの方の食いつきのほうが良かったですね。
ラズパイで姿勢推定が5fps以上で動いていることに興味あり。と言う感じの方が多かったです。
質疑に対して、ご紹介した資料を覚えている範囲で列挙しておきます🦔
画像処理をノードベースで実行するツールの展示です。
ただ、一般向けにはあんまり面白くないかと思い、Tokyo2020ピクトグラムアプリを同時に展示しました。
実は一番食いついた方は、外国の方で英語での応対、、、
だったのですが、私は英語全然ダメで、からあげさんが応対してくれました。
これは申し訳ない🙇🙇🙇
が展示されていました🦔
詳しくは、からあげさんのブログへ👻
久々のリアルイベントで出展して良かったな。と思います。
昨年今年はオンラインのイベントにはちょいちょい参加はしていましたが、
やはり、感想とか議論とか質疑応答が活性化しにくい感じです。
リアルイベントだと、そのあたりが活発で楽しいです(オンラインも工夫次第ではあると思いますが)
そして、リアルイベントは慣らし運転が要りますね。。。
1日目は体力配分ミスって、帰宅後即死でした👻
2日目は余力を残して対応できましたが。。。
あと、思った以上に来場者が多く、
休憩するタイミングとか他の展示を見回るタイミングを上手く取れずに、
終了間際に他の方のところへバタバタと挨拶いったりしてました。
ほとんど他の方の展示を見ていないのが一番の反省点です。
次回はもう少し余裕を持とう🦔
SC Depth pl の v3です。
192x320で、このエッジの取れ具合は凄いな👀
Image-Processing-Node-Editorに取り込もうかしら🤔
→(2022/11/15追記) SC Depth pl が GPL v3なので取り込まない🦔
おー、CPU推論でこの速度・精度だと、かなり凄いんじゃない👀?
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月14日
入力サイズは192x320です👻 https://t.co/j7wEbUBrRt pic.twitter.com/ZmUTaobHhK
解像度を480x640に上げ👻
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月14日
これは凄いな🤔? https://t.co/MIOeFToQMD pic.twitter.com/REvVd4Z54k
デモコードはPINTOさんのmodel zooにコミットしています👻
OpenCVのremap()を用いてメッシュ変形的な変換を行うサンプルを作成しました。
OpenCVでメッシュ変形的なやつ。ソースコード整理した🦔
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月6日
ぐりぐり動かしてパラメータ保存するスクリプトと、変換だけするスクリプトの2つにした👻 pic.twitter.com/abXthtTMLl
ソースコードは以下にコミットしています👻
Pop音楽ベースのピアノカバーのMIDI生成が出来るPop2Pianoの味見をしています。
以下のプロジェクトページではいくつかのデモも聞くことが出来ます。
公式でColaboratoryのノートブックが提供されているので、それを開いてGPUランタイムで上から実行していけばサクッと動作します👻
以下は試したもの。
Pop2Piano を SAO の longing で味見、、、👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月5日
オリジナル20秒 → 出力MID20秒 → ミックス再生20秒 pic.twitter.com/rdbQ9Jfq8j
Pop2Piano味見②
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月5日
こっちは著作権フリーの和風戦闘BGM。
ミックス再生はボチボチそれっぽい。
まあ、そもそも入力した曲がポップかと言われると謎なのですが🤔 pic.twitter.com/LZXBe9QdH7
Pop2Piano味見③
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2022年11月5日
BGM素材集のサイバーパンク街BGM👀
ミックス再生は結構良いかも🦔 pic.twitter.com/s6qH8VysJx