PINTO_model_zooの秋の新作です👀
人検出+顔向き(水平方向)+属性判定(おとな/こども、男女)+パーツ(目、鼻、口、耳、右手、左手、足)の検出が出来るRT-DETRv2です。
この系統のモデルは、PINTO_model_zooでYOLOv9で公開されてきていたのですが、RT-DETRv2でもトレーニングされて公開されました(データセットがまだまだ揃っていなかった過去にはYOLOXでもトレーニングされていましたが)
私の個人的な方針として、使いやすいライセンス(MIT、Apache 2、Xなど)以外は、なるべく取り扱わない。という思いがあるので、今までYOLOv9版は試しつつも、はてブでは紹介していませんでしたが、今回RT-DETERv2なので取り上げました。
数多の人検出、姿勢推定モデルが破れてきたストバス動画で味見👀 https://t.co/BpfeuQdcTs pic.twitter.com/O7gF82fdtz
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年10月16日
各フレームを個別に見ていくと、もともとの画質が悪いこともあって、ちょいちょい取り漏らしたり誤検出はしてしまいますが、その辺に転がっている人検出モデルや姿勢推定モデルで取り漏らすようなシーンも、かなり救えています。
以下はその一例↓
たぶん過去モデルより検出出来ているシーン4選👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年10月16日
・上から
・金網越し
・あまり画質のよくない状態での多人数
・暗い室内 https://t.co/gsHqIrSlsA pic.twitter.com/VZItxXrcR9
使用した重みとデモコードは以下です。
「download.sh」叩いて、パスとか確認して「demo_rtdetrv2_onnx_wholebody25.py」を実行するだけ👻