高橋かずひとのプログラミング、その他、備忘録。

日々調べてたことや、作ってみたものをメモしているブログ。 お決まりの断り文句ですが、このブログに書かれている内容は個人の見解であり、所属する組織の公式見解ではありません。チラ裏。

OpenCVのViTトラッカー味見👀

ViTトラッカーのPRを貰ったため、取り込んで動作確認してみました👀

結構早いですね。

精度も速度の割にかなり高い気がします。

 

PRをいただいたリポジトリは、以下のリポジトリです。

LLaVA-JPをColaboratoryでお試し。

VLMは結構興味あって、案件やプライベート含めちょいちょい試しています👀

身も蓋も無いこと言うと、現時点ではGPT4V(要課金)の性能が図抜けているのですが、、、
OSSで簡単に動かせるVLMも、turingmotors/heron や tosiyuki/LLaVA-JP など出てきていて、前提や用途を限定すればかなり使える状況になってきました。

以下は、LLaVA-JPをお試ししている時に画像です。

 

お試しに使用したColaboratoryノートブックはZennの投稿と共に公開しています🦔

zenn.dev

2023年振り返り

はじめに

12/29(金)に仕事納めしました(本業は28日、副業案件は29日)
冬休み中は、LT資料作ったり、いくつか試験的なプログラム作ったりかなー👀
もうコレ書いているタイミングも大晦日でギリギリなのですが、2022年の振り返りをしたいと思います🦔
だらだら書いているうちに年があけてしまいました。あけましておめでとうございます👻

昨年までは、GitHubKindleTwitterの分析をそれぞれ別投稿でまとめてましたが、労力の割にあまり気付きがないので、今年はこの投稿でサラッと触れる程度にします。

GitHub

リポジトリ

リポジトリ数:436 → 510
作成リポジトリ:377 → 445
フォークリポジトリ:59 → 65

作成リポジトリの内、Public/Privateの内訳は以下↓
Publicリポジトリ:206 → 228
Privateリポジトリ:230 → 282

今年は昨年に比べて作ったもの少ないです(Publicリポジトリは22作成、昨年は43作成)
何か検証する時とか、ツールやパーツ作った際にリポジトリ作っているので、今年はあまりその機会が無かったという感じですね。

フォロー/フォロワー

フォロワー:380人 → 555人
フォロー:88人 → 98人

ここは特に言うことなし👀

スター数合計

スター数総合計:2577 → 3347
スター数平均:5.89 → 6.56

ここも特に言うことなし👀

スター数トップ10

「hand-gesture-recognition-using-mediapipe」が色々なところでチョクチョク使われているっぽくて、ジワ伸びをしています👀

Kindle

蔵書数

9497になりました。
昨年から739冊増加です。

これはまあ漫画の全巻衝動買いが少なかった影響ですね。
技術書は案件に関わる系の書籍をちょいちょい読んだ感じです。

Twitter

銃口の数

フォロワー:3,876 → 4,240

微増って感じです。色々情報を回したり、ちょっとした課題の質疑を助け合ったりで、いつも助かっております🙏

目標達成状況

  • Unity & 機械学習で何か作りたい
    これはBarracudaからSentisに環境が変わったこともあって、改めて検証中です。
    来年はAIを組み込んだゲーム作ってunityroomとかに公開したいなー👀
  • 何か得意分野と呼べるものを見つけたい
    うーん、、、これは保留中です。
    あと1年くらいは「AI(をクローンして使うだけのディープでポン)人材」で良いかなー。
    ただ、ChatGPTとかCopilotとか進歩著しいので、そっちも上手く使いこなしたいなー🤔

どんな年だったか?

対外的なアウトプットは少なめな年でした🦔
社内的にはちょいちょいアウトプットしているのですが、特許とかプレス発表とかの兼ね合いで、対外には出せないネタが比較的多かった感じです(ネタとしては面白いと思っているものが多く、出せるタイミングで対外的にもLTとか発表はしたい)

転職後2年目と言うこともあり、良くも悪くも安定した一年でした。
来年はもう少しチャレンジングなことしたいですね。

個人的に良かったニュースですが、フルリモート2年目と共に、健康的な生活を心がけて2年目となり、肝臓の数値がパーフェクトに改善しました。
やはり運動と筋トレは正義🙃 ※左が今年の数値です

アウトプットしたもの

LT

対外的なLTは5本ですね。
少しずつオフラインの勉強会が復活してきていて良かったです🦔

kazuhito00.hatenablog.com kazuhito00.hatenablog.com kazuhito00.hatenablog.com kazuhito00.hatenablog.com kazuhito00.hatenablog.com

GitHub

作成リポジトリの傾向は、今年も推論サンプルとかトレーニングサンプル、画像処理サンプルがメインで小さいものが多いです。

今年は、気合入れて作ったリポジトリあんま無くて特筆すべきものは思いつかないのですが、、、
強いて言うならPaddleOCRのONNX推論リポジトリが、ちょいちょい色々なところで利用されているっポイ🦔 github.com

Qiita

Qiitaは投稿3件でした。
全部、OpenCVアドベントカレンダーの投稿ですね👀
Audioの件とか、dnnモジュールの件は、正直あやふやなところありましたが、知り合いにマサカリ投げてもらって情報貰って助かりました。

qiita.com qiita.com qiita.com

Zenn

Zennは投稿2件でした。
こちらは仕事で使ったちょいスクリプトのメモ書きみたいな投稿🦔

zenn.dev zenn.dev

Axross

Axrossは投稿4件でした。
昨年よりは投稿ペース落ちてますね。
ネタ切れと言うわけではないですが、こちらは少々パワーがいるので、本業が忙しくないタイミングのみ書いていた感じです。

axross-recipe.com axross-recipe.com axross-recipe.com axross-recipe.com

2024年は

オフラインの勉強会が復活してきたので、また色々LTとか交流とかしたいですねー。
NGK2024Sには多分採択されているので、参加される方は、愛知のエイチーム様のオフィスで僕と握手🤝 ngk2022s.connpass.com

2024年の目標は、、、
どうしよう?
ひとまず以下のような感じ?

  • Unity & 機械学習で何か作りたい
  • (最近分野が狭まっていたので)アレやコレや手を出したい

あとはー、、、
たぶん、自プロジェクトの状況が結構変わる気がするので、それを上手く乗り越えなきゃ👀

おわりに

2023年ありがとうございました。
2024年もよろしくお願いいたします🦔

試作:ラズパイで音拾ってインターホンの音だったらLINE通知🦔

とりあえず表題の試作品を作りました。

ラズパイと言うかreTerminalですが🦔 ※中身はRaspberry Pi CM4

 

ささっているマイクは、サンワサプライのマイクです。

今はAmazon直では買えず、出品者からの購入しか出来ませんが👻

amzn.to

 

処理的には以下みたいな流れです。

データセット準備が結構力技なので、ソースコード公開はどうしようかなー。。。

モデルをそのまま公開してもイマイチだし、、、🤔

① マイク入力

② メルフィルタバンクで特徴量抽出

③ 仕事で考えた魔改造MLP-Mixer で分類

vehicle-reid-0001 お試し👀

ちょっと古いモデルなのですが、vehicle-reid-0001(正確には OSNet Ain Vehicle ReID)を動かしました👀

元はOpenVINO動物園のモデルですね。

と言うか、Vehicle ReIDって、結構な確率でモデルのリンク切れしてたり、パッケージの依存関係がアレすぎて、パッと使えないリポジトリが多い印象なんですよねー。。。

OpenVINO動物園はそのあたりしっかりしていますが👻

 

動画なので分かりにくいかもですが、追跡IDは結構切り替わっちゃってるし、やはりVehicle ReIDのタスクは困難タスクな感じありますね🤔

同じ車種で同じ色の車なんて結構ザラに見かけますしね。

Person ReIDもかなり難しいタスク(日本だとスーツとか制服とか黒い衣服の人が多いとか、そーいう状況もあり)ですが、Vehicle ReIDは更に難しい印象です。

 

ソースコードは以下に整理して公開しています。

github.com

 

MOTリポジトリにも追加しています。

github.com