HKU(香港大学)とByteDance TikTokチームが開発しているDepth Anythingというライブラリがあるのですが、その発展版ということでByteDance社のメンバーが新たに動画向けの”Video Depth Anything”ライブラリを公開しました。早速試してみます。
目次
動画を分析
Google Colabで実行します。
!git clone https://github.com/DepthAnything/Video-Depth-Anything
%cd /content/Video-Depth-Anything
!pip install -r requirements.txt
!bash get_weights.sh
!python3 run.py --input_video /content/4540332-hd_1280_720_25fps.mp4 --output_dir ./outputs --encoder vits
ダンス動画を分析します。

結果 ※動画 ( Video-Depth-Anything-V2-Small )
Largeモデル結果 ※画像

Depth-AnythingV2
改めて、Depth-Anything V2でも実行してみました。
「カメラと奥の建物の距離」が大接近してるわけではないのに急に近付いたり、離れたりしているように推定されるフレームがあるように思います。


一貫性のあるDepth推定
性能に大きな差があるわけではないようです。
そのため、動画利用であればコチラの Video Depth Anything を利用すれば良さそうです。
Depth Anything、Video Depth Anythingともに、「簡単に利用できる」という点が大きなメリットだと思います。
その上で、動画などで一貫したDepth推定ができるようになったというのは進歩だと思われます。
Depthマップの利用用途 (生成AIいわく)
建設・土木業界(建設現場モニタリングや資材管理など)
- 活用例:
- 建設現場全体の進捗可視化(どこがどれだけ進んでいるか)
- 資材の位置・量などを3次元的に管理し、安全リスクを把握
- メリット:
- 一貫した深度推定:ドローン撮影などで現場を定期的に映したとき、複数の動画フレーム間で高さや奥行きを継続的に把握できる。
- オクルージョン対応:大型クレーンや資材が部分的に重なり合うような複雑な現場でも、奥行き関係を比較的正確に捉えられる。
農業・林業(作物や樹木の生育管理、収量予測など)
- 活用例:
- 作物の高さやボリューム(バイオマス量)推定
- 林業では樹木の分布・成長度合いのモニタリング
- メリット:
- 一貫した深度推定:畑や森林を複数回のドローン空撮等で撮影し、同じ領域を継続的に分析。
- オクルージョン対応:風で作物が揺れたり他の樹木に隠れたりする状況でも、地表面からの高さや作物の密度を推定しやすい。
スポーツ解析(スポーツトレーニングやパフォーマンス評価)
- 活用例:
- 選手の動作解析(ジャンプの高さ、足の位置関係など)
- チームスポーツでの位置関係を3次元的に把握し、戦術分析に活かす
- メリット:
- 一貫した深度推定:競技中の選手の動きを3D的に捉え、フォームや動作を継続的に追跡。
- マスク・セグメンテーションとの組み合わせ:選手だけをマスクし、背景を除去したうえで動きの深度情報を解析するなどが可能。