4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface (ICCV2021)

 4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface
https://github.com/rabbityl/DeformingThings4D


部分的なスキャンデータから全体の形状と密なモーションを補間する手法.入力は2フレーム分のスキャンデータで,初期のモーションはFlowNet3Dによって推定している.深層学習を用いて形状を補間する方法はこれまでにも提案されていたが,形状とモーションの両方を同時に補間する取り組みはこれまでになかった.

主な新規性は以下の3点となっている.

  1. 部分的なスキャンデータから密な形状とモーションを同時に補間するという問題設定の新しさ
  2. ネットワークを学習するために大規模な4Dデータのデータセットを構築したこと
  3. 形状の補間とモーションの補間は相補的な関係にあり,提案手法を用いることでベースラインの手法よりも大きく精度を改善することが出来ること
この研究では,モーションを補間するためのネットワークと形状を補間するためのネットワークの2つを用いており、各ネットワークでは段階的に解像度を上げながら処理を行っていくようになっている.また,その際に,中間出力を共有することによってモーションの補間結果と形状の補間結果がお互いに干渉しあうようになっている.ただし,学習の初期段階では,中間出力は安定して得られないため,真値を用いているらしい.

著者らはこのようなネットワークを学習するために,CGデータを用いてDeformingThings4Dというデータセットを構築し公開している.

DeformingThings4Dのデータセットには1,972のアニメーションシーケンスが収録されており,全体で122,365フレーム分の4Dデータ(モーションや形状など)の真値が得られるようになっている.

4DCompleteは,Localな特徴のみを用いて形状およびモーションの補間を行っており,人物などのGlobalな特徴を利用していないことから,様々な物体に適用できるという特徴がある.現状,色情報の補間はできていないが,色情報も含めた復元が可能になるとNon-rigidな物体の3次元形状復元の研究が大きく前進するような気がする.

コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定