NeRF--: Neural Radiance Fields Without Known Camera Parameters

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV2020)の発展版でNeRFと異なりカメラの内部、外部パラメータも推定する手法の提案。NeRFに関する説明は、既に色々とあるのでそちらを参照。

基本的には、NeRFなどの新視点画像を生成の研究では、多くの場合、前処理としてStructure-from-Motionなどによって撮影画像のカメラの内部パラメータ(焦点距離や画像中心座標など)および外部パラメータ(回転、併進)を推定しておくことが必要となっている。これに対して、NeRF--: Neural Radiance Fields Without Known Camera Parametersでは新視点画像を生成するためのネットワークの学習時にカメラの内部、外部パラメータも推定してしまおうという研究。

アイデアは単純でカメラの内部、外部パラメータも推定対象としてネットワークを学習するというもの。ただし、内部パラメータは歪無し、光学中心と画像中心の座標は一致している、というもので内部パラメータは焦点距離fx,fyの2パラメータで表現されている。また、全てのフレームにおいて内部パラメータは共通(Shared Intrinsics)を仮定している。

推定処理は多段階になっており、各ステップでNeRFのモデルとカメラの内部、外部パラメータを推定する。ステップを進める際には、カメラのパラメータのみ推定値を保持し、NeRFのモデルについては初期化して学習を行う。これにより、カメラのパラメータが徐々に最適化される仕組みになっており、NeRFのモデルを各ステップで初期化して用いることで局所解の問題をできるだけ回避するようにしているらしい。

実験結果を見ると上手くパラメータの推定が出来ており、COLMAPの推定結果と比較しても同等の結果が得られていることが分かる。ただし、以下のような制約が現状はある模様。
  • カメラの運動に関しては、姿勢はあまり変化せず、併進が主で同一平面状を運動しているような動きに限定されている。物体を回り込んで撮影するようなシーケンスだと上手くいかないらしい。
  • NeRFのモデル構築の際のサンプリング数の削減やHierarchical volume samplingを行わないなど、計算量を出来るだけ抑えるような工夫をしているが、何度かNeRFのモデル構築を行う必要があるので、おそらく学習にかなりの時間を要する。

コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定