NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV2020)

 このブログでは,Computer Vision (CV)やComputer Graphics (CG)関連の論文について,(できれば)1日1本簡単に紹介していけれぼと思っています.

ということで,初回は,昨年の3月に論文が公開され,話題となったNeRF: Representing Scenes as Neural Radiance Fields for View Synthesisについて簡単に紹介しようと思います.

https://www.matthewtancik.com/nerf

NeRFはarXivに論文が公開されたのは2020年3月でしたが,発表自体は2020年8月のEuropean Conference on Computer Vision (ECCV)でした.ただし,早々にコードもgithubに公開されていたことから,2021年3月現在でかなり多くの発展手法が提案されています.

https://github.com/yenchenlin/awesome-NeRF

また,NeRFの著者自身も,NeRFの改良手法を色々と提案しています.(このスピード感は凄まじい...)

https://jonbarron.info/

NeRFは新視点画像生成の研究で,従来の新視点画像生成と異なり,対象となるシーンの3次元形状を陽に求めることなく,対象となる空間の5次元(位置x, y, zと方向θ, Φ)に対応するRadiance Field (色RGBとその透過度σ)をNeural Networkによって学習する手法となっています.


入力としては,複数枚の撮影画像とその画像を撮影したカメラのパラメータ(位置,姿勢などの外部パラメータと焦点距離などの内部パラメータ)となっています.NeRFでは新視点画像生成にVolume Renderingのアルゴリズムを利用することを想定しており,学習時にはデータセットの中からいくつかの視点の画像をGround Truth (GT)の画像として利用し,生成した画像とGT画像が一致するように学習を進めていきます.学習時には,ターゲットとなる視点における各画素に対応する光線上の点をサンプリングし,各サンプル点の位置と視点への方向に応じたRGB-σを推定していきます.この際に,位置,方向をそのまま利用すると生成画像において高周波成分が再現できないという問題が生じるため,NeRFではPositional Encodingという方法を用いて,x, y, z, θ, Φの各パラメータを以下の式を用いて高次元の空間へ写像して利用をしています.


ここで,pが各パラメータに対応し,Lが次元数になっています.NeRFでは,位置に関してはL=10,方向に関してはL=4を採用しています.なので,位置,方向のパラメータは76次元の空間に写像されネットワークに入力されていることになります.Positional Encodingが何故うまくいくのかに関しては,NeRFのFollow up論文である以下のNeurIPS2020の論文で議論がされています.

Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains (NeurIPS2020)

これまでに提案されてきた新視点画像生成の手法と違い,Radiance Fieldを構築することで,視点に依存した照明の変化や半透明な物体の再現が出来るようになることがNeRFのすごいところです.(だぶん)

以下はNeRFの結果動画になります.動画を見る限り,高品質な映像を生成できていることが分かります.


ただし,現状,光線上のサンプリング点毎にRGB-σの値を学習しなければならず,テスト時にも同様にx, y, z, θ, Φに対応するRGB-σを取得する必要があるため,計算コストが大きな問題となります.基本的には画像の枚数や画像の解像度が増えると計算コストがどんどんと増えていきます.単純なシーンで学習した場合にも,多くの場合で数時間から数日程度学習に時間を要します.また,テスト時のレンダリングもリアルタイムのレンダリングはかなり難しい状況となっています.なので,NeRFに関しては,比較的小規模のシーン,かつ,インタラクティブな視点の操作を必要としないオフラインのアプリケーションに限定されているという状況です.

これらの問題を解決するためのアルゴリズムが最近色々と出てきているので,それらについては次回以降で紹介できればと思います.

コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定