NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV2020)
このブログでは,Computer Vision (CV)やComputer Graphics (CG)関連の論文について,(できれば)1日1本簡単に紹介していけれぼと思っています.
ということで,初回は,昨年の3月に論文が公開され,話題となったNeRF: Representing Scenes as Neural Radiance Fields for View Synthesisについて簡単に紹介しようと思います.
https://www.matthewtancik.com/nerf
NeRFはarXivに論文が公開されたのは2020年3月でしたが,発表自体は2020年8月のEuropean Conference on Computer Vision (ECCV)でした.ただし,早々にコードもgithubに公開されていたことから,2021年3月現在でかなり多くの発展手法が提案されています.
https://github.com/yenchenlin/awesome-NeRF
また,NeRFの著者自身も,NeRFの改良手法を色々と提案しています.(このスピード感は凄まじい...)
NeRFは新視点画像生成の研究で,従来の新視点画像生成と異なり,対象となるシーンの3次元形状を陽に求めることなく,対象となる空間の5次元(位置x, y, zと方向θ, Φ)に対応するRadiance Field (色RGBとその透過度σ)をNeural Networkによって学習する手法となっています.
ここで,pが各パラメータに対応し,Lが次元数になっています.NeRFでは,位置に関してはL=10,方向に関してはL=4を採用しています.なので,位置,方向のパラメータは76次元の空間に写像されネットワークに入力されていることになります.Positional Encodingが何故うまくいくのかに関しては,NeRFのFollow up論文である以下のNeurIPS2020の論文で議論がされています.
これまでに提案されてきた新視点画像生成の手法と違い,Radiance Fieldを構築することで,視点に依存した照明の変化や半透明な物体の再現が出来るようになることがNeRFのすごいところです.(だぶん)
以下はNeRFの結果動画になります.動画を見る限り,高品質な映像を生成できていることが分かります.
ただし,現状,光線上のサンプリング点毎にRGB-σの値を学習しなければならず,テスト時にも同様にx, y, z, θ, Φに対応するRGB-σを取得する必要があるため,計算コストが大きな問題となります.基本的には画像の枚数や画像の解像度が増えると計算コストがどんどんと増えていきます.単純なシーンで学習した場合にも,多くの場合で数時間から数日程度学習に時間を要します.また,テスト時のレンダリングもリアルタイムのレンダリングはかなり難しい状況となっています.なので,NeRFに関しては,比較的小規模のシーン,かつ,インタラクティブな視点の操作を必要としないオフラインのアプリケーションに限定されているという状況です.
これらの問題を解決するためのアルゴリズムが最近色々と出てきているので,それらについては次回以降で紹介できればと思います.
コメント
コメントを投稿