Neural 3D Video Synthesis (arXiv Mar. 2021)

Neural 3D Video Synthesis
https://neural-3d-video.github.io/

動的なシーンに対するNeural Radiance Fieldベースの新視点画像生成手法.同期撮影した動画像を入力として時空間のNeural Radiance Filedを生成する.単純に各時刻のフレーム群に対してNeRFを適用すると計算コストが膨大となり現実的では無いため,提案手法では,まずキーフレームベースでNeural Radiance Filedの構築を行っている.その後,中間のフレームについては,推定済みのキーフレーム情報を線形補完して得られるNeural Radiance Filedを初期値として学習を行う.そのため,提案されている手法ではフレーム間での動きは小さいことを仮定している.


また,時空間の表現となるため,NeRFでは位置x,方向dを入力とし色cとその密度σの情報を取得していたが,以下のように提案手法では時刻tの情報も入力となる.

NeRFと同様にPositional Encodingによって位置,方向,時刻の情報を高次元にマッピングして利用する方法も考えられるが,単純に時刻をマッピングしても時間方向の複雑な変形(炎の揺らぎのようなもの?)は再現することが難しい.そこで,提案手法では,時刻に関しては,潜在ベクトルzの形で表現し用いている.


ただし,潜在ベクトルzについては,Positional Encodingを適用せずに利用する.これにより,複雑なシーンの動きを表現可能になるとのこと.実験ではGoPro Black Hero 7を21台同期撮影した動画像を入力として利用している.


実験結果を見る限り,炎のような三次元形状を手掛かりとして自由視点映像を生成する手法では難しいようなシーンに対しても,高品質な画像を生成を実現できていることが確認できる.


キーフレームベースで処理を行うことでNeRFと比べ大幅に計算コストを削減することができているが,キーフレームに関してはNeRFと同様の処理となっているためまだまだ多くの処理時間が必要となっているというのが現状でさらなる計算コストの削減が必要とのこと.


コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定