投稿

3月, 2021の投稿を表示しています

pixelNeRF: Neural Radiance Fields from One or Few Images (CVPR2021)

イメージ
pixelNeRF: Neural Radiance Fields from One or Few Images https://alexyu.net/pixelnerf/ 1枚または少数の画像からNeural Radiance Filedを構築する手法.基本的なアイデアは IBRNet と同様で,入力画像を直接利用するのではなく,CNNを用いて抽出したfeature vectorからRGBσを出力するようなネットワークを学習する.単一の視点の場合は光線上のサンプルした点を入力画像上へ投影し,投影先のfeature vectorを用いる.複数視点の場合はそれぞれの視点へ投影し対応するfeature vectorを取得,その後,平均を取り利用する. 同一カテゴリのデータで学習したモデルを利用することで,未知のシーンに対してもRadiance Fieldを構築することが出来る. pixelNeRF,IBRNet双方に NeRF の別々の著者が名前を連ねているが,IBRNetの方がより手法が洗練されている印象.

FastNeRF: High-Fidelity Neural Rendering at 200FPS (arXiv Mar. 2021)

イメージ
FastNeRF: High-Fidelity Neural Rendering at 200FPS https://arxiv.org/abs/2103.10380 NeRFの高速なレンダリングを実現する手法.NeRFで学習されるRGB-σの値をキャッシュすることで高速化を行う.ただし,単純にキャッシュすると膨大なメモリが必要になるため,位置と方向それぞれで基底関数を用いた圧縮を行うことでコンシューマーレベルのGPUのメモリでもキャッシュができるようにしている.そのため,ネットワークはNeRFと異なり位置と方向の2種類のネットワークが利用される. Radiance Fieldを学習した後,空間全体を一定の間隔でサンプリングする.また,方向についても同様に各点について一定の間隔でサンプリングする.FastNeRFでは,位置および方向の情報をD個のパラメータで表現することで,Radiance Field全体を表現している.これにより,通常の NeRF では位置および方向をそれぞれfloat 16ビットで1024サンプルした場合,おおよそ5600TB必要なのに対して,FastNeRFでは,D=8とした場合,おおよそ54GBとなる.また,何もない位置の点に関しては不要なので,空間全体の30%程度にオブジェクトが存在している場合にはコンシューマーレベルのGPUやCPUのメモリに格納できるレベルになる. 処理速度の比較は以下の通り.先日紹介した DONeRF は15fpsでオリジナルのNeRFの0.06fpsに比べ劇的に処理時間を減らすことが出来ているが,FastNeRFはオリジナルのNeRFに比べ約3000倍の高速化という驚きの結果となっている. 画質についても,オリジナルのNeRFと同等の性能で画像生成することが出来ている.

D-NeRF: Neural Radiance Fields for Dynamic Scenes (arXiv Nov. 2020)

イメージ
D-NeRF: Neural Radiance Fields for Dynamic Scenes https://www.albertpumarola.com/research/D-NeRF/index.html 動的な物体を対象としたNeural Radiance Filedベースの新視点画像生成手法.動的なシーンを対象としたNeural Radiance Filedとしては,以前紹介した以下の論文がある. Deformable Neural Radiance Fields (arXiv Nov. 2020) https://moitkfm.blogspot.com/2021/03/deformable-neural-radiance-fields-arxiv.html 以前紹介した以下の論文との違いは,D-NeRFは基準となるフレームへの変換のみでなく,基準となるフレームからある時刻のフレームへの変換についても学習を行う点が異なる.これにより,任意の時刻の任意視点映像生成を実現している. 入力画像の条件が異なるため単純に比較はできないが,Deformable Neural Radiance Fieldsでは学習に1週間ほどかかっていたが,400x400の画像を入力とした場合にD-NeRFはNvidia GTX 1080で2日ほどで学習ができるとのこと.ただし,これは,Deformable Neural Radiance Fieldsでは,Non-Rigidな変形をAs-rigid-as-possibleの制約などを使って求めているのに対して,D-NeRFは変形は各頂点にオフセットをのせるだけの単純な形で表現されているためだと思われる.また,D-NeRFでは各フレーム間での対応関係をどのように算出するかは言及されておらず,実験結果はシミュレーションのみとなっており実画像への適用は難しいと思われる.

Mononizing Binocular Videos (SIGGRAPH Asia 2020)

イメージ
Mononizing Binocular Videos https://www.cse.cuhk.edu.hk/~ttwong/papers/invbino/invbino.html ステレオ映像からステレオ情報を復元可能な単眼映像を生成する手法.これにより,2Dテレビ,3Dテレビの双方で利用可能な映像コンテンツを生成することが出来る. 生成される単眼映像は左視点の映像となる.学習の際にはMonocular Loss(左視点画像と一致するように),Invertibility Loss(左右の入力と一致するように),Temporal Loss(直前のフレームと一致するように)の3つのLossを利用. さらに,伝送路上で生じる圧縮ノイズに対する耐性を上げるためのネットワークも利用している. 結果より,単眼映像からステレオ画像の復元が高品質に実現されていることが確認できる. ソースコードはgithub上で公開されている. https://github.com/wbhu/Mono3D

COLMAPでキャリブレーション済みのデータを使う

イメージ
COLMAPで三次元復元を行う際に既知のカメラパラメータを利用する方法についてメモしておく。多くの場合、SfMでカメラパラメータも含めて推定することで十分だが、例えばCMUの Panoptic dataset のようにカメラキャリブレーション結果が提供されているようなものに対して、COLMAPを適用してみたい場合は提供されているカメラパラメータを利用する方が良い場合がある。実際に、Panoptic datasetでCOLMAPを実行するとマッチングが上手くいかず推定に失敗する場合が多くある。 既知のカメラパラメータを利用する方法については、COLMAPのFAQの中で回答があるので、ここにある通りにcamera.txt, images.txt, point3D.txtを準備すると良い。 Reconstruct sparse/dense model from known camera poses https://colmap.github.io/faq.html#reconstruct-sparse-dense-model-from-known-camera-poses 以下はCOLAMPで画像群を読み込み、特徴点の対応関係の取得まで終わっている(マッチング結果のデータベースhogehoge.dbがある)ことを前提としている。 camera.txtの生成 camera.txtには各カメラのカメラモデルおよびカメラ内部パラメータを記載する。フォーマットは以下の通り。 カメラID カメラモデル 解像度x 解像度y fx fy cx cy 歪パラメータ 内部パラメータの表現については利用するカメラモデルに依存するので、以下のURLを参照しながら必要に応じて使い分ける。 Camera Models https://colmap.github.io/cameras.html camera_models.h https://colmap.github.io/cameras.html image.txtの生成 image.txtには各画像に対応するカメラ外部パラメータを記載する。フォーマットは以下の通り。 画像ID qw qx qy qz tx ty tz カメラID 画像ファイル名 ここで(qw, qx, qy, qz)は3次元回転のクウォータニオン表現で(tx, ty, tz)は

X-Fields: Implicit Neural View-, Light- and Time-Image Interpolation (SIGGRAPH Asia 2020)

イメージ
X-Fields: Implicit Neural View-, Light- and Time-Image Interpolation https://xfields.mpi-inf.mpg.de/ 2Dの画像群から視点,照明,時間方向の補間を行い任意の視点,時間,照明の画像を生成する手法.補間は時間(下図オレンジ)→照明(下図グリーン)→視点(下図イエロー)の順番で補間を行う. 視点補間にはMultiplane Imageの表現を利用している.補間を行うNeural Networkの学習には2DのFlowの情報を利用している. ただし,照明の補間については,視点,時間と同様に単純なWarping処理によって補間を行うとShadingがおかしくなるという問題が生じるため,照明の補間に関してはAlbedoとShadingに入力画像を分離して利用する. 学習にかかる時間も短く,1024x1024の画像25枚を入力とした場合に約1時間となっている.これはRadiance Fieldを復元する方法に比べるとかなり計算コストが低い. また,論文中では,関連手法に関して表の形で特徴をまとめてあり,とても参考になる.

Dynamic Facial Asset and Rig Generation from a Single Scan (SIGGRAPH Asia 2020)

イメージ
Dynamic Facial Asset and Rig Generation from a Single Scan https://vgl.ict.usc.edu/Research/dynamicgeneration/ 単一の頭部スキャン結果から,個人のブレンドシェイプモデル,Face Rig,歯や目などの要素を生成する手法.ニュートラルの表情に加えFACS (Facial Action Coding System)に基づき抽出した26個の表情をスキャンした結果を学習用データとして用いている.各表情に対して,形状,アルベド,スペキュラ,ディスプレイスメントのデータを保持している. 学習はブレンドシェイプのモデル生成とブレンドシェイプの重み生成の2つのステージに分けて実施する.まず,アーティストが設定したブレンドシェイプの重みを利用してブレンドシェイプ生成のネットワークを学習する. 次に,ブレンドシェイプ生成の重みを生成するネットワークを学習する.これにより,単一のスキャン結果からブレンドシェイプのモデルおよび重みを生成するネットワークを学習することが出来る.

MakeItTalk: Speaker-Aware Talking-Head Animation (SIGGRAPH Asia 2020)

イメージ
MakeItTalk: Speaker-Aware Talking-Head Animation https://people.umass.edu/~yangzhou/MakeItTalk/ 音声を入力と1枚の顔画像を入力として,顔画像のアニメーション動画を生成する手法.ターゲット毎の学習は不要かつ3DMMなどのテンプレートモデルも不要なアルゴリズムであり,人物の顔以外の顔のようなものにも適用可能. 顔画像からは顔ランドマークを抽出し,このランドマークを音声に応じて移動させることで,顔をアニメーションさせる.音声についてはコンテンツと話者依存の情報(感情みたいなもの?)に分解し,それぞれ発話したさいのベースとなるアニメーションの生成,話者依存のアニメーションの生成する. 人物の顔が入力の場合は,生成されたランドマークの位置情報からPix2Pixのネットワークにより変形後の画像を生成する.また,非人物の場合は,Image Warpingによる画像の生成を行う.

Grasping Field: Learning Implicit Representations for Human Grasps (3DV 2020)

イメージ
Grasping Field: Learning Implicit Representations for Human Grasps https://github.com/korrawe/grasping_field 物体間の接触判定にSigned Distance Field (SDF)を利用する試み.SDFは物体の3次元形状復元で良く利用される空間表現で,物体表面を境に正負の値をとる.Grasping Fieldでは以下のように物体の接触面が0となるようなSDFを利用することで接触判定を可能にしている. これにより,接触,浸食,非接触を判断することができる.

Neural 3D Video Synthesis (arXiv Mar. 2021)

イメージ
Neural 3D Video Synthesis https://neural-3d-video.github.io/ Your browser does not support the video tag. 動的なシーンに対するNeural Radiance Fieldベースの新視点画像生成手法.同期撮影した動画像を入力として時空間のNeural Radiance Filedを生成する.単純に各時刻のフレーム群に対して NeRF を適用すると計算コストが膨大となり現実的では無いため,提案手法では,まずキーフレームベースでNeural Radiance Filedの構築を行っている.その後,中間のフレームについては,推定済みのキーフレーム情報を線形補完して得られるNeural Radiance Filedを初期値として学習を行う.そのため,提案されている手法ではフレーム間での動きは小さいことを仮定している. また,時空間の表現となるため,NeRFでは位置 x ,方向 d を入力とし色 c とその密度σの情報を取得していたが,以下のように提案手法では時刻tの情報も入力となる. NeRF と同様にPositional Encodingによって位置,方向,時刻の情報を高次元にマッピングして利用する方法も考えられるが,単純に時刻をマッピングしても時間方向の複雑な変形(炎の揺らぎのようなもの?)は再現することが難しい.そこで,提案手法では,時刻に関しては,潜在ベクトル z の形で表現し用いている. ただし,潜在ベクトルzについては,Positional Encodingを適用せずに利用する.これにより,複雑なシーンの動きを表現可能になるとのこと.実験ではGoPro Black Hero 7を21台同期撮影した動画像を入力として利用している. 実験結果を見る限り,炎のような三次元形状を手掛かりとして自由視点映像を生成する手法では難しいようなシーンに対しても,高品質な画像を生成を実現できていることが確認できる. キーフレームベースで処理を行うことでNeRFと比べ大幅に計算コストを削減することができているが,キーフレームに関してはNe

NeX: Real-time View Synthesis with Neural Basis Expansion (CVPR 2021)

イメージ
NeX: Real-time View Synthesis with Neural Basis Expansion https://nex-mpi.github.io/ Multiplane Image (MPI)を使った新視点画像を生成の研究.入力画像はfoward facingの画像12枚以上を想定している. MPIを使った新視点画像生成手法としては以前紹介した以下の論文などがある. Synthesizing Light Field From a Single Image with Variable MPI and Two Network Fusion (SIGGRAPH Asia 2020) https://moitkfm.blogspot.com/2021/03/synthesizing-light-field-from-single.html これまでのMPIベースの新視点画像生成では各平面の色情報としてRGBαの情報を保持していたが,NeXでは視線方向に応じた各ピクセルの色はNeural Networkによって推定された基底関数の組み合わせで表現される.基底関数は全てのピクセルで同じものを利用する. MLPの入力となる画素の位置x, y, dについては NeRF と同様にPositional Encodingを採用し,x, yについてはそれぞれ20次元,奥行dについては16次元にマップすることで56次元の入力となっている. 提案手法を用いることで,構造色のような視点位置によって見た目が大きく変化する複雑な反射も再現できていることが分かる.定量評価では,NeRFを含む既存手法よりも全てのデータセットにおいて高品質な画像を生成することが可能であった. また,提案手法はレンダリングにかかる時間も少なく,NeRFの約1000倍高速にレンダリングできる.デモページではサンプルのシーンで視点をインタラクティブに変化させることが出来る.実際に試してみたが,GeForce GTX 1080 TiのPCだと60fpsでの画像生成が可能だった. https://nex-mpi.github.io/viewer/viewer.html?scene=https://pureexe.github.io/food/1008

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild (CVPR2020)

イメージ
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild https://elliottwu.com/projects/unsup3d/ CVPR2020でベストペーパーに選ばれた論文.画像中の物体は左右対称の形状をしていることを仮定し,1枚の画像から三次元形状を推定する. ネットワークではdepth, albedo, light, 視点を推定し,推定結果をもとにレンダリングを行い,レンダリング結果と入力画像が一致するように最適化を行っていく.対称性の制約を導入するために,推定結果の左右を反転した結果についても検証を行う.ただし,上の図のように前髪などの部分は左右対称でない場合もあるため,各領域の信頼度を算出するネットワークも利用する. 1枚の画像から3Dのモデルを作成する方法は様々提案されており,特に人の顔に関してはテンプレートモデルのフィッティングを利用した方法が主流になっている.一方で,この手法は左右の対称性のみを仮定しているため,人以外の対称性を持つ物体に関しても適用できる.しかしながら,推定される形状の品質はまだまだこれからという感じ. コード以外にもデモページが準備されており,画像をアップロードすることで簡単に手法を試してみることが出来るようになっている. https://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html?image=004_face&type=human

Deformable Neural Radiance Fields (arXiv Nov. 2020)

イメージ
Deformable Neural Radiance Fields https://nerfies.github.io/ NeRF を自撮り動画へ対応させた手法.自撮り動画では,人物部分がわずかに動いてしまうため,単純にNeRFを適用しただけではアーティファクトが生じてしまう.そこで,非剛体物体のモデリングであるNon-Rigid ICPなどと同様に,フレーム間での光線の変形を考慮することで,基準となるフレーム(Canonical Frame)に各フレームの情報を統合している.光線の変形にはas-rigid-as-possible制約を利用し,また,背景部分は静的であるという制約が学習時に用いられている. 高品質な映像が生成できているが,FullHD画質の動画を入力した場合,V100GPU8枚で約1週間学習に時間がかかる. 2021.03.16. 追記 このPaperはCVPR2021には採択されなかったらしい。査読者ガチャでハズレを引いてしまったみたい。 https://twitter.com/jon_barron/status/1371619367142629376

Practical Face Reconstruction via Differentiable Ray Tracing (arXiv Jan. 2021)

イメージ
Practical Face Reconstruction via Differentiable Ray Tracing https://arxiv.org/abs/2101.05356 1枚の顔画像から3Dの顔モデルを生成する研究.生成されるモデルは3次元の形状に加え,Albedo, Specular, Roughnessのテクスチャマップを保持.また,生成の過程でIlluminationも推定. 提案手法では, A Morphable Face Albedo Model  (CVPR2020)で提案されたAlbedoとSpecularの情報を含んだ3D Morphable Model (3DMM)を入力の顔画像にフィッティングすることで,顔形状に加え初期のAlbedoとSpecularのテクスチャマップ,顔領域に対するライティングの情報を得ている.その後,Ray TracingベースのDifferentiable Rendererである redner を用いて,各テクスチャマップの最適化およびRoughnessマップの生成を行う.3DMMのフィッティング結果を最適化の際の制約として用いることで,安定したテクスチャの分離を実現している. また,光源環境についても推定を行っているが,環境マップのようなテクスチャを推定するのではなく,ライトステージのようにドーム状に設置した仮想ライトの強度を推定するようになっている.512x512画素のテクスチャ生成に,初期のフィッティングに約5分,Differentiable Renderによる最適化に約1分程度かかる. 論文の結果を見る限りではalbedoに関しては最適化前後でほとんど結果が変わっていないように見える.制約がきつすぎるのか?

読書感想文:キャラクタアニメーションの数理とシステム

イメージ
キャラクタアニメーションの数理とシステム - 3次元ゲームにおける身体運動生成と人工知能 - https://www.coronasha.co.jp/np/isbn/9784339029093/ キャラクターアニメーションに関する基礎知識を学ぶには良い本だと思う.数理とシステムというタイトルだが,数式による表現は最低限にとどめられている印象.おそらく高校数学の知識があるとすんなりと理解できるようになっていると思う.ただし,この本でキャラクターアニメーションに興味を持って実際に実装してみようと思うと別途詳細なアルゴリズムの勉強が必要になるかと思う. この本の発展版として実装に焦点を当てた本があると,これからキャラクターアニメーションを始める人たちにとってはとても有用だと思った.

DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using Depth Oracle Networks (arXiv Mar. 2021)

イメージ
 DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using Depth Oracle Networks https://depthoraclenerf.github.io/ 新視点画像を生成手法である NeRF におけるレンダリング(Inference)の高速化アルゴリズムの提案.フォーマットを見る限りSIGGRAPHに投稿された論文か? Your browser does not support the video tag. > 重点的にサンプリングすべき奥行を推定するDepth Oracle Networkを導入することにより,従来は光線上を等間隔にサンプリングする必要があったが,特定の奥行周辺のみのサンプリングでNeRFと同等の性能を実現することが可能となった.これにより,15fpsでのレンダリングが可能となった. この論文ではDepth Oracle Networkを導入する前に,NeRFにおいて光線上のサンプリング方法の違いによる画像品質の向上について調査を行っている.著者らの調査結果によると,均一にサンプリングするよりも,log変換によって視点に近い位置を重点的にサンプリングする方法,log変換後に視点から遠い空間を圧縮するwarpを組み合わせる方法,を採用することで生成画像の品質を向上できることが示されている. サンプリング方法の違いと画質の関係

Robust 3D Self-portraits in Seconds (CVPR2020)

イメージ
Robust 3D Self-portraits in Seconds http://www.liuyebin.com/portrait/portrait.html 人物の3DモデルをRGB-Dのシーケンスから生成する手法の提案.著者らの先行研究である DoubleFusion では, SMPLモデル を利用したトラッキングを行っていたが,SMPLモデルは衣服を身に着けていない人物のモデルであるため,ワンピースのような足の形状が隠れてしまう衣服などを来ていた場合にトラッキング精度が低下してしまう.そこで,単眼画像からの人物モデル生成手法である PIFu と組み合わせることで,トラッキング精度の低下を防いでいる. 提案手法では,RGB-Dカメラの前で人が自分で360度回転することで全身の撮影を行い,この撮影されたRGB-D動画像を入力として人物の3Dモデルを生成する.PIFuと異なり,RGB-Dの入力が得られるため,PIFuにおける空間のサンプリングは取得されたDepthの周辺に限定することができるため,より精度良く高速にモデルを生成することが可能となっている(RGBD-PIFu).RGBD-PIFuによって得られたモデルはトラッキングに用いられ,各フレームで取得されたDepth mapを使ってモデルをアップデートすることで詳細な形状を復元していく.トラッキングにはDoubleFusionと同様のアルゴリズムが利用されている.また,一度に全集を復元するのではなく,全周をいくつかのパーツ(portion)に分解して復元を行う.最終的に各パーツをBundle Adjustment (BA)によって統合する.ただし,全てのフレームを使ったBAは処理コストが高いため,各パーツ毎にキーフレームを選択し,このキーフレームを使って統合を行う.これにより,計算時間を大幅に抑えることが出来る.  

Synthesizing Light Field From a Single Image with Variable MPI and Two Network Fusion (SIGGRAPH Asia 2020)

イメージ
Synthesizing Light Field From a Single Image with Variable MPI and Two Network Fusion https://people.engr.tamu.edu/nimak/Papers/SIGAsia2020_LF/index.html 単眼画像からの新視点画像生成の研究.従来手法では,新視点画像生成のために視点位置から一定の間隔で設置したMultiplane Image (MPI)上へ入力画像を投影し,各奥行の平面に投影された画像を新視点画像上へ投影することで新視点画像の生成を行っていた.この場合,平面間に物体が存在するような場合は,物体を挟む2つの平面状に単一の物体の色情報が分配されてしまい,新視点画像上にゴーストが生じてしまうという問題があった.これを解決するために,提案手法では,投影先の平面の間隔を動的に設定するVariable MPIを導入している.これにより,新視点画像を生成した際に生じるゴーストを低減することができる. ネットワークは可視領域を処理するためのVisible CNN,遮蔽領域を処理するためのOccluded CNNで構成されている.最終的に2つのネットワークで生成された画像よりVisibility Maskを生成し,これを利用することでブレンディングし最終結果を得る.

Torch-Points3D: A Modular Multi-Task Framework for Reproducible Deep Learning on 3D Point Clouds (3DV2020)

イメージ
 Torch-Points3D: A Modular Multi-Task Framework for Reproducible Deep Learning on 3D Point Clouds https://github.com/nicolas-chaulet/torch-points3d 3次元コンピュータビジョンの国際会議である3DV2020で発表された論文で,アルゴリズムの提案ではなく、Deep Learningを使った種々の3次元点群処理アルゴリズムをpytorchフレームワーク上で利用可能にしベンチマークをしやすくしたという内容の論文. Torch-Points3Dには,Classification,Registration, Object Detectionなどの以下のようなタスクがサポートされている. また,3次元点群処理の分野では様々なConvolutionカーネルが提案されているが,代表的なものに関してはTorch-Points3dで利用可能になっている. さらに,学習のための代表的なデータセットも直接ダウンロードして扱えるようになっている.

IBRNet: Learning Multi-View Image-Based Rendering (CVPR2021)

イメージ
 以前紹介した NeRF は,Radiance Fieldを学習することで高品質な自由視点映像を生成することが可能だが,Radiance Fieldの学習には多くの計算コストを必要とするという問題がある.そのため,解像度を上げることや大規模なシーンへの適用が難しいというスケーラビリティの問題があった.IBRNetはこのようなNeRFのスケーラビリティの問題を解決するためのアルゴリズムとなっている. IBRNet: Learning Multi-View Image-Based Rendering https://ibrnet.github.io/ IBRNetはNeRFなどの多くの学習ベースの自由視点画像生成アルゴリズムで必要となる対象シーン毎の学習が不要なアルゴリズムである.NeRFでは対象となるシーンの学習に十数時間から数日の時間を要していたのに対して,IBRNetでは即座に自由視点画像の生成を行うことができる.(ただし,Rendering部分はほぼ同じなので,リアルタイム処理は実現できないと思う) 基本的なアイデアは,Classicalな自由視点画像生成アルゴリズムであるImage-based renderingのように生成する視点の周辺で撮影されている画像群のみを用いて新視点画像を生成するというものである.これを実現するために,近傍の視点画像のブレンディングによってVolume Renderingに必要なRGB-σの情報を生成するネットワークを構築するというものである.ネットワークの概要は以下のようになっている. 各視点画像のカメラパラメータ(内部,外部)は既知で,各視点画像はRGBの色情報の他にU-Net上のネットワークを用いて抽出されたDense Feature f を持っている.IBRNetでは,対象となる視点から光線を飛ばし,この光線上をサンプルした点の位置,方向に対応するRGB-σの値を出力する.RGB-σの値は,まず,サンプルした点を近傍の視点画像上へ投影し対応する画像特徴を算出する.各画像特徴は局所的な特徴を表現しているが,自由視点画像を生成するためには大局的な特徴も重要であるため,画像特徴の各要素の平均 μ と分散 v を算出しネットワークの入力にする.これにより局所的,大局的双方を考慮した特徴を

Learning Formation of Physically-Based Face Attributes (CVPR2020)

イメージ
 高品質な顔の三次元モデルを生成する研究.モデルは顔の外形(形状とテクスチャ)と目や歯などのアセットに分けて生成される.この論文では顔の外形の生成に着目し,Neural Networkを用いて4k画質のテクスチャを生成することを実現している. Learning Formation of Physically-Based Face Attributes https://vgl.ict.usc.edu/Research/Deep3DMM/ 顔のモデル生成では幾何形状とテクスチャをそれぞれ別で生成し,後から統合する方法が主流だが,この研究では双方を同時に生成するアプローチとなっている.モデルの生成はLatent Vectorを用いて制御され,直感的な操作を実現するために学習の際はブレンドシェイプの重みとLatent Vectorが出来るだけ対応するように工夫がなされている. また,顔形状に関しては,各頂点の位置をHDR画像の画素の値として保持することで,Neural Networkで処理をおこなっている.生成されるモデルは形状,Diffuse map, Specular map, Displacement mapでテクスチャマップは4k解像度となっている.この解像度は映像制作の場で必要とされる最低限の解像度を満たしているとのこと. コードは公開されていないが,学習によって得られたモデルはICT-Facekitとしてgithub上で公開されている.ただし,テクスチャの生成は公開されているモデルには含まれておらず,幾何形状のみの生成が可能となっている. ICT-FaceKit https://github.com/ICT-VGL/ICT-FaceKit