投稿

Hand-Object Interaction Image Generation (NeurIPS2022)

イメージ
Hand-Object Interaction Image Generation https://play-with-hoi-generation.github.io/ かなり長い間放置してしまっていたけれど、少しずつ再開していこうと思う。 とりあえず、再開の第1弾はNeurIPS2022で発表されたHand-Object Interaction Image Generationを紹介しようと思う。 こちらの論文は上の図にあるように、物体を把持している画像を入力とし、Targetとなる手と物体の姿勢にあった画像を出力する手法となっている。指定した手の姿勢にあった手画像を生成する手法はこれまでに提案されていたが、このように物体と手のインタラクションを考慮した把持画像生成については、こちらの論文が初めての取り組みとなっている。 この手法では、入力画像に対する三次元の手姿勢および物体姿勢は何らかの手法によって推定されていることを前提としている。手のモデルと物体のモデルにはUVテクスチャ座標が定義されており、推定されている手姿勢と物体姿勢から部分的なテクスチャ情報を入力画像から取得することが可能となっている。この情報を用いることで、Targetの手姿勢、物体姿勢に対応する画像をレンダリングすることが可能となる。しかし、この段階では、遮蔽の問題があるため、欠損のある画像がレンダリングされる。 そこで、次の段階として、 SPADE を用いて、欠損のない物体画像、欠損のない手画像を生成する。また、背景については、Image Inpainting手法を用いて補間を行う。最終的に、これら3枚の画像を合成することで、Target姿勢に対応した把持画像を生成することが可能となる。 生成結果は上のようになっており、手画像を生成する既存手法を単純に物体も考慮できるように拡張した方法に比べて、高品位な把持画像を生成することができている。 現状は、入力画像に対応する三次元の物体姿勢、手姿勢の推定が高精度に行われていないといけない、画像中の物体の3次元モデルが必要、などの多くの制約が存在する。

Neural Head Avatars from Monocular RGB Videos (CVPR2022)

イメージ
Neural Head Avatars from Monocular RGB Videos https://philgras.github.io/neural_head_avatars/neural_head_avatars.html 単眼のビデオ映像から頭部のモデルを生成するための手法を提案.3Dのメッシュモデルを生成するためのネットワークと見え方を生成するためのネットワークから構成されている.これまでに提案されている手法と比べて,3DのメッシュモデルをExplicitに推定していることから大きな視点の変化に対しても高品質な映像を生成することができる.また,提案手法はColor-dependent,Color-independentな項からなるコスト関数を最適化する枠組みとなっており,これにより形状と見えの情報をうまく分離できるようになっている. 頭部形状については,FLAMEモデルを初期値とし各頂点のオフセットを求めることで髪の毛の形状を含めたメッシュモデルを生成している.ただし,FLAMEモデルについては,頂点数を5023から16227へsubdivisionすることで利用している. 結果からも,既存手法に比べて詳細なテクスチャを再現することができていることが確認できる.

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface (ICCV2021)

イメージ
 4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface https://github.com/rabbityl/DeformingThings4D 部分的なスキャンデータから全体の形状と密なモーションを補間する手法.入力は2フレーム分のスキャンデータで,初期のモーションは FlowNet3D によって推定している.深層学習を用いて形状を補間する方法はこれまでにも提案されていたが,形状とモーションの両方を同時に補間する取り組みはこれまでになかった. 主な新規性は以下の3点となっている. 部分的なスキャンデータから密な形状とモーションを同時に補間するという問題設定の新しさ ネットワークを学習するために大規模な4Dデータのデータセットを構築したこと 形状の補間とモーションの補間は相補的な関係にあり,提案手法を用いることでベースラインの手法よりも大きく精度を改善することが出来ること この研究では,モーションを補間するためのネットワークと形状を補間するためのネットワークの2つを用いており、各ネットワークでは段階的に解像度を上げながら処理を行っていくようになっている.また,その際に,中間出力を共有することによってモーションの補間結果と形状の補間結果がお互いに干渉しあうようになっている.ただし,学習の初期段階では,中間出力は安定して得られないため,真値を用いているらしい. 著者らはこのようなネットワークを学習するために,CGデータを用いて DeformingThings4D というデータセットを構築し公開している. DeformingThings4Dのデータセットには1,972のアニメーションシーケンスが収録されており,全体で122,365フレーム分の4Dデータ(モーションや形状など)の真値が得られるようになっている. 4DCompleteは,Localな特徴のみを用いて形状およびモーションの補間を行っており,人物などのGlobalな特徴を利用していないことから,様々な物体に適用できるという特徴がある.現状,色情報の補間はできていないが,色情報も含めた復元が可能になるとNon-rigidな物体の3次元形状復元の研究が大きく前進するような気がする.

3D human tongue reconstruction from single ''in-the-wild'' images (arXiv2021)

イメージ
3D human tongue reconstruction from single ''in-the-wild'' images https://github.com/steliosploumpis/3D_human_tongue_reconstruction 1枚の画像から舌の三次元形状を復元する手法.画像から顔の形状,耳の形状などを復元する取り組みはこれまでにあるが,舌に着目した研究は無かった.ただし,舌は表情を表現するためにも重要であるため,この研究では1枚の画像から舌の形状を復元することに取り組んでいる. 主な新規性は以下の3点となっている. 約700名から1800の舌形状のスキャンデータを収集しデータセットを構築した. End-to-Endの学習フレームワークで1枚の画像から舌を含めた顔の三次元復元を実現した. 様々な画像に対応するために,GANベースのフレームワークを用いて画像から舌の三次元形状を復元するフレームワークを提案した. この研究では,実際に舌の形状を三次元スキャナを用いて計測することで,画像と三次元の舌形状の正解データセットを構築している.ただし,スキャンデータのみでは,コントロールされていない環境で撮影されたデータに対してのロバスト性が低いため,GANベースのフレームワークを用いて画像から三次元の舌形状を推定する手法を導入している.これにより,生成されたデータセットも学習に用いることで,一般的な画像に対してもロバストに顔の三次元形状復元を行うことができるようになっている. 提案されているフレームワークはPoint Cloud Auto-Encoder,Image Encoder,Shape Decoderの3つのパートで構成されている.基本的なアイデアとして,スキャンデータを用いて学習済みのPoint Cloud Auto-Encoderから得られる潜在ベクトルをガイドとしてImage Encoderを学習する.これにより,画像から舌に関する三次元の特徴量を取得することができるようになる.その後,Image Encoderによって取得された特徴ベクトルをShape Decoderを用いて舌形状を制御可能な3D Morphable Modelのパラメータに変換する.   実験結果を見て分かるように,舌を出した...

pixelNeRF: Neural Radiance Fields from One or Few Images (CVPR2021)

イメージ
pixelNeRF: Neural Radiance Fields from One or Few Images https://alexyu.net/pixelnerf/ 1枚または少数の画像からNeural Radiance Filedを構築する手法.基本的なアイデアは IBRNet と同様で,入力画像を直接利用するのではなく,CNNを用いて抽出したfeature vectorからRGBσを出力するようなネットワークを学習する.単一の視点の場合は光線上のサンプルした点を入力画像上へ投影し,投影先のfeature vectorを用いる.複数視点の場合はそれぞれの視点へ投影し対応するfeature vectorを取得,その後,平均を取り利用する. 同一カテゴリのデータで学習したモデルを利用することで,未知のシーンに対してもRadiance Fieldを構築することが出来る. pixelNeRF,IBRNet双方に NeRF の別々の著者が名前を連ねているが,IBRNetの方がより手法が洗練されている印象.

FastNeRF: High-Fidelity Neural Rendering at 200FPS (arXiv Mar. 2021)

イメージ
FastNeRF: High-Fidelity Neural Rendering at 200FPS https://arxiv.org/abs/2103.10380 NeRFの高速なレンダリングを実現する手法.NeRFで学習されるRGB-σの値をキャッシュすることで高速化を行う.ただし,単純にキャッシュすると膨大なメモリが必要になるため,位置と方向それぞれで基底関数を用いた圧縮を行うことでコンシューマーレベルのGPUのメモリでもキャッシュができるようにしている.そのため,ネットワークはNeRFと異なり位置と方向の2種類のネットワークが利用される. Radiance Fieldを学習した後,空間全体を一定の間隔でサンプリングする.また,方向についても同様に各点について一定の間隔でサンプリングする.FastNeRFでは,位置および方向の情報をD個のパラメータで表現することで,Radiance Field全体を表現している.これにより,通常の NeRF では位置および方向をそれぞれfloat 16ビットで1024サンプルした場合,おおよそ5600TB必要なのに対して,FastNeRFでは,D=8とした場合,おおよそ54GBとなる.また,何もない位置の点に関しては不要なので,空間全体の30%程度にオブジェクトが存在している場合にはコンシューマーレベルのGPUやCPUのメモリに格納できるレベルになる. 処理速度の比較は以下の通り.先日紹介した DONeRF は15fpsでオリジナルのNeRFの0.06fpsに比べ劇的に処理時間を減らすことが出来ているが,FastNeRFはオリジナルのNeRFに比べ約3000倍の高速化という驚きの結果となっている. 画質についても,オリジナルのNeRFと同等の性能で画像生成することが出来ている.

D-NeRF: Neural Radiance Fields for Dynamic Scenes (arXiv Nov. 2020)

イメージ
D-NeRF: Neural Radiance Fields for Dynamic Scenes https://www.albertpumarola.com/research/D-NeRF/index.html 動的な物体を対象としたNeural Radiance Filedベースの新視点画像生成手法.動的なシーンを対象としたNeural Radiance Filedとしては,以前紹介した以下の論文がある. Deformable Neural Radiance Fields (arXiv Nov. 2020) https://moitkfm.blogspot.com/2021/03/deformable-neural-radiance-fields-arxiv.html 以前紹介した以下の論文との違いは,D-NeRFは基準となるフレームへの変換のみでなく,基準となるフレームからある時刻のフレームへの変換についても学習を行う点が異なる.これにより,任意の時刻の任意視点映像生成を実現している. 入力画像の条件が異なるため単純に比較はできないが,Deformable Neural Radiance Fieldsでは学習に1週間ほどかかっていたが,400x400の画像を入力とした場合にD-NeRFはNvidia GTX 1080で2日ほどで学習ができるとのこと.ただし,これは,Deformable Neural Radiance Fieldsでは,Non-Rigidな変形をAs-rigid-as-possibleの制約などを使って求めているのに対して,D-NeRFは変形は各頂点にオフセットをのせるだけの単純な形で表現されているためだと思われる.また,D-NeRFでは各フレーム間での対応関係をどのように算出するかは言及されておらず,実験結果はシミュレーションのみとなっており実画像への適用は難しいと思われる.