3D human tongue reconstruction from single ''in-the-wild'' images (arXiv2021)

3D human tongue reconstruction from single ''in-the-wild'' images
https://github.com/steliosploumpis/3D_human_tongue_reconstruction


1枚の画像から舌の三次元形状を復元する手法.画像から顔の形状,耳の形状などを復元する取り組みはこれまでにあるが,舌に着目した研究は無かった.ただし,舌は表情を表現するためにも重要であるため,この研究では1枚の画像から舌の形状を復元することに取り組んでいる.

主な新規性は以下の3点となっている.

  1. 約700名から1800の舌形状のスキャンデータを収集しデータセットを構築した.
  2. End-to-Endの学習フレームワークで1枚の画像から舌を含めた顔の三次元復元を実現した.
  3. 様々な画像に対応するために,GANベースのフレームワークを用いて画像から舌の三次元形状を復元するフレームワークを提案した.
この研究では,実際に舌の形状を三次元スキャナを用いて計測することで,画像と三次元の舌形状の正解データセットを構築している.ただし,スキャンデータのみでは,コントロールされていない環境で撮影されたデータに対してのロバスト性が低いため,GANベースのフレームワークを用いて画像から三次元の舌形状を推定する手法を導入している.これにより,生成されたデータセットも学習に用いることで,一般的な画像に対してもロバストに顔の三次元形状復元を行うことができるようになっている.

提案されているフレームワークはPoint Cloud Auto-Encoder,Image Encoder,Shape Decoderの3つのパートで構成されている.基本的なアイデアとして,スキャンデータを用いて学習済みのPoint Cloud Auto-Encoderから得られる潜在ベクトルをガイドとしてImage Encoderを学習する.これにより,画像から舌に関する三次元の特徴量を取得することができるようになる.その後,Image Encoderによって取得された特徴ベクトルをShape Decoderを用いて舌形状を制御可能な3D Morphable Modelのパラメータに変換する.
 
実験結果を見て分かるように,舌を出した表情に対応する三次元の顔モデルを推定できていることが分かる.ちなみに,この論文では,顔全体を復元するために,まず,顔のランドマークを用いて顔全体の形状フィッティングを行い,その後,口元周辺領域の画像を切り出すことで今回のネットワークの入力を生成し舌形状のパラメータを推定している.

コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定