MakeItTalk: Speaker-Aware Talking-Head Animation (SIGGRAPH Asia 2020)

MakeItTalk: Speaker-Aware Talking-Head Animation
https://people.umass.edu/~yangzhou/MakeItTalk/


音声を入力と1枚の顔画像を入力として,顔画像のアニメーション動画を生成する手法.ターゲット毎の学習は不要かつ3DMMなどのテンプレートモデルも不要なアルゴリズムであり,人物の顔以外の顔のようなものにも適用可能.

顔画像からは顔ランドマークを抽出し,このランドマークを音声に応じて移動させることで,顔をアニメーションさせる.音声についてはコンテンツと話者依存の情報(感情みたいなもの?)に分解し,それぞれ発話したさいのベースとなるアニメーションの生成,話者依存のアニメーションの生成する.


人物の顔が入力の場合は,生成されたランドマークの位置情報からPix2Pixのネットワークにより変形後の画像を生成する.また,非人物の場合は,Image Warpingによる画像の生成を行う.

コメント

このブログの人気の投稿

COLMAPでキャリブレーション済みのデータを使う

5点アルゴリズムによるカメラ位置・姿勢の推定

2D-3D対応からのカメラ位置・姿勢の推定