MakeItTalk: Speaker-Aware Talking-Head Animation (SIGGRAPH Asia 2020)

MakeItTalk: Speaker-Aware Talking-Head Animation (SIGGRAPH Asia 2020)

MakeItTalk: Speaker-Aware Talking-Head Animation
https://people.umass.edu/~yangzhou/MakeItTalk/

音声を入力と1枚の顔画像を入力として，顔画像のアニメーション動画を生成する手法．ターゲット毎の学習は不要かつ3DMMなどのテンプレートモデルも不要なアルゴリズムであり，人物の顔以外の顔のようなものにも適用可能．

顔画像からは顔ランドマークを抽出し，このランドマークを音声に応じて移動させることで，顔をアニメーションさせる．音声についてはコンテンツと話者依存の情報（感情みたいなもの？）に分解し，それぞれ発話したさいのベースとなるアニメーションの生成，話者依存のアニメーションの生成する．

人物の顔が入力の場合は，生成されたランドマークの位置情報からPix2Pixのネットワークにより変形後の画像を生成する．また，非人物の場合は，Image Warpingによる画像の生成を行う．

コメント