[논문분석] DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation
audio signals + face images + landmarks → 통합으로 conditioning
audio signals + face images + landmarks → 통합으로 conditioning
KAT에 기반한 Network algorithm : 중간 과정 의미 해석 + 수식 유도 (MLP blackbox와 대조)
diffusion model에 대한 Practical한 고찰
object에 맞는 사람의 pose를 denoise estimate 하고 diffusion based image editing
Wav2vec + animatediff - Talking Face generation