[논문분석] AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
Audio와 Video의 멀티모달 Translate 모델
Audio와 Video의 멀티모달 Translate 모델
Latent space 에서 diffusion process
Inha Dacon LLM - QA task
Image generaion에서 다양한 Condition을 위한 Finetuning 방법
high quality video generation, Google Research