上传人像照片和音频,AI自动生成口型同步的说话视频。可用于配音、语音驱动等场景,让图片中的人物开口说话!
💡 视频最大 100MB,时长建议 5-15 秒,正面清晰人像效果最佳
💡 支持 MP3/WAV,最大 15MB,建议时长 5-60 秒
💡 输入与音频匹配的文字可以提高口型同步效果
上传人像照片和音频,点击生成