上传人像照片和音频,AI快速生成高质量数字人口播视频。支持任意人像,让照片中的人物开口说话!
💡 图片最大 8MB,建议使用正面清晰人像照片,脸部占画面比例适中
💡 支持 MP3/WAV,最大 15MB,建议时长 5-60 秒
上传人像照片和音频,点击生成