操作指南

做会说话的数字人口播视频

分类：操作指南· 约 4 分钟读完· 更新于 2026 年 6 月

想做口播又不想出镜？没设备、不会剪辑、嫌麻烦？数字人口播就是为你准备的。给一张正脸照、配一段录音，AI 帮你生成一个会说话、嘴型对得上的人在镜头里讲解。一个人在家就能批量出片。

先搞懂：这是「形象 + 声音」拼起来的

数字人口播不是一个按钮搞定，它是个组合流程，说白了就两件事拼到一起：

把这两样喂给 AI，它就生成一段嘴型跟着声音动、像真人在说话的视频。听起来玄乎，做起来就三步。

配图位 · 视频创作里的数字人 / 语音口型入口

登录后进「视频创作」，找到数字人和语音口型功能

第一步：定好你的「主播脸」 进「视频创作」，挑一个你喜欢的数字人形象，或者传一张你自己的正脸照。脸要正、要清楚，嘴自然微微张开一点点最好（后面对口型更准）。这一步走数字人，15 灵极币一次。
第二步：准备声音 两条路：① 直接传你自己录的音频（手机录就行）；② 不想自己念，就用语音克隆生成一段配音。建议音频先控制在 5 到 15 秒，短一点对口型最清晰，长段落容易出错就拆成几条做。
第三步：生成对口型视频 把脸和音频丢进「语音口型」，它会让人物的嘴跟着声音动。这步按音频秒数算钱，10 灵极币/秒，比如一段 10 秒的口播大概 100 灵极币。生成按钮上会直接写「生成 · N 灵极币」，花多少一目了然。点下去等一会儿，你的数字人主播就开口说话了。

💡 放心点：万一生成失败（服务器忙或文件没识别好），灵极币会自动退回账户，提示「生成失败，灵极币已自动退还，请稍后重试」，不会白扣，大胆试。

同样是数字人，有人做出来嘴型对得严丝合缝，有人做出来一看就假。差距就在下面这几条：

⚠️ 最容易翻车的一点：运动强度别调太高。很多人觉得人物动得越多越生动，结果一调高，头一晃、身子一扭，嘴型同步就被带乱了，看着像卡了。做口播就是要稳稳地说话，运动强度往低了给，对口型才干净。

数字人口播是普通人最容易变现的一块。你不用露脸、不用每天对着镜头，照样能批量出片：

会做数字人口播，等于多了一个不用睡觉、不用化妆、随时能开播的「员工」。

注册就送灵极币，传一张脸配一段音，你的数字人主播现在就能开口。