← 返回
EVE/EVE230/2025-12-30/TRANSCRIPT→STRUCTURED
EVE/EVE230/2025-12-30/TRANSCRIPT→STRUCTURED
让 AI 赋予数字人灵魂
核心定义 → 维度分解
数字人区别于虚拟角色的关键在于有灵魂,能给人活生生的感觉。JadeWu强调,数字人由皮囊、灵魂、声音、表演四个维度组成:
- 皮囊:要有高可辨识度的视觉设计
- 灵魂:需持续运营,包括故事、背景、说话风格、才艺等,需长期更新
- 声音:独特的可辨识音色,可通过配音、AI生成等方式实现
- 表演:普通表演借助视频生成大模型,复杂表演涉及动作控制
"数字人的核心是持续运营,而非单纯炫技。"
— JadeWu
工具选择 → 实操应用
JadeWu分享了完整的工具矩阵,涵盖创意、生图、动画、配音等全流程:
| 环节 |
推荐工具 |
特点 |
| 创意文本 |
Google Gemini |
大语言模型创作分镜、剧本 |
| 生图 |
MJ、Lovart、Nano |
MJ生成人设,Nano调整细节 |
| 数字人动画 |
可灵 2.0、即梦 |
可灵画质优秀,即梦速度快 |
| 配音 |
Minimax Audio、Elab |
Minimax中文多情绪表现优异 |
| 超分 |
magnific、即梦智能超清 |
magnific效果最佳但价格贵 |
| 后期剪辑 |
剪映 |
成片发布前处理 |
流程设计 → 实战案例
三大制作环节:
- 创意阶段:用大语言模型生成分镜、剧本、台词
- 视觉阶段:用MJ、Lovart出图,通过Nano调整一致性
- 动画阶段:用可灵或即梦让数字人动起来,配音,添加表演和运镜
典型案例展示:
- 广告领域:华硕艾朵、AMD数字人(去年借助3D辅助,今年因工具进化变得容易)
- MV制作:原创MV《你说要去看极光我笑着说好》,使用可灵2.0实现精准对口型、精确表演
- 艺人合作:王力宏演唱会VJ,视觉与艺人原貌保持高度一致
"在 AI 时代,技术迭代快,创意和审美更重要。初学者先用基础工具积累经验,再用效率化工具。"
— JadeWu
动作控制 → 音画同步 → 细节优化
动作控制要点:
- 克隆动作需在克林2.6模型下,以视频为参考
- 可使用不同景别的同角色图,用同一动作控制驱动实现丰富镜头
- 生成时间约6-7分钟,需抽卡优化效果
- 注意:多人、人物太远或奇葩角度的动作无法识别
音画同步方法:
- 一般分段进行声音画面同步
- 大长镜头可用首尾帧方法
- 可灵O1功能支持基于已生成视频切镜头(需抽卡)
其他工具介绍:
- TOPZ:桌面版和在线版,星光模型在云端运行,对电脑配置要求低
- Sono:基于已生成唱腔固定音色,保持AI音乐声线一致性
🎯 核心要点提炼
- 灵魂运营是核心:数字人不是炫技,要持续打造人设、故事背景、说话风格,做长期运营
- 可灵2.0是首选:高品质模式下画质优秀,需上传日常生成的高质量图片,一次抽4条确保效果稳定
- 创意审美优于技术:工具迭代快,但创意和审美更能差异化,初学者需先积累经验再用高效工具
- Minimax配音最优:中文多情绪表现卓越,支持音画同出直接带语音,指定音色吐字更清晰
- 镜头丰富度有诀窍:用不同景别的同角色图+同一动作控制,而非重复抽卡,节省成本提高效率
- 工具矩阵需完整:从Gemini创意→MJ/Lovart生图→可灵/即梦出动画→Minimax配音→剪映后期,每环节选对工具
- 运镜提示词要简洁:可灵和海螺2.3模型适合大幅度运镜,提示词应避免权重分散(如"第一视角高速飞跃")