EVE/EVE08/2025-08-18/TRANSCRIPT→STRUCTURED

AI视频创作与北京大赛实战分享

讲师：娜乌斯佳参会人数：566 时长：2h 14m

核心工具体系

Midjourney：高审美模型标杆，30$/月。支持三种垫图方式（star reference管风格、image transform保留元素、only reference记录细节），可进行竖横屏转换和视频导出。

豆包：擅长中国地标识别，可作微缩模型预生图再导入Midjourney精修。

千问 Image：相当于纪梦3.0，免部署费但网页生速稍缓。

万 2.2：动作迁移能力已超越部分闭源工具。

Multitalk：开源对口型顶级工具，支持多人对话和音色克隆。

首尾帧+多帧功能（灰度中）低成本生成视频串联；Agent模式可自动完成小说推文的大纲编写、分镜绘制；文字效果需置于双引号内。

核心关键词：cinematic Micro photography + isometric bird's eye view。无需完全复用示例，可通过Google按省份生成定制提示词并筛选地标建筑。悬空寺、南天门、少林寺等已验证无需垫图可直生。

Context改图：支持万物转换（短发、金发等），操作快速简便。

工作流搭建：RunningHub网站提供现成方案，小白可直用，高阶者可自建或云端部署（需付算力费）。

制作核心：根据画面写差异化提示词，保持首尾帧元素一致实现丝滑过渡。案例演示：以"一家人看电视→电视内古罗马斗兽场"为例展示分层构图。可借PS调整（裁剪、缩放）精控画面。

核心要素：融入胡同、天坛、紫禁城等地标，融合全聚德等文化符号，强化国际化传播（多语种字幕配音）。

避免末日提交（最后1-2天审核堆积）。充分利用剩余时间多作品参赛，同时创作视频和图片，多抽奖卡。

"微缩摄影提示词 + 地标建筑垫图"这套方法论已在天坛、少林寺等标志性场景验证可行，关键是用Google按省份生成定制提示词而非生硬复制。

—— 娜乌斯佳

工具矩阵搭建：Midjourney（高审美）+ 豆包（地标）+ 纪梦（低成本视频）形成闭源+开源混合方案，降低单点依赖
垫图三分法：star reference管风格、image transform保留元素、only reference记录细节，不同场景选用不同方案
微缩模型公式化：cinematic Micro photography + isometric bird's eye view + Google自动生成 = 地标快速生成
首尾帧核心：元素一致性 + PS微调 = 穿梭动画丝滑感，可降低视频过渡生硬度
赛事选题铁则：北京元素 + 国际化字幕 + 敏感元素规避 + 非末日提交 = 提高过审率
开源对标进阶：千问/万2.2/Multitalk已在特定维度超越闭源，成本与效果平衡需动态评估
Agent工作流红利：纪梦Agent模式自动化小说推文全链路（大纲→分镜→角色→生成），降低创作时间成本