原生文字渲染是千问 Image 最核心的技术突破。吴晨飞博士团队针对中文生成困难的痛点,从数据和模型两个维度进行攻关:
一级汉字准确率达 97%(GPT-4V 为 68%);二级汉字准确率 41%(GPT-4V 为 16%)
设计理念:"易字稳、难字能写" — 常用字稳定生成,生僻字多次尝试也大概率能生成,还可通过图像编辑能力修饰字的偏旁部首。
1. 中文文字生成领先
在诸多国际评测中表现最优,特别是中文渲染能力无可匹敌。
2. 开源且性能优秀
采用 Apache 2.0 license 允许商用,在 LM Arena 竞技场文生图和图像编辑榜单排名靠前,无水印,便于广泛应用。
3. 风格化表现卓越
对比 Nano Banana,千问 Image Edit 的风格化分值更高,还能去除竞品水印。
提示词本质是区隔数据,集中想要的优质数据。不同模型因训练数据不同,所需提示词有差异。
✓ 保持训练推理一致
训练数据中文字用引号引起,推理时也应用引号括起,避免训练-推理差距。
✓ 避免使用否决词
摒弃"不要生成什么什么"等否定表述,以免影响生成效果。
✓ 明确文字位置和风格
复杂逻辑用相对位置法(定义文字间逻辑关系),简单位置用绝对位置法(左上角、右上角等);始终明确风格(如纪实摄影风格)。
✓ 详细清晰描述
明确邀请函上的名字日期等信息,详细描述画面内容、主体特征,能显著提高生成效果。
主题:"地方风物"
包括风格化地标、地方限定表情包、错位混搭、方言入画等多种创意方向。
评选维度:好看、能收藏、好玩、能传播
奖项:优胜奖、创意奖、优秀奖、传播奖,配合 30 份周边大礼包(定制 T 恤、保温杯、抱枕、公仔、棒球帽等)
俊 — 广州主题海报
融合现代性与传统文化,运用广州塔、红灯笼、小猫等元素,冷暖光搭配配文案"城市的光,一半照着未来,一半暖着过往"。避开常见现代形象,选择广式月饼、凉茶等老广州文化符号,通过 AI 模仿民国笔法提高创意效率。
笨笨 — 谐音梗创意
采用谐音梗体现千问模型的文字效果能力,符合年轻人喜好。固定提示词格式:先写文字内容(主副标题+装饰),再描述画面(风格色彩细节),最后明确文字位置。结合千问 3235B 输出谐音内容,再用 Image 生成图片。
迷人的小赫敏 — 多维度设计学习
拆解茶颜悦色手卡元素用结构化提示词复现,通过产品特写+背景虚化制作美食宣传,用 GPT 提取报纸框架再由千问复现报纸海报。人机协作充分释放创意潜力。