EVE/语音AI/2026-02-01/TRANSCRIPT→STRUCTURED
语音AI输入法开发实战攻略与避坑指南
嘉宾:银海 AI产品经理
时间:2026年2月1日 19:55-21:43
语音输入法开发的第一步是选择合适的模型。macOS自带语音输入虽然基础,但处理高频热词需要专业领域识别模型,阿里、Minimax等在音频领域表现出众。开发者面临三条路:一是使用浏览器插件(应用范围受限),二是macOS原生开发(需精通Swift),三是自主集成ASR模型。
主流方案对标:
- 豆包APP:自带语音输入,功能隐蔽但免费
- 闪电说:实时语音转写成本 ¥0.0003/秒
- Tablist:月费$20或年费$12,需月讲70小时+才划算
- 自主开发:成本相对最低,可完全掌控
银海强调领域热词定制的关键作用——未定制热词导致互联网黑话、产品名称等识别错误。阿里云百炼平台提供开箱即用的模型聚合能力,parform模型可自动修正用词和标点。他在两小时内完成了初步开发,并将项目开源免费供社区使用。
iOS语音输入法开发使用SwiftUI构建界面,后端接入Claude等大模型。银海的创新做法是直接将API链接丢给模型,让其自动接入ASR模型。开发中可利用Websocket API实现实时语音转文字,同时集成开源小模型如昆山ASR(0.6B规模适合本地运行)进行端侧部署。
开发三部曲:
- 快速原型:提示模型"根据项目生成LANDING page介绍页",自动生成前端
- 风格优化:截取样板图供模型参考,快速迭代设计方案
- 一键上线:推送GitHub后通过Fossil同步,项目变更自动更新前端
"通过给模型一句话,就能自动生成完整的介绍页面。若风格不合适,只需截取样板图让模型优化——这就是AI驱动的产品开发节奏。"
— 银海
银海分享了完整的语音写作流程。第一步用语音输入法快速录入(豆包按住FN键,速度比键盘打字快至少3倍);第二步用ChatGPT、Kimi等AI工具根据过往风格润色,将口语化转为结构化;第三步手动排版避免超长段落,通过微截图等补充内容框架。
效率提升关键点:
- 语音输入速度是键盘3倍以上
- AI工具批量润色而非逐句优化
- 通过补充图片和排版增加阅读美感
- 避免手打和洗稿,内容更有洞见
这套方法论能显著提升内容创作的传播效率和质量。银海将其应用于公众号、小红书等多平台,效果显著。
AI产品开发的高阶玩法在于模型能力的灵活组合和工作流抽象。银海以播客生成为例:通过集成阿里云TTS、火山引擎等多个底层模型API,在IDE中实现文本转语音,生成男女混声播客。将所有模型API能力抽象后可自由调度,根据需求生成不同主题和时长的内容。
应用层工作流搭建案例:
- 短剧创作工具箱:复制API工作流作为Skill能力调用
- 钉钉AI听记:整理应用ID和API文档,通过工作流快速成型
- 专题内容生成:自动生成图文并茂的在线访问链接
- 会议AI助手:梳理API和场景,独立产品快速上线
这种API工作流的组合方式将复杂产品开发时间从周级降低到日级,使一人团队也能高效输出专业级产品。
💡 核心要点速记
- 模型选择:优先选择支持领域热词定制和实时转写的ASR模型,自主开发成本往往低于订阅制
- 两小时快速开发:通过将API直接丢给大模型,可极速完成语音输入法初版,验证想法成本最低
- 语音写作3倍速:语音输入+AI润色+手动排版的SOP能显著提升内容创作效率和质量
- Swift开发挑战:macOS原生开发需掌握Swift,但部分模型在Swift语言能力上较弱,选择合适的模型很关键
- Skill能力集成:将底层模型API抽象为Skill,可快速组合成播客、短剧、会议助手等独立产品
- 工作流复用:API工作流可作为Skill能力复用,大幅降低产品开发门槛和周期
- 开源共享:银海将语音输入法项目开源,下周直播分享AI眼镜开发,课程和应用全部免费