EVE/语音AI/2026-02-01/TRANSCRIPT→STRUCTURED

语音AI输入法开发实战攻略与避坑指南

嘉宾：银海 AI产品经理时间：2026年2月1日 19:55-21:43

核心一：语音输入法开发与模型选择

SECTION 01 | 模型架构与成本对比

语音输入法开发的第一步是选择合适的模型。macOS自带语音输入虽然基础，但处理高频热词需要专业领域识别模型，阿里、Minimax等在音频领域表现出众。开发者面临三条路：一是使用浏览器插件（应用范围受限），二是macOS原生开发（需精通Swift），三是自主集成ASR模型。

主流方案对标：

银海强调领域热词定制的关键作用——未定制热词导致互联网黑话、产品名称等识别错误。阿里云百炼平台提供开箱即用的模型聚合能力，parform模型可自动修正用词和标点。他在两小时内完成了初步开发，并将项目开源免费供社区使用。

SECTION 02 | Swift UI界面与实时翻译

iOS语音输入法开发使用SwiftUI构建界面，后端接入Claude等大模型。银海的创新做法是直接将API链接丢给模型，让其自动接入ASR模型。开发中可利用Websocket API实现实时语音转文字，同时集成开源小模型如昆山ASR（0.6B规模适合本地运行）进行端侧部署。

开发三部曲：

"通过给模型一句话，就能自动生成完整的介绍页面。若风格不合适，只需截取样板图让模型优化——这就是AI驱动的产品开发节奏。"
— 银海

SECTION 03 | 从口语到结构化的闭环

银海分享了完整的语音写作流程。第一步用语音输入法快速录入（豆包按住FN键，速度比键盘打字快至少3倍）；第二步用ChatGPT、Kimi等AI工具根据过往风格润色，将口语化转为结构化；第三步手动排版避免超长段落，通过微截图等补充内容框架。

效率提升关键点：

这套方法论能显著提升内容创作的传播效率和质量。银海将其应用于公众号、小红书等多平台，效果显著。

SECTION 04 | 从Skill到工作流的产品架构

AI产品开发的高阶玩法在于模型能力的灵活组合和工作流抽象。银海以播客生成为例：通过集成阿里云TTS、火山引擎等多个底层模型API，在IDE中实现文本转语音，生成男女混声播客。将所有模型API能力抽象后可自由调度，根据需求生成不同主题和时长的内容。

应用层工作流搭建案例：

这种API工作流的组合方式将复杂产品开发时间从周级降低到日级，使一人团队也能高效输出专业级产品。