AI Native Coding
「Plan, search, or build anything」—— 在 AI 原生编程里,规划和构建可以有不同的起点与节奏。本文介绍 AI Native Coding 的基本概念、常见工作流与规范,以及 Vibe 与 Spec 两种模式的差异与适用场景。
什么是 AI Native Coding
AI Native Coding 指以 AI 为第一协作对象的开发方式:从需求探索、方案设计到代码实现,都围绕与 AI 的对话与协作展开,而不是把 AI 仅当作「写代码的助手」。
核心特点包括:
- 对话优先:用自然语言描述目标、约束和上下文,让 AI 参与理解与拆解。
- 迭代式构建:在实现过程中持续澄清、修正和扩展,而不是一次性写完再改。
- 规范与上下文可复用:通过 PRD、SPEC、Skills、Rules 等把约定沉淀下来,让 AI 在不同会话中保持一致行为。
常见工作流(Flow)
不同团队和场景下,流程会有所差异,但大体可以归纳为两类主流程:
- 探索优先(Vibe):先通过对话探索想法和需求,再在迭代中逐步实现。
- 规划优先(Spec):先写好需求与设计(PRD/SPEC/Test Case),再让 AI 按文档实现。
下面会单独说明这两种模式的概念与区别。除此之外,还有一类常见流程:
- 文档驱动开发:在任意模块(含 PRD/SPEC/测试用例)中,按「需求 → 设计 → 测试用例 → 实现 → 单测」顺序推进,并保持文档与代码同步更新。适合需要可追溯、可评审的协作场景。
规范(Conventions)
在 AI Native 协作中,规范用于减少歧义、统一风格,并让 AI 行为可预期。常见形式包括:
| 类型 | 说明 | 示例 |
|---|---|---|
| PRD / 需求文档 | 描述做什么、为谁做、验收标准 | 功能需求、用户故事、验收条件 |
| SPEC / 设计说明 | 描述怎么做、接口与结构 | 接口设计、状态设计、交互说明 |
| 测试用例(Test Case) | Given-When-Then 等结构化用例 | 先写用例再实现,保证覆盖 |
| Skills / Rules | 项目级或全局的 AI 行为约定 | 代码风格、目录结构、必读文档 |
| MCP / 工具 | 为 AI 提供统一的外部能力 | 搜索、执行命令、读文档等 |
建议在项目中显式维护这些规范,并在提示或 Skills 中引用,让 AI 在写代码前「先看文档再动手」。
Vibe 与 Spec:概念与区别
很多 AI 编程产品会用 Vibe 和 Spec 来区分两种构建方式,可以简单理解为:先聊再建 vs 先规划再建。
Vibe(先聊天,再构建)
一句话:Chat first, then build. Explore ideas and iterate as you discover needs.
先对话、再实现;在发现需求的过程中探索想法并迭代。特点:
- 不要求一开始就有完整需求或设计。
- 通过和 AI 的对话逐步澄清「要什么」和「怎么做」。
- 适合快速试错、验证想法、边做边改。
适用于:
- 快速探索与验证(Rapid exploration and testing)
- 需求尚不清晰时的构建(Building when requirements are unclear)
- 实现一个相对独立的任务(Implementing a task)
Spec(先规划,再构建)
一句话:Plan first, then build. Create requirements and design before coding starts.
先规划、再实现;在编码开始前完成需求与设计。特点:
- 先写清楚需求、接口、行为或测试用例,再让 AI 按文档实现。
- 强调前置思考与结构化,减少返工和理解偏差。
- 适合需要评审、协作或长期维护的功能。
适用于:
- 深入思考功能(Thinking through features in-depth)
- 需要前期规划的项目(Projects needing upfront planning)
- 以结构化方式构建功能(Building features in a structured way)
对比小结
| 维度 | Vibe | Spec |
|---|---|---|
| 顺序 | 先聊再建 | 先规划再建 |
| 需求 | 可在对话中逐步发现 | 事先用文档定义 |
| 节奏 | 探索、迭代、试错 | 设计、评审、再实现 |
| 典型场景 | 原型、小任务、需求模糊 | 正式需求、多人协作、可追溯 |
实际开发中可以根据任务性质混合使用:例如用 Vibe 做早期探索和原型,再用 Spec 把确定下来的部分写成 PRD/SPEC 和测试用例,交给 AI 实现与单测。
延伸阅读
- 本站 AI 工具介绍、AI 使用技巧 可配合使用,提升与 AI 协作时的环境与效率。
- 若你使用 Cursor,可结合项目内 文档驱动开发 的 Skill(PRD/SPEC/Test Case 流程)与 Rules,让 AI 先读文档再写代码,保持文档与实现同步。
AI Agent 与 LLM(大语言模型)的核心区别
AI Agent(智能体)和 LLM(大语言模型,以 OpenAI GPT 系列等为代表)是包含与被包含、层阶与能力完全不同的两类AI体系:LLM 是 AI Agent 的核心“大脑”/基础能力组件,而 AI Agent 是基于大语言模型(如 GPT)扩展出的、具备自主感知、决策、行动能力的完整智能系统。
简单来说:LLM 是“能理解和生成语言的智能大脑”,AI Agent 是“装上了眼睛(感知)、手脚(工具)、思维(规划),能自己完成任务的智能机器人”。
二者的核心差异体现在定位、核心能力、工作模式、解决问题的维度等多个层面,以下从关键维度做清晰拆解,同时补充二者的关联,帮你彻底厘清边界:
一、核心定位与本质不同
LLM(大语言模型)
- 本质:语言理解与生成的基础模型,核心是对文本数据的建模,实现“输入文本→理解语义→生成符合逻辑、上下文的输出文本”。
- 定位:AI领域的基础能力组件,是“感知和思考的核心模块”,但本身不具备自主规划、工具调用、环境交互的能力。
- 核心价值:解决“语义理解、内容生成、知识问答”等纯语言层面的问题,是构建更复杂AI系统的基础底座。
AI Agent
- 本质:具备自主决策和行动能力的智能系统,是大语言模型结合感知模块、规划模块、工具调用模块、记忆模块形成的完整智能体。
- 定位:AI领域的应用型智能系统,是“能独立完成复杂任务的执行者”,核心目标是解决现实世界的具体问题。
- 核心价值:将大语言模型的“认知能力”转化为“行动能力”,实现从“能说”到“会做”的跨越。
二、核心能力的核心差异(最关键)
LLM 的能力集中在语言层,而 AI Agent 在 LLM 的语言能力基础上,新增了四大核心能力,这也是二者的本质区别:
| 能力维度 | LLM(大语言模型) | AI Agent(智能体) |
|---|---|---|
| 语言理解/生成 | ✅ 核心能力,极致优化(如语义理解、逻辑推理、内容创作) | ✅ 基于大语言模型(如 GPT)实现,是基础能力 |
| 自主规划能力 | ❌ 无,仅能根据单次输入做即时响应,无法拆分复杂任务 | ✅ 能将复杂目标拆分为多个子任务,制定执行步骤(如“写周报”拆分为“整理数据→撰写框架→填充内容→校对”) |
| 工具调用能力 | ❌ 原生无,需通过插件/API二次开发才能实现简单调用 | ✅ 核心能力,能自主选择并调用外部工具(如计算器、Excel、浏览器、代码编译器、第三方API)解决自身能力外的问题 |
| 环境交互能力 | ❌ 无,仅在“文本输入-文本输出”的封闭循环中工作 | ✅ 能感知外部环境(如读取文件、获取网络信息、操作软件),并根据环境反馈调整行动 |
| 长期记忆能力 | ❌ 仅具备短期上下文记忆,会话结束后记忆丢失,无法跨会话积累知识 | ✅ 具备短期记忆+长期记忆体系,能存储、检索、复用历史交互和任务信息,跨会话保持任务连贯性 |
典型能力对比案例
LLM:问“2026年中国GDP预计是多少?”,LLM 仅能基于训练数据(如 2025 年及之前)做推测,无法实时联网获取最新数据,答案大概率是过时或模糊的;
AI Agent:接到同样问题,会自主规划→调用“浏览器/财经API”工具→实时获取2026年最新GDP预测数据→整理数据→生成精准答案,全程无需人工干预。
LLM:问“帮我计算100个股票的市盈率并排序”,LLM 仅能给出计算公式,无法直接操作Excel/数据库完成计算;
AI Agent:会自主调用Excel/Python工具→读取股票数据→执行计算→排序→生成结果表格,直接交付最终成果。
三、工作模式与交互逻辑不同
LLM:单次输入-单次输出的线性交互,无自主行动
LLM 的工作完全依赖人工实时指令,是“你说一步,我做一步”的被动响应模式:
- 人工输入明确的文本指令(如“写一篇产品文案”);
- LLM 理解指令后,生成文本输出;
- 交互结束,无后续自主行动,若需继续操作,需人工再次输入新指令;
- 仅能基于当前会话的短期上下文做响应,无法记住跨会话的信息,也无法根据结果调整策略。
AI Agent:目标驱动-自主执行的闭环工作,无需人工干预
AI Agent的工作是以目标为核心的自主闭环,是“你定目标,我做全程”的主动执行模式,核心遵循感知(Perceive)-规划(Plan)-行动(Act)-反馈(Feedback)(PPAF)的循环逻辑:
- 人工输入模糊/复杂的目标(无需明确指令,如“帮我完成本周的工作周报”);
- 感知:Agent读取外部环境信息(如本地工作文件、企业系统数据),结合自身记忆;
- 规划:将目标拆分为多个可执行的子任务,制定执行顺序和策略;
- 行动:自主调用工具完成每个子任务,获取执行结果;
- 反馈:根据工具执行的结果,判断是否符合目标要求,若不符合则调整规划和行动(如数据不全则再次调用工具获取);
- 重复3-5步,直到完成所有子任务,最终交付完整的任务成果,全程无需人工介入。
四、解决问题的维度与场景不同
LLM:解决纯语言层面、简单、即时的问题,适用于“信息输出”场景
LLM 的能力边界是语言本身,无法触达现实世界的具体操作,核心适用于:
- 内容创作(写文案、写文章、写诗);
- 知识问答(解答常识、专业知识问题);
- 语义理解(翻译、总结、提炼文本核心信息);
- 简单逻辑推理(数学题、逻辑题解答)。
这些场景的共性是:无需外部工具、无需环境交互、仅需文本输入和输出,且任务是“一次性、即时性”的。
AI Agent:解决现实世界、复杂、多步骤的问题,适用于“任务执行”场景
AI Agent的能力边界是现实世界的具体任务,核心适用于需要规划、工具、交互、记忆的复杂场景,例如:
- 办公自动化(写周报、整理会议纪要、统计数据、发送工作邮件);
- 数据分析(获取数据、清洗数据、建模分析、生成可视化报告);
- 代码开发(需求分析、编写代码、调试运行、生成开发文档);
- 智能客服(自主理解用户问题、调用知识库/业务系统、给出解决方案、跟踪问题进度);
- 个人助手(制定旅行计划、预约机票酒店、整理日程、提醒待办事项)。
这些场景的共性是:需要拆分复杂任务、需要调用外部工具、需要与环境/系统交互、需要长期记忆,且任务是“多步骤、闭环式”的,需要从“目标”到“成果”的完整执行。
五、架构组成不同
LLM:架构单一,核心是大语言模型本身
LLM 的核心架构是Transformer+海量文本训练形成的语言模型,仅包含:
- 输入层:接收文本输入,做分词、向量化处理;
- 模型层:通过Transformer的编码器/解码器完成语义理解和生成;
- 输出层:将模型输出转化为自然文本。
原生 LLM 无其他模块,所有能力都集中在模型本身,是一个单一、封闭的系统。
AI Agent:架构复杂,是多模块协同的集成系统
AI Agent 是以大语言模型(如 GPT、Claude、文心一言)为核心大脑,整合多个功能模块形成的开放、集成系统,经典架构包含五大核心模块(缺一不可):
- 核心大脑(LLM):如 GPT,负责语义理解、逻辑推理、任务规划、决策判断,是Agent的“思维中心”;
- 感知模块:负责获取外部环境信息(如文本、文件、网络数据、软件界面、传感器数据),是Agent的“眼睛和耳朵”;
- 规划模块:负责将复杂目标拆分为子任务,制定执行策略,调整行动方案,是Agent的“大脑皮层”;
- 工具调用模块:负责对接并调用外部工具/API(如计算器、浏览器、Excel、Python、第三方业务系统),是Agent的“手脚”;
- 记忆模块:分为短期记忆(会话上下文)和长期记忆(历史任务、知识、用户偏好),负责存储、检索、复用信息,是Agent的“记忆库”。
六、二者的核心关联:LLM 是 AI Agent 的“基础底座”
AI Agent 无法脱离大语言模型独立存在,而 LLM(如 GPT)是目前最成熟、应用最广泛的 AI Agent 核心大脑,二者是组件与系统的关系:
- LLM 为 AI Agent 提供核心的认知能力(语义理解、逻辑推理、决策判断),是 Agent 能“思考”的基础;
- AI Agent 是 LLM 能力的延伸和落地,将 LLM 的“语言能力”转化为“行动能力”,让大语言模型从“纸上谈兵”变成“实际做事”;
- 除 GPT 外,Claude、Gemini、文心一言、通义千问等大语言模型也可作为 AI Agent 的核心大脑,OpenClaw 这类工具则是为 AI Agent 解决长会话上下文管理的配套技术方案(如解决 AI Agent 长任务执行中上下文溢出的问题)。
一句话总结核心区别
- LLM:能想、能说,但不会做,是解决语言问题的“智能大脑”;
- AI Agent:能想、能说、更会做,是基于 LLM(如 GPT)等大脑,装上感知、手脚、记忆,能独立完成复杂任务的“智能机器人”。
简单来说,LLM 是 AI Agent 的“灵魂”,而 AI Agent 是让这个“灵魂”拥有了身体和行动能力的完整个体。
Superpowers:面向编码 Agent 的技能框架与工作流
Superpowers 是一个基于**可组合技能(skills)**的 Agent 软件开发方法论与工作流框架,适用于 Claude Code、Cursor、Codex、OpenCode 等编码 Agent,强调「先澄清再实现」、测试驱动与子 Agent 协同。
核心思路
- 不急于写代码:启动后先通过对话澄清目标,从对话中提炼出可评审的规格(spec),按小块呈现设计供确认。
- 规格驱动实现:在获得设计认可后,生成足够具体、可执行的实现计划(含文件路径、代码意图、验证步骤),再由子 Agent 按计划执行并做两阶段审查(先看是否符合规格,再看代码质量)。
- 技能自动触发:技能在适当时机自动激活,无需额外指令,即可让 Agent 按既定流程工作。
典型工作流(节选)
| 阶段 | 技能 | 作用 |
|---|---|---|
| 设计前 | brainstorming | 通过提问收敛想法、探索方案,分块呈现设计并保存设计文档 |
| 设计后 | using-git-worktrees | 在新分支上创建隔离工作区,跑项目搭建与干净测试基线 |
| 计划 | writing-plans | 将工作拆成 2~5 分钟可完成的小任务,每项含路径、代码意图与验证步骤 |
| 执行 | subagent-driven-development / executing-plans | 按任务派发子 Agent,两阶段审查或分批执行并设人工检查点 |
| 实现中 | test-driven-development | 严格 RED-GREEN-REFACTOR,先写失败测试再写最少实现,删除无测试的代码 |
| 任务间 | requesting-code-review | 对照计划做审查,按严重程度报告问题,严重问题阻塞后续 |
| 收尾 | finishing-a-development-branch | 验证测试、提供合并/PR/保留/丢弃等选项并清理 worktree |
技能库概览
- 测试:test-driven-development(含反模式参考)
- 调试:systematic-debugging(四阶段根因分析)、verification-before-completion
- 协作:brainstorming、writing-plans、executing-plans、dispatching-parallel-agents、requesting-code-review、receiving-code-review、using-git-worktrees、finishing-a-development-branch、subagent-driven-development
- 元能力:writing-skills(编写新技能)、using-superpowers(技能体系介绍)
理念简述
- 测试驱动:始终先写测试。
- 流程优先:系统化流程优于临时发挥。
- 控制复杂度:以简单为首要目标。
- 用证据说话:在宣称完成前先验证。
使用 vs 不使用 Superpowers 的效果对比
1. 开发流程规范性
| 维度 | 使用 Superpowers | 不使用 Superpowers |
|---|---|---|
| 需求梳理 | 自动触发头脑风暴,通过提问细化需求、验证设计 | 代理直接跳转到写代码,需求模糊、设计缺失 |
| 任务管理 | 拆分为 2-5 分钟小任务,路径/代码/步骤明确 | 无明确任务拆分,开发节奏混乱 |
| 版本控制 | 自动创建隔离工作区、管理分支 | 可能直接在主分支开发,缺乏隔离 |
2. 代码质量保障
| 维度 | 使用 Superpowers | 不使用 Superpowers |
|---|---|---|
| 测试驱动 | 强制 TDD,先写测试再写代码,删除无效代码 | 测试滞后或缺失,代码质量无保障 |
| 代码评审 | 自动触发多轮评审,关键问题阻断流程 | 无评审环节,问题难以及时发现 |
| 调试逻辑 | 4 阶段根因分析,修复本质问题 | 表面症状修复,易反复 |
3. 开发效率与自主性
| 维度 | 使用 Superpowers | 不使用 Superpowers |
|---|---|---|
| 代理自主性 | 可自主工作数小时,无偏差执行计划 | 需频繁人工干预,易偏离目标 |
| 协作与复用 | 技能可复用,子代理并行工作 | 无标准化协作流程,重复劳动多 |
| 流程自动化 | 全流程自动触发,无需手动指令 | 需用户逐步骤引导,效率低 |
4. 工程化成熟度
| 维度 | 使用 Superpowers | 不使用 Superpowers |
|---|---|---|
| 最佳实践遵循 | 强制 TDD、YAGNI、DRY 等原则 | 无规范约束,代码易冗余、过度设计 |
| 可维护性 | 设计文档、测试、计划完整,便于后续维护 | 文档缺失,代码可维护性差 |
| 风险控制 | 关键问题阻断、测试基线验证,降低风险 | 无风险控制,问题易累积到后期 |
Superpowers 通过标准化流程和自动化技能,让编码代理从“即兴写代码”升级为“专业工程化开发”,在质量、效率、自主性上均有质的提升。
BMad Method:敏捷 AI 驱动开发的完整框架
BMad Method(Breakthrough Method for Agile AI Driven Development,也常被解读为 Build More Architect Dreams)是一套面向 AI 驱动敏捷开发的模块化框架与生态系统,具备规模自适应的规划深度,可从修 bug 一直扩展到企业级系统。100% 开源,无付费墙。
核心特点
- AI 智能引导:随时可通过
/bmad-help获取「下一步该做什么」的指引,也可提问如「架构刚做完,接下来做什么?」。 - 规模-领域自适应:根据项目复杂度自动调整规划深度,小到单点修复、大到企业级交付均可适用。
- 结构化工作流:基于敏捷实践,覆盖分析、规划、架构与实现,提供 34+ 官方工作流。
- 多角色专家 Agent:内置 12+ 领域专家角色(如产品经理、架构师、开发者、UX、Scrum Master 等),可按需调用。
- Party Mode:支持在同一会话中引入多个 Agent 角色协作讨论,形成「多角色会议」式决策。
- 全生命周期:从头脑风暴到部署,覆盖完整开发生命周期。
安装与使用
- 环境要求:Node.js v20+
- 安装:
npx bmad-method install(或指定版本:npx bmad-method@6.0.1 install) - 非交互安装(如 CI/CD):
npx bmad-method install --directory /path/to/project --modules bmm --tools claude-code --yes - 适用 IDE:Claude Code、Cursor 等 AI 编程环境;安装后在该项目目录下打开即可使用。
模块生态
| 模块 | 用途 |
|---|---|
| BMad Method (BMM) | 核心框架,34+ 工作流 |
| BMad Builder (BMB) | 自定义 BMad Agent 与工作流 |
| Test Architect (TEA) | 基于风险的测试策略与自动化 |
| Game Dev Studio (BMGD) | 游戏开发工作流(Unity、Unreal、Godot) |
| Creative Intelligence Suite (CIS) | 创新、头脑风暴与设计思维 |
更多文档与路线图见 docs.bmad-method.org。
Superpowers 与 BMad Method 的对比
两者都致力于让 AI 辅助开发更规范、可追溯,但定位与形态不同:
| 维度 | Superpowers | BMad Method |
|---|---|---|
| 定位 | 可组合技能库 + 编码工作流,偏「方法论 + 技能」 | 完整框架 + 模块生态,偏「敏捷流程 + 多角色协作」 |
| 核心单元 | 技能(skill),如 TDD、头脑风暴、写计划、子 Agent 执行 | 工作流(workflow)+ 领域 Agent 角色(PM、架构师、开发者等) |
| 规划方式 | 先澄清再实现,规格驱动,小任务(2~5 分钟)拆解 | 规模自适应规划,从修 bug 到企业级,内置 /bmad-help 引导 |
| 协作形态 | 子 Agent 执行计划、代码评审、并行派发 | Party Mode 多角色同会话讨论 + 专家角色按需调用 |
| 生命周期 | 聚焦设计→计划→实现→评审→收尾(编码闭环) | 覆盖头脑风暴→分析→规划→架构→实现→部署(全生命周期) |
| 扩展方式 | 编写新 skill、组合现有 skill | 安装/选用官方模块(测试、游戏、创意等)+ BMad Builder 自定义 |
| 适用场景 | 单项目内「先规格、再实现」的工程化编码,强 TDD/评审 | 需要产品-架构-开发多角色协作、或跨阶段(从想法到上线)的敏捷项目 |
简要总结:Superpowers 更像「编码 Agent 的标准化技能包 + 流程」,强调规格驱动与测试驱动;BMad Method 更像「敏捷 AI 开发的操作系统」,强调多角色、全生命周期与规模自适应。二者可互补:例如用 BMad 做需求与架构阶段,用 Superpowers 的技能(如 TDD、writing-plans)规范具体实现与评审。
Awesome 15docs