AI-First 团队的架构方法论:从 Harness Engineering 到自愈系统
当 99% 的生产代码由 AI 编写时,工程团队的首要工作不再是写代码,而是让 Agent 能够高效地工作。
OpenAI 在 2026 年 2 月将其命名为 Harness Engineering。 当 build time 从几周压缩到几小时,制约整个 pipeline 的就不再是代码产出速度,而是你为 AI 搭建的基础设施。
一、AI-Assisted 与 AI-First 的本质区别
AI-Assisted:在原有流程上外挂 AI
- 工程师装 Cursor,PM 用 ChatGPT 写文档,QA 试 AI 生成测试
- 工作流程不变,效率提升 10% 到 20%
- 加法逻辑
AI-First:围绕 AI 重新设计一切
- 前提:AI 是主要的 builder
- 重新设计流程、架构、组织结构
- 不再问 AI 能帮工程师做什么,而是问怎么重组一切让 AI 负责 building
- 乘法逻辑
判断标准 :如果你的 Sprint、Jira、站会、QA 审批都没变,只是加了 AI 工具,那你还在 AI-Assisted 阶段。
二、三个必须同时解决的瓶颈
当 AI 把 build time 从几个月压缩到几小时,任何手动环节都会成为致命瓶颈。
三个瓶颈
PM 花几周做调研、设计、写规格文档。Agent 两小时就能实现。以周为单位的规划周期成了瓶颈,PM 必须进化成产品导向的架构师,靠快速原型-发布-测试-迭代的循环来设计,而不是靠委员会评审规格文档。
QA 那边,AI 两小时交付,QA 花三天测边界。解法是用 AI 构建的测试平台来测试 AI 写的代码。验证必须和实现同速,否则只是把瓶颈搬到了下游。
人力规模的问题更直接——竞争对手有百倍人力。招人是追不上的,只能靠架构设计追平。
法则 :产品怎么设计、怎么实现、怎么测试,三个系统必须全部跑通 AI。任何一个留在手动状态,就拖死整个 pipeline。
三、架构原则:让 AI 能看到一切
为什么选择 Monorepo
- 旧架构分散在多个仓库,一个改动要动三四个系统
- 对人类工程师尚可应对,对 AI Agent 却是盲区
- Agent 看不到全局,无法推理跨服务影响,也没法在本地跑集成测试
设计原则
- 统一所有代码到一个 Monorepo,让 AI 能看到一切
- 碎片化的代码库对 Agent 是隐形的,统一的代码库才是可读的
- 系统越能被 Agent 检查、验证和修改,获得的杠杆越大
四、自愈反馈循环
大多数团队在构建阶段加了 AI,但检测、triage 和验证还是手动的。AI-First 架构必须闭合这个循环。
循环设计
检测 → triage → 修复 → 验证 → 关闭每日自动化流程 :
- 自动化健康检查:查询监控数据,分析错误模式,生成健康摘要
- triage 引擎:将错误聚类,按多维度打分,自动生成调查工单
- 工单附带上下文:日志样例、受影响用户、受影响端点、建议调查路径
- 去重与回归检测:已有工单则更新,已关闭问题复现则重新打开
- 修复验证:部署后自动复查,错误消失则工单自动关闭
设计哲学
每个工具只负责一个阶段。没有哪个工具试图包揽一切。
五、确定性 pipeline:没有快速验证的快速 AI,就是快速积累的技术债
六阶段 CI/CD pipeline
验证 CI → 构建部署开发 → 测试开发 → 部署生产 → 测试生产 → 发布每个阶段必须包含 :
- 类型检查、lint
- 单元测试、集成测试
- 端到端测试(Playwright)
- 环境一致性检查
三重 AI 代码审查
每次 PR 并行运行:
- 代码质量 :逻辑错误、性能问题、可维护性
- 安全扫描 :漏洞检测、认证边界、注入风险
- 依赖扫描 :供应链风险、版本冲突、许可证问题
原则
- 没有一个阶段是可选的
- 没有手动覆盖
- pipeline 必须是确定性的,Agent 才能预测结果并推理失败
- 这些是闸门,不是建议
六、组织设计:工程师的两种角色
角色 1:架构师(1-2 人)
这个人的工作不是写代码,而是设计教 AI 如何工作的 SOP。搭测试基础设施,搭集成系统,搭 triage 系统。决定架构和系统边界,定义什么是对 Agent 来说的 “好”。
关键能力:批判性思维。
批判性地审视 AI,而不是跟着它走。Agent 提出方案,架构师找漏洞——遗漏了什么失败模式?跨了什么安全边界?积累了什么技术债?质疑假设、压力测试论证、发现盲点的能力,将比写代码的能力更有价值。
角色 2:操作员(其他所有人)
AI 分配任务,人执行。triage 系统发现 bug,创建工单,展示诊断结果,分派给合适的人。人调查、验证、批准修复。AI 生成 PR,人审查是否有风险。
一个反直觉的观察
初级工程师比高级工程师适应得更快。没有十年要改的习惯,直接上手能放大自己影响力的工具。在这场转型中,适应力比积累的技能更重要。
七、AI-Native 必须渗透到每个职能
工程用小时级交付功能,市场部花一周发公告,市场部就是瓶颈。产品团队还在跑月度规划周期,规划就是瓶颈。
AI-First 要求所有职能都以 Agent 速度运转。产品发布说明从变更日志自动生成,功能介绍视频用 AI 生成动效,社交媒体内容 AI 编排自动发布,健康报告和分析摘要从监控数据自动生成。
法则 :一个职能以 Agent 速度运转,另一个以人类速度运转,慢的那个就约束一切。
八、给不同角色的行动建议
给工程师
价值正在从代码输出转向决策质量。产品直觉和品味变得更重要——能在用户指出问题之前看出生成的 UI 哪里不对。批判性思维是必须训练的:学会评估论证、发现漏洞、质疑假设。
给 CTO 和创始人
如果 PM 流程比 build time 还长,从这里开始改。 先建好测试框架,再扩展 Agent 规模。 从一个架构师开始,证明系统可行,再把其他人接入操作员角色。把 AI-Native 推到每个职能,预期会有阻力,有些人会抗拒。
给行业
模型能力是驱动这一切的时钟。一人公司会变得越来越常见。工具都已存在,没有任何技术壁垒。竞争优势是重新设计一切的决心,和承担转型成本的意愿。
没有快速验证的快速 AI,就是快速积累的技术债。先建好测试框架,再扩展 Agent 规模。
这套方法论不是什么工具或公司的专利,而是一个简单的前提:如果 AI 是主要的 builder,那你必须围绕这个事实重新设计一切。 不是外挂,不是改造,是重构。
支持与分享
如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!