你的 AI Agent 在替云厂商打工?73% 的 Token 消耗其实与你无关

1406 字
7 分钟
你的 AI Agent 在替云厂商打工?73% 的 Token 消耗其实与你无关

几条 GitHub Issue 把 Hermes Agent 推上了风口浪尖。

Issue #4379 有用户贴了一份 Token 消耗监测报告。数据很具体:每次 API 调用固定开销约 13,900 个 Token,占总消耗的 73%。其中工具定义占 46.1%,系统提示占 27.2%,用户实际对话只占 26.7%。

另一个 Issue #23419 的反馈更扎心。有创业公司的 Cron 任务因为没有预算上限,一天内悄无声息烧掉 20 美元 API 额度。团队直到账单出了才发现。

诸如此类的抱怨声浪不断,社区把这事总结成一个词:沉默的成本累积 ——在账单爆炸前,你根本看不到。

上下文都烧在哪了#

Agent 的上下文消耗,大头集中在三个地方:MCP 服务、Skill 指令、Tool 定义。其中最吃 Token 的永远是 Tool schema。

所谓 Tool schema,就是以 JSON Schema 格式描述每个工具的调用接口——名称、参数列表、类型约束、详细描述、返回值。这些信息会被直接嵌入 prompt,让模型判断”何时调用哪个工具、如何正确填充参数”。工具越多、描述越详细,token 就越夸张。而且即使只保留几个常用工具,schema 本身的 verbose 程度也十分可观——JSON Schema 的格式天然冗余,跟谁写的关系不大。

所以社区当前的共识是放弃”一股脑全塞”,转向按需动态加载。用到了再加载 schema,用完释放。

两方激辩#

Hermes 团队的态度很明确。他们的设计目标就是开箱即用,不想让用户花几周时间配 Agent,那就预装更多功能。不想要的可以关掉——hermes skills confighermes tools 就是干这个的。

但社区一些用户和开发者并不买账。

有开发者表达担忧:最麻烦的不是总数变大,是你只看到 token 烧了多少,却看不清到底哪段链路最费。

LobeHub 开发负责人自述踩坑经历——早期也给 Agent 塞了一堆工具和技能,结果用户大量抱怨 Token 占用太多。最后不得不把老的 Chat 模式搬回来,重新迭代技能配比。

他们的结论是:好的平衡不是”预装一切”,而是技能自发现、按需启用。即使内置精选做得再好,对前端工程师和产品经理来说仍然不能一刀切—— 他们需要的不是「哪 10 个技能最好」,而是「根据我是谁、我做什么」来个性化配置

当然也有站在中间的人。有人打了个比方:macOS 预装了 Pages 和 Numbers,我从来不用,但有人需要——你用不到不代表别人用不到。

两派都有道理。本质上仍是不同用户需求的角度罢了。不管怎么争,有一点无法回避:为什么是现在爆发?

房间里的大象#

过去一年,Hermes 和 OpenClaw 爆发式增长。很多人以为是产品做得好。但有一个被忽略的前提——云服务商的 Coding Plan。极致的低成本和免费额度,直接卸掉了复杂智能体的研发成本枷锁。用户每月有几百万免费 Token,浪费几千个根本无感。

这场繁荣的本质,是 云服务商的普惠算力让利开源社区高效迭代 的一次双向奔赴。

但 Coding Plan 正在全面退场。云厂商转向按量计费的 Token Plan。潮水退去后,每一笔 Token 消耗都变成了账单上的数字。

不是 Hermes 变差了。是之前有人替你买单。

这大概能解释 Hermes 团队在 v0.15.0 “Velocity” 版本里为什么下了狠手——76% 的代码重构,run_agent.py 从 16,083 行压缩到 3,821 行,47% 的单轮函数调用削减,基于 BM25 的 Tool Search 实现 85% Token 削减。

从狂欢到精算#

行业正在从一个阶段切换到另一个阶段。

Coding Plan 时代,用户和开发者不需要关心效率——云厂商的补贴扛着一切。每一行代码、每一次调用,背后都有免费额度在兜底。大家的精力全放在功能堆叠上:技能越多越好,工具越全越好,Agent 越”智能”越好。

Token Plan 时代来了,规则变了。每一笔消耗都是真金白银。冗余不再是”有总比没有好”,而是”你要为它付钱”。

所以,这场争论的意义在哪?

它不只是两个技术哲学的对撞。是一个行业在告别补贴时代后,被迫重新审视每一笔开销。 「开箱即用」和「少即是多」之间没有根本对错 ——但在成本显性化的今天,“我不知道这些 Token 花在哪”才是真正的风险。

有几个方向已经是共识。

1. 工具搜索按需加载 :不一股脑把所有 Tool schema 塞进上下文,用的时候再加载,用完就释放。BM25 搜索不是花活,是刚需。

2. 多 Agent 场景分离 :Coding 用 Pi 或 Claude Code,日常助理用 Hermes 或 OpenClaw,各配各的技能密度。不在一个 Agent 里堆所有事。

3. 可见性优先 :不管是裁剪技能还是配置工具,先能看到 Token 花在哪。看不见就管不了。

Coding Plan 时期,效率是云厂商替你操心的事。Token Plan 时期,效率是你自己的事。

争论还会继续。但这不是坏事。

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!

赞助
你的 AI Agent 在替云厂商打工?73% 的 Token 消耗其实与你无关
https://blog.moewah.com/posts/ai-agent-token-tax-debate/
作者
MoeWah
发布于
2026-06-01
许可协议
CC BY-NC-SA 4.0
相关文章 智能推荐
1
有了 tmux 还需要 herdr 吗?一个给 AI Agent 用的「终端管家」
AI实验室 herdr 是一个终端原生的 Agent 多路复用器,专为同时运行多个 AI Agent 的开发者设计。它解决了 Agent 管理混乱、会话丢失、远程协作等痛点,不替换终端、不依赖 Electron。本文从实际使用体验出发,带你了解它的核心功能和上手方法。
2
Claude Code 的 CLAUDE.md 怎么写?这 12 条规则,管住 AI Agent 的静默失败
AI实验室 12 条 CLAUDE.md 规则完整指南,涵盖代码生成和 Agent 模式两个阶段。每条规则附带英文原文、中文解释和真实翻车场景。文末提供完整模板可直接复制。
3
AI-First 团队的架构方法论:从 Harness Engineering 到自愈系统
AI实验室 当 AI 成为主要代码生产者时,工程团队的首要工作不再是写代码,而是搭建让 Agent 高效工作的基础设施。从 Monorepo 统一到自愈 pipeline,拆解 AI-First 架构的完整方法论。
4
告别国内 AI 订阅生态:OpenCode Go 接入 Claude Code 部署全流程
AI实验室 受不了国内 AI 订阅服务的封号和收割?用 OpenCode Go 每月 10 刀平替,通过 oc-go-cc 代理接入 Claude Code 的完整部署教程,附带多 Agent 省 token 方案。
5
Hermes Agent vs OpenClaw:控制还是进化?
AI实验室 深度对比 Hermes Agent 与 OpenClaw 两大 AI Agent 框架的设计哲学差异。OpenClaw 走控制路线,Hermes 走进化路线。从记忆系统、技能生成、安全机制、执行环境等维度解析,助你选型决策。
随机文章 随机推荐

评论区

Profile Image of the Author
MoeWah
Hello, I'm MoeWah.
专题文章
分类
站点统计
文章
198
分类
9
标签
434
总字数
373,761
运行时长
0
最后活动
0 天前

目录