你的 AI Agent 在替云厂商打工？73% 的 Token 消耗其实与你无关

几条 GitHub Issue 把 Hermes Agent 推上了风口浪尖。

Issue #4379 有用户贴了一份 Token 消耗监测报告。数据很具体：每次 API 调用固定开销约 13,900 个 Token，占总消耗的 73%。其中工具定义占 46.1%，系统提示占 27.2%，用户实际对话只占 26.7%。

另一个 Issue #23419 的反馈更扎心。有创业公司的 Cron 任务因为没有预算上限，一天内悄无声息烧掉 20 美元 API 额度。团队直到账单出了才发现。

诸如此类的抱怨声浪不断，社区把这事总结成一个词：沉默的成本累积 ——在账单爆炸前，你根本看不到。

上下文都烧在哪了#

Agent 的上下文消耗，大头集中在三个地方：MCP 服务、Skill 指令、Tool 定义。其中最吃 Token 的永远是 Tool schema。

所谓 Tool schema，就是以 JSON Schema 格式描述每个工具的调用接口——名称、参数列表、类型约束、详细描述、返回值。这些信息会被直接嵌入 prompt，让模型判断”何时调用哪个工具、如何正确填充参数”。工具越多、描述越详细，token 就越夸张。而且即使只保留几个常用工具，schema 本身的 verbose 程度也十分可观——JSON Schema 的格式天然冗余，跟谁写的关系不大。

所以社区当前的共识是放弃”一股脑全塞”，转向按需动态加载。用到了再加载 schema，用完释放。

两方激辩#

Hermes 团队的态度很明确。他们的设计目标就是开箱即用，不想让用户花几周时间配 Agent，那就预装更多功能。不想要的可以关掉——hermes skills config 和 hermes tools 就是干这个的。

但社区一些用户和开发者并不买账。

有开发者表达担忧：最麻烦的不是总数变大，是你只看到 token 烧了多少，却看不清到底哪段链路最费。

LobeHub 开发负责人自述踩坑经历——早期也给 Agent 塞了一堆工具和技能，结果用户大量抱怨 Token 占用太多。最后不得不把老的 Chat 模式搬回来，重新迭代技能配比。

他们的结论是：好的平衡不是”预装一切”，而是技能自发现、按需启用。即使内置精选做得再好，对前端工程师和产品经理来说仍然不能一刀切—— 他们需要的不是「哪 10 个技能最好」，而是「根据我是谁、我做什么」来个性化配置 。

当然也有站在中间的人。有人打了个比方：macOS 预装了 Pages 和 Numbers，我从来不用，但有人需要——你用不到不代表别人用不到。

两派都有道理。本质上仍是不同用户需求的角度罢了。不管怎么争，有一点无法回避：为什么是现在爆发？

房间里的大象#

过去一年，Hermes 和 OpenClaw 爆发式增长。很多人以为是产品做得好。但有一个被忽略的前提——云服务商的 Coding Plan。极致的低成本和免费额度，直接卸掉了复杂智能体的研发成本枷锁。用户每月有几百万免费 Token，浪费几千个根本无感。

这场繁荣的本质，是 云服务商的普惠算力让利和开源社区高效迭代 的一次双向奔赴。

但 Coding Plan 正在全面退场。云厂商转向按量计费的 Token Plan。潮水退去后，每一笔 Token 消耗都变成了账单上的数字。

不是 Hermes 变差了。是之前有人替你买单。

这大概能解释 Hermes 团队在 v0.15.0 “Velocity” 版本里为什么下了狠手——76% 的代码重构，run_agent.py 从 16,083 行压缩到 3,821 行，47% 的单轮函数调用削减，基于 BM25 的 Tool Search 实现 85% Token 削减。

从狂欢到精算#

行业正在从一个阶段切换到另一个阶段。

Coding Plan 时代，用户和开发者不需要关心效率——云厂商的补贴扛着一切。每一行代码、每一次调用，背后都有免费额度在兜底。大家的精力全放在功能堆叠上：技能越多越好，工具越全越好，Agent 越”智能”越好。

Token Plan 时代来了，规则变了。每一笔消耗都是真金白银。冗余不再是”有总比没有好”，而是”你要为它付钱”。

所以，这场争论的意义在哪？

它不只是两个技术哲学的对撞。是一个行业在告别补贴时代后，被迫重新审视每一笔开销。 「开箱即用」和「少即是多」之间没有根本对错 ——但在成本显性化的今天，“我不知道这些 Token 花在哪”才是真正的风险。

有几个方向已经是共识。

1. 工具搜索按需加载 ：不一股脑把所有 Tool schema 塞进上下文，用的时候再加载，用完就释放。BM25 搜索不是花活，是刚需。

2. 多 Agent 场景分离 ：Coding 用 Pi 或 Claude Code，日常助理用 Hermes 或 OpenClaw，各配各的技能密度。不在一个 Agent 里堆所有事。

3. 可见性优先 ：不管是裁剪技能还是配置工具，先能看到 Token 花在哪。看不见就管不了。

Coding Plan 时期，效率是云厂商替你操心的事。Token Plan 时期，效率是你自己的事。

争论还会继续。但这不是坏事。

上下文都烧在哪了#

两方激辩#

房间里的大象#

从狂欢到精算#

支持与分享

评论区

目录