AI烧钱时代终结？黄仁勋说token就是利润，巨头们却在紧急踩刹车

"Tokenmaxxing"成了硅谷最新笑话——当Box CEO在晚宴上发现，全场大佬最热议题不是宏观经济，而是自家的token账单时，你就知道风向变了。

01 一顿晚宴，暴露了硅谷的尴尬

最近Box CEO亚伦·莱维参加了一场顶级企业高管晚宴。按照惯例，这种场合大家聊的应该是宏观趋势、战略布局、下一个风口。

但现实是，全场讨论最多的话题只有一个：他们的token成本。

你没看错。在经历了哄抢显卡、争抢人才、烧钱做模型的三轮狂飙之后，2026年的硅谷终于撞上了一堵墙——token成本。

这堵墙有多硬？据报道，仅2026年5月，就有多家美国科技巨头因为token成本失控而紧急叫停内部AI项目。有的团队一个月烧掉5亿美元的token，不是在做训练，只是在跑推理。

"Tokenmaxxing"——这个词曾经代表"尽可能多地使用token来解决问题"——现在成了硅谷最新的笑话。

02 黄仁勋说token是利润，这话没说错

就在同一天，6月1日，黄仁勋在COMPUTEX 2026上发表了长达两小时的主题演讲。他穿着标志性的黑色皮衣，宣布了一个宏大叙事：

"Agent AI时代全面到来，token成为了利润单位。"

他还补充道："算力即收入，算力即利润。"

与此同时，英伟达发布了RTX Spark超级芯片——基于Arm架构，面向Windows笔记本和小型工作站，黄仁勋称之为"有史以来最高效的平台"。

从表面看，这两件事完全矛盾：一边是巨头在疯狂踩刹车，一边是黄仁勋在猛踩油门。

但仔细想想，其实说的是同一件事的两面。

03 矛盾的本质：不是token太多，是用法太粗暴

问题的关键不在于token本身，而在于怎么用。

过去一年，很多企业的AI策略可以总结为四个字：堆量出活。写代码？把整个代码库喂进去。做客服？把所有文档扔进去。搞分析？把数据库导出来塞进去。

这种"暴力出奇迹"的做法，在token价格便宜的时候还行。但当你的团队每天跑几百万次推理、每次都要塞几千个token进去的时候，账单就会让你清醒。

Box CEO莱维说得好："Token不是免费的午餐。"

真正的问题不是AI能不能干，而是你有没有用对方式。

一个优秀的AI工程师和一个普通的AI工程师，用同样的模型完成同样的任务，token消耗量可以差10倍。这不是夸张——提示工程、上下文管理、任务拆分、缓存策略，每一个环节都是成本的分水岭。

04 从"烧token"到"省token"，三个实战建议

如果你正在做AI相关的业务，以下几个思路值得参考：

1. 提示词不是越长越好

很多人写提示词的习惯是"把所有要求都写上，越详细越好"。但每多一个token，就多一份成本。把提示词精简到核心需求，用结构化格式替代长篇大论，效果往往更好。

2. 先做任务拆分，再考虑模型选择

不是所有任务都需要用最大的模型。把复杂任务拆成几个简单步骤，用小模型处理80%的常规工作，只在关键环节调用大模型，成本可以直接砍半。

3. 缓存是被严重低估的武器

很多AI应用的请求是高度重复的——同一个问题被问了100次，每次都重新推理。做好语义缓存，重复请求直接返回缓存结果，可以省掉60%以上的推理成本。

05 AI的下半场，比的是"性价比"

回顾过去一年的AI竞赛，大家比的是谁的模型更大、谁的融资更多、谁的token用得更猛。但2026年的风向正在转变。

英伟达在COMPUTEX上推出的RTX Spark芯片，定位就很有意思——它不是面向数据中心的怪兽级GPU，而是面向笔记本和小型工作站的"高效平台"。黄仁勋说"有用的AI已经到来"，潜台词是：光有用不行，还得用得起。

这对普通人和中小企业其实是好消息。当AI从"烧钱竞赛"转向"效率竞赛"，意味着更多的落地场景会被打开，更多的人能用得上、用得起AI。

Token的成本正在倒逼整个行业从"能用"走向"好用"，从"炫技"走向"实用"。

这才是AI真正走向成熟的标志。

写在最后

黄仁勋说token是利润单位，这话完全正确。但利润的前提是——你的token花在了刀刃上。

那些还在"暴力堆token"的团队，是时候停下来算一笔账了。不是因为AI不行，而是因为粗放式用AI的时代已经结束了。

AI的下半场，赢家不是token最多的，而是token用得最聪明的。

每天聊点AI实战干货，关注我，和小郑一起看懂AI行业。

转载:

https://mp.weixin.qq.com/s/vyh7exwbd1gWeV2GgCyp5w