3
0

AI烧钱时代终结?黄仁勋说token就是利润,巨头们却在紧急踩刹车

2026-06-03
2026-06-03
AI
AI烧钱时代终结?黄仁勋说token就是利润,巨头们却在紧急踩刹车

"Tokenmaxxing"成了硅谷最新笑话——当Box CEO在晚宴上发现,全场大佬最热议题不是宏观经济,而是自家的token账单时,你就知道风向变了。

01 一顿晚宴,暴露了硅谷的尴尬

最近Box CEO亚伦·莱维参加了一场顶级企业高管晚宴。按照惯例,这种场合大家聊的应该是宏观趋势、战略布局、下一个风口。

但现实是,全场讨论最多的话题只有一个:他们的token成本

你没看错。在经历了哄抢显卡、争抢人才、烧钱做模型的三轮狂飙之后,2026年的硅谷终于撞上了一堵墙——token成本。

这堵墙有多硬?据报道,仅2026年5月,就有多家美国科技巨头因为token成本失控而紧急叫停内部AI项目。有的团队一个月烧掉5亿美元的token,不是在做训练,只是在跑推理。

"Tokenmaxxing"——这个词曾经代表"尽可能多地使用token来解决问题"——现在成了硅谷最新的笑话。

02 黄仁勋说token是利润,这话没说错

就在同一天,6月1日,黄仁勋在COMPUTEX 2026上发表了长达两小时的主题演讲。他穿着标志性的黑色皮衣,宣布了一个宏大叙事:

"Agent AI时代全面到来,token成为了利润单位。"

他还补充道:"算力即收入,算力即利润。"

与此同时,英伟达发布了RTX Spark超级芯片——基于Arm架构,面向Windows笔记本和小型工作站,黄仁勋称之为"有史以来最高效的平台"。

从表面看,这两件事完全矛盾:一边是巨头在疯狂踩刹车,一边是黄仁勋在猛踩油门。

但仔细想想,其实说的是同一件事的两面。

03 矛盾的本质:不是token太多,是用法太粗暴

问题的关键不在于token本身,而在于怎么用

过去一年,很多企业的AI策略可以总结为四个字:堆量出活。写代码?把整个代码库喂进去。做客服?把所有文档扔进去。搞分析?把数据库导出来塞进去。

这种"暴力出奇迹"的做法,在token价格便宜的时候还行。但当你的团队每天跑几百万次推理、每次都要塞几千个token进去的时候,账单就会让你清醒。

Box CEO莱维说得好:"Token不是免费的午餐。"

真正的问题不是AI能不能干,而是你有没有用对方式。

一个优秀的AI工程师和一个普通的AI工程师,用同样的模型完成同样的任务,token消耗量可以差10倍。这不是夸张——提示工程、上下文管理、任务拆分、缓存策略,每一个环节都是成本的分水岭。

04 从"烧token"到"省token",三个实战建议

如果你正在做AI相关的业务,以下几个思路值得参考:

1. 提示词不是越长越好

很多人写提示词的习惯是"把所有要求都写上,越详细越好"。但每多一个token,就多一份成本。把提示词精简到核心需求,用结构化格式替代长篇大论,效果往往更好。

2. 先做任务拆分,再考虑模型选择

不是所有任务都需要用最大的模型。把复杂任务拆成几个简单步骤,用小模型处理80%的常规工作,只在关键环节调用大模型,成本可以直接砍半。

3. 缓存是被严重低估的武器

很多AI应用的请求是高度重复的——同一个问题被问了100次,每次都重新推理。做好语义缓存,重复请求直接返回缓存结果,可以省掉60%以上的推理成本。

05 AI的下半场,比的是"性价比"

回顾过去一年的AI竞赛,大家比的是谁的模型更大、谁的融资更多、谁的token用得更猛。但2026年的风向正在转变。

英伟达在COMPUTEX上推出的RTX Spark芯片,定位就很有意思——它不是面向数据中心的怪兽级GPU,而是面向笔记本和小型工作站的"高效平台"。黄仁勋说"有用的AI已经到来",潜台词是:光有用不行,还得用得起。

这对普通人和中小企业其实是好消息。当AI从"烧钱竞赛"转向"效率竞赛",意味着更多的落地场景会被打开,更多的人能用得上、用得起AI。

Token的成本正在倒逼整个行业从"能用"走向"好用",从"炫技"走向"实用"。

这才是AI真正走向成熟的标志。

写在最后

黄仁勋说token是利润单位,这话完全正确。但利润的前提是——你的token花在了刀刃上。

那些还在"暴力堆token"的团队,是时候停下来算一笔账了。不是因为AI不行,而是因为粗放式用AI的时代已经结束了。

AI的下半场,赢家不是token最多的,而是token用得最聪明的。


每天聊点AI实战干货,关注我,和小郑一起看懂AI行业。

转载:

https://mp.weixin.qq.com/s/vyh7exwbd1gWeV2GgCyp5w

评论