贝恩、METR、Uber三份报告同时泼冷水,AI落地到底卡在哪?
当所有人都在喊"AI改变一切"的时候,三份来自顶级机构的报告同时给出了不太好看的数字。
01 40%的企业用AI降本,效果不到10%
贝恩咨询刚刚发布了一份覆盖951家大型企业的全球调查报告,结果有点扎心:
40%的受访企业表示,部署AI之后成本降幅仅在10%或以下。
要知道这些可都是年营收超过1亿美元的大公司,涵盖零售、科技、制造、医疗、金融等九大行业。它们原本期待AI能带来更显著的降本效果,但现实给了当头一棒。
贝恩的原话更狠:"上一轮AI浪潮的表现未达预期,能够释放的降本空间比想象中小。而当前一轮的投资逻辑,确实建立在数字预测而非真实成果上。"
翻译一下:大家现在砸钱做AI,靠的不是已验证的回报,而是画饼。
那问题出在哪?贝恩给出了一个很实在的诊断:不是缺AI模型,是缺数据基础设施。 多数企业连自己的数据都无法可靠获取和使用,模型再强也是巧妇难为无米之炊。
贝恩的建议也很务实:别等数据全部结构化了再动手,先用能用的数据跑起来,再让AI帮你整理剩下的。
02 AI写的代码,bug率是人工的1.7倍
如果说企业端的AI降本还只是"效果不如预期",那编程领域的AI应用则更让人警觉。
METR实验室——那个在2025年首次用实验数据证明"AI其实拖慢了开发进度"的机构——最近想复刻实验,结果发现:开发者已经不愿意脱离AI工作了,实验根本做不了。
是的,你没看错。哪怕只是为了做个对比测试,程序员们也无法接受关掉AI写代码。
但主观感受和客观数据之间,出现了巨大的裂缝:
亚马逊关停了内部的"token用量排行榜",因为员工为了冲榜恶意刷高消耗,反而大幅增加了运营成本
Uber仅用4个月就耗尽了2026全年的AI预算,COO承认"高额投入并未带来实质性增长"
一家企业因为没给员工的Claude账号设上限,单月烧掉5亿美元
更值得关注的是代码质量数据。CodeRabbit分析开源代码后发现,AI编写的代码出问题的概率是人工代码的1.7倍。Entelligence AI的创始人则指出,企业近44%的AI token消耗,都用在了修复AI自己生成的bug上。
程序员James Shull一针见血:"就算你现在写代码速度快了一倍,也得祈祷维护成本能随之减半。否则你换来的只是一时的速度提升,却被套上了永久的运维枷锁。"
03 "Tokenmaxxing"——AI时代的内卷
这些现象背后,有一个很有意思的词:tokenmaxxing。
Micro1的CEO Ali Ansari把企业盲目追求消耗更多token的做法称为"tokenmaxxing"——像军备竞赛一样,比谁用的AI多、谁的token消耗大,却没人认真算过ROI。
这跟当年的"唯DAU论"何其相似。为了数据好看,不惜一切代价冲量,最后发现量有了,钱没了。
Uber的案例尤其典型。员工把AI消耗在查询天气、看娱乐八卦上,而不是公司最有价值的任务。AI变成了一个高级版的搜索引擎,月账单却贵了几十倍。
04 写在最后:AI落地的三个真相
综合这三份报告,我们可以提炼出AI落地的三个真相:
第一,数据基建比模型能力更重要。 贝恩的数据很清楚——40%的企业卡在数据获取和使用上。在数据基础设施没搭好之前,再强的大模型也只是空中楼阁。
第二,AI提效的前提是会用。 METR的实验做不了,恰恰说明开发者已经离不开了。但离不开不等于用得好。44%的token在修bug,这不是提效,这是返工。
第三,ROI必须算清楚。 一个月烧5亿美元的案例不是个例,Uber4个月耗尽全年预算也不是个例。AI不是免费的午餐,每一笔投入都需要对应可衡量的产出。
贝恩建议企业"先用能用的数据跑起来",METR建议"像审核新人代码一样核查AI产出",这些建议听起来不够性感,但可能是当下最务实的路径。
AI的红利确实存在,但红利只属于那些能算清账的人。
参考来源:贝恩咨询2026年全球企业调查报告、METR实验室AI编程效率研究、CodeRabbit开源代码分析、《金融时报》《The Information》《Axios》报道
转载原文: