
在智能体活跃,token(词元)破钞量呈指数级增多的2026年,token经济以及算力的受青睐进度日新月异。以“龙虾”OpenClaw为代表的智能体需要破钞算力,用户必须从token供应商处获取API key(密钥),才能让这些智能体平方启动。
不外,许多东谈主不知谈的是,即就是并吞款模子,阐发供应商的不同,其token的“质地”也会存在各异。近日,清华大学缱绻机系长聘拔擢、博士生导师,清程极智首席科学家翟季冬接管了新京报贝壳财经记者的采访,揭开了token经济中这一“瞒哄的旯旮”。
此外,看成曾指导清华团队十五次赢得国际大学生超算竞赛冠军的指点敦厚,翟季冬和团队成员也对现时国产算力芯片何如与大模子进行适配,以及二者之间“推理引擎”层的作用,对新京报贝壳财经记者进行了科普。

清华大学缱绻机系长聘拔擢、博士生导师,清程极智首席科学家翟季冬回应记者发问。罗亦丹/摄
并吞模子,低廉token有可能更“花钱”
“token是本年最火的词,但token底层触及许多技巧。”翟季冬开门见平地说,在他看来,token产业不错分为三层:底层是在芯片上部署大模子,坐蓐token的坐蓐层;中间层是看成token供应商转运分发token的运动层;最表层则是个东谈主和企业用户径直调用API消费token的使用层。
这三层结构听上去跟电力系统有些相似,但翟季冬强调,两者的熟练度鼓胀不在一个量级,“当咱们用电时,无谓惦记发出来的电有‘永逝’,但token不同,相似的模子、相似的价钱,token质地却可能散乱不皆。”
他告诉记者,本色上,token供应商的方针有许多,除了阳春白雪的价钱、高下文长度外,还有首字蔓延、糊涂量,以及世俗用户较难明白的精度、 KV Cache(键值缓存)射中等。
而这些“瞒哄的细节”可能决定模子的后果和token破钞的大小。
在模子后果方面,翟季冬例如称,比如模子发布时可能罗致了BF16精度,但有些供应商会把它量化成INT8致使INT4来部署,克己是算力破钞减半,不错承载更多用户,代价是模子才智被“剪辑”了,不再是原汁原味的后果。
据了解,FP16、INT8等专科术语指的是大模子推理的精度,数字(4/8/16/32/64)代表位数,一般来说,位数越高,缱绻精度越高、戒指越准,但速率越慢、破钞算力越大;位数越低,速率越快、越省算力,但会微弱耗损模子后果。
AG中国手机官方网页版而在token破钞量方面,翟季冬给记者算了一笔账:相似的模子,一家供应商报价每百万token3元,另一家报价1元,看似低廉的那家,本色总资本可能反而更高。“它有两行报价,一滑是token射中,可能是一毛钱,token不射中是一块钱。可是它的token坐蓐作念得很差,你的这些肯求都不射中,临了反而花钱。”
清程极智聚始首创东谈主师天麾讲授称,新京澳门葡萄城股份有限公司官网这里的中枢技巧是KV Cache(键值缓存)解决——在多轮对话场景中,缓存射中不错省俭90%的资本,但不同供应商的缓存解决水平差距弘远,其中报价低的就业商也许缓存并不高,本该省俭的那些缓存没能省俭,导致总资本很高。但就业商在卖token时,一般不会径直讲解缓存射中率是若干,致使有些就业商径直不给缓存射中的优惠价钱。
针对这一乱象,清程极智推出了AI Ping一站式大模子就业评测与API智能路由平台,咫尺,平台已接入30余家主流就业商、600余个大模子就业,遮掩文本、图片、视频等全场景;通过7×24小时多地域散播式监测,及时输出蔓延、糊涂、可靠性、价钱等中枢方针。

不同供应商提供的DeepSeek-V4-Pro模子的token蔓延情况对比图。数据泉源:aiping.cn
6月8日,新京报贝壳财经记者登录AI Ping平台,立地稽察了DeepSeek-V4-Pro模子不同token供应商的蔓延情况,发现其记载了价钱、蔓延、糊涂等方针。如关于蔓延这一方针,一些就业商的弧线波动极大,而最为巩固的则是DeepSeek官方提供的token。
“中国的电力系统在全天下是第一的,咱们但愿通过多样用功,大致把我国token就业的质地和性能也作念到全天下第一。”翟季冬说。
芯片发展趋势:撑合手的精度类型越来越多
token质地的各异,追本穷源要落到芯片和推理引擎上。一个容易被忽略的事实是:在国产算力和国产模子之间,并不是径直对接的关联,中间还隔着一层至关进军的“推理引擎”。这层软件束上起下,决定了芯片的算力能弗成被高效开释,也决定了最毕坐蓐出来的token质地够不够好。
翟季冬用精度问题向贝壳财经记者讲授了推理引擎的价值——“许多东谈主认为芯片正在向精度越来越高发展,但事实上,芯片正在向撑合手的精度类型越来越多发展,例如,传统CPU可能只撑合手三、四种精度类型,而咫尺的AI芯片能撑合手十几种,从FP64、FP32、FP16到FP8、FP4,还有INT8、INT4等整数精度,每一种都有不同的性能和后果量度。”
“模子不是说一定要选最高的精度才好,因为精度更高的同期,也更慢,每个模子会选一个恰到克己的精度。”清程极智聚始首创东谈主唐适之补充谈,“咫尺来讲,主流模子的遴荐频频奴隶英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度,DeepSeek以为FP8最相宜我方的模子,就选了这个圭臬。”
但问题随之而来:国产芯片的精度撑合手并子虚足跟英伟达对皆。“对DeepSeek来讲,国产卡有的精渡过高有的精渡过低,使用起来不管何如都是有耗损的。”
这恰是推理引擎的用武之地。翟季冬告诉记者,国外主流推理引擎如vLLM、SGlang对英伟达、AMD的生态撑合手更好,但对国产芯片的优化参加有限。针对大模子部署资本高、国产算力适配不及的痛点,清程极智推出了自主研发的国产推理引擎赤兔,其对国产模子、国产芯片的撑合手在很厚情况下比vLLM、SGlang要更好。
这种上风不仅仅体咫尺精度适配层面。唐适之先容,不同国产芯片的硬件秉性各异很大,比如有些卡的张量缱绻才智和标量缱绻才智之间的量度跟英伟达不一样,有些卡的卡间互联面孔也不同,推理引擎需要针对这些特色作念定制化设想。“咱们要着实地阐发国产卡上头的特色来选咱们的竣事决策,而不是说看英伟达上头有这个精度就选这个精度。”
“咱们将合手续深耕AI基础步履限制,坚合手中枢技巧自主可控,按捺迭代赤兔推理引擎对国产芯片的适配才智,完善AI Ping评测与路由就业,联动国产算力、国产模子、行业足下等产业链伙伴,打造高效、普惠、安全的国产AI基础步履体系,反馈国度‘东谈主工智能+’行为,以技巧立异鼓吹中国AI产业高质地发展。”翟季冬说。
新京报贝壳财经首席记者 罗亦丹 编著 陈莉 校对 柳宝庆新京澳门葡萄城股份有限公司官网