
Scaling 即正义?智谱挠了挠头——
很灾祸,况且压力山大……

智谱最新发布的一篇期间博客,画风稍稍有点不同样:
莫得以前的硬核期间输出,反而大倒苦水从 GLM-5 以来的各式项目踩坑,官方称之为「Scaling Pain」。
咱们的推理基础表情正承受着前所未有的压力,每天都要做事数亿次 Coding Agent 调用。
以前几周,一些用户在使用 GLM-5 系列模子推论复杂 Coding Agent 任务时,际遇多种格外,比如乱码、复读和稀有字符生成。
况且这些问题在尺度推理环境中根本复现不出来!!!

排查数周,团队终于揪出真凶,澈底刺破Scaling Laws路上的隐形 Bug。
不仅详备转头了自身际遇的腾贵训戒,还给出了一套极具实操性的避坑指南。
浅显来说,如若屏幕前的你正缱绻给我方的 Agent 加码,那么这篇来自一线实战的资历转头,提议先反复阅读背诵~

定位关键 Bug
事情是酱紫的——
自从 GLM-5 发布以来,智谱通过不雅察用户的大鸿沟 Coding Agent 推理过程,发现了三类格外昂扬:
乱码输出:本体散乱无真义;
重复生成:模子不停重复输出疏通本体;
旷费字:出现格外字符。
这引起了团队工程师的警醒,于是说干就干,先是通过土产货回放用户响应,重复运行疏通苦求数百次,末端遥远无法触发格外。
换言之,模子本人并非根本原因。
在进一步模拟在线环境后,团队尝试搬动 PD 隔离比例并执续提高系统负载,格外昂扬终于得以复现,在每 10000 个苦求中节略能复现出 3-5 个格外输出。
这诠释,格外昂扬很有可能出无礼负载下的推理景色照顾,指向底层推理链路。
但同期也引出了另一个问题,开云kaiyun(中国)体育官网线下的复现率仍低于用户线上响应的频率,这就意味着现存的检测步伐存在遗漏或触发条目尚未皆备粉饰。
于是智谱团队持续对格外输出的检测步伐进行优化。他们发现投契采样(Speculative Decoding)成见可行为格外检测的艰辛参考。
投契采样原来用于擢升模子推感性能,它先由小模子生成草稿(draft tokens),再由大模子考据是否接纳这些 token,最终大约在不变嫌输出散布的情况下擢升 decode 成果。

而在 GLM-5 的三类格外中,乱码和旷费字的 spec_accept_length 迥殊低,也即是说方向模子的 KV 缓存景色与草稿模子之间存在彰着不匹配。
复读则领有过高的 spec_accept_length,标明损坏的 KV 缓存可能导致防御力格式退化,将生成过程推向高置信度的重复轮回。
基于以上不雅察,智谱转头出了一套在线格外监控计谋:
当 spec_accept_length 执续低于 1.4 且生成长度卓越 128 token,或者 spec_accept_rate 卓越 0.96,系统就会主动中止现时生成,并将苦求从头友回给负载平衡器。
紧接着,开云体育app智谱启动进一步融会格外原因:
PD 隔离架构下的 KV Cache 竞态

团队通过分析苦求人命周期和推理引擎中的 PD 隔离推论时序,将问题归因于苦求人命周期与 KV Cache 回收与复用时序之间的不一致,从而激发的 KV Cache 复用破损。
为了袪除这类竞态情况,商量东说念主员在推理引擎中引入了更为严格的时序敛迹,会在苦求斥逐和 KV Cache 写入完成之间建立显式同步。
具体来说,在发出中止教导后,解码阶段会向预填充阶段发送示知。预填充阶段惟有在知足以下任一条目时才会复返安全回收信号:未启动任何 RDMA 写入,或通盘先前发出的写入操作已皆备完成。而解码阶段惟有在收到此阐发后才会回收并重用相应的 KV Cache 槽位。
该机制将确保 KV Cache 写入不会进步内存复用范畴,从而幸免跨苦求的 KV Cache 损坏。
最终配置该 bug 后,格外输出的发生率从约万分之十几下落至万分之三以下。
HiCache 加载时序缺失
此外,当 KV Cache 换入与磋磨叠加时,现时完结未能保证数据在使用前已完成加载,导致可能出现未就绪 KV Cache 被侦察的情况。

为照顾这一问题,团队重构了 HiCache 读取经过,同期引入数据加载与磋磨之间的显式同步敛迹。
在启动 Indexer 算子之前,先插入一个 Load Stream 同步点,确保相应级别的 Indexer 缓存已皆备加载。Forward Stream 惟有在数据准备就绪后才会进行磋磨,从而袪除了 read-before-ready 的问题。
愚弄此配置后,在疏通的责任负载条目下,由推论时序不一致引起的格外被袪除,系统终于得以踏实。
Prefill 侧优化
事实上,这两种 Bug 都指向了消失个常见的系统瓶颈:
在长荆棘文的 Coding Agent Serving 任务中,Prefill 阶段还是成为影响系统性能的主要成分。
于是为了缓解 Prefill 阶段在高并发下的内存和带宽压力,团队另外联想了 KV Cache 分层存储决议——LayerSplit。

在该决议中,每个 GPU只存储部分层的 KV Cache,权臣裁汰了每个 GPU 的内存占用。然后在推论 Attention 磋磨前,将对应层的 KV Cache 播送给其他有关 rank。
为了裁汰通讯支拨,还进一步联想有 KV Cache 播送与 indexer 磋磨的叠加机制,将通讯蔓延荫藏在磋磨过程中。这么独一的额外通讯支拨就来自 Indexer Cache 的播送,其大小仅为 KV Cache 的八分之一,全体通讯老本不错忽略不计。

团队将 LayerSplit 和GLM-5.1集合发现,在 Cache 射中率达到 90%、苦求长度在 40k 到 120k 区间内时,系统否认量提高了 10% 到 132%,且跟着荆棘文长度的加多,收益也随之增长。
总体而言,该优化权臣擢升了系统在 Coding Agent 场景下的处理才调。
同期智谱也以为,当智能实在干与高并发、长荆棘文的 Coding Agent 场景后,珍视推理基础表情的输出质料变得至关艰辛。改日大鸿沟 AI 需要的不仅是 Scaling Law 推进的才调增长,还必须有等量级的系统工程撑执。
参考通顺:
[ 1 ] https://z.ai/blog/scaling-pain
[ 2 ] https://www.zhipuai.cn/zh/research/159
— 接待 AI 家具从业者共建 —
� �「AI 家具常识库」是量子位智库基于历久家具库跟踪和用户行为数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、商量者的中枢信息关键与决策支执平台。
一键温顺 � � 点亮星标
科技前沿发扬逐日见开云官方体育app
开云app在线体育官网

备案号: