还记得2019年Kaplan等人那篇《Scaling Laws for Neural Language Models》吗?当时学界像打了鸡血一样——“只要堆参数、算力和数据,性能必然指数增长!”可三年过去,OpenGPT-5还没落地,行业却开始质疑:这条定律在AIGC时代真的还成立吗?
算力边际收益的悬崖
Scaling Law的核心假设是:模型性能随资源(参数量/训练数据/算力)线性或超线性提升。但现实打脸来得很快。GPT-3到GPT-4的进步远不如预期,而同等算力的MoE模型(如Mixtral 8x7B)反而比稠密模型更高效。这背后有个关键矛盾:当模型超过千亿级后,梯度更新方向会受噪声干扰越来越严重。MIT最新实验显示,在万亿参数规模下,额外增加10%算力可能只带来0.3%的准确率提升——边际成本陡增,而收益近乎停滞。
数据诅咒与涌现能力的陷阱
Scaling Law依赖“更多数据=更好模型”,但实际训练时,数据质量的影响常被低估。比如,LLaMA-2在中文语料稀疏的情况下,表现反而不如英文为主的模型。更诡异的是,某些任务上模型会出现“能力坍缩”:比如数学推理,当模型超过一定规模后,反而会因为过度关注表面模式(如公式符号)而忽略深层逻辑。Meta内部报告曾吐槽,他们在训练代码生成模型时发现,超过500B参数后,错误率曲线出现平台期,就像踩到了天花板。
架构创新才是真拐点
现在回头看,Scaling Law更像是个“黄金年代”的神话。真正推动质变的是架构创新:
-
MoE的并行化革命:Switch Transformer证明,通过动态激活专家模块,可用1/3算力达到稠密模型的性能,这直接催生了Qwen、Mixtral这类高效模型;
-
稀疏注意力:Perceiver IO用自回归替代递归结构,在保持性能的同时将内存占用降低两个量级;
-
混合精度训练技巧:如DeepSpeed ZeRO-3的梯度分片技术,让千亿模型在单台GPU上成为可能。
我的个人判断:Scaling Law退居二线
我认为,未来两三年大模型的发展将遵循“三定律”:
-
能效优先律:每瓦性能比(Tokens/Watt)会成为核心指标,这解释了为什么NVIDIA突然押注存算一体芯片;
-
小样本适配律:类似AlphaFold 2的发现,模型需要从“吃数据”转向“学规律”;
-
多模态收敛律:视觉和语言token的联合表征空间才是下一代突破点,单纯堆文本参数已到极限。
举个栗子
最近看到Google的Gemini团队在搞“知识蒸馏+量化感知训练”的混合方案,把7B模型压缩到3B后,在MMLU基准上反超13B模型。这种“瘦身增效”的思路,或许正是Scaling Law失效后的最佳解法。
说到底,AI领域永远不缺新理论,缺的是敢于挑战惯性思维的人。与其迷信Scaling Law,不如多想想:如果参数和数据不再线性决定一切,我们该用什么新工具来衡量智能?