Scaling Law还能继续有效吗?
Scaling Law还能继续有效吗?
这个问题正好涉及到自然法则和人造定律的领域。简单来说,自然法则是不可违逆的”天道”,而人造定律则是依赖环境的”经验”。
自然法则:不可违逆的客观规律
自然法则,我们可以用最简单的重力来举例:一个苹果从树上掉下来,不管有没有人在场,它的掉落都是不可更改的事实。这是”独立于人存在的客观规律”,类似的例子还有光速、熵增等物理定律。不管你信不信,它就在那里,恒定不变。
人造定律:环境依赖的经验总结
而Scaling Law不同,它实际上非常类似我们日常听到的各种人生经验:
- “努力通常会有回报”
- “多读书视野会更开阔”
- “人脉很重要”
这些经验并非错误,甚至在大多数情况下都是正确的,但它们不是绝对真理。在不同环境、时代和个体条件下,这些经验可能会失效。
比如”努力通常会有回报”,但如果努力的方向错误,可能不仅得不到回报,情况反而会越来越糟。”多读书是好的”,但如果阅读的书本身有问题,那反而有害无益。
这些不是宇宙铁律,而是人类在特定历史条件下总结出的统计经验。它们之所以成立,是因为有一群人”相信它 → 按它去做 → 再次验证它”的循环过程。
Scaling Law:技术文明的经验法则
Scaling Law本质上就像技术文明的人生经验,它告诉我们:堆算力、堆数据、堆参数,AI的智能表现就会更好,这很像老一辈人总结的”勤能补拙”。
在大多数情况下,这一经验是正确的,但并非普遍有效:
- 正如有人努力一生依旧困顿(受限于环境)
- Scaling Law也可能遇到”数据枯竭”或”能耗极限”等瓶颈
值得注意的是,Scaling Law有非常具体的前提条件:它是在现有架构(Transformer)、现有算力分布(GPU/TPU)、现有数据供给(互联网文本)的特定环境下成立的。
与摩尔定律的相似之处
这一点与摩尔定律非常相似。1965年,英特尔创始人戈登·摩尔发现:在芯片制造工艺不断进步的条件下,每18-24个月,集成电路上的晶体管数量大约会翻一倍。
而近年来,摩尔定律实际上已经开始失效,因为它最终遭遇了物理极限(晶体管小到几纳米后,量子效应、散热问题不可避免)。
结论:经验与规律的区别
所以我们可以这样理解:
- 自然法则 = 天道,绝对不会错;
- Scaling Law = 人生经验,很多时候对,但不是永远对
最简单的例子是,如果出现一个比Transformer更高效的架构,那么scaling law要么变得更陡峭,要么直接消失了。
这就是它有意思的地方:Scaling Law不是宇宙铁律,而是人类在这一阶段摸索出来的”文明经验”。它也许还能指引我们走很远,但未来会不会继续有效,还要看我们是不是找到新的路。