第4期 - 秋天到了

鸟貌似是最喜欢人类翻土的生物,虫子相反
第4期 - 秋天到了 封面

第4期 - 秋天到了

这期的封面是附近的一片草地,路很窄,只适合走路和骑自行车,偶尔也能看到推着婴儿车的人。

最近应该到秋收结束了,大片大片的地都被翻了过来,绿色不再,黑色的成熟土壤随处都是。

估计土里面的大量小虫子都被翻了出来,所以能看到成群的鸽子在低头忙着找东西吃。

鸽子找食

每次给院子除草后,也会有一大堆的鸽子或是鸠聚集在院子里,聪明如它们。

周末还坐地铁出了趟”远门”,英国老被叫农村,其实也不是没有原因,各种设施的确很老旧,甚至很多房子的年龄都超过100岁了。

像这个地铁站之间的”天桥”,成色怎么都得在几十年以上了。

火车

回来之后挺晚的,但还是把该做的移栽植物给做了,因为在育苗盆里的植物太密了,导致大家都长不好,自己买了几个花盆,加上前任房主留下的一些花盆,把植物们都移栽了。

移栽

希望能在大房子里长得更好。

🤖 AI产品

这周没怎么关注AI,只看了看阿里新开源的Qwen3-Next-80B-A3B模型,给我的感觉挺有意思的。

大模型做到现在,已经到了”炼丹中的炼丹”的境界了。

之前的深度学习炼丹,主要就是各种调参,比如learning rate,batch size,epoch,激活函数ReLU,Sigmoid,GELU都来一遍,基本上可以用:

深度学习调参 = 玄学 + 运气 + 一点点科学

大模型现在也有了类似的现象,基本上比较容易想到的大模型基础模块都被想到了。

比如各种 attention 机制:传统的、轻量化的、线性的、稀疏的、分块的、旋转位置编码的,总之,这种形式的比较大型的创新基本上都有人试过且论文也发了。

现在的主要工作又变成了炼丹,就是怎么在有限的药材前提下让药效更好。

Qwen3-Next里面提到的主要创新为混合注意力,主要意思就是标准注意力好用但开销大,线性注意力效率高但性能差,换句话说:

  • 标准注意力:好用是好用,就是烧火太猛,柴(显存)不够
  • 线性注意力:省柴是省柴,但药效总觉得差点意思

那怎么能够取长补短呢?

那就混合起来用,方法就是在 3:1 的混合比例(即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力)下能一致超越单一架构,实现性能与效率的双重优化。

官方描述

线性注意力打破了标准注意力的二次复杂度,在处理长上下文时有着更高的效率。我们发现,单纯使用线性注意力或标准注意力均存在局限:前者在长序列建模上效率高但召回能力弱,后者计算开销大、推理不友好。通过系统实验,我们发现 Gated DeltaNet 相比常用的滑动窗口注意力(Sliding Window Attention)和 Mamba2 有更强的上下文学习(in-context learning)能力,并在 3:1 的混合比例(即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力)下能一致超越单一架构,实现性能与效率的双重优化。

就非常像抓药,这个比例肯定是花了大量的时间和成本得出来的,好用肯定是好用的,预训练和推理效率都提升得非常明显。

但有个问题就是能明显看到,那种类似于Transformer级别的创新出现的频率和速度越来越低了,大多数的工作都是incremental的存在。

而后继者,大多都是在已有的药材体系下进行穷举式的测试。

我们肯定是需要这种工作的,因为人类总是需要性能提升的,至于那些石破天惊的创新,往往只是人类偶尔才能好运地被捡到。

参考链接阿里Qwen3-Next模型分析 - 知乎