第5期 - 伦敦游记

第5期 - 伦敦游记
这期的封面是在伦敦拍的,泰晤士河南岸偶然经过的一个小公园,天气非常好,万里无云的那种,即使戴着墨镜都觉得刺眼。
偶然太阳被遮住了,抬头一看,发现这个东西竟然无比像小时候院子里种的豆角。
大城市的确内容更丰富些,比如我第一次见到 UberBoat 这种东西。
甚至晚上还真的去坐了一下,买票的时候耽误了很久,因为自己的 Uber 版本太老,根本没有 Boat 这个选项,索性最后有惊无险地上船了。
第一次在船上看到伦敦眼,其实就是一个摩天轮。
塔桥是我第一次见,它在白天的图片见了很多,在晚上的这种还是第一次。
到了桥上才发现它有一个时间表,就是什么时候会升起来或者降下去,这次因为随便逛,所以也没有恰好碰上。
白金汉宫,也是第一次去,在伊丽莎白女王阅兵时印象很深,但自己去看感觉并没有什么特别的,毕竟自己只是”nobody”。
回程的时候风雨交加,视线很差,下面这张拍摄于傍晚。
最后我确认,大城市并不是我的菜,相比起来,小城市更简单,特别是伦敦的大多数工作工资并没有比其他地方多多少,但消费直线上升。
🤖 AI产品
这周主要就两件事,第一是 DeepSeek R1 的那篇 arXiv 论文改了改竟然发在 Nature 上了,这也是第一篇经过同行评议发表的大模型论文,整体评价非常高。
我写了一个知乎回答来分析这件事,并没有从贡献来讲,因为这半年 DeepSeek 的实力和含金量有目共睹,主要是从审稿过程来看的,非常有意思,60多页的评审+回复,足以见 R1 这个模型的扎实程度。
特别是我最近在经历非常痛苦论文修改环节,两个审稿人一共提了将近20个问题,有简单的比如描述不清、缺参考文献,也有复杂的,明显需要补实验的,极其头痛。
含金量最高的一句评价是这个,原文:
“R1-zero is the first clear success story (at least become public) of pure RL (with the recent and efficient GRPO algorithm, introduced last year) being applied to pre-trained LLMs that are good enough to benefit by chain of thought (CoT).”
这句话信息密度极高,可以说是高度正面的评价了:
首次的”成功案例”(first clear success story)
- 它被称为第一个明确的成功案例(而且是公开的),说明之前在这条路线上的尝试都没有那么亮眼或成果不足以公开
- 这里强调的是它在学界/业界留下了一个”里程碑”
纯强化学习(pure RL)的胜利
- 不是 RLHF(强化学习 + 人类反馈)那种混合式,而是单纯的强化学习方法
- 说明它证明了”光靠 RL”就能让大语言模型在推理能力上得到有效提升
GRPO 算法的效率和新颖性
- 特别点名 GRPO (Generalized Reversed Policy Optimization),这是去年提出的高效算法
- 意味着这是 RL 算法在 LLM 上的一次成功应用,起到了关键作用
前提条件:预训练 LLM 已经够强
- 强调这件事成立的原因之一是:LLM 已经足够强大,可以从”Chain of Thought (CoT)”推理中获益
- 换句话说,模型本身质量过硬,所以 RL 才能有效发挥作用
这几个点一出,其实也能变相佐证,在 DeepSeek R1 之后,后续的大模型大多都有 R1 的影子,因为它的出现就是划时代的。
Kimi K2 几乎就是沿用 DeepSeek 的模型,也是一个力证。
第二件事就是又夸了夸 Gemini,它最近是越来越好用了,特别是搞个学生身份就可以免费开18个月的会员,超值!
相关链接:Gemini 使用体验分享
除了使用体验之外,给我最大的感触还是,Google 这种软硬件皆有的公司越往后走优势越大,最大的一个原因就是 Google 类似于中国和美国这种”全体系工业国家”,意思就是几乎所有的部件自己都可以造,自己不太依赖别人就可以实现绝大多数的核心功能,即使有些依赖,自己也能通过牺牲部分性能来换取。
就拿显卡这个在前两年绝对的紧俏货来说,Google 说是受到限制最小的公司,因为哥们自己早早就造出了自己独有的 TPU。
阿里其实也是在走这条路,就是软硬件双持,特别是搞自己的硬件,很简单的一件事,就是自己打造的东西肯定是最适配自己技术的。
别的东西顶多发挥个8、9成效能,自己的东西很容易达到100%的利用率。
同时自己造的成本低,也很容易打出价格优势。
越是长线竞争,越是优势巨大。