第5期 - 伦敦游记

2025年09月21日

再次确认大城市不是我的菜

第5期 - 伦敦游记

这期的封面是在伦敦拍的，泰晤士河南岸偶然经过的一个小公园，天气非常好，万里无云的那种，即使戴着墨镜都觉得刺眼。

偶然太阳被遮住了，抬头一看，发现这个东西竟然无比像小时候院子里种的豆角。

大城市的确内容更丰富些，比如我第一次见到 UberBoat 这种东西。

UberBoat

甚至晚上还真的去坐了一下，买票的时候耽误了很久，因为自己的 Uber 版本太老，根本没有 Boat 这个选项，索性最后有惊无险地上船了。

第一次在船上看到伦敦眼，其实就是一个摩天轮。

LondonEye

塔桥是我第一次见，它在白天的图片见了很多，在晚上的这种还是第一次。

到了桥上才发现它有一个时间表，就是什么时候会升起来或者降下去，这次因为随便逛，所以也没有恰好碰上。

白金汉宫，也是第一次去，在伊丽莎白女王阅兵时印象很深，但自己去看感觉并没有什么特别的，毕竟自己只是”nobody”。

白金汉宫

回程的时候风雨交加，视线很差，下面这张拍摄于傍晚。

回纽卡

最后我确认，大城市并不是我的菜，相比起来，小城市更简单，特别是伦敦的大多数工作工资并没有比其他地方多多少，但消费直线上升。

🤖 AI产品

这周主要就两件事，第一是 DeepSeek R1 的那篇 arXiv 论文改了改竟然发在 Nature 上了，这也是第一篇经过同行评议发表的大模型论文，整体评价非常高。

我写了一个知乎回答来分析这件事，并没有从贡献来讲，因为这半年 DeepSeek 的实力和含金量有目共睹，主要是从审稿过程来看的，非常有意思，60多页的评审+回复，足以见 R1 这个模型的扎实程度。

特别是我最近在经历非常痛苦论文修改环节，两个审稿人一共提了将近20个问题，有简单的比如描述不清、缺参考文献，也有复杂的，明显需要补实验的，极其头痛。

相关链接：DeepSeek R1 发表 Nature 分析

含金量最高的一句评价是这个，原文：

“R1-zero is the first clear success story (at least become public) of pure RL (with the recent and efficient GRPO algorithm, introduced last year) being applied to pre-trained LLMs that are good enough to benefit by chain of thought (CoT).”

这句话信息密度极高，可以说是高度正面的评价了：

首次的”成功案例”（first clear success story）

它被称为第一个明确的成功案例（而且是公开的），说明之前在这条路线上的尝试都没有那么亮眼或成果不足以公开
这里强调的是它在学界/业界留下了一个”里程碑”

纯强化学习（pure RL）的胜利

不是 RLHF（强化学习 + 人类反馈）那种混合式，而是单纯的强化学习方法
说明它证明了”光靠 RL”就能让大语言模型在推理能力上得到有效提升

GRPO 算法的效率和新颖性

特别点名 GRPO (Generalized Reversed Policy Optimization)，这是去年提出的高效算法
意味着这是 RL 算法在 LLM 上的一次成功应用，起到了关键作用

前提条件：预训练 LLM 已经够强

强调这件事成立的原因之一是：LLM 已经足够强大，可以从”Chain of Thought (CoT)”推理中获益
换句话说，模型本身质量过硬，所以 RL 才能有效发挥作用

这几个点一出，其实也能变相佐证，在 DeepSeek R1 之后，后续的大模型大多都有 R1 的影子，因为它的出现就是划时代的。

Kimi K2 几乎就是沿用 DeepSeek 的模型，也是一个力证。

第二件事就是又夸了夸 Gemini，它最近是越来越好用了，特别是搞个学生身份就可以免费开18个月的会员，超值！

相关链接：Gemini 使用体验分享

除了使用体验之外，给我最大的感触还是，Google 这种软硬件皆有的公司越往后走优势越大，最大的一个原因就是 Google 类似于中国和美国这种”全体系工业国家”，意思就是几乎所有的部件自己都可以造，自己不太依赖别人就可以实现绝大多数的核心功能，即使有些依赖，自己也能通过牺牲部分性能来换取。

就拿显卡这个在前两年绝对的紧俏货来说，Google 说是受到限制最小的公司，因为哥们自己早早就造出了自己独有的 TPU。

阿里其实也是在走这条路，就是软硬件双持，特别是搞自己的硬件，很简单的一件事，就是自己打造的东西肯定是最适配自己技术的。

别的东西顶多发挥个8、9成效能，自己的东西很容易达到100%的利用率。

同时自己造的成本低，也很容易打出价格优势。

越是长线竞争，越是优势巨大。