第5期 - 伦敦游记

再次确认大城市不是我的菜
第5期 - 伦敦游记 封面

第5期 - 伦敦游记

这期的封面是在伦敦拍的,泰晤士河南岸偶然经过的一个小公园,天气非常好,万里无云的那种,即使戴着墨镜都觉得刺眼。

偶然太阳被遮住了,抬头一看,发现这个东西竟然无比像小时候院子里种的豆角。

大城市的确内容更丰富些,比如我第一次见到 UberBoat 这种东西。

UberBoat

甚至晚上还真的去坐了一下,买票的时候耽误了很久,因为自己的 Uber 版本太老,根本没有 Boat 这个选项,索性最后有惊无险地上船了。

第一次在船上看到伦敦眼,其实就是一个摩天轮。

LondonEye

塔桥是我第一次见,它在白天的图片见了很多,在晚上的这种还是第一次。

塔桥

到了桥上才发现它有一个时间表,就是什么时候会升起来或者降下去,这次因为随便逛,所以也没有恰好碰上。

白金汉宫,也是第一次去,在伊丽莎白女王阅兵时印象很深,但自己去看感觉并没有什么特别的,毕竟自己只是”nobody”。

白金汉宫

回程的时候风雨交加,视线很差,下面这张拍摄于傍晚。

回纽卡

最后我确认,大城市并不是我的菜,相比起来,小城市更简单,特别是伦敦的大多数工作工资并没有比其他地方多多少,但消费直线上升。

🤖 AI产品

这周主要就两件事,第一是 DeepSeek R1 的那篇 arXiv 论文改了改竟然发在 Nature 上了,这也是第一篇经过同行评议发表的大模型论文,整体评价非常高。

我写了一个知乎回答来分析这件事,并没有从贡献来讲,因为这半年 DeepSeek 的实力和含金量有目共睹,主要是从审稿过程来看的,非常有意思,60多页的评审+回复,足以见 R1 这个模型的扎实程度。

特别是我最近在经历非常痛苦论文修改环节,两个审稿人一共提了将近20个问题,有简单的比如描述不清、缺参考文献,也有复杂的,明显需要补实验的,极其头痛。

相关链接DeepSeek R1 发表 Nature 分析

含金量最高的一句评价是这个,原文:

“R1-zero is the first clear success story (at least become public) of pure RL (with the recent and efficient GRPO algorithm, introduced last year) being applied to pre-trained LLMs that are good enough to benefit by chain of thought (CoT).”

这句话信息密度极高,可以说是高度正面的评价了:

首次的”成功案例”(first clear success story)

  • 它被称为第一个明确的成功案例(而且是公开的),说明之前在这条路线上的尝试都没有那么亮眼或成果不足以公开
  • 这里强调的是它在学界/业界留下了一个”里程碑”

纯强化学习(pure RL)的胜利

  • 不是 RLHF(强化学习 + 人类反馈)那种混合式,而是单纯的强化学习方法
  • 说明它证明了”光靠 RL”就能让大语言模型在推理能力上得到有效提升

GRPO 算法的效率和新颖性

  • 特别点名 GRPO (Generalized Reversed Policy Optimization),这是去年提出的高效算法
  • 意味着这是 RL 算法在 LLM 上的一次成功应用,起到了关键作用

前提条件:预训练 LLM 已经够强

  • 强调这件事成立的原因之一是:LLM 已经足够强大,可以从”Chain of Thought (CoT)”推理中获益
  • 换句话说,模型本身质量过硬,所以 RL 才能有效发挥作用

这几个点一出,其实也能变相佐证,在 DeepSeek R1 之后,后续的大模型大多都有 R1 的影子,因为它的出现就是划时代的。

Kimi K2 几乎就是沿用 DeepSeek 的模型,也是一个力证。

第二件事就是又夸了夸 Gemini,它最近是越来越好用了,特别是搞个学生身份就可以免费开18个月的会员,超值!

相关链接Gemini 使用体验分享

除了使用体验之外,给我最大的感触还是,Google 这种软硬件皆有的公司越往后走优势越大,最大的一个原因就是 Google 类似于中国和美国这种”全体系工业国家”,意思就是几乎所有的部件自己都可以造,自己不太依赖别人就可以实现绝大多数的核心功能,即使有些依赖,自己也能通过牺牲部分性能来换取。

就拿显卡这个在前两年绝对的紧俏货来说,Google 说是受到限制最小的公司,因为哥们自己早早就造出了自己独有的 TPU。

阿里其实也是在走这条路,就是软硬件双持,特别是搞自己的硬件,很简单的一件事,就是自己打造的东西肯定是最适配自己技术的。

别的东西顶多发挥个8、9成效能,自己的东西很容易达到100%的利用率。

同时自己造的成本低,也很容易打出价格优势。

越是长线竞争,越是优势巨大。