海外独角兽

*/ ?>

Latest Episodes:

**E9 和DeepSeek-Prover作者辛华剑聊「形式化数学」：数学的工业化，Agentic AI，Benchmark** Jun 12, 2025
*Era of Experience* 这篇在 AI 社区讨论度很高的文章中提出：如果想实现 AGI，构建通用 Agent，就必须依靠“经验”，也就是模型和 Agent 在强化学习过程中自主积累的、人类数据集中没有的高质量数据。
DeepMind 的 AlphaProof 就被认为是这样一个典型案例，它靠 RL 算法自行“做题练习”，最终在数学领域，达到了超越人类的水平。以 AlphaProof 为开端，OpenAI 的 o1、DeepSeek 的 Prover-V2 等模型不断推动数学领域的进展，让数学证明成为了 AI 突破的新高地。
为什么 AI 研究中要特别关注数学证明能力？一方面数学领域的突破是模型能力提升的直接表现；另一方面，数学和代码类任务一样，不仅有严格的规则和格式，明确的推理路径，还有着对逻辑性、可验证性的高要求，这让数学类任务成为 RL 理想的训练环境。
这期内容我们请到了 DeepSeek-Prover 系列核心作者辛华剑，邀请华剑来和我们讲解数学和 AGI 之间的关系。华剑本科毕业于中山大学逻辑学，现在是爱丁堡大学人工智能方向的博士生，他目前专注于大模型在数学定理证明中的创新应用。
**友情提示：***这期内容同时涉及 AI 和数学领域的硬核干货，点击查看对谈全文文字内容*

本期拓展阅读

86 条 DeepSeek 的关键思考｜Best Ideas 开源

对 DeepSeek 和智能下半场的几条判断

The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

Claude 4 核心成员：Agent RL，RLVR 新范式，Inference 算力瓶颈
**讨论中被提及的相关名词：**

**DeepSeek Prover：**DeepSeek Prover 是 DeepSeek 开发一系列开源数学推理大模型，专注于形式化定理证明，支持将自然语言问题转化为 Lean 4，并通过逻辑严谨的定理验证来解决数学问题。

**Ilya sutskever：**是 OpenAI 联合创始人和前首席科学家，在 GPT 系列模型的开发中扮演了关键角色，Ilya 在 AI 研究领域有很强的影响力，业界认为他的技术品味很好，在技术方向的选择上具有很强的预判性。

**形式化数学：**形式化数学是指利用精确的符号语言来表达数学概念、定理及其证明，以消除传统数学推理中的模糊性，建立严谨且透明的框架。

**人月神话：**“人月神话”最初来源于软件工程领域，指的是一种普遍的误区，即错误地认为增加人手可以线性地提升项目进度。

**MATH 数据集：**这是一个数学推理数据集，包含约 12500 道数学竞赛的题目，涵盖代数、几何、组合、数论等领域。它专为评估和提升 LLM 在逐步数学推理任务中的能力而设计。

**Autoformalization：**自动形式化，指将用自然语言表达的数学内容（如定义、定理和证明）自动转换为可被计算机验证的形式化语言的过程。

**AlphaProof：**AlphaProof 是由 Google DeepMind 开发的模型，以 Lean 语言自动生成数学定理的形式化证明，是第一个在 IMO 获奖的 AI 模型。

**Mathlib 数据库：**这是基于 Lean 形式化证明系统构建的一个大型数学库，包含丰富的定义、定理和证明，用于支持数学知识的形式化与自动验证。

**从“HumanEval” 向 “SWE-bench”跨越：**HumanEval 测试模型写单个函数的能力，侧重小规模代码生成；SWE-bench 要求模型在完整代码库中修复 bug，考察跨文件和系统级改动能力。两者区别在于前者侧重原子级能力，后者重视工程级能力。

**DeepSeek Generative Reward Model：**这是 DeepSeek 与清华大学提出的奖励建模方法，通过生成结构化文本反馈（如评价原则与点评）来替代传统数值评分，提升大 LLM 的推理与 RL 效果，同时支持推理时的灵活扩展与优化。

E7 大模型非共识下，什么是 AGI 的主线与主峰？ Jun 12, 2025

本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。「全球大模型季报」是「海外独角兽」和「张小珺商业访谈录」的共同制作的 AI 领域观察栏目，以季度为单位，梳理行业 LLM 领域的重要信号，预测未来。

2025 Q1 中美 AI 领域都相当火热：DeepSeek R1 催化了 RL model 的热潮，头部模型厂商连续发布 SOTA reasoning models，推出 deep research；Manus 的火爆又把 Agentic AI 的讨论带到 AI 社区中心。本期内容是我们对 2025 年第一季度的回顾以及对 AGI 竞争格局、roadmap 的再思考：

虽然过去 2 年模型格局、技术关键词不断变化，但 AGI 路线图上只有智能提升是唯一主线，智能本身就是最大应用，要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS，未来模型和产品边界会逐渐模糊；
今天最大非共识是 pre-training 空间还非常大，只有 pre-training 才能涌现出新能力，决定模型内在上限；
Coding 的意义不仅仅在于编程，而是实现 AGI 的最好环境，是模型的一只手，现实世界多数任务可用 Coding 表达，模型通过生成并执行代码来实现对外部信息的采集、处理和反馈；
ChatGPT 只是 AGI 的“前菜”，是 AGI 攀登的第一站，Agentic AI 才是更加关键的未来；
Agent 落地最关键的三个能力是 long context reasoning、Tool-use、Instruction following；

……

本期内容文字链接

E8 专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻 Jun 12, 2025

本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈，由「海外独角兽」和「张小珺商业访谈录」的共同制作，

张祥雨专注于多模态领域，他提出了 DreamLLM 多模态大模型框架，这是业内最早的图文生成理解一体化的多模态大模型架构之一，基于这个框架，阶跃星辰发布了中国首个千亿参数原生多模态大模型 Step-1V。此外，他的学术影响力相当突出，论文总引用量已经超过了 37 万次。

一直以来，业界都相当期待一个理解、生成一体化的多模态，但直到今天这个模型还没出现，如何才能达到多模态领域的 GPT-4 时刻？这一期对谈中，祥雨结合自己在多模态领域的研究和实践历程，从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考，在他看来，虽然语言模型领域的进步极快，但多模态生成和理解的难度被低估了：

接下来 2-3 年，多模态领域会有两个 GPT-4 时刻：多模态推理和自主学习；
多模态生成理解一体化难以实现的原因在于，语言对视觉的控制能力弱，图文对齐不精确，数据质量有限，生成模块往往无法反向影响理解模块等；
模型 scale 到万亿参数后，在文本生成和知识问答能力增强的同时，推理能力，尤其是数学，却呈现出能力随规模增长反而下降的现象；
大模型出现推理能力下降的原因在于大模型在思考时，倾向跳步，next token prediction 框架天然更关注压缩率而非推理精度，这在任务目标与压缩率存在差异时会出问题；
Rule-based RL 可通过直接优化任务目标，迫使模型选择可靠推理路径，在推理任务中抑制跳步、强化稳定的思维路径；
o1 范式的技术本质在于激发出 Meta CoT 思维链：允许模型在关键节点反悔、重试、选择不同分支，使推理过程从单线变为图状结构。

……

访谈文字版全文链接。

E6 LLM 竞赛 2025: 超越 Google 之路 Jun 12, 2025

本期内容由「全球大模型季报」「海外独角兽」和「张小珺商业访谈录」的共同制作。我们以季度为单位，梳理行业 LLM 领域的重要信号，预测未来。

2024 年的 LLM 竞赛是算力、模型和应用三条线并行。正如我们在 2024 年跨年对谈中所预测的，上半年，LLM 竞赛格局基本确定，到了下半年，随着 Sonnet 3.5 经验的 coding 能力、 o1 模型以及 RL 范式的接连出现，LLM 不再是单一的基建竞赛，LLM 的应用范围在扩大、对现有工作流改造的深度不断增强。

2025 年的核心主线一定是 coding 和 agent 。Andrej Karpathy 在 2017 年提出了 Software 2.0 的设想：1.0 时代的软件是把结构化、规则化的工作进行数字化封装，2.0 时代的软件则对 domain knowledge 和工作流进行封装重组，背后变化是如何更加动态地编排软件。这一预想一定会在 2025 年被落地，Agent、multi-agents 不仅会带来新的软件，也会对生产力任务进行重组。

互联网最本质的是对信息的重组，“Google” 是在“分发”这件事上最具代表性的符号，我们认为，今天 AI/LLM 的竞争同样也是一条超越 Google 之路：底层模型及其上层的超级应用是对 token 和智能的重新分发，以 ChatGPT、Perplexity 、Devin 为代表的应用最终将走向所有信息、内容甚至任务的 All-in-one 的分发容器。

点击查看文字版内容

**E5 LLM 范式迁移：OpenAI o1，Self-play RL与 AGI 下半场** Sep 14, 2024
本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。
作为海外独角兽和「张小珺商业访谈录」的第四期串台，拾象科技 CEO 李广密和商业作者张小珺的围绕 AGI 发展路径展开了猜想，self-play RL 是新的 scaling law。
**这期讨论录制于 2 周前，随着今天凌晨 OpenAI o1 模型的发布，我们的猜想得到验证，LLM 正式进入了 self-play RL 范式时代。**
o1 的发布只是 AGI 下半场的开始，我们也相当期待接下来 Anthropic Claude 3.5 系列新模型的发布，Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。
作为关注 AI 最前沿的团队，我们围绕 self-play RL 也已经发布了多篇研究，本期内容是一篇高质量科普，关于 RL 和合成数据会如何帮助模型升级？基于 LLM 的 RL 和 self play 和以前的 RL 有什么不同？模型的 Reasoning 能力提升后会带来什么新机会？等等关键问题都可以找到最完整的答案。
*点击查看本期对谈的文字内容*
▫️**延伸阅读**▫️
LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场
LLM 范式转移：RL 带来新的 Scaling Law
OpenAI联创：RLHF是超级智能的秘密武器
草莓模型即将发布，如何参与新一轮 AI 上涨周期？

*更多信息欢迎关注公众号：***海外独角兽**
▫️**AGIX 指数**▫️
AGIX 指数是拾象设计的追踪 AGI 科技革命的指数，是我们在全球科技上市公司中精选出的“高 AI 纯度”公司的组合。AGIX 指数是定位 AI 进程的坐标，也为投资者捕捉 AI-alpha 提供了一个价值工具。

**E4 为什么 AGI 应用还没有大爆发？** Jun 24, 2024
本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。
本期内容是我们和「张小珺商业访谈录」的第三期串台，是对今年上半年全球大模型发展的总结。本期内容主要讨论了 AI 应用，对 AI 问答引擎 Perplexity 进行了深度剖析，还对今年年底可能发布的 GPT-5 进行了预测。
点击**查看本期对谈的文字内容。**
本期人物
李广密：拾象科技创始人及 CEO。
张小珺：商业作者，曾供职《财经》杂志，目前在腾讯新闻，一直写作关于中国商业的深度报道。
主要话题

04:49 为什么 Perplexity 是过去一年中唯一跑出来的 AI 应用？

11:56 Perplexity 与 Google、OpenAI 竞争的护城河是什么？未来会独立长大还是被并购？

20:54 为什么说现在模型能力和产品能力都不够？

22:29 AI 应用层大爆发的关键条件有哪些？如果 OpenAI GPT-4o 给开发者的 API 成本大幅下降，成本可忽略，哪些应用能爆发？

28:26 模型变小的挑战是什么？

34:33 AI 新物种会在GPT-5出来半年后大爆发

36:09 GPT-5 为什么还没有发布？

38:34 过去半年中国 AI 公司的梯队有什么变化？他们的生死线是什么？

43:42 大模型是好的商业模式吗？壁垒在哪？

52:41 FSD过去一年有什么进展？

48:14 在 Scaling Law 之外，会有不一样的路线走向 AGI 吗？

59:49 创业公司和大公司不是颠覆关系，是依赖关系。
**拾象 AGIX 指数**
本月拾象正式发布了指数产品 AGIX Index（ Bloomberg Ticker: SOLEAGIX ）。如同纳斯达克 100 通过严密的公司组合成为互联网科技革命的晴雨表一样，拾象 AGIX 指数是我们围绕 AI 革命设计的，代表的是新一轮 AI 革命，通过对上千家公司的层层筛选、最终精选出 50 家左右公司组成，涵盖了 AI Hardware、Infra 和 Application 三个板块。我们希望它成为 AGI 浪潮的新一代价值决策工具。点击链接了解 AGIX Index 详情。
延伸阅读

Perplexity CEO：AI 创业公司要先做产品，后做模型

AGI 马拉松与大基建

跨年对谈：千亿美金豪赌开启 AI 新摩尔时代

我们距离 AGI 还有多远

Scaling 能通往 AGI 吗？

拾象AGIX指数发布：AI 时代的纳斯达克100
使用音乐
El Marsiano - Don Bacilon
制作出品

出品：海外独角兽

监制：Siqi

运营：Lavida
联系我们
微信公众号：海外独角兽

E3 AGI 马拉松与大基建，2024 年全球大模型会如何演进？ Apr 24, 2024

全球投资平台拾象科技和开源研究平台「海外独角兽」出品

本期内容是我们和「张小珺商业访谈录」串台节目的第二期。在上期节目中，拾象科技 CEO 李广密和商业作者张小珺一起总结了 2023 年全球大模型竞赛，本期我们选择将“AGI 大基建与马拉松”作为关键词，延续上次内容，对 2024 Q1 全球大模型的发展进行了复盘，主要讨论了模型竞争格局的变化、模型的算力和能源瓶颈、开源模型对闭源模型的冲击，以及全球 AGI 时间线的变化等关键问题。
点击查看本期对谈的文字版内容。

本期人物

李广密：拾象科技创始人及 CEO。
张小珺：商业作者，曾供职《财经》杂志，目前在腾讯新闻，一直写作关于中国商业的深度报道。

主要话题

00:25 从 OpenAI Sora 到 Llama3，2024 的 LLM 格局和 AGI 演进发生了哪些变化
02:12 Elon 和 Google 都加入了开源，为什么说“开源模型会打掉闭源模型”的商业价值？
15:14 为什么这波 AGI 浪潮中诞生的巨头会比互联网时代更加庞大？
18:20 AGI 登山路线：南坡模型，北坡产品
24:04 AGI 大基建现在的关键瓶颈是算力和数据中心建设
34:35 中美 AGI 大基建差异
41:53 Scaling law 接下来还能走多远？是否能通往 AGI？
50:53 创业公司追随 Sora 是很危险的
56:45 为什么 AGI 时间线看起来进展变慢了？
1:06:05 AGI 时代也许并不需要 killer app，而是一个随时随地的 agent

使用音乐

El Marsiano - Don Bacilon

联系我们

微信公众号：海外独角兽

**E2 新摩尔定律时代：拾象 2024 LLM 猜想｜新年特辑** Jan 05, 2024
Alignment 是全球投资平台拾象科技和开源研究平台「海外独角兽」旗下的声音栏目。
本期内容是我们和「张小珺商业访谈录」的串台节目，拾象科技 CEO 李广密和商业作者张小珺一起讨论了 2023 年的大模型军备竞赛、接下来的格局变化，以及在 2024 年大模型领域值得期待的重要事件。拾象团队在过去一年中积极追踪着全球一线大模型公司、顶级 AI research lab 的动态，本期内容也是我们持续研究的浓缩总结，我们相信，“新摩尔定律时代”才刚刚开始，随着模型智能能力的进化和算力成本的持续优化，在 2024 年还会有更多惊喜涌现。
点击**查看本期对谈的文字版内容。**
本期人物
李广密：拾象科技创始人及 CEO。
张小珺：商业作者，曾供职《财经》杂志，目前在腾讯新闻，一直写作关于中国商业的深度报道。
主要话题

03:29 2023 年 AI 的四大重要分水岭有哪些？

04:23 除了 OpenAI、Anthropic、Google 外，还有谁能进入大模型竞赛圈？

20:45 GPU 成本下降后，下一代模型的训练成本为何会提高？

29:36 2024 年将是硅谷大模型公司格局的关键决胜阶段

36:40 什么是“新时代摩尔定律”，为什么它会成为 AI 未来发展的风向标？

44:44 2023 年 LLM 巨额投资在赌什么？赌出来了什么样的结果？

54:10 开源与闭源模型的终结形态是什么样的？

01:05:20 GPT-5 或将在 2024 实现？

01:28:10 大模型 native 产品的“乔布斯”在哪？
延伸阅读

跨年对谈：千亿美金豪赌开启 AI 新摩尔时代

专访VideoPoet作者：LLM能带来真正的视觉智能

专访Pika Labs创始人：探索视频生成的GPT时刻

Character AI：如何把LLM变成人类想象力引擎？

Perplexity AI，比Google Bard和Bing Chat更靠谱的问答引擎

Midjourney：AIGC现象级应用，一年实现1000万用户和1亿美元营收

Runway：AI Native Tools工厂，视频生成领域的字节跳动
使用音乐
El Marsiano - Don Bacilon
制作出品

出品：海外独角兽

监制：Siqi

运营：Lavida
联系我们
微信公众号：海外独角兽

**E1 AI 从业者们聊GPT：大模型的进化、格局和 AI Native 应用** Mar 30, 2023
Alignment 是全球投资平台拾象科技和开源研究平台「海外独角兽」旗下的声音栏目。
本期内容来自以 GPT-4 主题的一场闭门讨论会。英伟达 CEO 黄仁勋在 GTC 2023 中提到 AI 领域正迎来自己的 “iPhone 时刻”，创立不到 10 年的 OpenAI 正是推动着一切发生的重要力量之一。而前不久 OpenAI 发布的 GPT-4 又将 AGI 热潮掀高了一层。
在 GPT-4 发布后，海外独角兽组织了一场主题闭门会，在长达 3 小时的讨论中，AI 领域从业者、一线创业者以及一级市场投资人们共同讨论了：

GPT 是如何进化的？

大模型的边界在哪里？

多模态会为大模型带来什么样的新能力？

AI Native 应用长什么样？

有哪些关于大模型的非共识？
我们将其中的精彩内容进行剪辑，作为「Alignment」的第一期内容发布。Enjoy～
*注：节目录制时间为 2023 年 3 月 19 日，音频内容根据本次讨论会现场实录剪辑制作，仅代表嘉宾观点，点击链接可查看本次活动完整纪要*。
**本期人物**

李广密拾象科技创始人&CEO

李志飞出门问问创始人& CEO

硅谷徐老师公众号：硅谷云｜Twitter：@H0wie_Xu

陈利人独到科技

戴雨森真格基金

陈于思某 VC

Ethan 蒋镒珍 Vitally AI

符尧艾伦人工智能研究所

郑玉典硅谷 AI 创业者

张星辰源码资本

沈涛帆软

李泽宇天风海外

徐玥晨明势资本

邢曜鹏五源资本

杨臻某 PE 机构

Michael Liu Fam Capital

李贺
**主要话题**

00:02:13 GPT-4 的边界可以以超过人类最强作为一个分界线

00:10:48 OpenAI 不只追求做新东西，从 80 分到 90 分的优化要难于从 0 到 50 分的突破

00:16:28 GPT 的能力未来可以“量产”无限供给的应届大学生

00:24:25 ChatGPT 可以应对职场的“勾心斗角”吗？

00:36:37 AI Native 的应用长什么样？AI 将如何改变软件生产过程

00:41:16 OpenAI VS 垂直模型，模型的未来格局会是什么样？

00:58:38 大模型时代，开源可能是一个伪命题

01:03:29 未来大模型是否有边缘端推理芯片需求？

01:06:51 为什么大模型的可解释很重要？

01:13:15 AIGC 是一个典型的中国叙事，大模型的应用要远大于“内容生成”
**延伸阅读**

OpenAI与AIGC：改变人类生产范式，通往“万物的摩尔定律”

Anthropic：出走 OpenAI，Google 站队，AGI 是天使还是魔鬼？

OpenAI 创始人的AGI预言：AI Safety、Scaling laws 与 GPT-20

ChatGPT 思考：探索智能的极限

Scaling laws for reward model overoptimization

通用人工智能时代到来：尽管 AGI 不完美，人类也会犯错
**【本期讨论中被提及的相关名词】**

**MidJourney：**一款文生图应用，产品搭载在 Discord 中，基于同名自有模型开发。

**Jasper.ai:** AI 营销写作工具

**Character.ai：**个性化 AI 聊天机器人平台，用户可以自定义或借助模板来设定 chatbot 的风格，并与之对话

**Github Copilot：**由 OpenAI 和 Github 合作推出的自动编程工具，基于AI编程模型Codex 开发。

**Stable Diffusion（SD）：**一款开源的文生图模型，由 Stability AI 公司开发。

**Hallucination:** 幻觉 (hallucination) 是指没有相应的客观刺激时所出现的知觉体验。

**Google 三大论文：**2003 年、 2004 年和2006 年，Google 公司先后发表了三篇著名的论文 GFS 、MapReduce和 BigTable。Doug Cutting 在受到了这些理论的影响后开始在雅虎开发 Hadoop。

**HDFS：** 一种分布式文件系统，用于处理在商业硬件上运行的大型数据集。它用于将单个 Apache Hadoop 集群扩展到数百（甚至数千）个节点。

**3D 堆叠：**把一块芯片从二维展开至三维的技术路径，通过缩短电流传递路径来降低功耗。

**Boot loader:** 操作系统内核运行之前运行的一段小程序。可以初始化硬件设备、建立内存空间的映射图，从而将系统的软硬件环境带到一个合适的状态，以便为最终调用操作系统内核准备好正确的环境。

**PRD:** Product Requirement Document 产品需求文档

**Kubernetes（K8s）：**用于自动部署、扩缩和管理容器化应用程序的开源系统。它将组成应用程序的容器组合成逻辑单元，以便于管理和服务发现。Kubernetes 源自 Google 15 年生产环境的运维经验，同时凝聚了社区的最佳创意和实践。
**使用音乐**
El Marsiano - Don Bacilon
**制作出品**

出品：海外独角兽

制作：Siqi

运营：Lavida

后期：默默、Huilei

设计：Lydia
**联系我们**
微信公众号：海外独角兽

Our TOPPODCAST Picks

Follow Us

Stay Connected

讨论中被提及的相关名词：

本期人物

主要话题

延伸阅读

使用音乐

制作出品

联系我们

本期人物

主要话题

延伸阅读

使用音乐

联系我们

本期人物

主要话题

延伸阅读

使用音乐

制作出品

联系我们

本期人物

主要话题

延伸阅读

【本期讨论中被提及的相关名词】

Related Podcasts

Links

Stay Connected