电子邮箱

密码

注册 忘记密码?
大咖怎么看龙虾、开源等热点?听听杨植麟、张鹏、夏立雪、罗福莉、黄超5位大咖怎么说
来源:中关村论坛 | 作者:proac3c72 | 发布时间 :2026-04-01 | 31 次浏览: | 🔊 点击朗读正文 ❚❚ | 分享到:

没有人预料到,2026 开年最热的 AI 产品会是一个水产名字:龙虾(OpenClaw)。

 3月27日,中关村论坛开源圆桌论坛上,月之暗面创始人杨植麟、智谱华章 CEO 张鹏、无问芯穹联合创始人兼 CEO 夏立雪、小米 MiMo 大模型负责人罗福莉、香港大学助理教授黄超开场即围绕这一热点话题聊起来。

他们聊了很多,关于 Token 暴涨、关于自进化、关于算力焦虑,也关于一个更根本的问题:当一只龙虾真的能帮你干活的时候,这个世界会变成什么样?

一些核心的信息和观察包括:

1. Token量爆发式增长带来的算力结构变革

由OpenClaw带动的算力结构变革,无问芯穹分享:从一月底开始,Token调用量每两周翻一倍,到现在已增长十倍。夏立雪形容:“上一次看到这种增长速度,还是3G时代手机流量快速普及的时候。”

2. OpenClaw拉高了中国开源模型能力的上限

罗福莉认为,OpenClaw的核心价值不仅是改变交互形态,更是把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型,上限显著拉高:让稍弱一点的模型也能达到Claude Code的水平。

3. 基础设施应该“智能体化”

夏立雪提出,未来基础设施本身也应该是一个智能体:能自我进化、自我迭代,形成自主组织。它应该有一个「CEO」是一个Agent,能根据AI客户的需求,自主迭代基础设施。

4. 杨植麟Sharp提问张鹏为何涨价?

作为主持人的杨植麟变得更Sharp。他问张鹏两个问题:GLM最新的迭代思路是什么?你们最近为什么涨价?直接切入商业和技术核心。张鹏讲道复杂任务的Token消耗是简单问答的十倍甚至百倍,涨价是回归正常商业价值的必然。

5.小米的模型是怎么做的?

杨植麟问小米怎么做模型?罗福莉虽未正面回答,但透露了技术路线:最近的 Hybrid Sparse、Linear Attention 结构:DSSA;Kimi 有 KDA,小米的下一代架构叫 Highest Bus。这是面向 Agent 时代的新探索。

6. 超长Context是模型自迭代的前提

超长Context是模型“越用越好用”的前提。但推理成本和速度是瓶颈。只有达到10M/100M Context,才能实现真正的模型自迭代:模型在复杂环境中依靠超强Context完成自我进化。

7. Harness将作为Agent的关键设计

Harness(以及Skills体系)被认为是缓解Planning错误、提升任务完成度的关键设计。从模型层面的Long Context,到Harness层面的Memory/Harness,是让特定模型支持更复杂任务的两个互补方向。

8、Agent释放了Chatbot没有发挥预训练模型的上限

原来的 Chatbot 没有把模型预训练的能力释放出来,直到 Agent 框架出现。现在通过外部工具的协调,包括任务拆解与验证机制的引入、多工具链的灵活组装、以及面向长时间任务的持续迭代闭环。模型正在从单纯的内容生成,迈向能够自主创造新事物的能力跃迁。

9、现在Skills太乱了,质量不够,需要开源社区解决

现在 Skills 确实很多,但高质量的很少。低质量 Skills 会严重影响任务完成度,还存在恶意注入等安全问题。这需要靠整个社区一起解决:如何把 Skills 发展得更好,甚至让 Agent 在执行过程中能自主进化出新的 Skills。

10、Agent原生软件交互:从GUI到CLI

整个生态从GUI、MCP又转到了CLI模式。未来大部分软件不一定面向人类,人类需要GUI,但软件和生态可能更多面向Agent原生去使用。


附上完整对话实录。
主持人:在本次论坛上,我们还将继续定位北京市人工智能产业发展立足点,搭建顶尖思想交流碰撞的平台,所以下面将共同开启的是两场圆桌对话,我们也非常荣幸的邀请到了行业领军者以及青年先锋和我们共聚一堂,同台论道。第一场论坛聚焦当下的热点话题,刚刚很多嘉宾在舞台上也都提到了,如今我们被小龙虾刷屏,那您有没有养龙虾呢?所以我们也看到 OpenClaw 正在掀起新一轮关于人工智能行业应用的深度思考,
我们第一场圆桌论坛就将聚焦于此,我们也非常荣幸的邀请到 5 位顶流嘉宾,他们是来自月之暗面的杨植麟先生,他是大模型赛道最具全球影响力的创业者之一,有请您来到舞台上,同时我们还要有请来自智谱 AI 的张鹏先生,他带领团队成为全球大模型第一股;还有来自无问芯穹的夏立雪先生,他让 Token 成为普惠千行百业的水、电、煤;还要有请来自小米的罗福莉女士,作为小米 MiMo 大模型的掌舵人,她实现了端云协同,把 AI 技术融入日常使用;当然还要欢迎来自香港大学的黄超先生,他用 3400 行代码实现了 OpenClaw 核心能力。欢迎各位和我们同台论道。现在我们就把时间交给他们,共同探讨 OpenClaw 与 AI 开源的未来走向。
杨植麟:很荣幸今天能邀请到各位重磅嘉宾,也覆盖了不同的层面,从模型层到底层的算力层,再到上面的 Agent 层。很高兴今天能跟大家一起来探讨。最主要的关键词是开源和 Agent。那我们先从第一个问题开始,这个问题是给所有人的:我们现在最流行的 OpenClaw,大家自己日常使用 OpenClaw 或类似的产品,有什么觉得最有想象力或印象深刻的地方?从技术的角度来看,如何看待今天 OpenClaw 和相关 Agent 的演进?从张鹏这边开始。
张鹏:感谢植麟邀请,也感谢主办方给这个机会跟大家交流。确实很早我就开始自己玩 OpenClaw,当时还不叫 OpenClaw,最早叫 Clawbot,折腾这些事情自己动手来搞,毕竟也是程序员出身,玩这些东西还是有一些自己的体验。我觉得这个事情给大家带来的最大的突破点或者说新鲜的点,就在于可能这件事情不再是程序员或者极客们的专利,普通人也可以比较方便地使用顶尖模型的能力,尤其是在编程和智能体方面的能力。所以我到现在为止,跟大家在交流的过程当中,更愿意把 OpenClaw 称作一个「脚手架」。它提供的是一种可能性,在模型的基础之上搭起一个很牢固、很方便、但又很灵活的脚手架。大家可以按照自己的意愿去使用很多底层模型提供的新奇东西。原来自己的一些想法受限于不会写代码,或者不会其他技能,今天终于可以通过很简单的交流就可以完成。所以这个事情对我来说是一个非常大的冲击,或者让我重新认识了这样的一件事情。
夏立雪:其实我最开始用 OpenClaw 的时候是不太适应的,因为我习惯于跟大模型聊天的这种交流方式,然后发现 OpenClaw 感觉好像反应好慢这种感觉。但是后来我意识到一个问题,就是它和之前的聊天机器人有一个很大的不一样,它其实应该是一个能够帮我完成一个大型任务的人。所以我后面开始给它提交一些更复杂的任务的时候,我就发现其实它能够做得很好。这件事情对我来说有一个很大的感触,就是模型从最开始按照 Token 去聊天,到现在能够变成一个 Agent,变成一个龙虾,能够帮你去完成任务,它对于我们整个 AI 的想象力空间已经做了一个很大的提升。但同时,它对于整个系统的能力要求也变得很大,这也是为什么我一开始用 OpenClaw 会觉得有点卡的原因。
那我作为这样基础设施层的厂商,我看到的 Claw 对于整个 AI 后边的大型系统和生态都带来了更多的机遇和挑战。因为我们现在所有能够用到的资源,想要支撑起这样一个快速增长的时代是不够的。就拿我们公司来说,从 1 月底开始,基本每两周我们的 Token 量就翻一番,到现在基本上翻了十倍。上次见到这个速度,还是当年 3G 手机流量的那种感觉。所以我现在有种感觉,现在的 Token 用量就跟当年每个月 100 兆手机流量那个时代。这种情况下,我们所有的资源是需要进行更好的优化、更好的整合,让每一个人,不仅仅是 AI 领域的人,而是整个社会上每一个鲜活的人,都能够把 OpenClaw,把这样的 AI 能力给用起来。所以我作为基础设施的玩家,对这个时代是非常激动和感触的,而且认为这里边有很多的优化空间,仍然是我们应该去探索、去尝试的。
罗福莉:我自己是把 OpenClaw 当做 Agent 框架的一个非常革命性和颠覆性的事件来看待的。虽然我知道我身边所有在进行深度 Coding 的人,可能他的第一选择还是 ClaudeCode,但是我相信只有用过 OpenClaw 的人,会独特地感受到这个框架其实有很多在 Agent 框架上的设计是领先于 ClaudeCode 的,包括最近 ClaudeCode 有很多最新的更新,其实都是在向 OpenClaw 靠近。我自己去使用 OpenClaw 的话,感觉这个框架给我带来更多是想象力的随时随地扩展。ClaudeCode 可能最开始我只能在我的桌面上延展我的创意,但是在 OpenClaw 我可以随时随地延展我的创意。
后面我发现,其实 OpenClaw 带来的主要核心价值在于两个:第一,它是开源的,这是整个社区去深入参与、去重视、改进、投入到 Agent 框架这件事的一个重要前置条件。像 OpenClaw、ClaudeCode 这样的 Agent 框架,我认为它很大的价值在于把国内可能没有非常接近闭源模型、但水平还是在次闭源模型的赛道上的模型上限给拉得非常高。在绝大部分场景,我们能发现它的任务完成度已经非常接近 Claude 的最新模型,同时它又把下限保证得非常好,因为它可以靠一套 Harness 系统,或者说 Skills 体系等很多设计,来保证任务的完成度和准确率。
所以我觉得,OpenClaw 从一个基座大模型的角度来说,它保证了基座大模型的下限,然后拉伸了它的上限。此外,我认为 OpenClaw 给整个社区带来的价值,是它更多地点燃了大家的发现:原来在大模型外这一层,更重要的 Agent 这一层,有非常多的想象力和空间可以做。这是我看到最近社区有更多除了研究员以外的人参与到 AGI 的变革当中,也有更多人借助到更强的 AGI 框架、Harness 或 Scaffold 等,去一定程度上替代自己的工作,释放自己的时间,去做更有想象力的事情。
黄超:我感觉首先从交互模式上来讲,OpenClaw 这次会爆火的原因,第一个是给了大家一种更有「活人感」的感觉。因为我们做 Agent 也有一两年了,但之前包括 Cursor、ClaudeCode 这些 Agent,给人感觉更强的是一种工具感。我觉得 OpenClaw 第一次以 IM 软件嵌入的方式,让大家更有一种活人感,更接近自己想象中的个人贾维斯这样的概念,所以我觉得这可能是交互模式上的突破。
另外一个,它带给整个大家的启发,是它的 AgentLoop 这种非常简单但高效的框架再次被证明。还有就是它让我们重新思考:我们是否需要一个 All In One、非常强大的智能体帮我们做很多事情,还是需要一个比较好的、类似轻量级操作系统或脚手架一样的小管家。
它带来的是可以通过一个小的 OpenClaw,或者这样一个龙虾的操作系统生态,让整个社区大家更有玩起来的心态,去撬动整个生态里所有的工具,包括随着 Skills 或 Harness,越来越多的人可以去设计面向 OpenClaw 这样的系统里的应用,去赋能各行各业。我觉得这天然就和整个开源生态结合得非常紧密,所以这两点是我觉得是带给我们最大的启发。
杨植麟:顺着刚刚一直在讨论的 OpenClaw,想问一下张鹏,看到最近智谱发布了新的 GLM-5-Turbo 模型,我理解它对 Agent 能力做了很大的增强。能不能给大家介绍一下这个新模型和其他模型的不同之处?另外我们也观察到有一个提价的策略,这反映了什么样的市场信号?
张鹏:这是个很好的问题。前两天我们确实紧急更新了一波,当然这是在我们整个发展路标当中其中一个阶段,我们提前把它放出来。这个事情最主要的目的,还是要主打从原来的简单对话到「干活」。刚才各位讲的非常赞同,OpenClaw 真的让大家觉得大模型不再是简单地聊天,真的能帮我干活。但这个「干活」背后隐含的能力需求是非常高的——它需要自己去长程地做任务规划,不断地重试,不断地压缩自己的上下文,Debug 等等,还有可能涉及多模态信息的处理。所以这对模型本身的能力的要求,跟传统的面向对话的机器人的通用泛用模型是有一些不一样的。GLM-5-Turbo 在这方面做了一些专门的加强。
尤其是你刚才提到的,比如让它干活、长程的 72 小时,如何能够不停地自己去 Loop,这里边做了很多工作。另外大家也提到关于 Token 消耗量的问题。你让聪明的模型干这种复杂的任务,Token 的消耗量是非常巨大的,一般人可能体会不出来,但会看到自己的账单上的钱在不停地往下掉。所以在这方面我们也做了一些优化,在面临复杂任务的时候,它可能会用更高效的推理效率去完成这些事情。所以主要是在这几个方面做了一些优化,但本质上的模型架构还是一种多任务协同的通用模型架构,只是在能力上有一些偏向性的加强。
提价这个事情其实也很顺畅地能跟大家解释。刚才也提到了,我们现在不再是简单地问一个问题它回答,背后有思考的链路是很长的,包括很多任务通过写代码的方式跟底层基础设施打交道,还要 Debug,随时改正自己的错误。这个消耗量非常非常大,完成一个任务可能需要的 Token 量是原来回答一个简单问题的十倍甚至百倍。成本有一定提高,模型也变得更大,推理成本也相应提高了,所以我们把它回归到一个正常的商业价值上来,因为长期靠低价竞争也不利于整个行业的发展,这是我们的一个考量,也让我们能够持续地在商业化路径上有一个良性的闭环,不断地优化模型能力,持续给大家提供更好的模型和相应的 Token 服务。
杨植麟:非常好的分享。因为现在有开源模型,推理算力也开始形成一个生态,各种各样的开源模型可以在各种各样的推理算力上给用户提供更多价值。随着 Token 量的爆发,现在可能逐渐从训练时代进入了推理时代。想请教一下立雪,从 Infra 的层面,推理时代对于无问芯穹来说意味着什么?
夏立雪:感谢植麟。确实我们是一个诞生在 AI 时代的基础设施厂商,现在也为 Kimi、为智谱,包括也在跟 MiMo 合作,让大家能够把我们这样一个 Token 工厂更高效地用起来。当然我们也在跟很多高校、科研院所合作,所以我们一直在思考:AGI 时代需要的基础设施会是什么样子?我们怎么一步步地去实现和推演它?
我们现在做好了充分准备,也看到了短期、中期和长期不同阶段需要解决的问题。当前脚下的一个问题,就是刚刚大家聊到的,OpenClaw 带起来的整个 Token 量暴增,对我们的系统效率带来了更大的优化需求,包括价格的增长也是大家在这种需求下的一种解决方式。我们一直以来都是从软硬件打通的方式去做布局和解决的。我们接入了几乎所有我们能看到的几乎所有种类的计算芯片,把国内十几种芯片和几十个不同的算力集群都统一连接起来,这样我们能够解决 AI 系统中算力资源紧缺的问题。因为当资源不足的时候,最好的办法就是第一把能用的资源都用起来,第二让每一个算力都用在刀刃上,让每一个资源都发挥出最大的转化效率。
在这个时代,当前脚下我们要解决的就是怎么进一步打造一个更高效的 Token 工厂。这里我们做了很多优化,包括让模型和硬件上的各种显存、各种基础进行最优适配,也在看会不会在最新的模型结构和硬件结构下进行更深度的化学反应。
但解决脚下的效率问题,我们只是打造了一个标准化的 Token 工厂。面向 Agent 时代,我们认为这还是不够的。就像刚刚说的,Agent 更像是一个人,我们可以交给它一个任务。我其实很坚定地认为,当前很多的云计算时代的基础设施是为服务一个程序、服务一个人类工程师所设计的,而不是为 AI 设计的。有点像我们做了一个基础设施,上面有一个接口是为人类工程师做的,然后再在上面包一层去接入 Agent。这种方式是用人的操作能力限制了 Agent 的发挥空间。
我举一个例子,比如 Agent 能够做到秒到毫秒级别去思考和发起任务,而这件事情在我们之前的底层 K8s 等能力上其实没有做好准备,因为人类发起一个任务大概是分钟级别的。这样的功能需要进一步能力,我们称之为 Agentic Infra,就是我们需要打造一个更智慧化的 Token 工厂,这是无问芯穹现在正在做的事情。
从更长远的未来,真正 AGI 时代到来的时候,我们认为连基础设施都应该是一个智能体。我们自己所打造的这套工厂本身也应该是一个能够自我进化、自我迭代的,它能够形成一个自主的组织。相当于它有一个 CEO,这个 CEO 是一个 Agent,它可能是一个 Claw,在管理整个基础设施,根据它的 AI 客户的需求自己去提需求、迭代自己的基础设施,这样 AI 和 AI 之间才能更好地形成耦合。所以我们也在做一些尝试,比如让 Agent 和 Agent 之间更好地通信,做 Cache-to-Cache 这样的能力。
所以我们一直在思考,基础设施和 AI 的发展不应该是一个隔离的状态,接受一个需求我就去制作,而是应该产生非常丰富的化学反应。这件事情才是我认为真正的软硬协同,做到算法和基础设施的协同,这也是无问芯穹一直想实现的使命。
杨植麟:接下来想问问福莉,小米最近通过发布新的模型,包括开源背后的技术,我觉得对社区做出了很大的贡献。想问一下小米在做大模型方面,你觉得会有什么独特的优势?
罗福莉:我们先抛开小米在做大模型方面有什么独特优势这个话题,我更想谈一下中国的做大模型的团队在做大模型上的优势,我觉得这个话题更具备更广泛的价值。大概在两年前,我看到中国的基座大模型团队已经开始了一个非常好的突破:我们在怎么在有限的算力,尤其是在一些 NVLink 互联带宽受限的算力的情况下,突破这些低端算力的限制,去做一些看似是为了效率妥协的模型结构创新,像 DeepSeek 系列 V2、V3 的细粒度 MoE 和 MLA 等等。但我们后面能看到,由这样一些创新引发的是一个变革:我们怎么在算力一定的情况下,发挥一定算力的最高智能水平。我觉得这是由 DeepSeek 带给所有国内基座大模型团队的一个勇气、一个信心。
虽然在今天,我们自己的国产芯片,尤其是推理芯片以及训练芯片,已经不再受这个限制,但我们能看到在这样的限制情况下,催生了我们对于更高的训练效率、更低的推理效率的模型结构的全新探索。就像最近的 Hybrid Sparse 或 Linear Attention 的结构,DSA、NSA,Kimi 也有 KSA,小米也有新的面向下一代结构的 Hybrid Sparse 结构。这是区别于 MIMO V2 这一代结构,我们面向 Agent 时代去思考的、如何在 Agent 时代做更好的模型结构创新。
我为什么觉得结构创新如此重要?因为我们刚刚探讨到 OpenClaw 这个话题,OpenClaw 大家如果真实地去用,会发现你越用越好用,越用越聪明。那么它的一个前提是你的推理 Context。Long-Context 是我们谈论了很久的一个话题,但其实现在真正能有一个模型在 Long-Context 的情况下表现非常好、性能强劲、推理成本非常低,很多模型不是做不到一兆或十兆的 Context,而是因为它去推一兆到十兆的成本太贵了、速度太慢了。怎么能在一兆或十兆的 Context 下推理成本够低、速度够快,这样才会有真正高生产力价值的任务交给这个模型,从而去激发只有在 Long-Context 情况下才能完成的高复杂度任务。可能我们才能在十兆甚至一百兆 Context 的情况下实现模型的自迭代。
所谓模型的自迭代,就是它可以在一个复杂环境中,依靠超长 Context 完成对自我的进化,这个进化有可能是对 Agent 框架本身的,也有可能是对模型参数本身的。因为我们认为 Long-Context 本身其实就是对参数的一种进化。所以怎么实现一个 Efficient Long Context 的架构,以及怎么在推理侧做到 Efficient Long Context ,它是一个全方位的竞争。
除了我刚刚提到的在预训练阶段做好 Efficient Long Context 的架构——这个可能是我们一年前就在探索的问题——而当今怎么做到 Long-Context 在真实的长程任务上的稳定性和非常高的上限效果,就是我们现在在后训练阶段去迭代的创新范式。我们在想怎么去构造更有效的学习算法,怎么采集到真实的、在一兆、十兆、一百兆上下文里边都具有长距依赖的文本,结合复杂环境产生的 Trajectory。这是我们现在在后训练阶段正在经历的事情。
但我能看到更长期的事情是,由于大模型本身在飞速进步,由于我们有 Agent 框架更好的加持,就像刚刚立雪说的,推理需求在过去一段时间内已经近十倍的增长,那么今年整个 Token 的增长会不会到一百倍?这里边我们又到了另外一个维度的竞争,这个竞争就是算力,或者说是推理芯片,甚至下到能源。所以我认为,如果我们去思考这个问题,我可能会从大家身上学到更多。
杨植麟:非常有深度的分享,接下来想问问黄超,你研发了不少有影响力的智能体项目,比如 Nanobot‌,在社区也拥有很多粉丝,想问问从智能体的 Harness 及应用层面来看,接下来有哪些技术方向是你认为比较重要、值得大家关注的?
黄超:谢谢植麟。如果我们把智能体的核心技术抽象出来,主要有规划、记忆和 Tool Use 这几个模块,我就从这几个方面聊聊我的看法。首先是规划层面,当下的问题在于,面对一些长程任务或非常复杂的上下文,比如 500 步甚至更长步数的任务,很多模型的规划能力表现不佳,本质上是因为模型不具备这类复杂任务所需的隐性知识,尤其是在一些垂直领域。所以未来,如何把各类复杂任务的知识固化到模型中,提升模型的规划能力,会是一个重要的研究方向。
当然,Skills 和 Harness 在一定程度上也缓解了规划环节的错误问题,因为它们能为模型提供高质量的技能模板,本质上是引导模型完成一些高难度任务,这是针对规划层面的思考。
然后是记忆层面,记忆模块一直存在一些痛点,比如信息压缩不准确、检索不精准等,而当模型处理长程任务、复杂场景时,对记忆的需求会急剧增加,这也给记忆模块带来了巨大压力。目前各类的龙虾们,基本都是采用 Markdown 这类类文件系统的记忆方式,通过文件共享等形式实现记忆交互。我认为未来记忆模块会走向分层设计,同时也需要让记忆机制变得更通用。
说实话,当下的记忆机制很难实现通用化,比如编码、深度研究、多媒体等不同领域,数据模态的差异很大,如何为这些不同模态的内容打造高效的记忆检索引擎,其实一直是一个权衡取舍的过程,这也是记忆模块长期需要解决的问题。另外,OpenClaw 大幅降低了智能体的创建门槛,未来每个人可能都不会只拥有一个智能体,比如 Kimi 也推出了 Agent Swarms 多智能体集群机制,未来每个人或许会拥有一群龙虾。
一群龙虾会带来上下文的爆发式增长,这对模型和智能体架构都是巨大的压力,尤其是在复杂编码、科研探索等场景中,目前行业还没有一套成熟的机制能管理一群龙虾带来的海量上下文,我感觉特别是对于复杂的 Coding 科研发现这种,不管是模型还是 Agent 的一个架构,其实都是压力挺大的。
最后是 Tool Use 层面,核心就是 Skills 体系。其实早期的 MCP 所存在的问题,现在的 Skills 体系依然存在,比如 MCP 当时的能力质量无保障、存在安全问题,而现在的 Skills 体系,虽然看似有很多技能 Skill,但高质量的 Skill 其实很少,低质量的 Skill 会严重影响智能体的任务完成度。另外,Skills 体系还存在恶意注入的问题,所以在 Tool Use 层面,需要整个社区共同努力,去完善 Skills 体系,甚至探索如何让技能模板在执行过程中进化出一些新的 Skill,所以我觉得这可能是不管从 Planning Memory 还有 Skill 里面,我们觉得当下 Agent 可能存在的一些痛点和未来可能会潜在的一些方向。
杨植麟:可以看到刚刚两位嘉宾从不同的视角讨论了一个问题,就是随着任务复杂度的增加,上下文会暴涨。那可能从模型层面可以提升原生的上下文长度,从 Agent Harness 层面,像 Planning、Memory,包括 Multi-Agent Harness,实际上也能让在特定的模型能力下支持更复杂的任务。我觉得这两个方向接下来也会有更多的化学反应,能够提升完成任务的难度。最后我们来一个开放式的展望,想请各位用一个词来描述一下接下来 12 个月大模型发展的趋势,以及你的期望。那这次我们先从黄超这边开始。
黄超:我感觉 12 个月在 AI 看起来应该好遥远,都不知道 12 个月之后会发展成什么样。首先从我这边的话,一个词应该叫「生态」吧。我觉得未来现在 Claw 让大家这么活跃了,但是未来 Agent 真的是要去从真正的个人助手,特别是转化为「打工人」,我觉得还是很重要的。因为现在可能大家很多时候玩 Claw 也是新鲜感,觉得好玩,但是我觉得未来可能真的得让 Claw 们真的沉淀下来,真的成为大家的一个搬砖的工具,或者是成为真正的 Coworker 这样的状态。
所以我觉得这块可能需要整个生态的努力,包括整个开源这块其实就是一个很重要的,把所有的相关技术探索,包括模型的很多技术都开源出去之后,其实需要整个生态大家一起来共建。不管是对于模型的迭代,还是对于 Skills 平台的迭代,还有各种工具的迭代,我觉得这块都需要去更好地面向 Claw,去创造更好的生态。
从我自己感觉比较明显的是,我觉得未来的很多软件——现在有了 Claw,大家又在考虑一个问题:未来软件是不是还是会给人用的?我们相信可能未来大部分的软件都不一定会是面向人类的,因为人类是需要 GUI,但可能是面向 Agent 原生的去使用的,我感觉一个比较有趣的,就是人只会去使用让自己快乐的 GUI,有可能会有这样的一个感受。
我觉得现在整个生态又从不管是 GUI 还是 MCP,又转到了 CLI 这样的模式。所以我觉得这就是需要一个整个生态,需要生态去把不管是软件系统,还是我们的数据,还是各种技术,都把它变成 Agent Native 的模式,这样可能才能让整个 Agent 的发展更加丰富。
罗福莉:我觉得把这个问题缩小到一年非常有意义,因为我觉得五年从我心目中对于 AGI 定义而言,已经实现了。如果说要用一个词来描述接下来一年 AGI 历程里边最关键的一个事情的话,我认为会是「自进化」。虽然这个词是一个有点玄幻的概念,过去一年大家也多次提到,但是我最近才对这个词有了一个更深的体会,或者说具体自进化这个事怎么做,会有一个更务实、更实操可行的方案。这里边的原因是借助于很强大的模型,其实我们之前在 Chat 那个范式下根本没有发挥出来预训练模型的上限,这个上限现在是被 Agent 框架激活到了,我们现在触到了当它执行更长时间的任务的时候,我们发现这个模型它可以自己去学习和进化。很简单一个尝试,就是说当你在现有的 Agent 框架里边给它叠加一个可以 Verify 的条件限制,然后再给它设置一个 Loop,让这个模型就不停下来持续去迭代优化这个目标,我们就能发现这个模型会持续拿出更好的方案。
如果这样的一种自进化能持续,现在国内模型其实已经能跑一两天了,当然跟任务的难度有关。我们发现它在一些科学研究上,比如说去探索一个更好的模型结构,因为模型结构有评估标准,比如说我们看更低的 PPL,这是一个评估标准。在这种很确定的任务上,我们发现它已经能自主地优化和执行两三天了。所以从我的角度上来看,我觉得自进化是一个唯一可以创造新的东西的地方,它不是去替代我们现有的人的生产力,而是说它是像顶尖的科学家一样去探索出来这个世界上没有的东西。
一年前我会觉得这个时间历程会拉到三到五年,但是在近期我会觉得这个时间历程确实应该缩小到最近一到两年,可能我们就可以让大模型叠加一个非常强的自进化的 Agent 框架,实现对于科学研究的一个至少指数级的加速。因为我最近已经发现,我们组内做大模型研究的同学,基本上他的 Workflow 是非常不确定的、是高度创造力的,我们发现借助 Claude Code 或非常顶尖的模型,基本上已经能够加速我们自己的研究效率近十倍了。所以我很期待这样的一种范式辐射到更广的学科和领域,我觉得自进化是非常重要的。
夏立雪:我的关键词叫「可持续 Token」。因为我也看到了现在整个 AI 的发展还在一个长期持续的过程中,我们也希望它是能够有长久的生命力的。那我们作为基础设施的角度看到很大的问题就是我们的资源终究是有限的。那我们现在作为一个 Token 工厂,能否给大家提供持续、稳定、大规模能够用起来的这些 Token,让我们顶尖的模型能够真正继续为更多的下游去服务,是我们看到的一个很重要的问题。
所以我们现在需要把整个视角放宽到刚刚说到的整个生态,从最早的能源到算力,然后再转化到 Token,最终再转换成 GDP 这样的一个链路,能够去进行一个持续的经济化的迭代。包括我们其实不止在把国内的各种算力用起来,也在把这些能力输出到海外,让全球的资源都能够进行打通和整合。
我也认为这个可持续其实也是想把我们中国特色的 Token 经济学给做起来。因为在之前的时代我们叫 Made in China,我们能够把中国的制造业成本优势变成好的商品输出到全球。我们现在想做的就是有点像 AI Made in China,就是我们能够把中国的这些能源上的优势,通过这些 Token 工厂,可持续地转化为优质的 Token 输出到全球,成为一个世界的 Token 工厂,这是我想要在今年看到的、中国给世界的人工智能带来的价值。
张鹏:大家都可能都在仰望星空,我就落地一点。我觉得关键词让我说未来 12 个月面临的最大的问题可能就是「算力」。因为刚才也说了,所有的技术,包括智能体框架,让很多人有很好的创造力、效率提升十倍,但前提条件就是大家能够用得起来,你不能因为算力不够,一个问题提出去让它思考半天也不给我答案,这个肯定是不行的。
也是因为这样的一些原因,可能甚至连我们的研究进展,包括很多想要做的事情其实都受阻了。前两年我记得有句老话叫「没卡没感情,谈卡伤感情」,我觉得今天又到了这个地步了,但情况又不一样了,就是刚才讲的可能我们又到了推理的阶段,转向推理阶段是因为需求真的在爆发,十倍、百倍的爆发,刚才你也说过去十倍,其实需求是一百倍,那还有很大量的需求没有满足,怎么办?我们大家可能一起来想想办法。
杨植麟:感谢各位的精彩分享,谢谢大家。



扫描下方二维码,关注浅说艺术

关注公众号


即时获知最新推送

休闲时刻


陶冶艺术情操

Copyright ©  2015  Science And Technology Investment Network.All Rights Reserved    版权所有:数智化网

地址:北京市海淀区翠微中里14号楼   

京公网安备11010802045648号           ICP备案号:京ICP备15022117号