据机器之心Pro消息,在2025 年世界人工智能大会(WAIC)第二天,商汤科技承办了 WAIC 2025 大模型论坛的“模型之问”圆桌,探讨“大模型技术演进与发展之路”。
圆桌主持人由商汤科技联合创始人、执行董事、首席科学家林达华担任主持。嘉宾阵容则为当前大模型生态的多路代表:包括阶跃星辰首席科学家张祥雨,上海人工智能实验室青年领军科学家、书生大模型负责人陈恺,北京智谱华章科技股份有限公司总裁王绍兰,范式集团联合创始人、首席科学官陈雨强,英伟达全球开发者生态副总裁 Neil Trevett。
圆桌开场,林达华表示:“大模型技术发展到今天,可以说是在繁花似锦的背后,我们也进入到了一个十字路口。过去大半年的时间里,大模型的技术格局经历了一个重要的范式转变。从最初以预训练为主、监督学习为辅的模式 —— 这一范式由 OpenAI 所开创 —— 逐渐向注重推理能力提升的强化学习范式过渡。这个转变标志着 AI 领域在技术上的进一步演化。”
随着这个观点的抛出,这场围绕大模型的圆桌论坛正式拉开帷幕。
会上,随着推理模型的崛起,强化学习越来越得到大家重视。因此一个值得深思的问题被提出,预训练和强化学习我们应该怎么平衡?
张祥雨首先肯定了这套范式的合理性(从预训练到监督微调再到 RL)。对于预训练而言,本质就是压缩语料的一个过程,之后在模型内部形成一个更加紧凑的表示。这个表示对模型学习世界知识和建模非常有帮助。
但与此同时,预训练通常基于 Next Token 预测,这其实是一种行为克隆的形式。而行为克隆传统上被认为存在一些难以规避的问题 —— 比如无论你用了多少数据、模型做得多大,它都很难真正建立起目标导向的推理能力。
因为压缩只是尽可能复现已有内容,而推理本质上是要求模型能找到一条逻辑自洽、通向目标的因果链。因此,RL 应运而生。
张祥雨还指出了未来这条范式的发展方向,他认为如何进一步扩展 RL,使其能够接受自然语言反馈,而不仅仅是像数学、代码这种确定性反馈很关键。
陈恺则强调了预训练的重要性。
他表示,强化学习之所以能够大放异彩,是因为它依赖于一个强大的冷启动模型。过去,冷启动模型可能依赖于预训练和监督学习(SFT),但现在大家对预训练的重视程度逐渐提高。预训练为强化学习提供了一个良好的基础,使其能够探索多种未来的可能性,从而发挥其应有的作用。
陈恺进一步讨论了强化学习未来面临的挑战,即奖励或反馈机制的问题。这个问题将成为强化学习进一步拓展到更多任务时的一个关键挑战。目前,强化学习主要用于解决一些有明确答案的任务,比如填空和问答题,但实际上,许多有效且有价值的任务并没有唯一确定的答案(这和张祥雨的观点类似)。因此,强化学习需要探索新的奖励和反馈机制,这可能依赖于新的评价标准,或者通过与环境的实际交互反馈来形成奖励体系。
此外,陈恺还表示强化学习也给基础设施带来了新的挑战。尽管强化学习已经取得了一些进展,但从效率上来看,仍然存在较大的提升空间。强化学习需要大量算力,且模型需要不断进行探索和学习。如果未来强化学习开始依赖更多的交互反馈,这对基础设施的要求将会更高,对相关技术和资源的挑战也将更加严峻。
另外,对于是基于 Transformer 架构进行创新?还是开发非 Transformer 架构?这一问题,嘉宾也给出不同看法。
张祥雨表示,模型架构并不是最重要的决定因素,架构是为系统和算法服务的。Transformer 架构没有问题。现在流传下来的仍然是最经典的 Transformer 架构。
但现在的问题是,算法开始向 RL 迁移,而我们的应用场景也从推理时代向智能体时代转变。而智能体最重要的特性是自主性,它必须能够主动与环境交互,并从环境中进行学习。
这就意味着,我们的模型架构需要具备类似人类的能力,能够建模一种无限流或无限上下文的能力。因此,张祥雨认为,(在智能体时代)传统模式已经遇到了阻碍,像是传统的 RNN 架构,未来短时间内可能会重新成为下一代主流架构的设计考虑之一。
同时,对于真实数据与合成数据之争,Neil Trevett 表示,英伟达在图形生成和物理仿真方面也面临数据困扰的问题,尤其是那些无法获取、获取成本高、涉及伦理风险或隐私问题的数据。
但Neil Trevett也 给出了英伟达的一个解决思路,利用物理仿真生成模拟场景,用来训练大模型。这种方式尤其适用于构造一些在真实世界中难以采集的边缘案例,比如交通事故场景,或者机器人遇到异常情况时的应对。
不过,Neil Trevett 也强调:不能完全依赖合成数据。用于合成数据的生成模型本身可能存在偏差、误差或盲区,因此需要建立真实世界的验证机制和反馈闭环,比如通过 human-in-the-loop 的方式,来辅助验证训练效果是否真实可用。Neil Trevett 还给出了几个非常有前景的技术路径,包括自监督学习、主动学习、混合式训练流程等。
王绍兰则给出了不一样的观点,他认为对于预训练而言,大家常提到的互联网数据耗尽,其实是一个量的问题,可能更关键的是质的问题。也就是说,当初大模型所依赖的大量互联网数据,它们的质量是否真的足够好?这需要重新审视。接下来应该是进一步提升预训练数据中的质量。
王绍兰还提到所谓数据耗尽并不像大家说的那样夸张,原因是行业数据还沉淀在行业中,没有被用来训练模型。因此大模型想要落地到行业中去,必须用行业数据进行预训练。
关于合成数据问题,王绍兰认为随着大模型场景的不断扩展,一些场景数据是极其稀缺的,甚至是完全不存在的。因此,只能依赖合成数据和仿真环境来补足。
然而,这种做法会带来一系列挑战,如果仿真不够真实,那么生成的数据也会存在偏差,最终会影响模型训练效果。因此,我们不能把合成数据看作一个万能钥匙,它有价值,但不能解决一切问题,背后仍有大量工程上的挑战需要克服。
最后,王绍兰还建议:对于行业中非敏感、非涉密的关键数据,应当考虑在行业内部建立数据共享机制或联盟组织,共同挖掘、整理这些数据,为大模型在各类实际场景中的应用提供更可靠的“弹药库”。
而针对基础模型与Agent 向左向右,从来不是一道单选题。
进入到 2025 年,一个很明显的趋势,基础模型的研发速度逐渐放缓,而以 Agent 为代表的应用成为了爆点。国内外厂商陆续推出了自动化执行任务的 Agent 产品,比如 OpenAI 推出的 Operator、深度研究以及 ChatGPT agent、智谱 AI 推出的 AutoGLM 沉思等。
这正是随着大模型进入到应用深水区以来,行业内加速构建商业闭环并着眼产业落地的真实写照。同时,对于一些以 AGI 为终极目标的厂商来说,基础模型的研发同样不会停滞。如何平衡基础模型投入与应用落地之间的关系,成为厂商在战略决策层面的核心议题。
智谱在持续迭代基座大模型 GLM 系列,覆盖语言模型、多模态模型等的同时,也积极推动大模型在各行各业的落地。面对这种双轨布局是否太分散精力的疑问,王绍兰表示两者并不冲突。
一方面,基础模型仍处于快速演进的阶段,行业普遍对当前模型成果感到振奋,但距离 AGI 的目标仍有较大差距。如果类比自动驾驶的分级,当前大模型大致处于 L3 阶段,仅完成了预训练、对齐与基础推理,并刚刚进入到了具备反思与沉思能力的深度推理阶段。未来仍需要继续进化,即使是 OpenAI 即将发布的 GPT-5,与 AGI 仍有距离。他认为,包括智谱在内,对基础模型的探索将持续下去。
另一方面,王绍兰也强调,模型的价值不应只停留在纯理论研究层面。如果不展开模型的商业化落地,它们的价值就无从体现。大模型要“用起来”,直至变成生产力革命的那一天。如今,大模型正通过 Agent 等形态拓展自身应用。同时在落地的过程中,各行各业的领军企业和生态伙伴也要具备大模型思维,积极拥抱这场范式变革。
同样地,第四范式在大模型落地方面也走在了行业前列,尤其是将 AI 技术应用于金融等重点行业。对于如何平衡基础模型的持续研发与行业应用落地,陈雨强首先指出在技术发展极为迅速的当下,要保证自身在行业中的竞争力,其中最关键的是要用好已有的开源或闭源模型。
接着,陈雨强谈到了基础模型能力以及引发的数据问题。当前,已经有超过 30% 的流量来自模型输出而非传统搜索引擎,这也导致面临人为破坏数据等风险。此外,用于评估大模型的工具(如 Arena)虽有价值,但也存在局限。很多普通用户不关心答案是否真的正确,而是像不像好答案,这就导致排版精美的算法在输出结果时得分更高,进一步加剧数据偏差问题。
最后,他提到,在企业落地中,尤其涉及金融等高敏感领域,仍存在诸多挑战。比如在反欺诈场景,基础大模型难以直接处理像每天十亿用户交易记录这样的大规模数据输入。这意味着,大模型的落地要在基础模型能力、数据质量等多个层面持续进行技术突破。
最后,开源模型即使非最强,也能鞭策整个行业进步。
陈恺从自己多年来的开源领域经验出发,探讨了开源如何在大模型时代产生深远影响。就在昨天,他所在的上海人工智能实验室开源了“书生”科学多模态大模型 Intern-S1,并基于此打造了“书生”科学发现平台 Intern-Discovery。
在他看来,一方面,开源不仅重塑行业内不同玩家之间的分工与资源投入方式,还推动了资源的更合理配置。另一方面,尽管开源模型未必是性能最强的,但它能够有效避免重复投入,促使厂商专注于真正需要解决的问题。
更重要的是,对于行业内仍在训练基础模型并以 AGI 为终极目标的玩家来说,开源无疑形成一种实质性压力:如果闭源模型比不过开源成果,其存在价值可能就会受到质疑。因此,开源不一定总能做到最好,却能鞭策整个行业以更高效的方式持续演进。
而作为全球领先的芯片供应商,英伟达高度重视并持续支持全球 AI 生态的发展,并投入很多。特别在开源方面,英伟达为开源大模型训练与部署提供了算力引擎,通过强大的芯片、好用的工具让模型易用性更强。
Neil Trevett 表示,开源的力量毋庸置疑,如其他技术领域一样,开源是推动 AI 行业前进的强大「工具」。然而,开源是否适合每家公司,需要他们根据自身成本效益和竞争策略来判断,比如开源是否能节省成本、是否会削弱自身竞争优势等。因此,他认为,未来行业可能会走向开源与闭源结合的混合模式。
同时,开源也带来了一些新挑战,比如模型分叉、碎片化和滥用,需要行业共同探索治理方式。Neil Trevett 坚信,随着行业的发展,这些都会逐步得到解决。