阅读时间大约9分钟（3490字）

18小时前 OpenAI和Anthropic深夜同发大招

来源：图虫

二者在多方面展现强大能力，此次竞争推动AI创新，标志其进入新阶段。

本文转载自：字母榜，作者：苗正。猎云网已获授权。

2026年的这一天注定会被写入AI发展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一个小时的时间里先后发布。

两家公司似乎都憋着一口气，要在同一个时间节点上交出自己的答卷。

“撞车”的背后，是一场关于资本、技术和市场话语权的较量。

就在两周前，英伟达刚刚宣布向Anthropic投资100亿美元，这笔钱让Anthropic的估值飙升到3500亿美元。

消息传出后不到72小时，英伟达转身又向OpenAI注资200亿美元。

黄仁勋的算盘打得很清楚：两边都押注，谁赢都不亏。

但对Anthropic和OpenAI来说，这不只是拿到钱那么简单。

两家公司都计划在2026年下半年到2027年左右启动上市程序，现在正是证明自己技术实力、争夺市场定价权的关键时刻。

投资人要看的不是PPT上的承诺，而是能拿出手的产品。

谁的模型更强，谁在实际应用中更有说服力，谁就能在IPO时要到更高的价格，拿到更多的筹码。

一山容不得二虎，Anthropic和OpenAI必须得让对方明白，谁才是老大。

因此，这种产品节奏不是巧合，而是卡好了表的对轰。

两家公司都清楚，在这个时间点上，每一次产品发布都是一次融资路演，每一个技术突破都会直接影响投资人的判断和市场的预期。

不过从产品本身来看，两家公司确实都拿出了真本事。

01 Claude Opus 4.6

Anthropic这次对 Claude Opus 系列的升级，核心放在了“更聪明地思考”这件事上。

Opus 4.6最显著的变化是它学会了“adaptive thinking”，模型会根据任务的复杂程度自动调整思考深度。在困难问题上花更多时间思考，而在简单任务上快速通过。

在代码能力方面，Opus 4.6在Terminal-Bench 2.0这个评测中拿到了最高分。

这个测试专门考察AI在终端环境下的操作能力。模型需要知道什么时候该用哪个命令，如何组合不同的工具，以及怎么从错误信息里找到问题所在。

这就像是考察一个程序员会不会熟练使用各种开发工具。不只是写代码，还要会调试、会部署、会看日志找bug。

更重要的是，Opus 4.6是Anthropic第一个提供100万token上下文窗口的Opus级别模型。这个数字意味着模型可以一次性处理相当于两本中等厚度小说的文本量。

在长文本处理的测试中，Opus 4.6在MRCR v2的8-needle 1M 变体上得分76%，而上一代的Sonnet 4.5只有 18.5%。

简单一点来理解，就是给模型一大堆文档，然后问它一个需要综合多处信息才能回答的问题。

以前的模型看着看着就“忘了”前面的内容，或者找不到关键信息。Opus 4.6能在海量文本里准确定位需要的信息，而且不会因为文档太长就表现下降。

在知识工作能力的评测GDPval-AA 上，Opus 4.6比OpenAI的GPT-5.2高出约144Elo分，比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务，比如制作财务分析报告、起草法律文件、做市场调研等。

Anthropic还在产品层面做了不少配套更新。

Claude Code现在支持“agent teams”功能，可以同时启动多个AI代理，让它们各自负责不同的子任务，然后自动协调工作。

对于那些大型的代码库，这个功能特别有用，可以把工作拆分给不同的代理并行处理。

在办公软件集成方面，Anthropic推出了Claude in PowerPoint的研究预览版，并大幅升级了Claude in Excel。

现在Claude可以直接在Excel里处理更复杂的任务，支持数据透视表编辑、图表修改、条件格式化等功能。在 PowerPoint 里，Claude 能读懂现有的版式、字体和母版设计，然后按照这个风格创建新的幻灯片。

就是让AI真正进入你日常工作的工具里。不用来回复制粘贴，直接在Excel或PowerPoint的侧边栏跟Claude对话，它就能帮你改表格、做图表、生成演示文稿。

而且它会学习你的风格，做出来的东西不会显得格格不入。

在API层面，Anthropic引入了“effort”参数，提供低、中、高、最高四个档位。

开发者可以根据任务的复杂度选择合适的档位，在成本、速度和质量之间找平衡。还有“context compaction”功能，当对话接近上下文窗口限制时，会自动总结并替换较早的内容，让长时间运行的任务不会因为超出限制而中断。

可以理解为给开发者更多的控制权。

简单任务用低档位，省钱又快；复杂任务用高档位，保证质量。对话太长了系统会自动压缩前面的内容，这样就能一直聊下去。

在安全性方面，Anthropic这次做了他们有史以来最全面的安全评估。

Opus 4.6在自动化行为审计中显示出较低的不当行为率，包括欺骗、阿谀奉承、鼓励用户妄想和配合滥用等。

由于 Opus 4.6在网络安全方面的能力有显著提升，Anthropic专门开发了六个新的网络安全“探针”来检测潜在的滥用行为。

同时，他们也在用这个模型帮助开源软件查找和修补漏洞，希望让防御方也能用上AI的力量。

02 Advancing Finance：金融领域的深度应用

Anthropic专门发布了一篇文章，详细介绍Claude Opus 4.6在金融领域的应用。

在金融工作中，专业人士需要AI做三件事：研究、分析和创建交付物。Opus 4.6在这三个维度上都达到了业内领先水平。

在研究能力上，Opus 4.6在BrowseComp和DeepSearchQA两个基准测试中都有提升。

这两个测试考察的是模型从大量非结构化数据中提取特定信息的能力。

对金融分析师来说，这意味着可以把一堆公司财报、行业报告、新闻文章扔给AI，然后问一个很具体的问题，AI能给出针对性的答案，而不是泛泛的总结。

你丢给它一份财报，以前问AI“这家公司的盈利能力如何”，它可能给你的是一大段话，然后再把财报内容复述一遍。

现在它能直接告诉你关键指标是什么，跟行业平均水平比怎么样，有哪些风险因素。

在分析能力上，Opus 4.6在 Finance Agent这个外部基准测试中达到60.7%的准确率，比Opus 4.5提升了5.47个百分点。

在税务评估TaxEval 上，Opus 4.6也达到了76%的业内最高水平。

Anthropic用一个商业尽职调查任务做了对比，他们让Claude Opus 4.6去评估一个潜在的收购目标。这种工作通常需要一个资深分析师花两到三周时间才能完成。

但是Opus 4.6的首次输出在结构、内容和格式上都比Opus4.5更接近可以直接使用的标准。

也就是说，现在做出来的东西你小改一下就能用。这对于需要快速产出报告、演示文稿的金融从业者来说，效率提升是实实在在的。

Anthropic的内部“真实世界金融”评估涵盖了约50个投资和财务分析用例，包括电子表格、幻灯片和文档的生成与审阅。

这些是投资银行、私募股权、公开市场投资和企业财务领域分析师的常见任务。Opus 4.6比几个月前的Sonnet 4.5提升了超过23个百分点。

配合Cowork这个新功能，金融团队可以同时启动多个分析任务。Cowork让Claude可以访问你指定的本地文件夹，直接在里面读取、编辑和创建文件。

对金融团队来说，这意味着可以一次性布置几个分析任务，同时监督 Claude 创建每个交付物的过程，确保符合自己的标准。

03 GPT-5.3 Codex：自己训练自己的模型

在Claude Opus 4.6发布的几十分钟后，奥特曼突然发了一条X，宣布GPT-5.3 Codex。

我在这里也是代表字母AI，给奥特曼和阿莫迪一点面子，给他们分别点了喜欢和转发。

GPT-5.3 Codex最牛的地方在于，它能像真人同事一样干活，而且可以边干活边跟你商量。

以前的AI是“你说一句我做一句”，GPT-5.3 Codex是“有问题随时问你”。

你给它一个复杂任务，它能自己琢磨几个小时甚至几天，中途还会主动跟你汇报进度、问你意见，你随时可以插话调整方向。

有意思的是，OpenAI用GPT-5.3 Codex的早期版本来帮忙开发后续版本。也就是说，让AI帮着调试AI的训练过程、修bug、优化系统，OpenAI团队说这让开发速度快得惊人。

GPT-5.3 Codex在多个基准测试中创造了新的行业纪录。在SWE-Bench Pro上，它达到了56.8%的准确率，这是一个严格的真实世界软件工程评估。

与只测试Python的SWE-bench Verified不同，SWE-Bench Pro涵盖四种编程语言，更抗污染、更具挑战性、更多样化，也更贴近行业实际。

在Terminal-Bench 2.0上，GPT-5.3 Codex达到77.3%，远超之前的64%。

这个测试衡量的是代码代理需要的终端技能，也就是在命令行环境下完成各种操作的能力。值得注意的是，GPT-5.3 Codex用的token数量比之前任何模型都少，这意味着用户可以用同样的成本做更多事情。

在 OSWorld-Verified 这个测试中，GPT-5.3 Codex得分 64.7%，而GPT-5.2-Codex只有38.2%。

这是一个代理计算机使用基准测试，AI需要在可视化的桌面计算机环境中完成生产力任务。人类在这个测试中的得分约为72%，GPT-5.3 Codex已经接近人类水平。

在网页开发方面,OpenAI展示了一个对比案例：让GPT-5.3 Codex和 GPT-5.2-Codex分别创建一个 SaaS 产品的落地页。

GPT-5.3 Codex自动把年度套餐显示为折扣后的月度价格，让优惠看起来更清晰、更有意图，而不是简单地把年度总价乘出来。

它还做了一个自动切换的用户评价轮播，包含三条不同的用户评价，而不是只有一条，让整个页面感觉更完整、更接近可以上线的状态。

简单来说，就是它会考虑用户体验和营销效果。不是机械地实现功能，而是会想“怎么做更好”。这种对细节的把握和对最终效果的理解，让它做出来的东西更接近专业水平。

GPT-5.3 Codex的能力不仅限于编码。

它支持软件生命周期中的所有工作，比如调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。

在GDPval测试中，GPT-5.3 Codex的表现与GPT-5.2持平，达到70.9%的胜率或平局率。这个测试衡量的是模型在 44 个职业的明确知识工作任务上的表现，包括制作演示文稿、电子表格和其他工作产品。

一个有趣的细节是，两家公司都强调了“自己用自己的产品”。Anthropic 说“我们用 Claude 来构建 Claude”， OpenAI说“GPT-5.3 Codex在自己的开发中发挥了关键作用”。

这其实是最好的广告，如果自己的工程师都不愿意用，怎么能指望别人用？

而且从技术演进的角度看，两个模型都代表了 AI 从“回答问题”到“完成工作”的转变。

它们不再满足于生成一段文字或一段代码，而是要能够执行完整的工作流程，产出可以直接使用的交付物。这种转变对 AI 的要求高得多：不仅要懂技术，还要懂业务；不仅要能做，还要做得好；不仅要快，还要稳。

值得注意的是，两家公司都没有回避 AI 能力提升带来的风险。Anthropic 做了“有史以来最全面的安全评估”， OpenAI 部署了“最全面的网络安全防护措施”。

从用户角度看，两家公司的竞争是好事。不同的需求可以找到不同的解决方案，不同的工作方式可以选择不同的工具。更重要的是，竞争会推动双方继续创新，让AI能力的边界不断扩展。

而且这两个产品的发布也标志着AI进入了一个新阶段。不再是“能不能做”的问题，而是“怎么做得更好”的问题。

1、猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权。

2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网（微信号：lieyunjingxuan

）字样。

3、猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。

4、联系猎云，请加微信号：jinjilei

热门文章

小红书卖老股，估值3500亿

2026-02-04
唯品会年货节最后一波：狂秒24小时再度上线，低至日常价8折

2026-02-04
量引科技完成数千万元天使轮融资，聚焦光子集成电路领域

2026-02-04

投资机构

允泰资本

北京允泰投资管理有限公司成立于2017年，是一家聚焦国家战略新兴产业，以科技创投和资产管理为主业的私募股权投资机构。公司目前涉及两大主营业务：私募股权投资、定增投资。公司长期坚持以科技创新型企业投资为目标，重点投资于成长期的具有核心竞争力的高科技、高成长企业，覆盖半导体芯片、新材料、智能制造、新能源、医疗大健康等领域。

青橙资本

专注技术创新，专注早期投资，行业前瞻，与创业企业一起成长。

华兴资本

华兴资本是领先的私募股权投资者，专注于中国高增长及前景广阔的新经济行业。

黑洞投资

黑洞投资成立于2014年，是一家聚焦于多资产类别、多策略投资的平台型投资机构。投资方向为：地产+、互联网+、人工智能、新零售、文化传媒等领域，通过股权投资、战略投资/孵化等形式为新经济生态圈中的创业者提供强有力的支持，携手打造具有高度商业价值和社会价值的优质企业。

北京长安投资

北京长安投资集团有限公司成立于 2002 年 9 月，总部位于北京市西城区闹市口大街 1 号长安兴融中心，注册资本三亿元人民币。经过二十余年的发展，长安投资集团已经成长为集金融、地产和投资三大核心业务为一体，拥有雄厚资本和优良信誉的大型多元化投资集团。

国科嘉和

国科嘉和（北京）投资管理有限公司是中国科学院控股有限公司（简称“国科控股”）直属一级企业，成立于2011年。国科嘉和由国科控股牵头发起，并联合多家国内大型企业集团，共同设立了2支人民币风险创业投资基金（VC基金）、2支人民币并购基金(PE基金）、1支产业专项基金以及1支美元风险投资基金，管理资金总额达数百亿，是国科控股直属唯一同时涵盖VC、PE的专业投资机构。

银盛泰资本

专注医疗大健康和科技领域拥有一流品牌的领先企业，覆盖初创期、成长期、成熟期、Pre-IPO各个阶段，挖掘海内外优质投资机会，成就基业长青的伟大公司！

领沨资本

领沨资本自2015年9月成立以来，致力于投资新金融基础设施领域的优质成长期企业，重点关注具有核心技术壁垒，且具有创造大规模商业及社会价值潜能的企业。领沨资本投资的细分领域依次为人工智能、区块链、金融云／大数据、网络安全及物联网在金融领域中的应用、信贷科技如供应链金融科技、保险科技、投资／财富科技、支付、信用评级与风险管理企业等。领沨资本管理人民币及美元基金，已成为亚太和大中华区最大、最强的金融科技专业基金之一。

钟鼎资本

钟鼎资本，成立于2010年，是一家专注“以供应链为核心能力提升产业效率”的生态型基金。聚焦的投资领域包括物流、供应链、零售&品牌、数据科技等，为国内物流供应链领域最有影响力的投资机构。

联想创投

联想创投为联想集团CVC，专注于面向未来的科技产业投资，投资方向主要为：IoT、边缘计算、云、大数据、人工智能、垂直行业、消费升级等。已投资和孵化超过百家优秀企业，包括美团点评、宁德时代、蔚来、旷视科技、寒武纪、每日优鲜、SHAREit等。

天风天睿

天风证券私募基金子公司，专业从事股权投资和私募基金管理，致力于构建人人受益的产融生态，坚持与客户共存共荣，助力实体经济发展和产业升级。

北辰星资本

目前主要关注体育、文化、娱乐、教育等领域的中早期项目投资；已投资包括肆客体育、伐木累、淘手游、河马牙医、竞彩猫、去滑雪GOSKI、羽贝纳、趣动户外、DS足球、福建天信职业足球俱乐部等项目。2016年肆客体育、竞彩猫、去滑雪三个项目被懒熊体育评选为“年度十佳体育创业项目”，同年由北辰星主导发起的去玩体育产业基金（去玩资本）和红衫、IDG等知名机构一起被猎云网评选为“2016年十大体育产业投资机构”。

菁英汇资本

菁英汇资本是受天津市政府引导基金支持的创投机构，投过的知名案例如奇安信、国开新能源等。主要投资于网络安全、产业互联网、大数据、云计算、物联网、教育信息化等数字经济领域的项目。标签：软科技、企业服务，阶段A轮以后

开牛投资

成立于2015年，是一家以价值投资为宗旨的精品VC，创始团队来自中路资本、上海实业直投部、工商银行投行部、创赢金融等公司的核心成员，具有丰富的一二级市场和互联网、互联网+、消费、教育等领域的投资经验、行业研究经验及资本运作经验，过往案例包括Blued、团车网、波奇网、小卫科技、小鸟教育，赛优教育、丝域养发等。

德联资本

德联资本成立于2011年，重点关注高端制造、前沿科技、医疗健康等领域中技术驱动型项目，已投资启明医疗、盟科医药、珞石机器人、华捷艾米、梅卡曼德、得一微电子、飞致云等数十家创业公司，覆盖机器人、智能制造、人工智能、大数据、企业服务、医疗健康等多个细分领域。

东沙湖基金小镇

江苏省首批省级特色小镇，致力于构建一个以私募基金为核心，实施“资本+科技”双轮驱动，服务于实体经济的多层次体系。

凯旋创投

凯旋创投成立于2008年，中国本土专注于早期科技企业投资的双币私募投资机构。致力于长期投资国家战略新兴产业，包括物联网、高端制造、人工智能、先进医疗、高性能材料等领域，不断构建与完善科技及产业投资生态圈，为创业者提供丰富经验经验、全球视野及资源，并持续赋能。团队拥有丰富的技术行业经验和坚实的高科技产业背景，具备跨越周期的投资能力。

众海投资

众海投资成立于2014年，由前阿里巴巴集团高管鲁众、黄海军共同创办。目前管理着 5 期人民币基金，持续专注于互联网/消费、高新科技和医疗大健康等领域，主要覆盖阶段为初创期与成长期。已投资超过50家优秀的中早期企业，包括乐乐茶、爱慕、宜明昂科、言几又、新中冠、格隆汇、聚土网等。致力于做成长企业的合伙人。

青锐创投

青锐创投成立于2015年，是专注于中早期投资的双币风险投资机构。公司总部位于上海。覆盖范围包括消费、硬科技和前沿科技等领域。

青山资本

青山资本，中国一线天使投资机构，专注消费、TMT领域，主张独立思考、价值投资。致力成为创业者最早、最重要的支持者，与优秀年轻人一道，创造美好生活，重仓中国。

${{item.author_display_name}}$

18小时前 OpenAI和Anthropic深夜同发大招

01 Claude Opus 4.6

02 Advancing Finance：金融领域的深度应用

03 GPT-5.3 Codex：自己训练自己的模型

{{item.post_title}}

{{item.post_title}}

小红书卖老股，估值3500亿

唯品会年货节最后一波：狂秒24小时再度上线，低至日常价8折

量引科技完成数千万元天使轮融资，聚焦光子集成电路领域