阅读时间大约10分钟以上（4977字）

2024-02-22 “已经有三个人跟我说要做中国版Sora”

来源：壹图网

今年，不论是创业者还是投资人都成熟了。

本文转载自：投中网（ID：China-Venture），作者：刘燕秋、蒲凡。猎云网已获授权。

先讲两个非常“中国特色”的荒诞段子：

小红书上，一位投资领域的博主称，一天内已经有三个项目方找过来说要做中国版Sora，但听起来，心态都是“看看能不能骗点钱”；

另有一图，昨日广为流传，图上标“中美两大AI巨头”。美方代表是OpenAI的CEO奥特曼，中方代表则是卖AI课赚了上亿的博主李一舟。

怎么说呢，前者未经证实，但代表了一部分人对AI创业者，乃至整个创业者群体的“刻板”印象；到了李一舟这，这种“刻板印象”终于有了明确的指摘对象，没办法，谁让人家赚钱了呢。不过到底是虚晃一枪，瞧不上的是中国AI。（具体参见《“李一舟何许人也” ｜底片》）

调侃归调侃，当我拿这消息问几位投资人朋友时，反馈是，还没人碰到过打着中国版Sora旗号的离谱项目。我想，这可能是因为，大家还处在震惊之中，需要一点反应的时间。也可能因为，和去年ChatGPT搅动的热潮相比，今年的情况相似又不同。

对世界丧失掌控感的心态大体是相似的，不同在于，经历过去一年的洗礼，到今年，不论是创业者还是投资人都成熟了。一部分人清醒地意识到，热闹归热闹，但热闹大都是OpenAI的。

“霸权创业”

“我们之后大概率不会投文生视频类项目了，因为OpenAI太强了。”一家主流投资机构的朋友这样回复我。

很难说这种心态是悲观，还是认清现实后的冷静。如果回溯，类似的言论最早从去年3月GPT4发布插件便开始了。

在《第一批投AIGC的VC开始后悔了》一文中，我写过当时典型的担忧是：是不是所有垂类的应用公司都会被基于GPT4插件的生态取代？之前投的项目会不会黄了？今后还要不要看？

别怪写稿的人絮叨，因为类似的事情总在不断发生。去年年底，奥特曼在YC的一场演讲，又给生成式AI领域的创业者浇了一盆冷水。

他建议，应该以通用人工智能的实现为前提进行技术开发。因为GPT5可能会相对于GPT4有指数级的跳跃，这个进展将会给初创企业和现有公司带来许多挑战。反过来说，他不建议的是，创建那些产品业务致力于解决当前GPT4限制的内容，因为大多数限制将在GPT5中修复。

这份给创业者的指南，既诚恳，又傲慢，杀伤力极大。AI巨无霸的掌舵者在提醒创业者，不要瞎折腾，OpenAI自身的迭代很快会覆盖一批公司。

我更想到了另外一段话，来自一年前的另一个“大模型”选题，当时ChatGPT给了世界一个“小小的震撼”，也带来了一阵密集的投资风口，几乎所有人都在努力寻找能交付出类似产品的创业者，并且不吝于将寻找到的创业者塑造成神。

我本能地对当时的氛围感到警惕，于是设计了一份简单问卷，向超过30个人工智能赛道内的创业团队发出QA邀请，试图搞清楚舆论是否过热并且严重拔高了行业现状，然后收到了一份这样的答案：

“我们认为人工智能这一轮的发展是不断集成人类智能的过程，在这个过程中很多流程、环节、都会吞噬，形成端到端、自动化的解决方案，最后会不可避免地形成超级智能——这些环节在上一代互联网的时代是存在独角兽公司的（所以互联网时代是一个“平权”的创业时代），但是现在没机会了——比如GPT4出现之前很多企业做视频和图片处理，但GPT4出来以后对他们是一个重大打击，模式是否成立都是问题。”

这个答案来自集智魔方创始人徐大大。简单概括，他认为人工智能这一次的热潮很难留下太多机会，反而可能即将面临一个“霸权式创业”的时代。

而这种“霸权创业”的感受也正在完整地通过创业者传递给投资人。徐大大和很多VC接触后，发现大家目前形成的共识是创业规划要有“战略提前量”，而不是寻求“时间提前量”，因为“如果方向错了，早晚被足够的算力追上”。

具体到视频生成领域，AI投资人Magic（化名）跟我分享了一个真实案例。去年他们团队反复讨论过要不要布局一家文生视频公司，最终还是没投。

当初纠结的点在于，他们看到的国内公司现有的方案明显有性能上限，同时知道OpenAI在用更fundamental的方式解决问题，只是不知道什么时候能做出来。“说白了就是知道OpenAI会做，觉得其他公司没有戏，但没想到来得这么快。”

现有的能想到的场景OpenAI一定能想到，还能有什么新的场景出来？OpenAI的超能力令AI投资人陷入迷惘，不确定究竟该在应用层面投些什么。

谈追赶，Magic没那么乐观。他认为，国内公司与OpenAI的差距，本质在于视野、认知和工程化能力的不同，当中的差距不是任何一家公司能在短时间内弥补的。

更不用说，国内一部分公司对外宣扬的和实际情况多少存在一些水分。比如，我在某公司去年的通稿里看到如下描述——“视频生成能实现可控的内容改写与风格迁移，效果优于Runway等在内的主流模型。”

国内的“类Sora产品”

放眼我国近几年的科技行业，创业者们对于“类Sora产品”的尝试一直没有停止。从技术路线来看可以分为两类：

一类是由剪辑工具衍生出来的“文生视频”产品。与Sora相同，这类产品的使用逻辑十分“自然语言”，用户只需要输入文本内容，产品就能匹配上对应的视频素材生成成片，只是这类产品并不会根据文本内容原生视频素材，而是在素材库内进行调用。

时间线上，早在2020年10月知乎就推出了“一键图文转视频”，配合当时同期推出的“海盐计划”，内容视频化战争打响；2021年4月，剪映也上线了“图文成片”功能，大量创作者使用后，得出的一致结论是“感觉会干死一堆营销号”。

可以说，也正是这条技术路线的成熟，催生了这几天Sora的一个衍生话题——Sora会“杀死”剪映吗，我的编辑也建议，将 “梁茹波在字节年度大会上反省了公司内部的技术讨论直到2023年才有GPT相关议题”和“张楠在年初辞去抖音集团CEO职务，宣布将专注于剪映”联系在一起，进而得出“AI视频生成”或许是字节跳动找到的最现实也最直接的“第二增长曲线”的结论。

前字节跳动算法工程师“像素炼金师”持类似的观点。他在知乎问题“OpenAI的视频模型Sora能否颠覆影视创作”的回答里写过这样一段话：

“不要怀疑视觉模型的能力……ChatGPT的上限可以质疑，大语言模型的训练可能面临着数据的匮乏，高质量的数据早就已经全部纳入到 GPT4 的训练集里了。但视觉的数据和文本不一样，我们可以几乎无限的从世界当中采集。”

第二类是由多模态大模型衍生出来的“文生视频”产品，此前让郭德纲说英语、让川普说山东话而大火的HeyGen就是其中的代表。类似的产品还包括FancyTech、Wondershare、腾讯智影，这些产品都具备用户通过“输入自然语言”生成一段视频，并且针对性地原生一部分素材的能力。

如果以更冰冷的技术视角来看，Sora又似乎有被“神化”的嫌疑，许多AI界大鳄指出，其技术壁垒似乎一定程度上被高估了。

2022年10月，谷歌曾经宣布过开发文本转视频产品Imagen Video。根据同步公开的技术论文，当时的谷歌工程师们就已经开始计划以24FPS的帧数输出1280x768高清视频，并且尝试在保留对象结构的同时“让对象结构能够完成3D旋转以及更多的画面形式”。

此时距离OpenAI发布著名的DALLE-2，仅仅只有半年的时间。

而针对OpenAI宣称sora是“世界模拟器”，图灵奖得主、Meta首席AI科学家杨立昆（YannLeCun）认为，根据提示词生成的大部分逼真视频，离“AI理解物理世界”还差得远，刷屏的视频仍有很多bug，生成视频的过程与基于世界模型的因果预测完全不同。

而同日发布的谷歌多模态模型Gemini 1.5，能持续运行100万tokens，“1小时视频、11小时音频、超过3万行代码”，我大胆揣测，由于sora以视频的方式呈现太过惊艳，才让谷歌成了汪峰，痛失头条。

今年1月，北京大学、斯坦福大学、Pika Labs联合发布了一套全新的文生图框架RPG-Diffusion Master，旨在解决文生图常常“货不对版”背后的两大难题：缺乏画面的空间引导，并且难以处理重叠的对象；基于反馈的方法需要收集高质量的反馈数据，并产生额外的训练成本。

所以很大程度上，真正让“中美AI角逐”看起来略显吃力的地方，不是创业者不努力，而是一是努力不过“钞能力”，二是如那位OpenAI的天才谢赛宁所言，人才、数据、算力，三者之间的差距，很难弥补。

由剪辑工具衍生出来的“文生视频”产品，往往背靠着巨大的内容生态。作为创作者生态的一环，这层属性的一体两面，是第三方“文生视频”产品在商业化上存在巨大的问题。

两年前我曾经收到过一份“文转视频”产品的BP，第一页旗帜鲜明地写着“做内容赛道的基建产品，成就中国最大的泛知识内容创作者平台”，核心竞争力是“行业率先的中视频素材库”“独创的智能文本区”“云协作”，融资目标相对保守地定在了500万美元。

这几天重新聊起Sora的时候，才发现他们没有挺过2023，当初发BP给我的朋友发了一个哭脸emoji，说：“一开始我们就错了”。

我忍不住追问他们的复活计划：“文生视频这一段一定要和Sora对比吗？就像文艺片存在的同时不影响爆米花电影的卖座，只要成本够低、操作门槛够低，文生视频工具似乎是有一定市场的，并不一定需要‘太智能’。”

朋友的对话框开始漫长地停留在“对方正在输入”状态。半晌，他决定回复这样两段话：“老板不看好中视频赛道，觉得XX就那水平，我们还给他们的创作者做工具就更没前途了……泛知识类视频的商业天花板可能只是亿级，而影视广告行业的商业天花板是万亿级的。”

同样的“出身困境”，也体现在多模态大模型衍生出来的“文生视频”产品中。这些产品所提供的“文生视频”功能，大部分都为明确的应用场景设计，例如电商虚拟主播、服装设计展示，进而导致他们最终输出的成品通常呈现出“半AIGC状态”——帮助用户在有限的模板下进行一定的原生。

还没看到产业化的可能

也不是没有乐观的声音。

“现在是整个行业技术不成熟啊，我觉得这个方向可以再跑跑，虽然Sora是SOTA的算法，但我觉得差距没大家想象的那么大，到今年年底的时候估计会接近文生图。”

当我问及文生视频在国内的前景，投了大模型公司的James（化名）这样告诉我。SOTA，全称“state-of-the-art”，用于描述机器学习中某个任务上当前最优效果的模型。

乐观或悲观，不过是大家基于自己看到的论据得出的主观结论。如果文生视频在国内有机会，不妨把问题提得再具体一点，那会是谁的机会？随着融资军备竞赛的白热化，会是现有这些大模型头部玩家之间的竞争吗？

头部大模型创业公司里，月之暗面、MiniMAX、百川智能等都在年后传出了最新一笔大额融资的消息。弹药充足，为的是应对模型迭代持续烧钱的现状，而多模态模型正是当下国内大模型的竞争点之一。

据我了解，腾讯、智谱AI等都已经在研发视频生成大模型。月之暗面也被媒体披露出正在研发通用多模态模型。

投资人的观点仍然没有定论。James判断，还是大模型公司机会大一些。Magic认为，看上去似乎是这样，变量在于国内这些大模型公司把核心任务放在了追赶GPT4和5上，而文生视频是另一条线，肯定会做，但能给多少资源还不一定。

“如果产品能立住，不排除有独立模型开发的公司也能跑出来。”

而当着眼于实际应用，只能说，不管是国内公司，还是Sora、Runway、Pika，他们的产品距离产业化应用还有一段距离。有投资人告诉我，文生视频这件事要在中国落地，还是要关注商业化的问题，或者公司有出海的能力。

再讲一个现实的创业故事吧。出海，正是AIGC创业者吴立素给公司规划的路径。

几年前我认识他时，他还在做网剧和网大，如今他公司的主要业务放在短剧和AI，利用人工智能生成三维和平面内容。2022年夏天，他成立了人工智能机构SOLART TECH（素鳞科技），并在随后一年加入英伟达inception program、Google cloud for AI startup和Amazon的加速计划。

出于自身业务需求，而不是开一场发布会，吴立素的团队去年尝试过自研视频生成大模型，数据来源是自有版权的电影和动画片。花了几百万，他得出的结论是，投入巨大，结果却差强人意，距离产业化应用比较远。

“基于工程文件去做数据标注的精准度高，但我们数据量不大，所以生成的内容比较有限。动画部分和Pika 1.0的效果相近，但真实人物会有恐怖屋效应。”

“我们团队基本上都是会写代码的影视艺术工作者，所以开始还会有一点优势。”在他看来，去年包括Pika在内的很多团队进行画面推理还只是基于图像学研究，而今年Sora团队里的成员，有越来越多的跨专业人才能进行交叉学科研究。

架不住OpenAI大力出奇迹。吴立素决定放弃自研视频生成大模型，转向基于大模型做一些小模型。他希望结合其他技术和工具，推动产品实际落地。“国内做全视频生成的公司方向都不太一样，但多是以科研的形式在做，目前没看到有商业化或产业化的可能性。”

产业应用更多的要求是精准度，而即使是Sora的呈现也有很大的不稳定性。他打了个比方，“数学公式大家都会，但不一定所有人都能用那套公式把应用题解出来。”

至于文生视频对影视动画产业的影响，也许没想象中那么大。吴立素有计算机背景，又在中传读了数字媒体专业，此后在影视行业摸爬滚打十几年。他的判断是，文生视频目前适用于不太有特定需求的内容填充和背景画面丰富。

“传统影视动画产业里比较讲究精准度的场景和角色情绪表达，纯文字直接生成比较难得到结果，通过图像（分镜故事版）生成会更准确一点。”随着Vision Pro的上市，他也更看好未来3D市场以及3D内容和AI的结合发展的机会。

吴立素做出的另一个决定是，今年公司要出海。“因为国内用户需求增长比较慢，现在更多是卖课的人能赚到钱。”他无奈道。

“向钱看”，是不少人瞧不上中国AI的原因。一位投资人朋友对我表示，从互联网时代开始，美国的科技公司就代表科技与商业的双重突破，而国内则把重心更多放在了跟随和应用，曾经我们似乎看到了平起平坐甚至超越的可能，但到了AI时代，才发现一切都是幻觉。

去年此时，很多人问，为什么中国没有产生ChatGPT，到了今年问题又变成了，为什么中国没有产生sora，在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中，作者建议我们把问题换成，“为什么全世界只有OpenAI能做出ChatGPT”。

我认为方向无关对错，只跟现实土壤有关。2022年中旬，曾经有一位美元基金投资人，强烈建议我关注AI发展趋势，当时就提到了GPT等，而我却一知半解，国内更是鲜有报道，现在他转身加入一家国外的科技创业公司，按他说法，“出来躺躺”。

在那本书中，史蒂芬·沃尔弗拉姆提到了“计算不可约性原理”，“人类、AI、自然界和社会等各种计算系统具有根本的不可预测性，始终存在‘收获惊喜的可能’。人类可贵的，是有内在驱动力和内在体验，能够内在地定义目标或者意义，从而最终定义未来。”