AI最疯狂的一周,该知道的8大共识都在这了(一)

2026-04-27 17:34:04
已关注
2026-04-27

4月21日至22日,2026中国生成式AI大会(北京站)圆满举行。

智东西(公众号:zhidxcom)

作者 | GenAICon 2026

短短8天,全球AI领域发生的重磅新闻,发布节奏之密、信息密度之高、资金体量之大、涉及玩家之广,堪称惊心动魄。

从4月16日到24日,Anthropic Claude Opus 4.7、阿里Qwen3.6-Max、月之暗面Kimi K2.6、OpenAI ChatGPT Images 2.0、蚂蚁Ling-2.6-flash、小米MiMo-V2.5-Pro、腾讯Hy3、OpenAI GPT-5.5、DeepSeek-V4等9款前沿模型扎堆发布。

同一时期,亚马逊和谷歌相继表示分别拟向Anthropic投资250亿美元和400亿美元,马斯克SpaceX宣布拟以600亿美元收购AI编程独角兽Cursor,DeepSeek启动外部融资的传闻亦沸沸扬扬。

这一周大事串联起来,映射出5个清晰的趋势:

  • AI竞争的核心战场已从“聊天”转向“干活”;

  • 中美AI头部梯队基本形成,并在持续冲锋;

  • 中国AI在开源和成本效率上展现出独特竞争力;

  • 算力基础设施将成为影响AI竞赛节奏的关键因素;

  • “投资+竞争+合作”的新型多重产业关系正在确立。

值此期间,4月21日至22日,2026中国生成式AI大会(北京站)圆满举行。

大会由智东西主办、智猩猩联合主办,集结73位产学研投嘉宾,围绕“奔赴AGI 重塑未来”主题,通过1场开幕式、3场专题论坛、6场技术研讨会,全景式解析AI产业的产业脉络、创新范式、Token经济与中国机会。

议题跨度很大,从大语言模型、多模态模型、世界模型、智能体、AI眼镜等前沿模型与应用,到数据、芯片、存储、通信、云服务等基础设施。

嘉宾们各抒己见,聊痛点,讲预判,立足当下,探讨未来,分享内容之丰富,非常挑战大脑容量。

一个明确的共识是,国产AI战场,已经从模型层扩展到生态层。

我们整理了开幕式和3场专题论坛的嘉宾们分享的重点信息,希望能对你有启发。

1、大模型怎么变强?达到垂域专家水平只是时间问题

2、小心养龙虾、买token踩坑!聊聊大模型服务商不会告诉你的那些事

3、从Claude Code泄露代码,总结6个反共识观点

4、OpenClaw之后,智能体时代的中国机会在哪里?

5、世界模型的多重路径:视频生成、多模态原生统一、3D生成

6、Token消耗量爆发,国产AI基础设施如何协同与进化?

7、大模型下半场,竞争焦点变成场景、数据、品味

8、从“龙虾”、AI眼镜到token管理,拆解国产智能体落地潮

一、大模型怎么变强?达到垂域专家水平只是时间问题

在开幕式上,中国人民大学高瓴人工智能学院教授赵鑫的演讲围绕一个根本问题:大模型怎么变强?

首先,大尺寸模型仍具有显著的性能优势,通过预测下一个词的预训练范式能够建立非常强的基础能力;在后训练方面,一个重要方向是RLVR(基于结果监督的强化学习),能针对垂直领域提升模型能力,提供了超越“预测下一个词监督训练”的另一条Scaling路线,为复杂智能体环境的训练构建了可行的训练途径。

接下来,让大模型学会使用工具,如搜索信息、用编程解决问题等。代码执行增强的推理链,解题过程更简洁清晰,显著提升推理效率。

随着任务复杂度提升,模型需要进行大量轮次的交互,上下文窗口的管理成为挑战。有两种思路:一是通过模型自主压缩上下文,二是使用文件来作为上下文的外部存储介质。

在多模态深度搜索场景中,图片、视频等内容若直接token化,会急剧膨胀上下文。一个解决方案是搜索结果先写入本地文件系统,同时生成简短摘要进入上下文窗口,后续需要时再按需加载,从而实现稳定的百轮级多模态搜索。

AI最疯狂的一周,该知道的8大共识都在这了

▲赵鑫

给大模型一台虚拟电脑(如终端/沙盒),可在非代码领域激发通用能力。

大规模训练需要大量多样化的环境,手动创建几万个环境不现实。近期研究显著增加了智能体类数据的引入,比如DeepSeek-V3.2在强化学习中显著增加构造的智能体任务和配套环境,这些仿真环境旨在低成本高效合成大规模训练数据。

怎么模拟复杂环境呢?大多数智能体操作仅需轻量的沙盒,如果采用基于Docker环境训练代码智能体的方法,可扩展瓶颈会集中在Docker执行层。此时可以用大模型代替Docker提供执行反馈,来减少对真实Docker的创建需求。

当前多智能体系统的核心挑战在于长程任务的稳定性,这需要制定合适的工作流。

对此,高瓴人工智能学院开源的AiScientist系统,将决策层与专家层分开,编排器专注阶段级决策,专家负责复杂子任务,让文件成为智能体协调“总线”,从而实现复杂编排与协作。

最后,赵鑫教授分享了三点预判:

1、模型能力扩展受限于人的认知。目前可利用算力的方式仍然有限,突破需要新的扩展范式。

2、大模型达到垂直领域专家水平只是时间问题,广义AGI仍然困难。类似“下一个token预测”和RLVR这样的重要训练扩展范式,估计还需要出现1~2次,才能推动广义AGI的实现。

3、大部分创新是工程创新,AGI需要更多本质创新。模型能力与Harness的发展是螺旋上升、互相适配的,基础设施补强模型短板,模型提升后再推动基础设施演进;技术难以形成持久的护城河,人才、数据更为关键。

二、小心养龙虾、买token踩坑!聊聊大模型服务商不会告诉你的那些事

清程极智联合创始人师天麾点破了当前token行业乱象——买token藏有很多坑。

同一个模型,在不同服务商处购买,效果不同,最终花费不同,服务质量可能差别巨大。

有次评测,他们发现某个服务商的模型明显有问题,问过后,服务商承认用的是int4。这种量化能把成本压得非常低,但是模型效果很差。

提供同一个模型,报价便宜的服务商反而可能用起来总成本更高,因为缓存命中率不一样。

缓存命中率是一个非常影响总成本的指标。各家服务商因为技术不同,缓存命中率相差很大,好的能超过80%,差的缓存几乎跟没有一样。

但服务商不会告诉客户这件事。

AI最疯狂的一周,该知道的8大共识都在这了

▲师天麾

AI Ping团队对国内30多家服务商的600个大模型API服务进行了测试,服务商包括模型厂商、互联网大厂、云上市公司和MaaS厂商。

根据他们的测试,大型服务商(如云厂商、电信运营商),在提供相同的模型服务、价格相近的情况下,各家服务性能可能相差5倍甚至更多。

他们观察到,近期国内各家服务商的服务质量,相比去年年底明显差了很多。许多服务商不能给中小客户保证质量,响应慢、有明显性能问题。

“养龙虾”等行业热潮火爆,导致token供不应求,又贵又慢。token服务又是黑盒,行业发展很快,也很乱,那怎么选对token服务商?

师天麾安利了清程极智研发的AI Ping:它对用户关心的大模型服务指标做了全面评测和汇总,并提供筛选排序和智能路由功能,以便用户对不同大模型API服务进行7×24评测和按需调用服务。

三、从Claude Code泄露代码,总结6个反共识观点

Pine AI首席科学家李博杰重点聊了聊从Claude Code泄露代码中的收获。

在他看来,Claude Code源码里的五层权限判断、错误恢复、安全防护工具集、反蒸馏防御机制等设计,还有用做研究的方法做产品,都非常值得学习。

AI最疯狂的一周,该知道的8大共识都在这了

▲李博杰

李博杰还分享了从中总结出的6个反共识观点:

1、图形界面(GUI)的价值将逐渐降低,软件价值正从界面转向数据治理,没有数据壁垒的SaaS大概率被干掉。

智能体阅读和思考速度远超人类,但操作GUI的速度比人慢,因此GUI对智能体不友好。

Claude Code就是典型的GUI价值低、业务逻辑与数据治理价值高的产品形态,51万行源码里没有一个产品级GUI。

2、上下文是人类避免被AI取代的护城河。

AI能访问的上下文远低于一个人类员工,比如吃饭时聊出来的设计目的、屎山代码里的坑、没表达出来的内心想法。

告诉AI合适的上下文,也是用好AI的关键。

3、AI原生组织,本质是用AI替代传统的“上传下达”层级结构。

Anthropic、Kimi等公司的中层大幅压缩,实现良好的上下文共享,让高层看到基层信号,让基层直接看到战略上下文。

“砍掉高层的手脚,砍掉中层的屁股,砍掉基层的脑袋”,这个段子在AI原生公司中不成立了。

4、哪些人会被AI替代?

头部(高价值决策与创造)和尾部(与物理世界深度集成的工作)相对安全,腰部(执行型、无泛化能力的标准化工作)最为危险。

AI是技术能力的放大器,推动非技术能力的重要性比重上升。学习新知识、适应新场景的能力很关键。

一人公司(OPC)不是一个人能开发App,大多数独立开发者的瓶颈不是写不出代码,而是获客、信任、运营这些稀缺能力。

5、“模型即Agent”远远不够。

真正的智能体里有一堆复杂的Harness来兜底解决模型搞不定的部分,代码量远超工具+提示词本身。只有模型公司同时控制应用层和兜底工程。

Agent= Model x Harness。大模型提供“大脑”,而Harness提供了“手脚”和“缰绳”,包括上下文怎么给、工具怎么调用、出错怎么恢复、安全怎么保障、缓存怎么共享、并行怎么协调等。

6、应用层公司的护城河在技术之外。

Harness里的“屎山”反映了模型内部模型团队和应用团队之间的张力,是应用层短期的技术杠杆,但是技术优势会被模型公司的飞轮吃掉。

顶尖模型的差距还会继续拉大,中端模型将趋于商品化。应用层公司的长期护城河是数据、渠道、拍照、用户信任、网络效应等等。

四、高端对话:OpenClaw之后,智能体时代的中国机会在哪里?

高端对话环节由智东西联合创始人、总编辑张国仁主持,三位嘉宾均在智能体领域颇有建树,分别是香港大学助理教授&博士生导师、Nanobot团队负责人黄超,网易有道LobsterAI项目负责人、智能硬件研发负责人王宁,峰瑞资本投资合伙人陈石。

黄超团队的Nanobot开源项目仅用约4000行代码,实现了原版OpenClaw用43万行(现已超百万行)代码的核心功能。

王宁团队的LobsterAI是国内大厂第一个开源的桌面级智能体产品,1周获得超过3k star,还被OpenClaw创始人Peter Steinberger发文夸赞。

陈石有超过15年的连续创业经历,曾任阿里高管,曾经是一名快乐的程序员和用户增长专家,如今也是一位对AI行业深入跟踪观察的投资人。

AI最疯狂的一周,该知道的8大共识都在这了

▲从左到右:张国仁、黄超、王宁、陈石

1、智能体行业变化太快,2026年会是标志性一年

黄超:智能体演进太快了,去年底MCP普及到现在的Skill和Harness,仅三四个月。2026年可能是智能体生态爆发的一年,智能体的能力边界扩展需要整个Skill生态、环境交互体系的协同成熟。

王宁:OpenClaw大大加速整个智能体落地进程,各行业都认识到智能体能帮企业干活、提效、挣钱。去年Chat类产品一直在找营收来源,比如靠广告,其实没挣太多钱。今年可能是Agent产品商业化爆发的起点,真正能向用户和企业收费的Agent产品出现。

陈石:从去年下半年到今年年初,AI行业最大的变化是智能体开始在应用层挣钱了,不再只是英伟达挣钱。OpenClaw开启新的智能体范式,今年可能是AI真正能被大众用起来的一年。

2、工程粗糙却范式创新,OpenClaw为何能改变AI行业?

黄超:它的交互模式是创新的,看似简单的设计,让社区感受到智能体更加主动。此前的智能体工具感太重,OpenClaw点燃了人们对”通用个人助手”的长期期待。

王宁:类比移动互联网早期,很多App最初都是小团队做的、很粗糙,但商业模式和用户场景满足得很好。OpenClaw做了类似的事。

陈石:它也许在工程上还比较粗糙,但应用范式创新对行业影响非常大。

3、OpenClaw降温了?现象级产品完成历史使命

陈石:当前OpenClaw本身可能并不是一个特别优质的产品,但它是一个象征意义重大的现象级产品,它的核心定位是在“开放域里做无终点的事”,这是人类历史上是第一次让普通用户用AI在数字世界中进行不设限制的探索。之前的智能体产品包括Claude Code、Claude Cowork和Manus都不在这个定位。OpenClaw更像是普通人心中的“数字助手”或者“数字伙伴”的形象。

王宁:DeepSeek 也是大概火了两个月,但之后它让“推理能力”快速渗透到了各行各业。OpenClaw也有点类似,它也加速了Agent产品走向更广泛的行业应用。热度会回落,但能力渗透一旦开始,真正的行业价值才刚刚开始释放。

黄超:降温可能是因为token烧得多,事情做得没达到预期。OpenClaw完成了它的使命,建立了智能体在用户中的心智。热度下去说不定是好事,可以让大家沉淀下来思考:什么时候需要让OpenClaw变成真正能帮我们搬砖的打工人。

4、高质量Skill很少,Harness极其重要

黄超:虽然很多to-use模块从MCP进化到Skill,Skill像MCP工具调用说明书,但MCP存在的问题,Skill也存在,比如质量控制不好。

Skill很多,但高质量的Skill很少,检索与匹配效率低下。未来需要专门的平台对高质量Skill进行管理和分发。

Harness与模型能力相辅相成。长程任务是一大工程挑战,上下文极度爆炸、实时环境交互复杂、中断现象普遍,Harness显得极其重要。

5、当前AI行业的商业逻辑与创业建议

陈石:当前AI行业的商业逻辑与移动互联网时代有根本性差异,不能做线性外推。

移动互联网时代有个著名的商业模式是“羊毛出在猪身上”,免费获客、广告变现,但其前提是单用户使用成本很低。但AI产品用户使用越多,Token消耗越大,当前的成本远高于广告的eCPM,在商业上根本跑不通。

未来AI行业大部分的收入将被token生产与分发环节的公司收走。智能体能够独立存在的机会,在于广泛收集人类的上下文(操作轨迹、使用场景、业务逻辑、行业知识),形成模型厂商抢不走的数据壁垒,用户用得越多,越依赖,护城河越深。

建议早期智能体创业公司优先考虑“前向收费”,做不到就不要盲目扩张,说明还没拿出能让用户愿意付费的产品。另一个建议是“软饭硬吃”,利用中国制造业供应链优势,在通过软件掌握用户需求和产品技术积累后,做出软硬件一体的产品,这类产品到海外很能打。

6、中国版下一代智能体框架,机会在哪?

王宁:OpenClaw给国内大模型厂商带来了新的机会,国内模型价格大概只有海外模型的1/10,能力上又相差无几,特别适合”龙虾”场景。

企业级Agent也有一些新的机会。国内已有不少国企和私企寻求将智能体产品在公司内普及,并与内部系统打通,需求涵盖办公自动化、OA、财务、ERP和数据安全等场景。

黄超:国内一直有应用创新基因,有信心国内机构能打造出下一代真正成为打工人的智能体。

五、世界模型的多重路径:视频生成、多模态原生统一、3D生成

语言只是人类感知世界的通道之一,图像、声音、3D空间等多模态才构成了物理世界的原始语言。

在世界模型方向,三位嘉宾从不同角度的分享,拼在一起很有意思。

1、智象未来姚霆:多模态创作智能体走向全模态,即将发布HiDream-O1-Image图像大模型

智象未来(HiDream.ai)联合创始人兼CTO姚霆分享说,随着语言模型与多模态大模型能力飞速跃升,多模态创作智能体的技术底座已基本成型,并将走向全模态世界模型。

AI最疯狂的一周,该知道的8大共识都在这了

▲姚霆

通用智能体的核心能力是:上下文管理、工具调用、开放域对话与任务自动化,典型场景如定闹钟、订外卖、制定旅行规划。

在此基础上,多媒体创作智能体还需解决专业性、协作性、一致性与可控性问题。其典型任务包括图文内容创作、视频高光时刻剪辑、从故事到脚本到分镜再到成片的完整视频生成链路等。

当前多模态生成模型的主流架构存在一个缺陷:文本编码与视觉编码相互独立,信息交互单向,且视觉VAE编码器会造成信息损失。

下一代架构的核心思路是将所有模态统一输入到一个Unified Transformer,同时完成理解与生成,实现无损编码+原生交互,走向“原生全模态”。

基于上述架构,智象未来即将发布HiDream-O1-Image系列模型,并将开源一个8B参数量的版本,该开源模型在6项基准测试中达到与FLUX.2、Qwen-Image同量级甚至略优的水平,并适配本地部署和低代码智能体调用场景,同步,智象未来以此架构为基础,逐步构建智象下一代世界模型。

围绕多媒体创作需求,智象未来提出HiDream Agent OS基础设施,分为工具层、Skill层、Harness层,可实现工具、创意、经验可复用。

该团队已推出全能创作智能体vivago Agent、视频剪辑智能体HiClip Agent、影视创作智能体帧赞等智能体工具,其中帧赞已累计制作AI短剧漫剧超过5000分钟。

姚霆认为,多媒体创作智能体的终极目标,是让创作回归灵感本身,将重复性、工具性的工作交给智能体,让人专注于真正属于人的创造力。

2、北京大学袁粒:大语言模型快到头了,多模态原生统一才是未来方向

北京大学深圳研究生院助理教授&研究员、博士生导师袁粒认为,大语言模型已逼近极限,多模态原生统一才是未来,没有多模态原生统一,就没有真正的世界模型。

同时,他认为将token翻译成“词元”是默认大模型以语言为中心,这也是为什么GPT-5数不清人有几根手指,大模型只专注语言这一模态,无视其他物理模态(比如视觉),无法真正让其走向物理AI。

多模型协作的方式在数字世界尚可运行,但在物理世界存在两大致命缺陷——高延迟和信息损失。以机器人搬水为例,这个任务对人类来说很简单,当前绝大多数机器人仍无法流畅完成。

人类大脑构建的世界模型天然是多模态、统一的。当前所谓的“世界模型”,本质上仍是单模态模型。只有实现多模态原生统一,才能构建出真正理解物理世界的世界模型。

AI最疯狂的一周,该知道的8大共识都在这了

▲袁粒

构建多模态原生统一架构,面临五大技术挑战:如何定义“原生多模态”、自回归建模与扩散建模融合、多模态视觉编码器统一、消解模态冲突、训练数据清洗和标注等。

袁粒团队在多模态理解、生成、架构与统一方向均有一些代表性工作。例如,其Helios原生实时视频架构采用自回归+扩散Transformer,无需KV Cache等加速技巧,单卡可达近实时生成。

袁粒还展示了由其课题组多模态统一方法生成的图像,无论是现实复杂场景生成还是数学虚拟生成都远超其余同期模型水平。

3、VAST梁鼎:3D+视频,或许才是世界模型的终态

VAST CTO梁鼎分享说,3D生成模型正在从单点能力走向完整的生产管线覆盖,高模与低模两条关键技术路线并行发展,Tripo大模型在游戏、工业、家装、潮玩等行业已产生实质影响,VR/XR与具身智能仿真环境的建设也高度依赖3D能力。

围绕这两条技术路线和对应生产需求,VAST已经推出了行业SOTA的两款AI3D大模型:Trpo H3.1和Tripo P1.0。

Tripo H3.1追求高视觉质量与贴图精细度,适用于3D打印、工业设计、实体制造等对视觉还原度要求高、无需实时渲染的场景。

Tripo P1.0专为实时渲染引擎设计,核心优势包括直接从图片生成低模、生成速度快、生成结果具备拓扑友好和UV友好的特性等,适用于游戏管线制作、UGC生成式玩法、移动端3D资产生成等。

AI最疯狂的一周,该知道的8大共识都在这了

▲梁鼎

单个资产的生成只是起点,完整的3D制作管线还涉及部件拆分、贴图编辑、骨骼绑定等环节。目前低模上的拆件与绑骨能力、场景级别的自动化生成、从视频中提取动画的能力等仍待突破。

当前世界模型的构建存在两派:视频原生派与3D原生派。这与早年3D生成领域2D升维与3D原生的路线之争很相似。视频路线的优势是生成效果好、训练数据充足,但存在长时序记忆难、多人一致性难、推理成本高等局限性。3D路线的难点在于制作门槛与画质上限。

梁鼎认为,两条路线最终很可能走向融合,世界模型的终态或许是3D与视频共同驱动的统一方案,3D在其中将扮演不可或缺的结构性角色。


点赞
收藏
参与评论
相关推荐
全部评论

0条评论

    暂时没有人评论