上周,,,,全球天下模子权威评测系统WorldArena宣布了Track-1(视频质量赛道)的最终效果。。。。
来自中国的“无界天下模子”(Boundless World Model,,,,BWM)一鸣惊人——开源版本BLM得分64.54,,,,在13个参评模子中斩获全球第一;;;;;;闭源版本BWM-Fast得分67.87,,,,在总计86个参评模子中位列全球第二,,,,距离榜首仅差0.39分。。。。
这份榜单从视觉质量、运动质量、物理遵照性、内容一致性、三维空间准确性及可控性六大维度、16项细分指标举行综合评估。。。。参赛阵容堪称豪华:Google、NVIDIA、高德、智元机械人、生数科技、极佳视界、流形空间、北京人形机械人立异中心……海内外顶尖团队悉数加入。。。。
WorldArena Track-1 最终排名:BLM开源第一,,,,BWM-Fast总榜第二(数据泉源:WorldArena官方榜单)
值得注重的是,,,,BWM并非出自算力堆叠的大厂之手,,,,而是由欧洲科学院外籍院士、同济大学盘算机科学与手艺学院院长申恒涛教授牵头,,,,国家级青年人才朱磊及其团队,,,,联合考拉悠然、上海码极客配合研发。。。。团队基于阿里巴巴开源的Wan2.2-TI2V-5B视频天生模子,,,,以50亿参数的小体量,,,,跑赢了诸多规模远超自己的敌手。。。。
新闻传出后,,,,AI圈的反映可以用两个字概括:意外。。。。在“算力即正义”的叙事之下,,,,一条不堆算力的“巧劲”蹊径凭什么登顶全球???
天下模子:AI的“物理直觉”从何而来
要明确BWM的意义,,,,先得搞清晰“天下模子”究竟在做什么。。。。
若是你看过波士顿动力的机械人视频,,,,可能会有一个疑问:那些流通的行动、精准的抓取,,,,究竟是提前编好的程序,,,,照旧机械人真的“明确”了物理天下???这个问题的谜底,,,,指向AI领域最前沿也最棘手的偏向之一——天下模子。。。。
天下模子的野心很大:让AI不但“望见”画面,,,,还能“预见”接下来会爆发什么。。。。给它一张初始照片,,,,再告诉它“机械人要把杯子放到桌上”,,,,它就能推演出整个行动历程的视频——就像给AI装了一双能预见未来的眼睛。。。。这个能力一旦成熟,,,,机械人就不需要在真实天下里一次次试错,,,,而是在虚拟天下里先把行动“彩排”一万遍。。。。
2026年,,,,天下模子成了AI圈最炙手可热的赛道。。。。图灵奖得主Yann LeCun与谢赛宁合资建设AMI Labs,,,,据多家媒体报道融资规模达10亿美元级别;;;;;;李飞飞的World Labs一连加码;;;;;;贝索斯建设Project Prometheus押注制造业AI。。。。具身智能也被列入“十五五”未来工业妄想,,,,政策与资源的双重驱动下,,,,全球科技巨头正疯狂涌入。。。。
全球天下模子赛道主要手艺蹊径比照:BWM走的是"行动条件视频天生"蹊径
近两年,,,,天下模子这条赛道有一种显着的“军备竞赛”倾向:模子参数越来越大,,,,训练数据越堆越多,,,,算力卡集群越拉越长。。。。在这种气氛下,,,,BWM团队选择了一条不那么“卷”的蹊径——不靠堆数据和拼算力,,,,而是靠架构立异和数据效率取胜。。。。
详细而言,,,,这条差别化手艺蹊径包括三个层面的立异:
BWM差别化手艺蹊径的三个层面
这里需要睁开诠释一下DiT架构的价值。。。。与古板扩散模子差别,,,,DiT用Transformer替换了原来的卷积主干网络。。。。在处理长视频序列时,,,,注重力机制能够捕获更远距离的时空依赖关系——简朴说,,,,就是让模子在推演第100帧时,,,,还记得第1帧里杯子放在那里。。。。而“动态影象机制”的引入,,,,则进一步缓解了长时序推演中的“灾难性遗忘”问题。。。。
首帧指导机制使用初始帧信息锚定场景,,,,提升视频天生的时空连贯性;;;;;;双通路行动控制调制则将机械人行动轨迹精准映射到视频天生中,,,,实现行动可控的物理仿真。。。。三项立异从场景初始化、长时序影象建模到行动响应控制多维度协同,,,,使BWM在时空连贯性、行动可控性与物理一致性上周全领先。。。。
BWM手艺架构示意:从首帧指导到行动调制,,,,再到动态影象的完整流程
BWM以小参数目跑赢大模子,,,,这在天下模子领域并未几见。。。。它不但是一项手艺效果,,,,更在提醒一个偏向:算力规模并非唯一的入场券,,,,架构原创才是真正的壁垒。。。。
六大场景,,,,磨练“物理直觉”
天下模子好欠好,,,,最终要看它能不可在真实的机械人使命中“靠谱地预判”。。。。BWM在评测中笼罩了六大类典范具身使命场景,,,,每一类都在磨练模子对差别物理交互的建模能力:
空间重排——按巨细排列积木、堆叠碗碟。。。。挑战在于多物体的空间排序与堆叠稳固性。。。。BWM能够坚持物体身份与目的结构,,,,维持稳固堆叠接触,,,,并展望自顺应夹爪控制。。。。
铰链交互——翻开微波炉、掀开条记本电脑。。。。挑战在于铰链约束下的开合动力学,,,,以及旋转历程中物体几何形态的连贯性。。。。BWM在长时序推演中坚持了物体状态的长期性。。。。
细腻操作——拧开关、挂杯子、按铃铛、盖章章。。。。挑战在于极小的接触区域和准确的状态转变交互,,,,要求模子明确物体的可供性——也就是"这个工具能怎么用"。。。。
双臂协同——双手转达积块、交接麦克风。。。。挑战在于双臂同步运动与近距离交接中的碰撞阻止。。。。BWM建模了同步双臂运动,,,,坚持了物体一连性。。。。
长程放置——将物体放入柜子、瓶子扔进垃圾桶。。。。挑战在于长时序场景一致性与遮挡下的物体漂移问题——BWM在遮挡场景下物体不会"凭空消逝"。。。。
漫衍外泛化——团队用GPT-Image-2天生了从未见过的初始场景,,,,叠加原始机械人行动序列让BWM推演未来效果。。。。面临物体外观的强烈转变,,,,BWM仍然坚持了行动驱动的动力学一致性和交互连贯性。。。。这意味着模子并不是靠"背题"拿到高分,,,,而是真正学到了某种水平的物理纪律——即便面临训练历程中没见过的场景外观,,,,它依然能沿着给定的行动序列,,,,合理地推演出接下来会爆发什么。。。。用更通俗的话说:模子拥有了一定水平的“物理直觉”。。。。
空间重排:积木按巨细排序
铰链交互:翻开微波炉
细腻操作:悬挂杯子
双臂协同:转达积块
长程放置:物体放入柜子
漫衍外泛化:未见场景推理
BWM在WorldArena评测中的六大场景天生效果(泉源:GitHub开源项目)
这些场景的难度在于,,,,它们不是简朴的视频天生,,,,而是基于给定行动序列的物理仿真。。。。模子需要明确“力”与“运动”的关系,,,,需要预判行动的效果,,,,需要对三维空间有准确感知。。。。这正是天下模子区别于通俗视频天生模子的焦点能力。。。。
WorldArena六大评测维度体现比照:BWM在物理遵照性和可控性上体现突出
开源与闭源并举,,,,天下模子需要生态
当宿天下模子行业保存一个显着的痛点:学术效果难验证,,,,顶尖手艺难复现。。。。许多团队在论文里报告的效果令人印象深刻,,,,但外界既无法复现,,,,也难以判断真实能力界线在那里。。。。
BWM团队接纳的战略是开源与闭源并行——开源版本BLM释放可复现的手艺底座,,,,降低科研与开发门槛;;;;;;闭源版本BWM-Fast则一连探索模子性能上限,,,,验证手艺蹊径的竞争力。。。。
阻止发稿,,,,BLM的模子权重、推理代码已在GitHub和Hugging Face同步开放,,,,训练代码也在逐步释出中。。。。GitHub客栈已收获凌驾1600颗Star。。。。当足够多的研究者和开发者基于统一套开源底座做实验、提issue、孝顺代码,,,,天下模子的迭代速率将会显著加速。。。。
从更大的行业视角来看,,,,天下模子赛道正在从“要不要做”进入“怎么做”的深水区。。。。LeCun的JEPA蹊径、李飞飞的3D天生蹊径、华为系团队的类脑认知蹊径、以及BWM所代表的行动条件视频天生蹊径——差别的手艺路径正在交汇和分化。。。。
英伟达机械人偏向认真人Jim Fan在红杉AI Ascent 2026大会上抛出了一个极具争议的论断:“VLA已死,,,,WAM当立”。。。。随后,,,,复旦大学团队联合新加坡国立大学揭晓综述《World Action Models: The Next Frontier in Embodied AI》,,,,与Jim Fan的论断遥相呼应。。。。
无论这场蹊径之争最终走向何方,,,,BWM的效果已经证实晰一件事:在天下模子的竞争名堂中,,,,中国团队不但在场,,,,并且有实力站在最前面。。。。同济大学空间智能团队体现,,,,这套手艺蹊径与全栈能力系统已形成,,,,未来将在空间智能与天下模子焦点问题上一连深度探索。。。。而关于整个行业来说,,,,一个开源、高水平、一连迭代的天下模子底座,,,,或许正是目今最缺的那块拼图。。。。
天下模子的竞争,,,,才刚刚最先。。。。(本文首发钛媒体APP,,,,作者 | AGI-Signal,,,,编辑 | 焦燕)
黄仁勋轻描淡写一句话,,,,让台湾“缺电焦虑”再升温???