凯时AG

泉æºï¼šå¥³ç”ŸèƒŒç€å几斤试å·èµ°å‡ºç§‘场作者: 郑智钧:

端到端之åŽï¼Œï¼Œ,,,,AI 智驾进入“造天下â€é˜¶æ®µ

图片系 AI 生产

克日,,,,,,CVPR 2026 在美国丹佛开幕。。。。。作为盘算机视觉领域最主è¦çš„学术èšä¼šä¹‹ä¸€ï¼Œï¼Œ,,,,CVPR 一直被视为 AI æ‰‹è‰ºæ¼”è¿›çš„é£Žå‘æ ‡ã€‚。。。。今年,,,,,,一个显ç€è½¬å˜æ˜¯ï¼Œï¼Œ,,,,AI 的焦点正在从“识别天下â€è¿›ä¸€æ­¥è½¬å‘“明确天下ã€å±•望天下并与天下互动â€ã€‚。。。。

这一趋势在自动驾驶领域体现得尤为直接。。。。。今年 CVPR 首次开设具身智能基座模å­å®‰æŽ’钻研会,,,,,,特斯拉 AI è½¯ä»¶å‰¯æ€»è£ Ashok Elluswamyã€å°é¹é›†å›¢é€šç”¨æ™ºèƒ½ä¸­å¿ƒè®¤çœŸäººåˆ˜å…ˆæ˜Žç­‰æ¥è‡ªå·¥ä¸šä¸€çº¿çš„æ‰‹è‰ºè®¤çœŸäººï¼Œï¼Œ,,,,分享了å„自团队在具身智能和自动驾驶基座模å­ä¸Šçš„希望。。。。。

Ashok Elluswamy é‡ç‚¹è®¨è®ºçš„æ˜¯ç‰¹æ–¯æ‹‰æ€Žæ ·æž„建é¢å‘机械人的基座模å­ï¼Œï¼Œ,,ï¼Œï¼ŒåŒ…æ‹¬å¤§è§„æ¨¡å¤šæ¨¡æ€æ¨¡å­çš„æž¶æž„ã€æ•°æ®ä¸Žè®­ç»ƒï¼Œï¼Œ,,,,以åŠä»Žåƒç´ è¾“入到执行控制的端到端 “pixels-to-actuation†è¦é¢†ï¼Œï¼Œ,,ï¼Œï¼ŒåŒæ—¶ä¹Ÿæ¶‰åŠè¯„测åè®®ã€æ¸…é™è€ƒé‡å’ŒçœŸå®žå¤©ä¸‹å¯é å®‰æŽ’。。。。。

相比学术看法自己,,,,,,更值得关注的是车ä¼å¯¹ AI æ™ºé©¾åº•å±‚èƒ½åŠ›çš„é‡æ–°ç•Œè¯´ã€‚。。。。当模å­ä¸å†åªæ˜¯è¯†åˆ«è½¦è¾†ã€è¡Œäººå’Œè½¦é“线,,,,,,而是直接从视频æµã€å¯¼èˆªæŒ‡ä»¤ç­‰è¾“入中输出驾驶行动,,,,,,车ä¼è¯¥æ€Žæ ·åˆ¤æ–­å®ƒçœŸçš„æ˜Žç¡®å¼€è½¦??????åˆè¯¥æ€Žæ ·åœ¨ä½Žæœ¬é’±ã€å¯å¤çްã€å¯æŽ§çš„æƒ…形中验è¯å®ƒçš„æ¸…é™ç•Œçº¿??????

这也是天下模å­åœ¨è¿™æ¬¡ CVPR 上被推到å‰å°çš„é…æ™¯ã€‚。。。。

VLA 之åŽï¼Œï¼Œ,,,,AIéœ€è¦æ˜Žç¡®â€œå¤©ä¸‹çš„转å˜â€

已往一年,,,,,,VLA 是自动驾驶领域最热的手艺è¦å®³è¯ä¹‹ä¸€ã€‚。。。。它试图把视觉ã€è¯­è¨€å’Œè¡ŒåŠ¨ç»Ÿä¸€åˆ°ç»Ÿä¸€ä¸ªæ¨¡å­æ¡†æž¶ä¸­ï¼Œï¼Œ,,,,让系统直接从视频æµã€å¯¼èˆªæŒ‡ä»¤ç­‰è¾“入中天生驾驶行动。。。。。简朴说,,,,,,VLA å°±åƒæ˜¯åœ¨å­¦ä¹ äººç±»å¸æ—¶æœºæ€Žä¹ˆå¼€è½¦ã€‚。。。。

刘先明去年曾在 CVPR 先容正在研å‘中的第二代 VLA 模å­ï¼›ï¼›ä¸åˆ°ä¸€å¹´åŽï¼Œï¼Œ,,,,基于该模å­çš„辅助驾驶软件已ç»è¿›å…¥é‡äº§ï¼Œï¼Œ,,,,并在推é€é¦–æœˆå®žçŽ°è¾…åŠ©é©¾é©¶é‡Œç¨‹å æ¯”凌驾 50%。。。。。

但端到端智驾越往å‰èµ°ï¼Œï¼Œ,,,,å¦ä¸€ä¸ªé—®é¢˜è¶Šçªå‡ºï¼šæ¨¡å­å¯ä»¥æ¨¡æ‹Ÿäººç±»é©¾é©¶ï¼Œï¼Œ,,ï¼Œï¼Œå´æœªå¿…真正明确æ¯ä¸ªè¡ŒåЍ之åŽçš„ç‰©ç†æ•ˆæžœã€‚。。。。好比现在选择å˜é“,,,,,,æ—车会ä¸ä¼šè¿«è¿‘??????å‰è½¦çªç„¶å‡é€Ÿæ—¶ï¼Œï¼Œ,,,,系统是å¦è¿˜èƒ½å¹³ç¨³å¤„ç†??????

天下模å­è¦è¡¥ä¸Šçš„,,,,,,正是这层能力。。。。。

刘先明在演讲中æåˆ°ï¼Œï¼Œ,,,,å°é¹ç‰©ç†å¤©ä¸‹åŸºåº§æ¨¡å­æ—¢åŒ…括第二代 VLA,,,,,,也包括天下模å­ã€‚。。。ã€‚äºŒè€…ä¸æ˜¯è¹Šå¾„之争:VLA 学习“怎样行动â€ï¼Œï¼Œ,,,,天下模å­å­¦ä¹ â€œè¡ŒåЍ之åŽå¤©ä¸‹ä¼šæ€Žæ ·è½¬å˜â€ã€‚。。。。

è¿™èƒŒåŽæ˜¯è‡ªåЍ驾驶 AI 范å¼çš„转å˜ã€‚。。。。已往模å­ä¸»è¦ä¾èµ–人类驾驶数æ®ä¸¾è¡Œè¡Œä¸ºå­¦ä¹ ï¼Œï¼Œ,,,,但人类行动信å·ç›¸å¯¹å¸Œç½•,,,,,,åªèƒ½å‘Šè¯‰æ¨¡å­â€œæœ€åŽæ€Žä¹ˆåšâ€ã€‚。。。。天下模å­åˆ™é€šè¿‡å±•望下一帧ã€ä¸‹ä¸€çŠ¶æ€æˆ–未æ¥è¡¨å¾ï¼Œï¼Œ,,,,从海é‡è§†é¢‘中学习交通情形的è¿åŠ¨çºªå¾‹ã€ç©ºé—´å…³ç³»å’Œå› æžœç»“构。。。。。

X-World:让 AI 在视频空间里模拟未æ¥

å°é¹æ­¤æ¬¡é‡ç‚¹å±•示的 X-World,,,,,,是其天下模å­ç³»ç»Ÿä¸­çš„代表性手艺。。。。。凭è¯è®ºæ–‡å½¢è²Œï¼Œï¼Œ,,,,X-World æ˜¯ä¸€ä¸ªå¯æŽ§çš„å¤šæ‘„åƒå¤´å¤©ç”Ÿå¼å¤©ä¸‹æ¨¡å­ã€‚。。。。它的输入包括历å²å¤šè§†è§’æ‘„åƒå¤´è§†é¢‘ã€æœªæ¥è‡ªè½¦è¡ŒåŠ¨ï¼Œï¼Œ,,,,以åŠå¯é€‰çš„动æ€äº¤é€šåŠ å…¥è€…ã€é™æ€è¹Šå¾„元素ã€å¤©æ°”和时间等æ¡ä»¶ï¼›;输出则是未æ¥ä¸€æ®µæ—¶é—´å†…车辆多路摄åƒå¤´å¯èƒ½çœ‹åˆ°çš„视频画é¢ã€‚。。。。

更直白地说,,,,ï¼Œï¼Œå®ƒä¸æ˜¯ç®€æœ´å¤©ç”Ÿä¸€æ®µâ€œåƒè¹Šå¾„â€çš„视频,,,,,,而是在回覆一个驾驶问题,,,,ï¼Œï¼Œè‹¥æ˜¯è½¦è¾†æŽ¥ä¸‹æ¥æ‰§è¡ŒæŸä¸ªè¡ŒåŠ¨ï¼Œï¼Œ,,,,周围天下会酿æˆä»€ä¹ˆæ ·??????

X-World 使用七路环视摄åƒå¤´ï¼Œï¼Œ,,,,包括å‰çª„è§’ã€å‰é±¼çœ¼ã€å‰å·¦ã€å‰å³ã€åŽå·¦ã€åŽå³å’ŒåŽè§†æ‘„åƒå¤´ï¼Œï¼Œ,,ï¼Œï¼Œå½¢æˆ 360 度围绕视野,,,,,,这决议了它è¦è§£å†³çš„æ˜¯å¤šæ‘„åƒå¤´ä¸€è‡´çš„视频仿真。。。。。

论文显示,,,,,,自动驾驶天下模å­çš„难点在于,,,,,,画é¢çœ‹èµ·æ¥çœŸå®žè¿œè¿œä¸æ•·ã€‚。。。。它至少è¦çŸ¥è¶³ä¸‰ä¸ªè¦æ±‚ï¼šè¡ŒåŠ¨å¯æŽ§ã€åœºæ™¯å¯ç¼–辑ã€å¤šè§†è§’一致。。。。。

é¦–å…ˆæ˜¯è¡ŒåŠ¨å¯æŽ§ã€‚。。。。统一个åˆå§‹åœºæ™¯ä¸‹ï¼Œï¼Œ,,,,若是输入å³è½¬ã€å·¦è½¬ã€å˜é“或直行,,,,,,模å­å¤©ç”Ÿçš„æœªæ¥ç”»é¢å¿…éœ€ä¸¥é…·åæ˜ å·®åˆ«é©¾é©¶è¡ŒåŠ¨çš„æ•ˆæžœã€‚。。。。X-World 展示了这ç§èƒ½åŠ›ï¼šæ¨¡å­å¯ä»¥å‡­è¯å·®åˆ«è‡ªè½¦è½¨è¿¹ï¼Œï¼Œ,,,,天生å³è½¬ã€å·¦è½¬ã€è½¦é“åšæŒå’Œå˜é“等差别未æ¥è§†é¢‘。。。。。

这对智驾评测很是主è¦ã€‚。。。。真实蹊径上,,,,,,一辆车在一个路å£åªèƒ½åšå‡ºä¸€æ¬¡é€‰æ‹©ï¼›;但在天下模å­é‡Œï¼Œï¼Œ,,,,统一个场景å¯ä»¥é‡å¤æµ‹è¯•å¤šç§æˆ˜ç•¥ï¼Œï¼Œ,,,,例准期待ã€ç»•行ã€å˜é“或刹åœï¼Œï¼Œ,,,,从而视察差别决议带æ¥çš„æ•ˆæžœã€‚。。。。

其次是场景å¯ç¼–辑。。。。。X-World ä¸ä½†æŽ§åˆ¶è‡ªè½¦è¡ŒåŠ¨ï¼Œï¼Œ,,,,还能控制动æ€äº¤é€šåŠ å…¥è€…å’Œé™æ€è¹Šå¾„元素。。。。。动æ€å·¥å…·åŒ…括车辆ã€è¡Œäººã€è‡ªè¡Œè½¦ï¼Œï¼Œ,,ï¼Œï¼Œé™æ€å…ƒç´ åŒ…括车é“线ã€è¹Šå¾„界线和交通标记。。。。。

è¿™æ„味ç€ï¼Œï¼Œ,,,,研å‘团队å¯ä»¥è‡ªåŠ¨åˆ¶é€ é•¿å°¾åœºæ™¯ã€‚。。。。好比在原本正常通行的蹊径视频中,,,,,,æ’å…¥ä¸€ä¸ªä»Žé®æŒ¡è½¦è¾†åŽæ–¹çªç„¶æ³›èµ·çš„骑行者,,,,ï¼Œï¼Œå†æµ‹è¯•自动驾驶系统是å¦èƒ½å¤Ÿå®žæ—¶åˆ¹åœã€‚。。。。

第三是多视角一致和长时åºç¨³å›ºã€‚。。。。自动驾驶仿真ä¸å¯åªæ˜¯å‰è§†ç”»é¢æµé€šï¼Œï¼Œ,,,,还è¦åŒ…管å‰è§†ã€ä¾§è§†ã€åŽè§†ä¸­çš„车辆ã€è¹Šå¾„ã€ç•Œçº¿å…³ç³»ç›¸äº’一致。。。。。为此,,,,,,X-World 在架构上引入 view-temporal self-attention,,,,ï¼Œï¼ŒåŒæ—¶å»ºæ¨¡æ—¶é—´ç»´åº¦å’Œå¤šæ‘„åƒå¤´è§†è§’之间的关系,,,,ï¼Œï¼Œä»¥åšæŒè·¨è§†è§’几何一致性ã€ç›®çš„身份一致性和è¿åŠ¨ä¸€è¿žæ€§ã€‚。。。。

å°é¹çš„论文中,,,,,,还展示了 24 秒多摄åƒå¤´é•¿åºåˆ—天生,,,,,,强调模å­å¯ä»¥åœ¨è¾ƒé•¿æ—¶é—´å†…åšæŒç”»é¢ç¨³å›ºï¼Œï¼Œ,,ï¼Œï¼Œé˜»æ­¢å¤©ç”Ÿå¼æ¨¡å­å¸¸è§çš„æ¼‚移问题。。。。。

AI 智驾的新分水岭:路测之外,,,,ï¼Œï¼Œè¿˜è¦æœ‰ä»¿çœŸé—­çޝ

从行业角度看,,,,,,天下模å­çš„价值并ä¸åœ¨äºŽâ€œè§†é¢‘天生得多逼真â€ï¼Œï¼Œ,,,,而在于它å¯èƒ½æˆä¸ºç«¯åˆ°ç«¯æ™ºé©¾çš„训练场和科场。。。。。

è¿™ç§è¶‹åŠ¿å¹¶éžå°é¹ä¸€å®¶è½¦ä¼çš„自力判断,,,,,,特斯拉 AI è½¯ä»¶å‰¯æ€»è£ Ashok Elluswamy 也讨论了特斯拉构建机械人基座模å­çš„原则和è¦é¢†ã€‚。。。。这说明,,,,,,全çƒå¤´éƒ¨çŽ©å®¶æ­£åœ¨å½¢æˆç±»ä¼¼å…±è¯†ï¼šè‡ªåЍ驾驶ä¸å†åªæ˜¯è½¦è¾†åŠŸæ•ˆç«žäº‰ï¼Œï¼Œ,,,,而是具身 AI 在真实物ç†å¤©ä¸‹ä¸­æ„ŸçŸ¥ã€å†³è®®ã€è¡ŒåŠ¨å’Œä¸€è¿žå­¦ä¹ çš„é—®é¢˜ã€‚。。。。

差别在于路径差别。。。。。特斯拉更强调以大规模车队数æ®ã€ç«¯åˆ°ç«¯æŽ§åˆ¶å’Œæœºæ¢°äººå¹³å°ä¹°é€šèƒ½åŠ›ï¼›ï¼›å°é¹åˆ™è¯•图通过 VLA 与天下模å­è¿žç³»ï¼Œï¼Œ,,,,补é½å¯æŽ§ä»¿çœŸã€é•¿æ—¶åºæŽ¨æ¼”å’Œå事实测试这一层能力。。。。。

真实蹊径测试本钱高ã€é£Žé™©å¤§ã€å¤çŽ°éš¾ï¼Œï¼Œ,,,,尤其难以笼罩低频å±é™©åœºæ™¯ã€‚。。。。天下模å­åˆ™å¯ä»¥é€šè¿‡å事实推演和场景编辑,,,,,,让统一场景被é‡å¤æµ‹è¯•,,,,,,有数风险被自动结构,,,,,,模å­åœ¨è™šæ‹Ÿæƒ…形中袒露问题。。。。。

这说明,,,,,,AI 智驾竞争已ç»ä¸ä½†æ˜¯å•点算法比拼,,,,,,而是模å­ã€æ•°æ®ã€ç®—力ã€èŠ¯ç‰‡ã€ç¼–译器和工程效率的系统竞争。。。。。å°é¹æŠ«éœ²çš„æ•°æ®æ˜¾ç¤ºï¼Œï¼Œ,,,,其第二代 VLA æ¨¡å­æ‹¥æœ‰æ•°åäº¿å‚æ•°ï¼Œï¼Œ,,,,使用上亿视频片断训练,,,,,,æ¯ç‰ˆæ¨¡å­è®­ç»ƒé‡å‡Œé©¾ 4 万亿 Tokenï¼›;在阻止今年 3 月的一年间,,,,,,å°é¹é›†ç¾¤å• GPU 训练效率æå‡ 1010%,,,,,,å•使命训练效率æå‡ 4360%,,,,,,GPU 硬件使用率从 40%æå‡åˆ° 90%。。。。。

虽然,,,,,,天下模å­è¿˜ä¸å¯è¢«ç®€æœ´ç­‰åŒäºŽçœŸå®žå¤©ä¸‹ã€‚。。。。天生视频稳固,,,,,,ä¸ä»£è¡¨ç‰©ç†çºªå¾‹å®Œå…¨å‡†ç¡®ï¼Œï¼Œ,,,,尤其在æžç«¯å¤©æ°”ã€é‡å¤§åšå¼ˆã€æ–½å·¥æ”¹é“å’Œéžç†æ€§é©¾é©¶åœºæ™¯ä¸­ï¼Œï¼Œ,,,,天下模å­ä»éœ€è¦å¤§å®—çœŸå®žæ•°æ®æ ¡å‡†ã€‚。。。。

因此,,,,ï¼Œï¼Œå®ƒçŸ­æœŸå†…æ›´åƒæ˜¯çœŸå®žè·¯æµ‹ä¹‹å¤–的一层高效增补,,,,,,用于结构长尾场景ã€åšå事实推演ã€å¼€å±•闭环评测和强化学习训练。。。。。未æ¥çš„æ™ºé©¾ç«žäº‰ï¼Œï¼Œ,,,,ä¸ä½†çœ‹è°åœ¨è·¯ä¸Šè·‘得更多,,,,,,也看è°èƒ½åœ¨äº‘端造出更多真实ã€é‡å¤§ã€å¯å¤çŽ°çš„è™šæ‹Ÿå¤©ä¸‹ã€‚。。。。(本文首å‘于钛媒体APP,,,,,,作者|æŽçމé¹ï¼Œï¼Œ,,ï¼Œï¼Œç¼–è¾‘ï½œæ¨æž—)

@刘长冰:欧美片xx软件,,,,ï¼Œï¼Œä¸­å›½è™Žå¤´åŒ…åˆ·å±æµ·å†…外
@æŽæ…ˆé›„:“钢腿女孩â€ç‰›é’°äººæ°‘日报撰文
@钱嘉玲:é™ä»·éƒ½æ•‘ä¸äº†ç‡ƒæ²¹è½¦é—®é¢˜å‡ºåœ¨å“ª

ã€ç½‘站地图】