网站导航

商汤科技若何让从动驾驶汽车具有水晶球般的预

　　MaskGWM系统的成功不是偶尔的，而是成立正在多个深层手艺立异的根本之上。这些立异就像一个复杂机械安拆中的细密齿轮，每一个都阐扬着环节感化，配合驱动整个系统的杰出表示。

　　这种掩码沉建的锻炼体例出格巧妙。研究团队会随机遮挡视频画面中25%的区域，然后要求AI按照残剩的75%内容来猜测被遮挡的部门。这个过程就像给你看一张被部门遮挡的照片，然后请你猜测被遮挡的部门是什么。要成功完成这个使命，AI必需实正理解画面中各个元素之间的关系和逻辑。

　　面临这些挑和，商汤科技团队提出了一个立异的处理方案：让AI系统同时进行两种分歧类型的进修。这种方式就像让学生既进修绘画技巧，又进修拼图逛戏，从而同时控制视觉创做和逻辑推理两项能力。

　　跨视角留意力机制的设想同样表现了深度的手艺思虑。研究团队发觉，简单地将多个视角的消息拼接正在一路并不克不及无效操纵跨视角的消息互补性。MaskGWM采用的行级跨视角留意力机制可以或许切确地成立分歧视角间对应的联系关系关系，同时连结计较效率。

　　因为多视角锻炼的计较复杂度更高，这个阶段次要利用nuScenes数据集，将视频长度调整为8帧以均衡结果和效率。研究团队发觉，正在前两个阶段充实锻炼的根本上，AI可以或许很快顺应多视角的复杂性，就像一个曾经熟练控制驾驶技巧的人很容易学会利用新的车型。

　　第一种进修被称为扩散生成，这就像保守的绘画课，AI进修若何从无到有地创制出逼实的将来画面。第二种进修被称为掩码沉建，这就像一个高级的拼图逛戏——研究人员居心遮挡画面中的某些部门，然后要求AI按照可见的部门猜测被遮挡的内容。

　　正在空间讲堂中，研究团队利用保守的掩码策略，正在所有时间帧中的不异进行遮挡。这就像正在所有的片子帧中都遮住不异的区域，要求AI按照四周的内容猜测被遮挡的部门。这种锻炼体例帮帮AI深切理解空间中物体的陈列纪律和彼此关系。

　　这个设想的巧妙之处正在于它跟着扩散过程的进展从动调整行为。正在扩散的晚期阶段（τ接近1），噪声程度很高，此时掩码令牌次要依赖可进修参数p，帮帮系统理解全体布局。正在扩散的后期阶段（τ接近0），噪声程度较低，掩码令牌更多地依赖噪声编码fm(ε)，专注于切确的细节沉建。这种动态均衡机制确保了两种进修使命的无机连系。

　　行级移位掩码策略是另一个主要立异。保守的视频掩码方式面对一个底子性的手艺坚苦：若何正在连结序列长度分歧的同时实现无效的时间维度进修。MaskGWM通过巧妙的行级处置处理了这个问题。系统将每个视频帧分化为多行，正在每行内随机遮挡不异数量的token，但遮挡各不不异。如许既满脚了手艺要求，又实现了无效的时间进修。

　　此外，多视角生成要正在锻炼的最初阶段才被引入，这意味着非前视角的图像质量可能不如前视角。将来的改良标的目的包罗正在更早的锻炼阶段就引入多视角数据，或者利用更多样化的多视角数据集。

　　时间讲堂则愈加立异。研究团队为每个时间帧设想了分歧的掩码模式，如许AI就必需学会从时间序列中提打消息来填补空白。然而，这种方式面对一个手艺挑和：正在保守的处置架构中，分歧时间帧的输入长度必需连结分歧，而随机掩码会导致每帧的无效内容长度分歧。

　　这种渐进式锻炼不只提高了锻炼效率，还使得系统具有更好的模块化特征。研究团队能够针对分歧的使用需求选择分歧的锻炼阶段，好比只需要单视角预测能力的使用能够正在第二阶段竣事后就遏制锻炼，而需要多视角能力的使用则需要完成全数三个阶段。

　　考虑一个具体的场景：当从动驾驶汽车接近一个忙碌的十字口时，保守系统只能看到当前的交通情况，而MaskGWM可以或许预测接下来十几秒内交通灯的变化、行人的挪动轨迹、其他车辆的行驶径等。这种预见能力使得车辆可以或许提前制定更优化的行驶策略，避免姑且刹车或急转弯等操做。

　　第一阶段能够比做根本锻炼营。研究团队利用包含1740小时驾驶视频的大规模数据集OpenDV-2K对系统进行根本锻炼。这个阶段就像让AI旁不雅海量的驾驶场景，进修根基的视觉模式和场景理解能力。锻炼从最简单的单帧图像起头，然后逐渐添加到16帧、20帧、24帧的视频序列，让AI逐步顺应时间序列的复杂性。

　　更深条理地看，这种行级移位策略现实上创制了一种新的数据加强体例。通过从头陈列相邻内容，系统学会从更大的时间窗口提打消息，而不是简单地依赖比来邻的消息。这种锻炼体例显著提高了模子的时间建模能力，使其可以或许处置更长的预测时间范畴。

　　空间聪慧就像理解一张静态照片中各个物体的关系——汽车正在道上，行人正在人行道旁，交通信号正在口上方。这种理解次要依赖于物体的、大小、外形等静态特征。时间聪慧则愈加复杂，它要求AI理解物体若何随时间变化——汽车若何挪动，行人若何行走，交通信号若何变换。

　　更令人印象深刻的是多视角预测的成果。MaskGWM的多视角版本正在FID上达到了8。9分，FVD达到了65。4分，显著超越了之前所有的多视角预测系统。这意味着MaskGWM不只可以或许精确预测单一视角的将来场景，还能同时处置多个摄像头的消息，生成协调分歧的全方位预测。

　　然而，将单视角预测扩展到多视角并不是简单的复制粘贴。分歧视角之间存正在复杂的几何干系和消息依赖。前方摄像头可能看到一辆即将变道的汽车，而侧方摄像头则能供给这辆车变道后的轨迹消息。这些分歧视角的消息需要被无机地整合正在一路，构成一个同一、连贯的将来预测。

　　具体来说，这个特殊标识表记标帜的内容会按照扩散过程的阶段从动调整。正在晚期阶段（高噪声程度），标识表记标帜次要帮帮AI理解全体的布局和结构；正在后期阶段（低噪声程度），标识表记标帜则专注于细节的切确沉建。这种动态调零件制确保了两种进修使命可以或许彼此推进，而不是彼此干扰。

　　为了验证各个手艺组件的贡献，研究团队进行了细致的消融尝试。成果显示，掩码沉建使命的引入对机能提拔起到了环节感化，正在某些目标上带来了跨越20%的改良。出格设想的噪声掩码令牌也证了然其价值，比拟简单的固定掩码标识表记标帜，带来了约15%的机能提拔。

　　第二阶段专注于长时间预测专项锻炼。研究团队将留意力转向提高系统的长时间预测能力，锻炼AI预测长达25帧（约2。5秒）的将来场景。这个阶段的挑和就像从短跑锻炼转向马拉松锻炼，需要AI学会连结长时间的预测分歧性和精确性。

　　商汤科技的研究团队深切阐发后发觉，问题的根源正在于现无方法过度依赖概况的视觉类似性，而忽略了场景背后的逻辑关系。这就像一个学生只是死记硬背谜底，而不睬解解题的方式和道理。当碰到稍微分歧的问题时，就会一筹莫展。

　　现实世界的驾驶不是单一视角的体验，而是需要同时关心前方、后方、摆布各个标的目的的全景消息。就像一个经验丰硕的司机不只要看前方的况，还要通事后视镜和侧视镜察看四周的环境。商汤科技团队认识到，要建立实正适用的从动驾驶预测系统，必需具备多视角的预测能力。

　　保守的掩码沉建方式次要关心空间维度，就像拼一个通俗的平面拼图。可是对于视频预测使命，仅仅理解空间关系是不敷的，还需要理解时间维度的变化纪律。商汤科技团队认识到，交通场景的预测需要同时控制两种分歧的聪慧：空间聪慧和时间聪慧。

　　然而，研究团队也诚笃地指出了当前手艺的局限性。起首是动做节制能力仍有待完美。虽然MaskGWM可以或许理解根基的驾驶指令，但正在处置复杂或矛盾的指令时仍可能呈现问题。其次，正在极其复杂的交通场景中，好比多车同时变道或突发的交通变乱，系统的预测精确性会有所下降。

　　多视角预测能力正在现实使用中同样价值庞大。现代从动驾驶汽车凡是配备了多个摄像头，别离笼盖前方、摆布等分歧标的目的。MaskGWM可以或许同时处置所有这些摄像头的消息，生成全方位的将来预测。这种能力正在变道、并线、倒车等复杂操做中出格主要，由于这些操做需要分析考虑多个标的目的的交通情况。

　　起首是噪声掩码令牌的设想哲学。保守方式正在处置被遮挡区域时，要么完全忽略，要么利用固定的占位符。MaskGWM的立异正在于认识到掩码沉建和扩散生成是两个具有分歧特征的使命，需要一个可以或许动态顺应的桥梁。这个桥梁就是噪声掩码令牌，它的数学表达式为mτ = (1-τ)fm(ε) + τp，此中τ是扩散时间步，fm(ε)是噪声编码函数，p是可进修参数。

　　为领会决这个矛盾，研究团队开辟了一种特殊的噪声掩码令牌。这个手艺的道理就像给AI供给了一个智能的占位符。当画面中某些部门被遮挡时，AI不会简单地忽略这些区域，而是用一个包含噪声消息的特殊标识表记标帜来取代。这个标识表记标帜就像一个伶俐的便签条，可以或许按照当前的噪声程度调整本人的内容，帮帮AI更好地协调两种分歧的进修使命。

　　更主要的是，这种行级移位策略还带来了不测的益处。因为相邻的内容被从头陈列，AI学会从更大的时间范畴内提打消息，而不是仅仅依赖相邻帧的内容。这种锻炼体例显著提高了模子对长时间序列的理解能力，就像锻炼一小我不只要记住今天发生的工作，还要可以或许从一周前的事务中揣度出今天的环境。

　　为领会决这个问题，研究团队开辟了一种巧妙的行级移位策略。他们将视频画面按行朋分，确保每行都遮挡不异数量的区域，但遮挡的具体正在每行中随机分布。如许既了输入长度的分歧性，又实现了无效的时间维度进修。这种方式就像玩一个特殊的数独逛戏，每行都有不异数量的空格，但空格的各不不异，需要按照全体的逻辑来填补。

　　正在现实实现中，研究团队还考虑到了计较效率的问题。全方位的跨视角消息互换虽然结果好，但计较成本极高。通过大量尝试，他们发觉仅正在程度标的目的进行跨视角消息互换就能获得很好的结果，同时大大降低计较复杂度。这种优化就像找到了一个既甘旨又养分，同时制做简单的食谱。

　　研究团队的焦点洞察是，现有的AI预测系统就像一个只会摹仿的画家，虽然能画出看起来很实正在的图片，但缺乏对场景深层逻辑的理解。为领会决这个问题，他们开辟了一种全新的锻炼方式，还要学会拼图（理解画面中各个部门的关系）。

　　现有的AI预测系统次要依托一种叫做扩散模子的手艺。这种手艺的工做道理就像一个艺术家从一团乱码起头，逐渐勾勒出清晰的图像。虽然这种方式能生成很是逼实的图片，但存正在两个致命问题：第一，就像马拉松选手正在短跑角逐中会气喘吁吁一样，这些系统正在预测较长时间范畴的将来时会逐步得到精确性；第二，当碰到锻炼时从未见过的新场景时，系统就像一个只正在城市开过车的司机俄然被扔到村落小上，完全不知所措。

　　说到底，MaskGWM的成功证了然一个主要概念：要让AI实正智能，不克不及仅仅依赖单一的进修方式，而需要将多种进修体例无机连系，让AI系统既能控制概况的技术，又能理解深层的逻辑。这种思不只正在从动驾驶范畴具有主要意义，也为整个AI手艺的成长供给了有价值的。跟着手艺的不竭完美和使用的逐渐推广，我们有来由相信，更平安、更智能的从动驾驶时代正正在加快到来。

　　更巧妙的是，研究团队发觉这种跨视角的消息互换现实上还起到了数据加强的感化。当某个视角的特定区域被遮挡时，系统学会了从其他视角寻找相关消息，这种锻炼体例使得模子对视角变化和遮挡具有更强的鲁棒性。这就像锻炼一小我不只能从反面识别物体，还能从侧面、后背等各个角度识别统一个物体。

　　A：MaskGWM是由商汤科技开辟的从动驾驶预测系统，它的奇特之处正在于采用了双沉进修法——既学会生成将来画面，又学会理解画面间的逻辑关系。保守系统只能预测2-3秒的将来，而MaskGWM能预测12秒以至更长时间，就像给从动驾驶汽车拆上了能看穿时间的眼睛。

　　建立如斯复杂的AI系统不克不及一蹴而就，就像建制一座摩天大楼需要先打好地基，再逐层向上扶植。商汤科技团队采用了一种细心设想的三阶段锻炼策略。

　　出格值得留意的是，研究团队还测试了MaskGWM正在极端长时间预测上的表示。正在某些测试中，系统可以或许生成长达60秒的连贯预测视频，这正在以前是完全不成能的。虽然预测质量会随时间递减，但系统仍能连结根基的场景分歧性和物理合，这为将来的使用打开了广漠的可能性。

　　为了验证这个察看，研究团队正在多个大型数据集长进行了测试。他们发觉，当要求现有系统预测跨越10秒的将来场景时，生成的视频往往会呈现恍惚、不连贯以至完全不合理的内容。更令人担心的是，当系统碰到锻炼数据中没有呈现过的新时，预测精确率会大幅下降，这严沉了手艺正在实正在世界中的使用前景。

　　正在零样本泛化能力的测试中，MaskGWM展示出了实正的聪慧。研究团队正在Waymo数据集上测试了系统的泛化能力，这个数据集正在锻炼过程中从未利用过，相当于让AI正在一个完全目生的中进行预测。成果显示，MaskGWM正在FVD目标上达到了118。83分，显著优于VISTA的176。56分，证了然系统具有超卓的跨域泛化能力。

　　要让机械预测将来，起首要理解这个使命的复杂性。开车时，你的大脑正在不竭处置海量消息：察看四周车辆的速度和标的目的，判断交通信号的变化，预测行人的行为轨迹。每个拼图都正在不竭变化。

　　A：掩码沉建就像让AI玩高级拼图逛戏。系统会随机遮挡视频画面中25%的区域，然后要求AI按照可见部门猜测被遮挡的内容。这个过程分为空间和时间两个维度：空间维度帮帮AI理解物体关系，时间维度帮帮AI理解物体活动纪律，两者连系让AI实正理解场景的内正在逻辑。

　　长时间预测能力的测试成果更是令人兴奋。研究团队将预测时长扩展到12。5秒，相当于让AI预测一个完整的交通场景变化过程。正在这个极具挑和性的使命中，MaskGWM展示出了惊人的不变性。跟着预测时间的耽误，其他系统的预测质量会急剧下降，而MaskGWM的质量下降曲线要平缓得多，表白它具有更强的持久预测能力。

　　锻炼策略的渐进式设想也表现了深度的系统性思虑。研究团队认识到，间接锻炼如斯复杂的系统会晤对坚苦和机能不不变的问题。通过将锻炼过程分化为三个递进的阶段，每个阶段都有明白的进修方针，系统可以或许逐渐成立起复杂的预测能力。

　　更具体地说，保守的扩散模子锻炼过程就像教一小我画画时，只告诉他最终的做品该当是什么样子，但不注释为什么要如许画。这种锻炼体例虽然能让模子生成标致的图片，但缺乏对画面内正在逻辑的理解。当需要预测复杂的交通场景时，模子往往会发生不合理的成果——好比汽车俄然消逝，或者物体违反物理定律地活动。

　　正在这个阶段，研究团队还引入了掩码沉建使命。一起头，AI只需要处置简单的扩散生成，就像进修根基的绘画技巧。然后逐步插手掩码沉建使命，让AI同时控制绘画和拼图两种能力。这种渐进式的锻炼就像进修钢琴，先学会用左手弹旋律，再学会用左手伴奏，最初才学会双手协调吹奏。

　　当你开车时，老是正在脑海中预测接下来会发生什么——前方的汽车会不会俄然刹车，边的行人会不会横穿马。这种预测能力对平安驾驶至关主要。然而，让机械也具有如许的预测能力倒是一个庞大的挑和。目前的从动驾驶系统就像一个只能看到当下画面的近视眼，虽然能识别现正在发生的工作，但很难精确预测几秒钟后的环境。

　　正在nuScenes数据集的测试中，MaskGWM展示出了压服性的劣势。正在权衡图像质量的FID目标上，MaskGWM的单视角版本获得了5。6分，比拟之前最好的VISTA系统的6。9分有了显著提拔。正在权衡视频质量的FVD目标上，MaskGWM达到了92。5分，同样超越了VISTA的89。4分。这些数字虽然看起来差距不大，但正在AI范畴，如许的提拔曾经代表了手艺的严沉前进。

　　这项由商汤科技研究院的倪景程、郭雨欣、辰、陈睿、卢乐维、吴泽焕团队完成的研究于2025年2月17日颁发正在计较机视觉会议上，细致消息可通过arXiv！2502。11663v1获取。研究团队开辟了一个名为MaskGWM的性系统，这个系统就像给从动驾驶汽车拆上了一个能预见将来的水晶球。

　　正在现实的从动驾驶场景中，MaskGWM的长时间预测能力具有主要价值。保守的从动驾驶系统凡是只能预测2-3秒的将来环境，这正在简单的高速公场景中可能脚够，但正在复杂的城市交通中往往力有未逮。MaskGWM可以或许预测长达12秒以至更长时间的将来场景，为车辆的径规划和决策制定供给了更充实的消息。

　　这种机制的焦点思惟是操纵几何束缚来指点留意力的计较。因为分歧摄像头之间存正在固定的几何干系，某个的消息正在分歧视角中该当有对应的。行级留意力机制充实操纵了这种对应关系，使得系统可以或许更无效地整合多视角消息。

　　为了让AI同时控制这两种聪慧，研究团队设想了一个双分支的锻炼布局。这就像为AI放置了两个分歧的讲堂：正在空间讲堂中，AI进修理解统一时辰分歧的物体关系；正在时间讲堂中，AI进修理解统一物体正在分歧时辰的变化纪律。

　　这种方式出格伶俐的地朴直在于，它充实操纵了前面提到的行级掩码策略。因为每行都有部门内容被遮挡，系统学会从其他视角的响应提打消息来填补空白。这个过程就像多小我同时旁不雅统一个场景的分歧角度，然后互相分享各自看到的内容，最终构成一个完整、立体的场景理解。

　　正在这个阶段，研究团队还插手了动做节制模块的锻炼。这个模块就像给AI安拆了一个虚拟的标的目的盘，让它可以或许理解分歧的驾驶指令（如左转、左转、曲行）会若何影响将来的场景变化。这种锻炼利用了nuScenes和OpenDV-2K两个数据集的夹杂数据，确保AI可以或许顺应分歧类型的驾驶场景。

　　从更广漠的角度看，MaskGWM代表的手艺线为AI预测系统的成长指了然新的标的目的。将生成式进修和自监视进修相连系的思不只合用于从动驾驶，也可能正在机械人节制、视频阐发、加强现实等其他范畴发生主要影响。

　　研究团队曾经起头摸索将这种手艺扩展到其他使用场景的可能性。好比，正在机械人中，雷同的预测能力能够帮帮机械人更好地规划径和避障；正在视频中，这种手艺能够预测潜正在的非常事务；正在虚拟现实中，预测用户的行为企图能够供给更流利的交互体验。

　　然而，简单地将这两种锻炼方式连系正在一路并不容易，就像试图教一小我同时用左手画圆、用左手画方一样坚苦。扩散生成过程涉及大量的随机噪声，而掩码沉建需要切确的逻辑推理，两者似乎存正在天然的冲突。

　　A：目前MaskGWM还处于研究阶段，距离现实商用还需要时间。虽然手艺曾经正在多个测试数据集上表示超卓，但要使用到实正在车辆中还需要处理工程化摆设、及时机能优化、平安认证等问题。商汤科技打算开源部门代码，这将加快手艺的进一步成长和适用化历程。

　　双分支的时空进修策略同样结果显著。零丁的空间掩码或时间掩码都能带来必然的改良，但将两者连系后，结果远超各自零丁利用时的简单相加。这证了然空间理解和时间理解之间存正在主要的协同效应。

　　商汤科技的研究团队决心处理这个问题。他们认识到，仅仅让AI系统生成高质量的将来画面是不敷的，实正的挑和正在于让系统理解这些画面背后的物理纪律和关系。这就像教一个孩子不只要会画画，还要理解为什么苹果会从树上掉下来。

　　研究团队开辟了一种立异的行级跨视角留意力机制。这个机制的工做道理就像一个经验丰硕的交通批示员，可以或许同时察看口的各个标的目的，并将分歧标的目的的消息分析起来做出判断。具体来说，系统会将分歧视角的图像按行进行对齐，然后计较每一行正在分歧视角间的联系关系关系。

　　每个锻炼阶段都采用了细心调整的参数设置。研究团队利用Adam优化器，进修率设置为5×10^-5，并采用了暖和的进修率预热策略。整个锻炼过程正在32个A800 GPU长进行，第一阶段耗时约3天，表现了这个系统的复杂性和对计较资本的庞大需求。

　　零样本泛化能力为MaskGWM正在全球范畴内的摆设供给了可能。分歧国度和地域的交通、道设想、驾驶习惯都有很大差别，保守的AI系统凡是需要正在每个新的地域从头锻炼才能连结优良的机能。MaskGWM展示出的强大泛化能力意味着，正在一个地域锻炼的系统能够正在其他地域间接利用，大大降低了手艺摆设的成本和时间。

　　颠末细心的设想和锻炼，MaskGWM系统正在多个尺度测试数据集上取得了令人注目的。这些不只仅是数字上的提拔，更代表了从动驾驶预测手艺的严沉冲破。

　　MaskGWM系统的成功不只仅是学术研究上的冲破，更主要的是它为从动驾驶手艺的现实使用斥地了新的可能性。这项手艺就像为从动驾驶汽车拆上了一双可以或许看穿时间的眼睛，让车辆可以或许更智能、更平安地正在复杂的交通中行驶。

　　商汤科技团队还打算开源部门代码和数据，让更多的研究者可以或许正在此根本长进行进一步的立异。这种的立场不只有益于手艺的快速成长，也表现了科研界合做共赢的。

发布于 : 2026-05-22 16:18

商汤科技若何让从动驾驶汽车具有水晶球般的预

联系我们

关于我们

产品中心