当前位置：首页 > news >正文

个人做外贸接订单网站电商工作有哪些职位

news 2025/11/14 16:57:13

个人做外贸接订单网站,电商工作有哪些职位,加盟店排行榜加盟项目排行榜,中英文双语网站建设25年2月来自香港科大广州分校、理想汽车和厦门大学的论文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。人类驾驶员能够利用丰富的注意语义#xff0c;熟练地应对复杂场景#xff0c;但当前的自动驾驶系统难以复制这种能…25年2月来自香港科大广州分校、理想汽车和厦门大学的论文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。人类驾驶员能够利用丰富的注意语义熟练地应对复杂场景但当前的自动驾驶系统难以复制这种能力因为它们在将 2D 观测值转换为 3D 空间时经常会丢失关键的语义信息。从这个意义上说这阻碍了它们在动态和复杂环境中的有效部署。利用视觉-语言模型 (VLM) 卓越的场景理解和推理能力VLM-E2E使用 VLM 通过提供注意线索来增强训练。该方法将文本表示集成到鸟瞰图 (BEV) 特征中以进行语义监督这使模型能够学习更丰富的特征表示明确捕捉驾驶员的注意语义。通过关注注意语义VLM-E2E 更好地与类似人类的驾驶行为保持一致这对于在动态和复杂的环境中导航至关重要。此外引入一种 BEV-Text 可学习加权融合策略来解决融合多模态信息时模态重要性不平衡的问题。这种方法动态地平衡 BEV 和文本特征的贡献确保有效利用视觉和文本模态的互补信息。通过明确解决多模态融合中的不平衡问题该方法有助于更全面、更稳健地表示驾驶环境。 VLM-E2E 如图所示近年来自动驾驶取得令人瞩目的进展[1]–[3]在感知[4]–[6]、运动预测[7]–[9]和规划[10][11]等关键领域。这些发展为实现更准确、更安全的驾驶决策奠定坚实的基础。其中端到端 (E2E) 自动驾驶已成为一种变革性范例它利用大规模数据来展示规划能力。通过将原始传感器输入直接映射到驾驶动作E2E 方法绕过手工制作中间模块的需求从而实现更灵活、更可扩展的解决方案。然而尽管取得这些进步传统的端到端自动驾驶方法主要直接预测未来轨迹或控制信号而没有明确考虑驾驶员对交通动态和导航提示等关键信息的注意。 E2E 系统在复杂和模糊场景中经常表现不佳因为它们对高级语义和上下文线索如交通规则、驾驶员注意力和动态交互的推理能力有限。相比之下人类驾驶员依靠注意决策过程其中对周围交通环境和导航指导的注意都起着关键作用 [12]–[14]。例如当接近十字路口时人类驾驶员自然会优先考虑交通信号、行人运动和车道标记并根据不断变化的场景动态调整他们的注意。这一限制促使视觉-语言模型 (VLM) [15]–[18] 集成到自动驾驶框架中。VLM 在庞大的多模态数据集上进行训练擅长需要高级语义推理的任务例如解释复杂场景、预测动态交互和生成上下文描述。它们能够利用常识知识因此特别适合解决自动驾驶中的挑战例如理解交通规则、识别弱势道路使用者以及在模糊场景中做出安全决策。通过生成关键驾驶线索的文本描述VLM 可以明确捕获与人类驾驶员注意相符的兴趣区域并确定其优先级。这种能力使决策更像人类特别是在注意至关重要的安全关键场景中。本文提出 VLM-E2E框架如图所示。输入的场景信息包括多视角图像序列、GT、操控和用户提示。正面图像、操控和用户提示被输入到基于 VLM 的文本标注生成TAG模块以生成描述性文本标注而多视角图像则由视觉编码层处理以产生 BEV 特征。然后这些文本标注被传递到文本交互引导模块TIGM在那里使用预训练的 CLIP 模型将它们编码为文本特征。随后将 BEV 和文本特征融合以支持下游任务例如感知、预测和决策。基于 VLM 的文本注释生成文本注释上图描述从视觉输入中提取驾驶员注意信息的流程利用预训练 VLM 的推理能力。语义注释提取过程可以表述如下 T BLIP_2(P, I_front) (1) 此过程的目标是利用特定于任务的提示以及实时视觉输入从 BLIP-2 中提取可操作和注意信息。这种方法不仅强调了行人、交通信号和动态障碍物等关键元素而且还过滤掉不相关的场景细节确保输出直接支持驾驶决策。工作中采用视觉语言模型 BLIP-2 [25]该模型能够对视觉上下文进行复杂的推理以生成精确且与上下文相关的描述。该模型解释由提示引导的视觉场景并输出文本描述。该方法通过提供驾驶员注意注释来增强数据集的丰富性从而提高下游驾驶模型的理解和决策能力。在确定视觉输入时遇到挑战。也就是说从可以覆盖自车 360 度的多个摄像头中选择正确的图像。考虑到要捕捉驾驶时的驾驶员注意语义前视图图像通常包含大多数驾驶任务所需的最相关信息。全视图图像包含更多影响系统决策的干扰信息因此选择仅使用前视图图像来提取注意信息。此外考虑到自车及其周围环境处于动态运动中以及大型模型固有的幻觉问题用 GT 和机动来细化动态目标的注释。文本交互引导模块驾驶员注意的文本描述保留丰富的视觉语义线索。它与主要表示 3D 几何信息的 BEV 特征相辅相成。因此BEV-Text 融合从 BEV 角度全面理解场景。文本编码器给定一个文本输入 T该文本输入提供语义特征来指导 BEV-Text 融合网络实现指定的融合结果文本交互指导架构中的文本编码器和嵌入负责将此输入转换为文本嵌入。在各种 VLM 中采用 CLIP [26]因为它具有轻量级架构和高效的文本特征提取功能。与其他 VLM 相比CLIP 在计算上要求较低并且生成的文本嵌入具有相对较小的特征维度 77这显著提高后续 BEV-Text 特征融合的效率。从 CLIP 中冻结文本编码器以保持其一致性并利用其预训练知识。这个过程可以正式表示为 f_t CLIP_e(T) (2) 在不同但语义相似的文本中提取的特征应该在简化的欧几里得空间中接近。进一步利用MLP F_m^i 挖掘这种连接进一步映射文本语义信息与语义参数得到 γ_m F_m1 (f_t), β_m F_m^2 (f_t) (3) 2BEV-Text Fusion在语义交互引导模块中语义参数通过特征调制与融合特征 s_t 进行交互从而达到引导的效果。特征调制包括尺度缩放和偏差控制分别从两个角度对特征进行调整。特别地受[58]的启发使用残差连接来降低网络拟合的难度。为简单起见可以将其描述为 x_t (1 γ_m) ⊙ s_t β_m (4) 基于视觉的端到端模型空间时间 BEV 感知在该框架中BEV 表示由多摄像头图像构建而成。时间 t 时输入的多摄像头图像 {I_t1, · · · , I_tn}, n 6 首先通过共享主干网络 EfficientNet-b4 [59] 以提取高维特征图。对于时间 t 时的每个摄像头图像 k得到其编码器特征 ek_t 和深度估计 d^k_tC 表示特征通道数D 表示离散深度值数(H_e, W_e) 表示空间特征大小。隐深度估计用于推断每个像素的深度信息从而可以构建 3D 特征体。由于深度值是估计的因此取特征与深度估计的外积。 eˆ_tk e_tk ⊗ d_t^k (5) 然后为了将 2D 透视特征转换为 3D 空间用特征提升模块。该模块使用相机内参和外参将 2D 特征投影到 3D 体素空间中。然后通过沿垂直轴聚合特征以形成 BEV 视图特征 b_t将 3D 特征体折叠为 2D BEV 表征(H, W) 表示 BEV 特征的空间大小。这是通过基于注意聚合实现的它保留最显着的特征同时保持空间一致性。生成的 BEV 图提供场景的自上而下的视图封装几何和语义信息。除了上面描述的 BEV 构建流水线之外还进一步结合时间建模来增强对场景的动态理解。具体来说给定当前时间戳 t 及其 h 个历史 BEV 特征 {b_t−h, · · · , b_t−1, b_t}首先使用时间对齐模块将历史特征与当前帧的坐标系对齐。此过程利用相邻帧之间的相对变换和旋转矩阵 M_t−i→t。然后将过去的 BEV 特征 b_t−i 进行空间变换为 ˆb_t−i W(b_t−i, M_t−i→t), i 1,2 (6) 随后将 h 个帧中对齐的 BEV 特征连接起来以形成时空输入 ˆb [ˆb_t−h,···,ˆb_t−1,ˆb_t]。为了捕获动态场景中的长期依赖关系使用时空变换模块 F_s。 s_t F_s(ˆb_t−h,··· ,ˆb_t−1,ˆb_t) (7) F_s 是一个具有跨帧自注意的时空卷积单元。时空 BEV 表征明确地模拟场景的静态和动态演变使 BEV 表示能够同时编码几何结构和时间连续性。语义占用预测未来预测模型是一个卷积门控循环单元网络以当前状态 s_t 和训练期间从未来分布中采样的潜变量 η_t 作为输入或以当前分布 P 作为推理。它递归地预测未来状态 (y_t1 , · · · , y_tl)其中 l 表示预测范围。为了对多模态未来轨迹中固有的不确定性进行建模采用受 [60] 启发的条件变分框架。当前分布 P(z|x_t) 仅以当前状态 x_t 为条件。未来分布 P_f (z|x_t, y_t1:tl) 会通过真实未来观测 (y_t1 , · · · , y_tl ) 进行增强。该分布被参数化为对角高斯分布具有可学习的均值 μ 和方差 σ^2M 是潜维度。 P(z|x_t) N(μ_pres, σ_press^2), (8) P_f(z|x_t, y_t1:tl) N(μ_fut, σ_fut^2) (9) 在训练阶段为了确保预测与观察的未来一致同时保留多模态多样性从 P_f (z|x_t, y_t1:tl) 中抽取 η_t然后优化模式-覆盖的 KL 散度损失。 L_KL D_KL(Pf (z|x_t, y_t1:tF )||P (z|x_t)) (10) 这鼓励 P(z|x_t) 包含 P_f 中编码的所有可能未来。在推理阶段未来轨迹是通过从当前分布 η_t ∼ P(z|x_t) 中采样生成的其中每个样本 η_t 代表一个不同的未来假设。这种概率公式使模型能够生成多样化但物理上合理的未来同时保持时间一致性这对于处理无保护左转或行人交互等模糊场景至关重要。融合特征 x_t 由多任务解码器 D_p 处理以生成实例-觉察的分割掩码和运动预测。解码器输出四个关键预测语义分割、实例中心性、实例偏移和未来实例流它们共同实现强大的实例检测、分割和跟踪。语义分割头通过卷积分类器预测逐像素语义类别。这提供对场景布局和目标类别的深入理解。对于实例分割采用混合中心偏移公式 [61]。实例中心头输出热图 H_t指示实例中心的可能性。在训练期间应用高斯核来抑制模糊区域并专注于高置信度中心。实例偏移头预测矢量场 O_t其中每个矢量指向其对应的实例中心。在推理时通过对 H_t 进行非最大抑制NMS提取实例中心。未来实例流头预测位移矢量场 F_t其编码动态智体在未来范围 l 的运动。该流场用于跨时间步传播实例中心确保时间一致性。具体而言检测的实例中心 {ct_i} 通过 cˆ_it1 c_it F_t(c_it) 流扭曲warped到 t 1。然后使用匈牙利算法 [62] 将扭曲的中心 {cˆ_it1} 与 t1 时检测的中心 c_j^t1 进行匹配该算法基于成对 IoU 求解最优分配。这种基于流的匹配即使在遮挡或突然的运动变化下也能实现稳健的跨帧关联。注意力引导的未来规划所提出的运动规划器主要目标是生成确保安全、舒适和高效实现目标的轨迹。为了实现这一目标使用一个运动规划器它可以生成一组运动学上可行的轨迹每个轨迹都使用学习的评分函数进行评估灵感来自 [43]、[63]–[65]。评分函数包含一个概率动态占用场这对于编码潜动作的安全性至关重要。该领域通过惩罚进入已占用区域或过于靠近这些区域的轨迹来鼓励谨慎的驾驶行为从而与周围的障碍物保持安全距离。此外利用在线地图中的概率层来得到评分函数。这些层提供重要信息确保自动驾驶汽车 (SDV) 保持在可驾驶区域内、靠近车道中心并朝正确的方向行驶。特别是在不确定的地区当占用率和道路结构不太可预测时规划器会格外小心谨慎驾驶。此外规划器确保车辆朝着输入高级命令指定的目标前进无论是继续前进、转弯还是导航其他操作。规划器并行评估所有采样的轨迹。每条轨迹 τ 都基于评分函数 f 进行评估该函数考虑多个输入因素包括地图 M、占用率 O 和运动 V。轨迹选择过程公式如下 τ^∗ argminf_τ(τ, M, O, V, w) (11) 评分函数根据多个标准评估每条轨迹例如避开障碍物的安全性、保持平稳运动等乘坐舒适度以及在高级命令的指导下朝着目标前进。通过结合这些因素运动规划器可以有效地选择最能满足所有安全性、舒适性和进度标准的轨迹确保 SDV 以有效和谨慎的方式在复杂环境中行驶。运动规划器的输出是车辆状态序列它定义 SDV 在规划范围内的期望运动。在规划过程的每次迭代中都会生成一组候选轨迹并使用 (11) 中描述的成本函数进行评估。运动规划器的输出是车辆状态序列它定义 SDV 在规划范围内的期望运动。然后选择成本最低的轨迹进行执行。为了确保实时性能采样轨迹集必须保持足够小。但是该集合还必须代表各种可能的操纵和动作以避免侵入障碍物。为了达到这种平衡采用一种了解车道结构的采样策略确保采样轨迹有效捕捉各种驾驶行为同时保持计算可行性。特别是遵循 [66]、[67] 中提出的轨迹采样方法其中轨迹是通过将纵向运动与相对于特定车道例如当前 SDV 车道或相邻车道的横向偏差相结合来生成的。这种方法允许规划器采样遵循基于车道驾驶原则的轨迹同时结合横向运动的变化。这些变化使运动规划器能够处理各种各样的交通场景。为了确保规划的轨迹符合驾驶员对交通规则和路线的注意使用动态整合交通规则的时间细化模块。利用编码器的前视摄像头特征 e_front初始化基于 GRU 的细化网络以迭代调整最初选择的轨迹。前视特征明确编码交通规则语义使模型能够在红灯处停止或通过绿灯。循环架构确保轨迹点之间的平稳过渡从而减轻突然的转向或加速变化。在 nuScenes 数据集 [68] 上评估方法这是一个大规模自动驾驶基准包含 1,000 个不同的驾驶场景每个场景持续 20 秒注释频率为 2Hz。该数据集具有一个 360° 多摄像头装置由六个同步摄像头前、前左、前右、后、后左、后右组成视野重叠最小。为每一帧提供精确的摄像头内外参以确保准确的空间对齐。 BEV 占用标签 {y_t1 , · · · , y_tl } 是通过将动态智体的 3D 边框投影到 BEV 平面上生成的从而创建时空占用网格。所有标签都使用 GT 未来自我运动转换为自我车辆的参考系确保跨帧的时间一致性。模型利用过去 1.0 秒的时间背景信息来预测 2.0 秒范围内的未来轨迹。在 nuScenes 数据集中这对应于过去背景的 3 帧和未来的 4 帧以 2 Hz 的频率运行。在每个过去的时间步长中该模型处理 6 张摄像机图像每张图像的分辨率为 224 × 480 像素。BEV 空间面积为 100m×100mx 和 y 方向的像素分辨率均为 50cm。这会产生一个空间尺寸为 200 × 200 像素的 BEV 视频。使用 Adam 优化器进行训练恒定学习率为 2.0 × 10−3 。该模型训练 20 个epochs批次大小为 6分布在 4 个 Tesla A6000 GPU 上。为了优化内存使用并加速计算采用混合精度训练。此外模型和 ST-P3 都是在没有深度图指导的情况下进行训练的以确保公平的比较并强调方法在利用语义和注意线索来提高性能方面的有效性。

查看全文

http://www.zqtcl.cn/news/532287/