亚星百家乐

亚星百家乐

亚星新闻

当前位置: 亚星百家乐 > 亚星新闻 > 学院新闻 > 正文

亚星百家乐科研 |StyleDrive:全球首个个性化端到端自动驾驶真实世界数据集与评测体系

来源:       发布时间:2025-12-18


亚星百家乐 聂再清教授课题组联合伦敦国王学院、曼彻斯特大学与香港大学,带来了首个真正意义上的个性化端到端自动驾驶大规模真实世界数据集与评测体系 ——StyleDrive。它让E2EAD系统能够像“了解一个人一样”,在自动驾驶用户倾向偏好的基础上生成风格差异的类人类驾驶行为。

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。但你是否想过:它们真的“看懂”并“想通”了吗?这些模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
亚星百家乐 执行院长刘洋教授团队,联合清华大学计算机系、复旦大学带来重磅新作——EscapeCraft:一个3D密室逃脱环境,让大模型像真人一样“动脑逃生”,用于评估多模态大模型在视觉环境中,完成复杂任务推理的能力。测评结果却意外频出:模型常常看到了门,却一直绕着墙走;捡起钥匙,却忘了怎么用;甚至有模型想去“抓”沙发,理由是“可能有暗格”……这不是个别翻车。而是系统性的“看见不代表理解”。即便是 GPT-4o 这样的明星模型,也只有少部分子任务是真的想明白了完成的,其它全是歪打正着。

项目主页//styledrive.github.io/

GitHub地址//github.com/AIR-THU/StyleDrive

本次成果被人工智能顶会AAAI 2026录用,并将做Oral汇报。论文作者包括郝睿阳,荆博文,俞海宝和聂再清

个性化端到端自动驾驶数据集的重要性

个性化是提升用户体验和建立自动驾驶系统信任感的重要发展方向。在传统的模块化的自动驾驶架构中,已涌现不少支持个体偏好的定制化方法。然而,这些方法大多依赖场景特定的设计或模拟环境中不真实的人工交互,导致在复杂动态的真实交通场景中难以泛化。与之对比,端到端自动驾驶(E2EAD)将感知、规划与控制融合到同一框架,具备更强的优化潜力与泛化潜力。但当前E2EAD研究普遍忽略了个性化建模,使得车辆行为趋于平均化,难以体现用户的风格偏好。这不仅限制了系统的适应性,也阻碍了个性化、以人为本的自动驾驶愿景落地。要解决这一问题,首先需要一个大规模、真实世界驾驶倾向标注的数据集,同时配套标准化的评测基准,以系统地推动个性化E2EAD的发展。StyleDrive正是首个为个性化端到端自动驾驶设计的真实世界数据集与评测体系:

  • 构建了一个包含 30k 驾驶片段的大规模真实世界个性化端到端自动驾驶数据集,覆盖丰富的交通场景;

  • 提出了一套多阶段融合标注框架,融合行为分析、规则启发、多模态大模型(VLM)推理与人工验证,确保倾向标注的一致性与高质量;

  • 建立了首个面向个性化 E2EAD 的评测基准,提出SM-PDMS指标,支持不同模型在倾向拟合程度的可量化对比;

  • 实验表明,引入倾向建模后,多个主流架构在行为可控性与人类一致性方面均显著提升,验证了个性化对E2E系统的实际价值。

图1 StyleDrive的概述及动机

数据集构建——结合规则与场景理解的融合框架

为了实现可靠且可解释的倾向分析,构建了一个结合规则与场景理解的融合标注框架(如图2所示)。该流程首先从真实道路拓扑中提取静态环境特征,从车辆运动数据中提取动态环境特征;随后通过微调后的视觉语言模型(VLM)推理动态上下文语义实现更细粒度的场景构建;在静动态场景构建基础上,通过驾驶行为分布分析与规则启发方法生成客观倾向标注;同时,为应对驾驶倾向中的主观性问题,进一步利用 VLM 联合建模场景语义与驾驶行为,生成主观倾向判断。最终,融合上述两类标注并进行人工校核,确保数据集中倾向标签的准确性与一致性。

图2 StyleDrive数据集的标注框架

数据集的统计分析与可视化

所构建的StyleDrive数据集涉及城市乡村道路的大部分驾驶场景,如图3左侧所示为驾驶场景的分布图。所标注的驾驶倾向的分布如图3右侧所示,激进和保守倾向的数据分别占14.6%与5.5%。

图3 驾驶场景与倾向分布情况

下面展示了更多驾驶倾向的例子。如图4所示为同样的3个驾驶场景下不同的驾驶倾向可视化结果,红色代表激进,蓝色代表保守,可以看到不同驾驶倾向的分布情况。

图4 相同驾驶场景下不同驾驶倾向下轨迹的可视化

个性化端到端自动驾驶基准测评

为推动个性化端到端自动驾驶的研究,推出了 StyleDrive Benchmark——一个基于真实场景的仿真评估平台,用来衡量模型能否在保证安全的前提下,生成符合目标驾驶倾向的行为。

  • 核心指标:SM-PDMS

Benchmark 引入了 Style-Modulated Predictive Driver Model Score(SM-PDMS),在传统安全与合规性指标之上,加入“行为对齐”设计,让模型的输出真正体现倾向差异。具体包括:“舒适度”根据倾向设定不同的容忍度阈值;“自车前进度”对应不同程度的果断性;“碰撞时间”范围随风险偏好动态变化。

  • 四类倾向条件模型

在四种典型的 E2EAD 架构中加入倾向条件控制,使其具备“按倾向驾驶”的能力,并在 StyleDrive Benchmark 上统一评测:

    • AD-MLP-Style:将倾向与自车特征拼接,用 MLP 输出倾向化轨迹;

    • TransFuser-Style:在多模态融合网络中注入倾向编码,实现倾向控制;

    • DiffusionDrive-Style:采用扩散式规划框架,通过两阶段融合倾向信号生成更个性化轨迹;

    • WoTE-Style:在 BEV 世界建模结构中加入倾向条件,调控轨迹偏移。

主要结果与分析

实验结果说明驾驶倾向作为条件的模型能够有效改善驾驶倾向的对齐能力与整体驾驶性能,能够实现“更像人的端到端自动驾驶”。主要结果的对比如表1所示,同时在表2汇报了开环评估结果。

表1 基线模型(第一栏)与倾向控制模型(第二栏)的SM-PDMS指标对比,可以看到倾向条件输入显著提升了倾向对齐能力与全方位的驾驶性能。以确定的驾驶倾向作为条件输入的ablation study(第三栏)的结果表明,驾驶倾向作为条件对模型输出的可控性

表2 基线模型(第一栏)与倾向控制模型(第二栏)的开环指标对比,可以看到倾向作为条件拉近了模型预测结果与真实人类行为的差距

为了凸显倾向控制模型的效果,在相同的场景下给定不同的驾驶倾向,让模型输出预测的轨迹并可视化(如图5),可以看到不同倾向下的轨迹按照驾驶倾向呈现出显著的差异。

图5 在相同场景中不同驾驶倾向条件下的 DiffusionDrive-style 预测的定性说明。左侧:激进(A)与正常(N)的对比;右侧:保守(C)与正常(N)的对比。红色线条表示在给定倾向条件下的模型预测轨迹;绿色线条表示真实的人类驾驶轨迹。随着驾驶倾向的变化,明显的行为差异显现出来,这反映了模型能够根据驾驶偏好调整其输出的能力。

总结与展望

StyleDrive 为“个性化端到端自动驾驶”提供了完整的真实世界数据与评测体系。该工作不仅构建了 首个大规模真实世界的个性化 E2EAD 数据集,还提出 融合规则与场景理解的风格标注框架,进一步建立了 首个用于个性化 E2EAD 的 Benchmark 与 SM-PDMS 指标体系。实验也清晰表明,引入驾驶风格后,模型在行为一致性和可控性上均取得显著提升——个性化确实能够让 E2EAD “更像人”。

展望未来,团队认为个性化端到端自动驾驶仍有广阔空间可探索:

  • 数据层面:进一步细化驾驶风格的层次,拓展更丰富、更贴近真实用户需求的偏好表达;

  • 模型层面:探索将驾驶场景理解与驾驶风格建模进行更深度融合,让模型真正做到“因人而异、因境而变”;

  • 应用层面:将风格推断与真实用户画像结合,实现真正意义上面向个人、持续学习的自动驾驶体验。


上一条:“人文清华”讲坛 | 张亚勤院士:人工智能,无尽的前沿 下一条:WINTER@AIR|2026冬令营开始报名啦!

关闭

亚星百家乐
亚星百家乐
亚星百家乐
亚星百家乐

相关新闻

亚星百家乐

业务合作:[email protected]
招生招聘:[email protected]
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

亚星百家乐

官方微信

京ICP备15006448号  |   版权所有©亚星百家乐-百家乐游戏