首页 > 苹果 > 苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶

2025-02-18 113

无需真实数据,苹果实现自动驾驶 SOTA(果粉控注:State-of-the-art,当前最佳)。

苹果造车项目搁浅 1 年后,项目成员集结,联合 2017 年提出端到端的同事,以及 CVPR 2023 技术主席,攒局整了个大活:

将强化学习自博弈引入自动驾驶,10 天生成 16 亿公里模拟数据,训练算法无需真实数据。

海量的模拟数据,背后却是极低的成本,最终还实现了 SOTA 的效果。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶苹果引入自博弈,实现自动驾驶 SOTA

苹果最近将自博弈(Self-play)引入自动驾驶,获得了很好的鲁棒性。

所谓自博弈,思想有点像自对抗生成网络(GAN),是指智能体在与自我的副本或历史版本博弈实现进化,这是强化学习领域的重要策略。

早前落地了游戏领域、机器人和生物工程领域,现在苹果将其用于自动驾驶,设计了极简的奖励函数无需真实数据,而是生成“前所未有规模”的模拟数据,让若干智能体在地图上大乱斗,实现算法进化。

一个实例至多生成 150 个智能体(Agent),智能体种类涵盖乘用车,重型卡车、自行车和行人,生成的环境信息包括停车线和交通信号灯等等。

这种训练方式的优势在于速度快,成本也很低

依靠公共云上的 8 张 A100,苹果每小时可模拟和学习 44 亿次状态转移,相当于 720 万公里的驾驶经验,速度比利用真实数据快了 36 万倍。

一轮完整的训练需要 10 天,就能学到 16 亿公里的驾驶里程,相当于从太阳到土星的距离。

而每百万公里的费用还不到 5 美元,折合人民币也就是 1 万公里 3 毛 6

这个成本和速度,是不是有点夸张?性能表现怎么样?

苹果将该成果放在 CARLA、nuPlan 和 Waymo 开放数据集上进行零样本独立测试,均获得了 SOTA 表现。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶这些基准涵盖不同地图、驾驶场景、交通密度和评分标准,证明了苹果工作的泛化性和鲁棒性。

苹果同时还强调,这些过去的 SOTA 成果都是使用特定数据集,专门针对某个基准进行训练。

能以低成本快速实现很好的性能,背后的核心成果是 GIGAFLOW 模拟器

苹果在论文中具体阐述了其原理,简单展望了在其他领域比如具身智能的应用前景,还指出了当前工作存在的不足。

GIGAFLOW 模拟器,极简版世界模型

GIGAFLOW 是一个批量模拟器,目标是获得一个通才策略,生成了海量的 GIGAFLOW World,可以说是极简版世界模型,长这样:

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶不需要编写场景脚本,不需要人类司机的驾驶数据,也不用设计复杂的奖励函数,奖励项只有到达目标、避免碰撞、居中行驶和对齐车道等,处罚项包括闯红灯、驶离道路

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶简单的奖励函数,如何不断促进算法进化?

苹果团队认为,大规模数据模拟可以弥补奖励函数简单的不足,复杂且拟人的驾驶行为能够从海量的自博弈中涌现出来

具体实现上,GIGAFLOW 同时生成 3.84 万个 GIGAFLOW World,每个 World 模拟了多样的交通情况和交互场景,比如拥堵的环岛、无灯十字路口和拉链式同行车道

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶1 个“World”至多可容纳 150 个智能体,包含 8 种随机变动的地图,经过翻转、缩放和剪切等处理。

地图合计道路里程 136 公里,一路上会随机生成 1 到 N 个智能体,系统会要求智能体在自博弈中驶向各自的目的地。

智能体的驾驶策略采用参数化,可以指定智能体的类型,驾驶风格有激进和谨慎可选。这些参数可在测试时修改,无需训练。

智能体上路会通过观察局部环境,比如周边车辆的大小、位置和速度,优化自身驾驶策略,在自博弈中学会并道、无保护左转和绕过事故现场。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶是的,智能体模拟训练依然会引起交通事故,据苹果介绍频率大概在 300 万公里 1 次

作为对比,现实世界国内老司机的事故率大概在 3.5 万公里 1 次,当然现实世界的道路复杂度肯定要更高。

此外,苹果还通过多种方式优化了 GIGAFLOW 模拟器的整体效率。

首先,GIGAFLOW 在模拟过程中将大部分地图观测值预计算,并缓存在哈希空间,便于快速的查找和搜索。

然后,在模拟训练过程中,通过简单计算会发现 GIGAFLOW 会同时模拟 4800~576 万个智能体,这些智能体会共享同一个策略神经网络,架构类似 Deep Sets,每个模拟步骤仅需一次批处理的前向传递,显著改善了系统整体的吞吐量

最后,在更新参数时,GIGAFLOW 采用了近端策略优化(PPO)算法,这是 OpenAI 在 2017 年提出的算法,限制了策略更新幅度,能够简化训练过程。

苹果指出当前的工作还有一些不足,根源是向现实迁移和落地

首先是技术上,当前对感知的处理比较简单,工作主要集中在规划和决策。

并且其中的奖励函数还比较简单,在复杂场景中可能不够灵活。面对更多样的现实世界,需要更复杂的奖励函数。

最后还有工程上的问题,团队认为大规模自博弈训练需要的资源极高,落地要考虑计算成本。

论文还展望该工作在其他领域应用的可能,比如消费级和工业机器人或者网络游戏。

这项工作是多位领域专家的集体智慧,多名苹果造车团队成员参与其中。

作者介绍

论文作者共有 12 人,第一作者 David Hafner,是 CVPR 2023 的技术主席。

公开信息显示,还有三分之一都是苹果造车项目 SPG(Special Project Group)成员:

Stuart Bowers,原特斯拉工程副总裁,负责研发自动驾驶系统 AutoPilot

2020 年加入苹果,相关报道称,他在 SPG 项目负责自动驾驶算法。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶Brody Huval,自动驾驶创业公司 drive.ai 联合创始人drive.ai 后来在 2019 年被苹果收购,他随之加入苹果的 SPG 团队,担任高级机器学习研究员。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶Aleksei Petrenko,也是苹果 SPG 成员,曾在英伟达做机器人方面的实习生,2023 年 3 月加入苹果任高级科学家。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶Eugene Viningtsky,2016 年至 2022 年在伯克利机器学习专业读研,期间从事自动驾驶研究。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶2022 年 9 月毕业后入职苹果,两年后离职。

当时距离苹果被曝放弃造车刚刚过去 4 个月

有意思的是,对于在苹果的工作经历,他在社交平台上特别注明:

我不打算说我在苹果的工作是什么。

离开苹果后,他一直在纽约大学坦登工程学院做助理教授,研究方向包括交通运输等。

从近 10 年的经历,结合不愿公开的工作内容推测,其很可能也是 SPG 成员。

其他作者也都具有行业背景。

比如 Vladlen Koltun,在 2017 年 10 月便提出将端到端范式应用于自动驾驶,同年 11 月推出自动驾驶测试基准 CARLA,前面提到过该基准。

苹果造车项目被曝搁浅后再整大活,无需真实数据就能训练自动驾驶2024 年 2 月底,苹果被曝终止造车时,Cruise 正在悬崖边苦苦挣扎,Waymo 商业化进程尚未提速,马哥的 Cybercab 在车库里大改,文远和小马还是独角兽。

项目搁浅的这一年,自动驾驶风云变幻,高潮再起。

Waymo 在 Cruise 轰然倒下后,扛起硅谷自动驾驶,无人车今年计划落地超 10 城,迅猛推进商业化。

马斯克计划 6 月落地 Robotaxi,文远和小马先后敲钟,百度 Apollo 要把“萝卜”种到海外。

Robotaxi 大规模商业化,在大洋两岸同步启动。

苹果在此时发布了一项 SOTA 成果,不仅指出一条新技术路径,或许还暗示着什么……

论文传送门:

https://arxiv.org/pdf/2502.03349

本文来自微信公众号:智能车参考(ID:AI4Auto),作者:一凡,原标题《啊?苹果自动驾驶新研究 SOTA 了,造车不是停了吗》


湘ICP备19005331号-4copyright?2018-2025

guofenkong.com 版权所有

果粉控是专业苹果设备信息查询平台
提供最新的IOS系统固件下载
相关APP应用及游戏下载,绿色无毒,下载速度快。

联系邮箱:guofenkong@163.com