万字长文详解特斯拉自动驾驶体系(感知/规控/标注/仿真)

2023-11-08

作者 | 和君 编辑 | 禾隐记

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

汽车革命的上半场是电动化,下半场是智能化,电动化只是改变了汽车的动力供给方式,并没有改变汽车的性质,而智能化才是这场革命的主菜,将对汽车带来颠覆性变化,汽车将由传统的机械体,变为拥有强大计算能力的智能体

在汽车智能化的道路上,有一个拥有绝对实力的引领者,那就是Elon Musk领导下的特斯拉,其打造的自动驾驶体系是全球关注的焦点,马斯克曾在微博上发文称特斯拉打造的人工智能是世界上最为先进的。

77c2ca4d526ddda4d1377b404112e164.jpeg

马斯克3月6日发布微博内容

特斯拉是截止目前全球唯一一家实现了自动驾驶核心领域全栈自研自产的科技公司,数据、算法、算力等各个层面打造了一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构

整体而言,特斯拉的自动驾驶架构是采用纯视觉方案实现对世界的感知,并基于原始视频数据通过神经网络构建出真实世界的三维向量空间,在向量空间中通过传统规控方法与神经网络相结合的混合规划系统实现汽车的行为与路径规划,生成控制信号传递给执行机构,同时通过完善的数据闭环体系和仿真平台实现自动驾驶能力的持续迭代。

下面将分别按照感知、规划与控制、数据与仿真、算力四个部分对特斯拉实现FSD(Full Self-Drive,完全自动驾驶)的核心体系进行全面解析。

01 感知

根据2021年8月Tesla AI Day上的展示,特斯拉最新的感知方案采用纯视觉感知方案,完全摒弃掉激光雷达、毫米波雷达等非摄像头传感器,仅采用摄像头进行感知,在自动驾驶领域独树一帜。

人类通过眼睛感知世界的原理为:光线通过眼睛被视网膜采集信息,经过传递与预处理,信息抵达大脑视觉皮层,神经元从视网膜传递的信息中提取出颜色、方向、边缘等特征结构,再传递给下颞叶皮层,然后经过认知神经网络的复杂处理最终输出感知结果。

5a24e29dab4f9dd33bb39b134b942696.png

人类视觉感知原理

自动驾驶视觉感知方案是效仿人类视觉系统原理,摄像头便是“汽车之眼”,特斯拉汽车共计采用八个摄像头分布在车体四周,车身前部有三个摄像头,分别为前视主视野摄像头、前视宽视野摄像头(鱼眼镜头)以及前视窄视野摄像头(长聚焦镜头),左右两侧各有两个摄像头,分别为侧方前视摄像头和侧方后视摄像头,车身后部有一个后视摄像头,整体实现360度全局环视视野,最大监测距离可以达到250米。

f6d75dfb3d1739470b7236603adb55a8.png

特斯拉车身摄像头环视视野

通过“汽车之眼”采集到的真实世界图像数据,经过复杂的感知神经网络架构进行处理,构建真实世界的三维向量空间,其中包含汽车、行人等动态交通参与物,道路线、交通标识、红绿灯、建筑物等静态环境物,以及各元素的坐标位置、方向角、距离、速度、加速度等属性参数,这个向量空间不需要和真实世界的模样完全保持一致,更倾向于是供机器理解的数学表达。

e991a53fe961e5b6562f455b8d9d1c74.png

利用摄像头采集数据通过神经网络输出三维向量空间

根据特斯拉在AI DAY的公开信息,经过多轮升级迭代,特斯拉目前所采用的视觉感知框架如下图所示,这是一套基于视频流数据的共享特征多任务型神经网络架构,拥有物体深度识别能力和短时记忆能力。

8bc488e31665fab19f40cf8a25bd6d7e.png

特斯拉视觉感知网络架构

网络基础结构:HydraNet多头网络

特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈部(Neck)与多个分支头部(Head)共同组成,特斯拉取名为“HydraNet”,取意自古希腊神话中的九头蛇。

主干层将原始视频数据通过残差神经网络(RegNet)及BiFPN多尺度特征融合结构完成端到端训练,提取出颈部层的多尺度视觉特征空间(feature map),最后在头部层根据不同任务类型完成子网络训练并输出感知结果,共计支持包括物体检测、交通信号灯识别、车道线识别在内的1000多个任务。

28e5c4a1c45cb1d8532896440d22d464.png

HydraNet多任务网络结构

HydraNet网络的核心特点是多个子任务分支共享同一个特征空间,相比单一任务使用独立的神经网络,具有如下优势:

1)使用同一主干统一提取特征并共享给各任务头部使用,可以避免不同任务之间重复计算现象,有效提升网络整体运行效率;

2)不同子任务类型之间可以实现解耦,每项任务独立运行不会影响到其他任务,因此对单项任务的升级可以不必同时验证其他任务是否正常,升级成本更低;

3)生成的特征空间可以进行缓存,便于各任务需求随时调用,具有很强的可扩展性。

数据校准层:虚拟相机构建标准化数据

特斯拉通过不同的汽车采集到的数据共同构建一个通用的感知网络架构,然而不同汽车由于摄像头安装外参的差异,可能导致采集的数据存在微小偏差,为此特斯拉在感知框架中加入了一层“虚拟标准相机”,引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后,统一映射到同一套虚拟标准摄像头坐标中,从而实现各摄像头原始数据的“校准(Rectify)”,消除外参误差,确保数据一致性,将校准后的数据喂养给主干神经网络进行训练。

cc8e19db9fd963d182cd7203d4048b6b.jpeg

在原始数据进入神经网络前插入虚拟摄像头层

空间理解层:Transformer实现三维变换

由于摄像头采集到的数据为2D图像级,与现实世界的三维空间不在一个维度上,因此要实现完全自动驾驶能力,需要将二维数据变换至三维空间。

为了构建出三维向量空间,需要网络能够输出物体深度信息,大部分自动驾驶公司采用的方案是使用激光雷达、毫米波雷达等传感器来获取深度信息,并与视觉感知结果进行融合,而特斯拉坚持使用纯视觉方案获取的视频数据来计算深度信息,其思路是在网络结构中引入一层BEV空间转换层,用以构建网络的空间理解能力,BEV坐标系即鸟瞰俯视图坐标系,是一种忽略高程信息的自车坐标系。

早期特斯拉采取的方案是先在二维图像空间实现感知,然后将其映射至三维向量空间,再将所有摄像头的结果进行融合,但图像层面感知是基于地面平面假说,即把地面想象成为无限大的平面,而实际世界中的地面会有坡度,因此会导致深度信息预测不准确,这也是基于摄像头的纯视觉方案面临的最大困难,同时也会存在单个摄像头无法看见完整目标导致“后融合”难以实现的问题。

为了应对这一问题,使感知结果更准确,特斯拉采用“前融合”的思路,将车身四周的多个摄像头获得的不同视频数据直接进行融合,然后用同一套神经网络进行训练实现特征从二维图像空间到三维向量空间的变换

39e19e6ee48535706f0543fdc617d094.png

引入BEV三维空间转化层

实现三维变换的核心模块是Transformer神经网络,这是一种基于注意力机制的深度学习模型,源自于人脑对信息处理的机制,在面对外界大量信息时,人脑会过滤掉不重要的信息,仅将注意力集中在关键信息,可以大大提升信息处理效率,Transformer在应对大规模数据量级的学习任务时具有相当出色的表现。

Transformer模型需要的三个核心参数为Query、Key和Value,其中Key和Value由HydraNet主干部分生成的多尺度特征空间经过一层MLP(多层感知机网络)训练得到,而通过对特征空间进行池化处理得到全局描述向量(context summary),同时对输出的BEV空间各栅格进行位置编码(positional encoder),合成描述向量和位置编码后再通过一层MLP可以得到Query。

特斯拉通过这种方法,可以将地面坡度、曲率等几何形状的变化情况内化进神经网络的训练参数中,实现对物体深度信息准确感知和预测,这也是特斯拉敢于放弃雷达融合路线走纯视觉路线的底气。

短时记忆层:视频时空序列特征提取

引入空间理解层后,感知网络已经具备对现实世界的三维向量空间描述能力,但仍然是对瞬时的图像片段进行感知,缺乏时空记忆力,也就是说汽车只能根据当前时刻感知到的信息进行判断,这会导致世界空间内部分特征感知不到。

例如在行车过程中,如果有行人正在穿过马路,过程中被静止的障碍物遮挡,而汽车仅有瞬时感知能力的话,由于在感知时刻行人正好被汽车遮挡了,则无法识别到行人,导致很大的安全风险。而人类司机在面对类似场景时,则会根据之前时刻看到行人在穿越马路的记忆,预测其当前时刻有很大概率被汽车遮挡,且有继续穿越马路的意图,从而选择减速或者刹车避让。

因此自动驾驶感知网络也需要拥有类似的记忆能力,能够记住之前某一时间段的数据特征,从而推演目前场景下可能性最大的结果,而不仅仅是基于当前时刻看到的场景进行判断。

为了解决这一问题,特斯拉感知网络架构引入了时空序列特征层,通过使用具有时间维度的视频片段而非静态的图像来训练神经网络,为自动驾驶增添了短时记忆能力。

d82cb707ebc9eb0298caf9a8288e9bad.png

引入时空序列特征提取层以实现短时记忆能力

特斯拉同时还引入了IMU传感器获取到的包含速度和加速度在内的自车运动信息,结合三维向量空间特征,分别生成基于时间维度和基于空间维度的特征队列,其中时间维度的特征队列提供了感知在时间上的连续性,而空间特征队列的意义是防止由于部分场景等待时间过长导致的时序信息丢失,并利用三维卷积、Transfomer、RNN等方法实现时序信息融合,进而得到多传感器融合的视频流时空特征空间。

此外特斯拉还尝试了一种新的时序信息融合方法——Spatial RNN,可以省略BEV层的位置编码,直接将视觉特征喂给RNN网络,通过隐藏层保留多个时刻的状态编码,指导应对当前环境需要选取哪些记忆片段使用。

短时记忆层无疑增加了特斯拉感知网络的鲁棒性,针对恶劣天气、突发事件、遮挡场景等,都能保持良好的感知能力。

以上便构成了特斯拉的感知网络架构,通过端到端的训练模型,从视频数据输入到向量空间输出。

据特斯拉AI技术总监Karpathy介绍,基于以上架构的特斯拉视觉感知体系,对于深度信息的感知能力甚至可以超过雷达,同时由于具备短时记忆,特斯拉可以实现局部地图的实时构建,通过融合多个局部地图,理论上可以得到任何一个区域的高精地图,这也是特斯拉目前没有采用高精地图作为输入原因。

02 规划与控制

人体在感知到周围世界的信息后,会基于对这些信息的认知做出相应的判断,来规划自己的躯体应该作何反应并下发控制指令,汽车也是如此,在完成感知任务后下一步便是对感知到的信息做出决策方案,指导汽车完成相应执行动作,这便是自动驾驶的规划与控制部分。

特斯拉自动驾驶规控的核心目标是基于感知网络输出的三维向量空间,通过规划汽车行为和行车路径使汽车到达指定目的地,同时最大化确保行车安全性、效率性及舒适性。

规控是一个非常复杂的问题,一方面汽车的行为空间具有典型的非凸性,同一个目标任务可能对应非常多个解决方案,同时全局最优解难以获得,具体表现就是汽车可能由于陷入局部最优,无法快速做出准确决策;另一方面行为空间具有多维性,要制定针对目标任务的规划方案需要在短时间内快速产生速度、加速度等多个维度的参数。

特斯拉采用的解决方案是将传统规划控制方法与神经网络算法相结合,构建一套混合规划系统,以任务分解的方式分别解决上述两大难题,其规划控制逻辑如下图所示。

ad601d71d7080f59fdd3354045d2c4fc.png

混合规划系统解决方案

在感知获得的三维向量空间中,基于既定的目标位置,先采用粗搜索的方式找到一条初步的路径,然后根据安全性、舒适性等指标,围绕初步路径进行优化,对与障碍物间距、加速度等参数做持续微调,最终获得一条最优的时空轨迹。

在大部分结构化场景下,例如高速公路等,粗搜索选取的是经典的A-Star算法(启发式搜索方法),但针对一些复杂的场景,例如闹市中心、停车场等,由于场景中非结构化元素比较多,搜索空间大,采用传统A-Star算法消耗运算节点过多,导致决策速度缓慢。

由此特斯拉引入强化学习方法,强化学习的机制类似于人类学习模式,通过奖赏正确的行为来引导人类习得某项能力,首先利用神经网络学习全场景特点获得价值函数,然后通过MCTS算法(蒙特卡洛树搜索)引导搜索路径不断靠拢价值函数,这种方法可以大幅度减少搜索空间,有效提高决策实时性。

c4db1662eb4327ad77ca780e810cfa9d.png

MCTS算法规划停车场行车路线

而在行车过程中,会涉及与其他车辆的博弈问题,例如变道过程、在狭窄路口错车场景,类似场景下一般需要根据对方车辆的反应变化随时调整自车的决策方案。

因此除了单车规划外,特斯拉还做了交通参与者联合轨迹规划,根据其他车的状态参数(速度、加速度、角速度等)规划其路径,进而选择合适的自车方案,待其他车状态发生变化后,随时调整自车方案,尽量避免出现自车愣在原地不做反应的情况,提升自车的smart性。

e797691ae6eebd22ddd958e39262bb1c.png

狭窄路口联合轨迹规划

至此,特斯拉FSD的最终架构浮出水面,首先通过视觉感知网络生成三维向量空间,对于仅有唯一解的问题,可直接生成明确的规控方案,而对于有多个可选方案的复杂问题,使用向量空间和感知网络提取的中间层特征训练神经网络规划器,得到轨迹分布,再融入成本函数、人工干预数据或其他仿真模拟数据,获得最优的规控方案,最终生成汽车转向、加速、刹车等控制指令,由汽车执行模块接受控制指令实现汽车自动驾驶。

aafd30ca45fff4aff598612bfcda4f21.png

特斯拉FSD 感知-规划-控制整体架构

03 数据标注与仿真

可以看到在特斯拉的自动驾驶方案中,无论是在感知层面还是规控层面,核心算法基本都是由数据驱动的,数据的数量和质量决定了算法的性能,因此构建一套高效获取、标注及仿真训练数据的闭环至关重要。

数据标注

特斯拉每年售出近百万辆汽车,通过这些汽车日常运行,可以采集到超大规模的原始数据集,对这些数据集的标注工作特斯拉最早是外包给合作方,后来发现存在交付延迟和质量不高的情况,因此便在内部发展了上千人的标注团队并独立开发标注基础设施。

特斯拉的标注最初是在二维图像中进行的,后来发展为四维实现,除了标注三维空间外还有对时间维度的标注,直接在向量空间中完成标注后再反向投影到摄像头对应的图像空间中。

4a25390aa8ac25781464cfc9dd0ddbc2.png

特斯拉的四维标注

随着数据规模的逐渐扩大,人工标注的方式需要消耗大量人力成本,同时人类相对更擅长语义分割之类的标注任务,对于几何图形的标注,反倒是机器更擅长,因此特斯拉引入了自动标注的方法,实现人工与机器相结合的数据标注模式。

特斯拉实现自动标注的方案是通过汽车在一段时间内采集到的视频、IMU、GPS、里程表等数据构成最小标注单元(Clip),由离线神经网络系统训练得到中间层结果,如目标物、语义分割、深度、光流等,再通过大量机器算法生成最终用以训练的标签集,包括行车轨迹、静态环境重建、动态物、运动学参数等,人工可以对自动生成的标签集进行调整干预。

ed2f5c2b2fdf691ec03989db36806b7e.png

自动标注方案实现过程

对于静态标注物,例如对于某一段道路的标注,以摄像头采集到的路面每个点的平面坐标作为输入,通过神经网络预测出这个点的高度及相关的语义分割、道路线边界等三维中间结果,然后将这个三维点反向投影至各个摄像头的二维空间,并将其与原本在二维图像空间内直接做语义分割的结果进行对比,再基于各个摄像头的对比结果进行跨时空维度的联合优化实现重建,最终得到整个道路在各摄像机画面内及视频前后帧时间序列中的一致性标注结果。

通过不同辆车不同时间经过同一路段采集到的视频数据,按照上述方法进行自动标注,再将所有标注结果进行融合后优化,得到该路段的精确标注结果,实现道路重建。

0cac4610bffe1b815e7d647c8fb96883.png

自动标注实现道路重建

通过这种方式,不仅可以重建道路,还可以重建墙体、屏障、建筑物等所有静态环境物

对于动态标注物,核心是要标注其运动学参数及行为轨迹预测,通过不同车辆在同一路段采集的含时间序列的视频标注单元,我们不仅可以知道每个标注物过去时刻的信息,还可以知道未来时刻的信息,因此可以轻易获取每个动态标注物运动轨迹和参数的“真值”,即使被遮挡的运动物体也可以标注出来。

19ed01721daab9a4a7b01f601968b7c6.png

动态物体自动标注

通过对静态物体和动态物体分别标注,最终得到一个最小标注单元的完整标注结果,如下图所示。

f0605f5d630e7ed548a728d14cb0ba2f.png

自动标注实现Clip的完整标注

可以看到,只需要汽车在路上行驶采集到的数据作为输入,然后运行标注模型,再将结果进行融合优化,便可以得到任意场景的标注结果,全过程自动实现,无人工参与。

一万个标注单元在一周内即可完成自动化标注,而纯人工标注则需要几个月的时间,自动标注大大提升了标注效率

仿真

由于路测条件的限制,导致积累数据和训练算法的效率偏低且成本高昂,为了更高效的实现数据训练,特斯拉构建了一个真实世界的虚拟仿真空间,来加速FSD能力的训练,仿真对于实现完全自动驾驶的价值如今在行业内已经普遍被认可。

自动驾驶的仿真是在模拟环境中,通过调整各类交通参与物及环境的模型参数以构建各种虚拟场景,以训练算法应对不同场景的性能。

be812cfa63cd262e9823131057af7d23.png

特斯拉仿真场景

价值主要体现在以下几个方面:

1、通过仿真可以建立在现实世界中难以遇到的极端场景(corner case),例如高速公路上一家三口在跑步的场景,类似的场景虽然在现实世界中存在的可能性极低,但考虑到自动驾驶的安全性,必须掌握应对此种极端场景的能力,因此可以在仿真环境下进行模拟训练;

2、针对部分复杂场景难以直接标注的情况,可以通过仿真进行快速标注,例如在一个路况复杂的十字路口有各种川流不息的汽车、行人,由于元素众多,要直接进行标注难度很大,而在仿真场景中,由于所有的元素的初始参数都是自行设定的,因此在模拟复杂的运动状态时,所需要标注的参数很容易就可以通过计算得到,以此实现快速标注;

3、仿真为规控算法的训练和验证提供了一个安全的环境,考虑汽车驾驶安全问题的重要性,自动驾驶规控算法训练和优化过程难以通过实际路测实现,在仿真场景中便具有非常高的自由度;

4、可以用以某些闭环场景算法的长期持续训练,例如泊车场景,这个场景下空间是闭环的,参与者有限,因此通过仿真持续模拟各种工况,可以有效地对自动驾驶泊车能力进行训练;

5、对于现实世界中FSD失败的场景,可以通过仿真重现失败场景,在仿真环境中寻找失败原因并进行算法训练和优化。

一套完整的仿真体系需要包括仿真场景、仿真系统和仿真评估三大部分,这里仅介绍特斯拉在仿真场景层面所做的工作。

自动驾驶的实现首先是基于感知能力,因此对感知系统的准确仿真非常关键,特斯拉的感知系统是基于纯摄像头,因此对摄像头的各种属性进行软硬件建模,如传感器噪声、曝光时间、光圈大小、运动模糊、光学畸变等,甚至对于挡风玻璃上的衍射斑这种细节,特斯拉也考虑在内,这套准确的传感器仿真系统不仅可以用以FSD的训练和验证,还可以指导摄像头的硬件选型和设计。

6436a5225d70d31631ab6f8a6755044d.png

准确的传感器仿真

为了真实的模拟现实世界场景,要求仿真渲染要尽可能做到逼真,特斯拉利用神经网络渲染技术来提升视觉渲染效果,同时用光线追踪的方法来模拟逼真的光照效果。

3601e26ec48a0f1ea55f6301fc1c5766.png

逼真的视觉渲染

为了避免仿真环境过于单一,导致感知系统过拟合的问题,特斯拉对仿真环境参与物进行了充分的建模,包括多元交通参与者(例如车、行人等)和静态环境物(例如建筑、树、道路等)等,截至最新Tesla AI Day公开的信息,特斯拉总共已经绘制了2000+公里的道路环境。

d04c008f5f82d81e30d0a19f7d2a0b69.png

多元交通参与者与地理位置

针对自动驾驶可能遇到的各种场景,构建了大规模的可扩展场景库,由计算机通过调整参数生成不同的场景形态,例如道路曲度等,同时由于大量的仿真场景可能是无用的,例如实际该场景下汽车的决策已经正确,为了避免计算资源的浪费,特斯拉还引入了MLB等神经网络用来寻找故障点,重点围绕故障点进行仿真数据创建,反哺实际规划网络,形成闭环。

4b47af8aa347ee8c2b4458de948697db.png

大规模场景生成

除了直接在虚拟场景中进行仿真训练,特斯拉还希望可以在仿真环境中重现真实世界场景,以便可以复现FSD失败的场景,实现在仿真环境下的优化迭代后再反哺汽车算法模型,实现“数据闭环”,因此在完成真实世界片段的自动标注重建后,再叠加视觉图像信息,生成与真实世界“孪生”的虚拟世界

96bebb9019ce74821455f14150554fe0.png

场景重现

特斯拉通过仿真获得的虚拟数据规模已达到37.1亿张图片及4.8亿标注,且已实际融入车端模型中,用以提升FSD性能。

04 算力

自动驾驶所采用的算法架构和数据闭环进行了介绍,而超大规模的数据和高性能的算法均需要强大的算力支撑,特斯拉为此自研打造了服务于自动驾驶的全球最强超级计算机——Dojo

Dojo是一种通过网络结构连接的分布式计算架构,具有大型计算平面、极高带宽、低延迟、可扩展性极强等特点,去年8月的AI Day,特斯拉公布了为Dojo超算打造的自研AI训练芯片D1

650319ee2336374bba35b0384bc9542a.png

Dojo D1芯片

D1芯片采用分布式结构和7纳米制造工艺,单片面积仅645平方毫米,具有500亿个晶体管和354个训练节点,内部电路长达17.7公里,单片FP32算力可达22.6 TOPs,BF16 算力可达362 TOPs,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作,同时具有GPU级的计算能力和CPU的连接能力,I/O带宽是最先进的网络芯片的2倍

同时D1芯片之间可以实现无缝连接,特斯拉将25个D1芯片连接起来组成了独立的训练模块,模块算力高达9 PFLOPs(每秒处理9千万亿次),I/O带宽最大达每秒36TB。

5eeb01cbbb6061d737bae63e960d68ab.png

D1组成的训练模块

那么将120个训练模块(包含3000颗D1芯片)集成在一块,就组成了AI训练计算机柜——Dojo ExaPOD,其包含超过100万个训练节点,BF16/CFP8算力高达1.1 EFLOPs(每秒110京次的浮点运算,1京=10^18),超越了当时排名全球第一的日本富士通0.415 EFLOPs,且在相同成本下,ExaPOD具有4倍性能和1.3倍能耗节约,碳排放仅占1/5。

e44b8615564d345f90394de409943399.png

Dojo ExaPOD 超级计算机

而且由于DI芯片的无限连接特性,理论上由其组成的Dojo计算机性能拓展无上限,因此目前的算力不是终点,特斯拉预计下一代Dojo还会有10倍性能提升

超强算力将持续服务于特斯拉大规模数据训练、自动驾驶算法、云计算能力和其他AI方向。

05 写在最后

特斯拉全栈自研自动驾驶体系在全球已经处于领先地位,却也仍然有非常大的提升空间,例如:

1、感知层面进一步逼近人类甚至超越人类,马斯克曾在采访中提到过特斯拉已经在使用摄像头采集可见光的光子信息,跳过图像信号处理阶段,直接将最原始的光子数据输入给神经网络训练,这将使纯视觉方案获得远超人类的夜间视距。

2、规控层面提升自动驾驶的“老司机”属性,特斯拉目前公开的决策规划的技术方案并不多,从已公开的部分可以看到整体比较中规中矩,如何进一步发展规控能力,让人类对自动驾驶拥有更多信任感,是一个非常重要的课题。

3、仿真层面打造自动驾驶“数字孪生”,仿真是实现完全自动驾驶的关键一环,主要由于仿真的试错成本非常低,可以加速自动驾驶能力训练,促进L4级以上自动驾驶提早到来。

自动驾驶作为人工智能技术的“皇冠”,可以说是智能时代的“核弹”,是全球高科技企业竞相追逐的科技高地,自动驾驶的持续发展最终很有可能将引发汽车交通行业乃至整个人类社会运行方式的巨大变革。

数据、算法、算力是驱动自动驾驶的三驾马车,特斯拉通过大规模汽车生产获取数据、持续迭代FSD算法反哺汽车性能、自研超级算力服务AI训练的模式成功打造了实现完全自动驾驶的良性飞轮。

特斯拉正在并将持续引领智能汽车革命。

往期回顾

超越所有Anchor-free方法!PP-YOLOE-R:一种高效的目标检测网络

17d7e58159e1d8c4bd3e9fcf0c117e4e.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

bbe0c9491030d40224f83509f9d37b8c.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

bdaad35f00d1a8e0d5321a05a787077d.jpeg

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

万字长文详解特斯拉自动驾驶体系(感知/规控/标注/仿真) 的相关文章

  • DBA 性能压测方法

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 前言 压测的具体方法有很多种 工具也有很多 但是压测要遵循的原则可以是不变的 万变不离其宗 制定好压测规范和原则 每次压测前问下自己 为什么要进行压测 我们预期的结果是什么
  • log4js日志的使用与详解

    日志 log4js 1 安装与引入 npm install log4js var log4js require log4js 2 配置 log4js configure appenders fileout type file filenam
  • 区块链产品经理规范与总结

    产品顺序职责 产品顺序 产品助理 产品经理 高级产品经理 产品总监 产品专家 CEO 产品助理职责 辅助产品经理完成产品工作 包括调研 设计 开发 上线等项目阶段 配合产品经理 完成产品测试工作 驱动产品质量提升 产品研发前体验竞品 产品上
  • nodejs 读取xlsx文件内容

    文章目录 nodejs 读取xlsx文件内容 将excel的日期格式转成Date 对象 nodejs 读取xlsx文件内容 安装 npm i node xlsx D 注意 文件所在绝对路径 F jie baiyi tuberculosis
  • Vue 中 computed ,watch,methods 的异同

    methods watch和computed都是以函数为基础的 computed 和 watch 都可以观察页面的相应式数据的变化 当处理页面的数据变化时 我们有时候很容易滥用watch 而通常更好的办法是使用computed计算属性 而不
  • h5 video视频播放的同时加水印,图片加水印同样的原理

    经常能看到播放视频的网站上加水印的效果 记录下成果以备后续看 效果图如下 h5页面视频播放的同时加水印 有以下3种方法可尝试 在原视频上添加 由于每次登陆的用户不一样 需要根据用户名动态确定水印的文本值 这并不现实 捕捉视频的每一帧 重新画
  • Java集合面试题

    目录 1 Java中集合的框架图 2 常用集合的分类 3 List接口详解 3 1 ArrayList集合类 3 2 LinkedList集合类 3 3 Vector集合类 4 Map接口详解 4 1 HashMap集合类 4 2 Hash
  • MOS管规格书参数解析

    在这之前 首先了解下三极管和MOS管的区别 三极管是电流控制型的器件 通过基极电流去控制集电极电流 实现电流 电压信号放大或者驱动负载工作 场效应管是电压控制器件 需要通过栅极 G 电压来控制场效应的导通 实现场效应的导通和关断 三极管由两
  • html使用vue3.0必须使用element plus

    开发环境 html用的vue2 x版本配合elementui 现要求使用vue3 x版本 发现必须elementui只能适用vue2 x 故使用element plus 由于并非vue文件 现通过CDN方式导入
  • 【Visual C++】游戏开发笔记三十五 站在巨人的肩膀上 游戏引擎导论

    本系列文章由zhmxy555 毛星云 编写 转载请注明出处 文章链接 http blog csdn net zhmxy555 article details 8250057 作者 毛星云 浅墨 邮箱 happylifemxy 163 com
  • Redis总结

    Redis 1 NoSQL的引言 NoSQL Not Only SQL 意即不仅仅是SQL 泛指非关系型的数据库 Nosql这个技术门类 早期就有人提出 发展至2009年趋势越发高涨 2 为什么是NoSQL 随着互联网网站的兴起 传统的关系
  • 黑苹果睡眠无法唤醒(OC引导)

    NVRAM 随机访问存储器设置 UUID 7C436110 AB2A 4BBB A880 FE41995C9F82 键 boot args 添加值 igfxonln 1
  • 2018老男孩脱产班linux运维51期

    2018老男孩脱产班linux运维51期 2018老男孩脱产班linux运维51期 2018老男孩脱产班linux运维51期 2018老男孩脱产班linux运维51期 链接 https pan baidu com s 1bnIJF6IoBC
  • Linux网络配置实验

    Linux的网络配置分为两种 手动和自动 下面我们先配置好Linux外面的设置 后面再去终端用命令行配置 框起来的网址记住 后面要用上 这里开始打开终端 用命令行配置 这是手动配置的 将前面记下来的网址适当填入对应的位置 对照这种图稍作修改
  • PBFT(拜占庭容错)

    PBFT 拜占庭容错 基于拜占庭将军问题 一致性的确保主要分为这三个阶段 预准备 pre prepare 准备 prepare 和确认 commit 流程如下图所示 其中C为发送请求端 0123为服务端 3为宕机的服务端 具体步骤如下 1
  • MySQL数据库查询默认是按什么进行排序的

    文章中所有操作均是在 MySQL 5 7 版本下进行的 引入问题 MySQL 普通查询它是按照什么进行排序的 我们稍微讨论下这个问题 我们先引入一个测试表 drop table if exists tbl test create table
  • Swagger 整合 Spring Boot

    title Swagger 整合 Spring Boot date 2021 10 1 tags spring springboot swagger categories spring springboot Swagger 整合 Sprin
  • Relation-Aware Global Attention for Person Re-identification (cvpr2020)

    首先这是一篇科大和微软亚研院的文章 文章很优美 非常值得一阅 本文主要是针对行人重识别提出一种从局部之间的关系找到相关性从而生成注意力的方法 可以理解成继承 Non local 或者 self attention 的方法 虽然理念相似 这些
  • 【css】css3动画实现鼠标悬停按钮动画

    html a href span span Button a css body margin 0 padding 0 font family sans serif a position absolute top 50 left 50 tra
  • 【20201023期AI简报】OpenCV 4.5 发布、NVIDIA开源NeMo,更多精彩点我!

    导读 本期为 AI 简报 20201023 期 将为您带来过去一周关于 AI 新闻 12 条 其他互联网圈内新闻10 条 希望对您有所帮助 有更好的建议或者意见请在下方留言 AI 1 OpenCV 4 5 发布 DNN 模型在 ARM 平台

随机推荐

  • 数据库表的各种连接(内连接,外连接)

    关系型数据库 以关系代数为理论基础 1 用表 Table 表示关系或者实体 2 用行 Row 表示元组 3 用列 Col 表示属性 关系代数包含以下8个关系运算符 单表操作 1 选取 返回满足指定条件的行 2 投影 从数据集合中返回指定的列
  • Vue和React的优缺点

    Vue和React是目前最流行的前端框架之一 它们都有自己的优点和缺点 在这篇文章中 我将会详细介绍Vue和React的优缺点 并给出一些建议 帮助你选择适合自己的框架 一 Vue的优点 1 简单易学 Vue的语法简单易懂 学习曲线较为平缓
  • 关于U盘制作启动盘后内存变小问题的解决

    不需任何工具 只需要输入几个简单命令即可 1 U盘插入电脑然后运行windows的命令窗口 命令窗口打开方式win R后输入 cmd或点击开始菜单 gt gt 运行 gt gt 输入cmd 2 在命令行输入diskpart然后回车 如图所示
  • 爬虫爬取mp3文件例子

    相信训练模型时数据集的获取也是一个很头疼的事情 搞cv领域的可以扛着摄像头架起三脚架拍摄获取 以前干过 但是如果是nlp领域的呢 特别是chatgpt等大模型出来后对这类文本等数据的需求更大 如果没有现成的数据集的话基本上很难自己创造数据
  • vue自定义指令实现按钮鉴权

    vue中提供了创建自定义指令api directives 一般接口返回权限表如下 在路由守卫中用户登录情况下获取权限 并提交mutations存储在 vuex中 ajax获取菜单数据 let menuList permissions awa
  • vant+vue3+ts 的滑块验证

    vant vue3 ts 的滑块验证 效果图
  • SpringBoot可执行包结构

    相对于传统的JAVA可执行包 jar文件 SpringBoot的包结构有比较大的不一样 标准的JDK定义的jar文件里面是不能够有内嵌jar文件的 所以通常我们在执行一个jar文件里面的应用程序时 还需要通过 classpath来告诉JDK
  • Atcoder beginner contest 303

    A Similar String AC代码 include
  • 动物森友会【科大讯飞杯L题】【二分答案+最大流】

    题目链接 有N个物品 一周有7天 然后呢 要对应的每个物品都要达到各自的需求数量 于是问 最少需要几天才可以达到要求 很明显的 这是线性关系的 我们可以用二分答案来解决这个问题 然后呢怎么知道是否满足条件也就是来确定的 要满足每个物品都要拿
  • [Unity3D]第一人称角色控制器

    Unity3D 最简单最详细的第一人称角色控制器 自学Unity3D有一段时间了 一直想弄一个第一人称角色控制器 网上还是有很多教程和资料 但感觉有很多教程和资料理解起来比较复杂 在这里我结合网上所学的知识自己写了一个比较容易理解的Unit
  • python爬虫归纳_【知识归纳】史上最全的Python爬虫抓取技巧总结

    原标题 知识归纳 史上最全的Python爬虫抓取技巧总结 一 最基本的抓站 import urllib2 content urllib2 urlopen http XXXX read 二 使用代理服务器 这在某些情况下比较有用 比如IP被封
  • Java-代码审核CodeReview要点总结

    1 颗粒度划分要细 例如 当分组循环一个请求一个服务时 如果其中的一个请求抛出异常 应该在catch中捕获 记录错误日志 让循环继续进行 2 非空判断和边境检查 对数组和集合的判断 对map的key值判断 对list的值得判断 3 错误码和
  • Python中list转换为numpy数组出现的问题

    问题为 现有的数据list LuKou train DF KnownCameraTrajec 是一个1000000 30的list数据类型 使用np array list LuKou train DF KnownCameraTrajec 转
  • Installed Build Tools revision 31.0.0 is corrupted. Remove and install again using the SDK Manager

    在最近创建新项目时遇到如题的错误 在重新删除build tools 31版本后还是报错 其实不需要将SDK构建工具从31降为30或更改编译SDK版本 主要问题是SDK build tools31 缺少两个文件 dx bat dx jar 解
  • 记一次SpringBoot项目的Invalid bound statement (not found)错误

    目录 一 前言 二 解决方案 1 第一种 语法错误 2 第二种 编译错误 3 第三种 配置错误 4 第四种 粗心大意 三 写在后面 一 前言 今天写项目的过程中突然报错 Invalid bound statement not found 百
  • 项目启动报错信息:java.lang.NoClassDefFoundError: org/apache/commons/el/Logger

    注 仅供参考 个人运行项目时遇到的问题和解决方案 希望可以给大家带来一丢思路 并非普适性 问题描述 启动tomcat时报错 项目未运行成功 具体报错 十月 18 2021 9 10 11 下午 org apache catalina cor
  • Fmask算法——影像云检测算法

    总结Fmask算法的学习资料 1 经典论文 1 Object based cloud and cloud shadow detection in Landsat imagery 2 Improved cloud and cloud shad
  • 如何建立异地容灾备份体系

    GB T22239 2019 信息安全技术 网络安全等级保护基本要求 即等保2 0 已于2019 12 1 正式实施 其中第二级安全通用要求 应提供异地数据备份功能 利用通信网络能将重要数据定时批量传送至备用场地 第四级安全通用要求 应建立
  • Matlab画图 常用功能及属性设置脚本

    一 plot使用脚本 常规设置 1 线型 颜色 宽度 2 legend 字体 字号 位置 3 label 字体 字号 4 title 字体 字号 加粗 5 gca 边框宽度 坐标轴字体 坐标轴范围 网格 x linspace 0 2 pi
  • 万字长文详解特斯拉自动驾驶体系(感知/规控/标注/仿真)

    作者 和君 编辑 禾隐记 点击下方卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 汽车革命的上半场是电动化 下半场是智能化 电动化只是改变了汽车的动力供给方式 并没有改变汽车的性质