《智能汽车产业专题报告》钛祺智库报告分享

　　➢ BEV等传统方法划分■★◆■★“可行驶空间★◆◆◆★”存在一些问题■■★★◆■：1）在地面极不平坦的时候，只有2个左右的像素点估计画面深度；2）可变形的障碍物★★◆，如两节的挂车/汽车顶上的杂物等★■◆★◆，不适合用3D bounding box来表示（会被直接视为一个整体）；3）不在已知类别中的障碍物◆■★，如路上的石子◆★◆◆、垃圾等◆★◆★■★，无法进行分类■◆◆■◆。

　　➢ 特斯拉在CVPR2023展示的更通用世界模型■■◆：模型最终目的是希望可以根据过去的场景或者其他事物来预测未来的场景；特斯拉通过轻量化扩散模型（Diffusion Model）试图实现这一点◆◆；希望它具有几个性质：①可以基于当前帧的图像预测未来几帧图像；②网络可以在没有新的图像信息情况下持续学习■★■◆◆；③可以通过Prompt生成现实中没有的场景；④可以作为神经网络模拟器；⑤不仅能够生成RGB空间图像，还能够生成类似标注的语义信息■◆，这既表明了这项技术有未来被利用在标注数据生成的潜力★★★◆，也说明了模型将具备一定的对客观世界的理解推演能力★◆■■★■。⑥可以做场景泛化；

　　2◆★★■、钛祺智库目前已收录1000+篇汽车行业最新技术报告，供行业朋友查阅、参考★■◆◆。

　　➢ 核心是解决通用障碍物的识别问题（找到一种更好的方式来描述长尾障碍物）：占用网络并非推翻BEV感知的技术基础，而是对BEV 网络在高度方向（Z轴）进行了进一步的扩展★★◆，从下图的架构中可以看到整体框架在对各个相机进行图像平面特征提取以后■◆，仍旧是接一个Transformer的模块，在图像feature map中通过MLP生成Value-key◆■，并利用BEV坐标系下栅格坐标的位置编码生成Query■◆◆★★◆，不同的是这次栅格不只是BEV感知中的2D栅格，而是在高度方向又增加了一个维度变成了3D栅格，进而生成了Occupancy Features替代了原本的BEV Features。

　　➢ 2018年多任务模型引入■◆◆：感知主干网络Hydra叫九头蛇，这个主干网络能延伸出很多个head（分支任务）★■，感知模型集成度提高；

　　1◆★★■◆.1 智能化带来的产业链变革★★◆◆◆：国内供应商崛起中，各环节基本都有国产供应商

　　➢ 特斯拉的FSD Lanes Neural Network：需要导航/众包地图提供道路级拓扑信息★★◆★、导航路线信息★◆■、车道数量/车道级拓扑结构及车道类型等等信息（无保护左转的体验与安全性明显提升）。

　　➢ 地图类型◆★★■：SD导航地图■★■◆★◆、LD（车道级，Lane data map，车道级地图））◆◆★★■■、HD高精地图■■◆■；

　　➢ 从V10到V12的端到端过程就是Rule-Based到NN-Based的过程■◆■■：FSD V10版本已经开始把感知环节依托神经网络实现，但感知空间到向量空间的映射以及规控环节基本还是Rule-based代码主导（规划环节引入了辅助神经网络）；FSD V11版本感知环节实现端到端◆◆★★，规划环节与控制环节均引入神经网络辅助■★■；V12版本完全实现从传感器输入到控制指令输出的全流程NN-based★★★。

　　高阶智驾的技术进步■◆◆■★：端到端实现算法从Rule-Based→NN-Based

　　➢ 厘清Robotaxi/单车智能/车路协同的关联：1）Robotaxi的to-B属性决定了其与单车智能在技术路线&BOM成本&泛化能力方面会有阶段性差异：Robotaxi不存在乘客主动接管车辆的可能，且需要对监管负责，刚需更多规控代码&硬件冗余（跨城市泛化更困难&整车BOM成本更高）；乘用车L3/L4追求以量产车的成本实现全场景智驾，当前在接管率指标上落后于Robotaxi◆■◆◆◆◆，但算法迭代速度更快（得益于端到端&数据积累）★◆，看好未来依托算法能力抹平硬件BOM投入差距；2）车路协同有助于拔高单车智能的系统能力上限★◆■，但不影响乘用车高阶智驾渗透：乘用车OEM规划的高阶智驾车型长远目标都是在全国范围内实现L3/L4■◆◆◆◆★，某几个城市/某些路段的路侧智能化程度并不会影响车企规划；

　　➢ 按照系统的能力边界划分-L0-L5：L0不参与车控◆◆■★■★，仅预警（例如FCW）；L1可代替驾驶员执行某些简单操作（通常是单纵向/单横向；例如ACC）■◆★★■◆；L2在特定路况下可以代替驾驶员执行转向/加减速操作（可完成纵向+横向的组合控制）★◆，允许手◆■◆、眼短暂脱离驾驶状态（例如TJA）；L3允许驾驶员在特定路况下将车辆操纵完全交由系统执行（例如NOA；点对点自动驾驶）；L4、L5、L3的主要区别是ODD（设计运行域cover的范畴）★◆；L0-L2为ADAS（辅助驾驶）◆■◆、L3-L5为AD（自动驾驶）★■◆；ADAS与AD的核心区别是事故责任是人还是车★■；

　　◆ 组织价值：1）简化自动驾驶研发流程（将浩如烟海的◆★★■★■“Use Case 定义和分析 ”的工作转向“场景提取◆■★”和“ 数据挖掘 ■◆★■◆■” 方向）；2）算法层面，传统的感知 - 融合 - 预测 - 决策 - 规划架构可能涉及到十几个子系统和更多的软件模块★◆★★，而端到端则可以将与之相关的子系统集成为单一模型。子系统简化意味着研发团队的分工简化★★■◆★★，并可以大大减少部门墙对组织效率的影响■★◆★◆◆。

　　智能座舱：预计智能座舱26年1800亿市场，硬件重点关注座舱域控/HUD/流媒体后视镜，软件关注DMS/OMS、鸿蒙座舱IT服务等

　　1、如欲获取完整版PDF文件■◆■■，可以关注钛祺汽车官网—智库，也可以添加钛祺小助理微信，回复“报告名称■■★：智能汽车产业专题报告”

　　➢ ASP较高且仍将提升+渗透提速+格局较好-座舱域控：从传统车机控制器（1-2k）→8155系列（2-3k）→82系列（4-5k）■★★◆★■，ASP有提升动力且渗透率提升加速（代表公司包括★■◆■★◆：德赛西威、华阳集团★★、均胜电子等）；

　　➢ 引入多模态视觉语言模型（VLM）基于比行车场景更广阔的通识知识来补足长尾场景的理解不足■★：把没办法基于规则去匹配的长尾场景（例如骑着自行车还单手撑伞，然后闯红灯，很难对应上这种特征很复杂场景的规则）先转化为自然语言描述◆★■◆◆■，然后输入多模态LLM，LLM直接给出决策建议；

　　➢ BEV+Transformer范式成熟也需要地图的先验信息：1）比如看到了红绿灯，在没有车道线的时候，到底能不能左转/右转；对于人来说，之前可能来过这个地方■■◆，或者经历过类似环境有先验知识，但对于智驾来说，这是比较大的挑战。所以对于交通规则类场景，地图可以给智驾带来帮助（无论有没有地面标线）单车感知能力有边界■◆◆；①冷启动：在没有大量数据的情况下，感知算法的决策需要地图提供先验信息（比如路口的分界点从两个车道变成3个车道，到底选择左1还是左2左3，可能需要一些先验知识）②动态事件：单车智能不能获得超视距信息，没法应对突发道路事件；

　　➢ 理想的NPN网络也是变相的地图：采集复杂路口信息训练NPN网络◆■★，形成NPN特征库。车端路过采样的路口匹配NPN特征，结合导航信息就能直接知道应该怎么走（在高架、环岛、隧道或地面标识★■◆★★■、信号灯等复杂场景通行效率可以大大提升）。

　　◆ 用户体验改善：1）安全性提升（把规则难以表述的场景转变为隐式表达）；2）驾驶风格拟人化；

　　➢ ASP较高且仍将提升+渗透率提升幅度较大但边际放缓+格局较好-大尺寸中控屏/液晶仪表：大屏连屏化趋势加速（例如20万左右银河E8 45英寸；智己LS6 26.3+10■◆■.5连屏）■◆◆◆★，屏显技术升级（从LCD到OLED 再到microLED），格局相对集中。中游关注德赛西威、华阳集团■■★◆、比亚迪电子；上游关注屏厂★■■；

　　➢ 高阶智驾技术进步曲线年特斯拉通过BEV扩展感知野→22年占用网络解决通用障碍物识别→23年端到端框架解决从规则驱动到数据驱动的迭代效率&场景泛化问题→24年行业开始把LLM框架融合到智驾算法框架（同时解决corner-case认知◆■◆◆、可视化AI决策过程、增强人机交互信任感&增强决策结果可解释性）■■；虽然终端产品体验/商业化进程尚未突破阈值（乘用车ADAS距离解放驾驶员双手还有距离★■◆、Robotaxi/港口无人驾驶等商业化应用渗透率有限），但技术进步的进程是明显提速的，高阶智驾有望加速朝L4演进；

　　➢ 传感器&算力平台基本已经标准化：城市NOA目前来看，普遍需要200Tops以上算力平台&激光雷达（部分车型已经选配/去除，例如小鹏AI鹰眼视觉&极越）■◆★■★■；

　　➢ 按照场景划分：1）按车速：行车ADAS（所谓前向ADAS）/泊车ADAS/安全功能（比如AEB）；2）按道路类型：城区&高速/城区快速路，所谓城市NOA与高速NOA；

　　座舱渗透率：从空间/ASP■★、渗透率的边际变化◆★◆、市场格局等几个维度考虑，硬件环节重点关注座舱域控★★■、大尺寸中控★■◆■◆、DMS/OMS◆◆■◆、HUD

　　高阶智驾的技术进步■◆■◆■：关于有图&无图-不太可能/也没必要完全无图（拥有基础车道信息的轻量化地图成本合理）■◆，图的意义是提升困难场景的通过效率&成功率

　　➢ 世界模型具备时空认知能力：1）想象重构（空间认知）：比如一个晴天场景，可以模型重构为雨天、下雪天；2）想象推演（时间认知）：针对一个事故场景，模型重新模拟能做出正确的决策■◆，比如急刹&减速避让加塞车辆）；

　　➢ 端到端的难点不仅是车端模型全链路打通，云端训练的数据量要求与标注难度均提升：端到端理论上可以实现完全数据驱动的模型训练（影子模式数据/采集车数据输入/仿线D Clip自动标注系统标注→模型训练→参数调整→重复循环），训练端V12不同V10的点在于标注数据需要为视频帧（4D Clip），且需要同时标注感知信息与车控信息，而且完全NN的架构数据需求量也会更大。

　　◆ 数据量/数据质量：1）数据量：FSD 训练需要用到上千万个视频片段，假设每个视频片段时长为 30~60 秒，以此为参考，训练端到端模型最起码需要几万小时的视频数据■■★★。目前规模最大的公开数据集包含大约 1200 小时数据，这意味着，要拿到端到端研发的入场券◆■◆◆，自动驾驶公司还必须使用更大规模的非公开数据；2）数据质量★★■◆■◆：端到端需要的是老司机的驾驶数据★★◆◆■■，大量驾驶数据达不到老司机水平，仅提取老司机所驾驶的车辆在特定场景下的高质量数据增加了数据获取的难度★◆◆；3）数据分布：真正能够反映真实世界复杂性的数据■■◆■，应该针对大量用户在无意识中情况下采集的■■★。更有挑战的问题是，如何调整长尾场景（Corner Case）在训练数据中的分布比例◆■◆■◆，目前行业还没有一套行之有效的方法论◆★◆■■■。

　　➢ ASP较高且仍将提升+渗透率未开始提速+格局较好-HUD：HUD格局相对分散■◆■■，但AR-HUD集中度较高（华阳集团、水晶光电、经纬恒润等）；

　　高阶智驾的技术进步：特斯拉引领★■■，国内跟随（从21年的BEV开始★◆◆◆■★，过去3年行业的技术进步在显著加速）

　　高阶智驾的技术进步★◆：关于有图&无图-不太可能/也没必要完全无图（拥有基础车道信息的轻量化地图成本合理）★■◆◆◆★，图的意义是提升困难场景的通过效率&成功率

　　➢ 端到端NN-Based的核心优点是可以大幅度提高开城效率■★★：不需要靠堆人头的形式针对每个城市的细分场景写代码，车队自监督学习，泛化能力非常强大。FSD如果真入华■★■★★，成熟速度可能非常快。

　　➢ 2020年开始搞前融合：多传感器收集到的数据融合后再形成感知结果（特征级融合）&Transformer框架引入；

　　➢ 高精地图的问题：1）地图质量■★■◆★：采样点太多且质量要求高；2）鲜度◆◆◆◆：更新频次要求高（日频）★■★■■■；3）泛化★◆★■■：不同城市路网结构差别很大★◆■★★，数据复用难度大◆◆★◆■；4）成本■■：假设每公里1k/年的维护成本◆★， 10万城市NOA车型保有量车企，在4-5个重点城市覆盖高精地图◆★■◆◆■，年化更新成本10亿级别；无高精地图情况下对车的要求高：车端算力要求高+算法迭代与数据回传+驾驶知识（从感知到认知的变化）；

　　➢ 2023/24H1引入端到端，并开始探索世界模型：引入端到端的目的是希望模型从代码驱动转换为数据驱动■★★★；探索世界模型是希望模型具有理解泛化规律的能力，提升Zero-shot能力&提高可解释力&提高乘车人对系统的信任感◆★★◆■◆；

　　➢ 世界模型如何推理万千平行世界：1）想象重构：比如基于3s真实视频生成不同场景长视频；2）时空重构需要理解真实世界：物理规律认知+时空一致性，类似Sora（会想象很多个平行世界，最终选择某个似然概率最大的方向）；难点★◆■★★：①仍然需要大量数据■◆◆★★■：类似人的学习过程，某个场景见多了才能更清晰的想象出来◆◆■■◆★：②长视频保持时空一致性需要解决内存&工程化问题；

　　➢ HD◆◆★◆、SD、LD地图是可以整合使用的，不同车企会有不同决策逻辑：LD地图成本预计是高精地图的20%左右，SD成本更低◆■★★■，LD/SD容易做城市间的泛化◆◆★；智驾做得好的车企会更大比重的用LD/SD；如果是智驾能力比较薄弱★■★，只是希望在个别车卖得比较好的地区把智驾体验做好，HD反而可能是首选（所谓冷启动阶段）；

　　➢ 马斯克的第一性原理：世界上没有所谓的静止物体，只要摩擦力够小◆■◆，任何物体都可以移动，都可能影响可行驶区域。感知系统的任务不是“目标识别+分割■★■◆”而是3D分割■◆，Fixed Rectangles（监测框/2D网格）、Object Detection（目标识别）★◆■★★■、Object Ontology（具体形状刻画）都是多余的。预测Votel的flow（速度）则是需要额外了解的参数★■◆◆◆。

　　➢ 智驾模型发展是时空认知能力的进化过程：2D/3D检测：通过box来框出不同对象→BEV■★◆■：感知域扩大→OCC◆◆★◆：包括道路边缘在内的通用障碍物也可以感知→世界模型：想象跟现实一样的另一个平行世界；

　　高阶智驾的技术进步：世界模型/VLM视觉语言模型旨在实现对通用泛化世界的逻辑理解

　　高阶智驾的技术进步：世界模型理解进阶——智能驾驶的发展是模型时空认知能力的进化过程

　　智能驾驶★◆◆■■：L1/L2主逻辑是国产替代，壁垒相对低；L2.5增速较快，但格局预计相对分散；L2.9天花板最高 &增速可观&格局相对好

　　➢ 2016年以前：Tesla的感知网络是常规的CNN，通常有多个网络，每个网络处理一个任务（head），例如车道线检测、人物检测与追踪、信号灯检测都有独立网络◆◆★★；

　　➢ 占用网络的输出：Occupancy Volume（通用障碍物的体积） & Occupancy Flow（通用障碍物的速度刻画）。Voxel（3D体素）取代pixel（2D像素），通过预测每个Voxel的流动来预测障碍物的移动轨迹（通过NeRF实现被遮挡物体的3D建模）。特斯拉能做到超过100FPS的速度运行◆■★，内存效率非常高。

　　➢ 2022年引入占用网络/NeRF：BEV框架仍旧需要学习过感知对象的语义信息才能正确识别◆■■◆★，占用网络的引入使算法能够感知通用障碍物（把所有感知对象都视作积木拼凑成的乐高，只考虑体积&速度◆★◆■★◆，语义信息的重要性下降），引入NeRF后，模型具备了感知被遮挡物体的脑补能力；

　　➢ ASP较低但有提升可能+渗透率提速且是法规件◆■■■◆，存在爆发可能+格局较优-DMS/OMS：ASP偏低导致天化板低，但渗透率较低，且23年已纳入推荐标准，不排除几年后成为强制标准的可能；另外■◆★★，E-NCAP已将儿童检测功能与报警策略纳入打分体系；软件硬件（摄像头相对同质化）；可关注格局相对较优的算法供应商（例如虹软科技◆★★■★、商汤-W）；

　　◆ 仿真测试要求：端到端自动驾驶不再区分模块，其测试评估方法需要同时具备真实性和可交互性，开环测试方法无法评估系统偏离人类驾驶员操作后的场景变化，闭环仿真成为实车测试以外最重要的基础工具◆◆◆。闭环仿真工具的研发是端到端上车的必要条件◆★◆★。

　　➢ 2021年引入时序信息/视频特征序列/BEV：引入视频特征队列（ Video Feature Queue ），让网络能够处理时空信息（BEV三维+时间维），数据标注从2D图片标注到视频帧标注★■★■；

　　➢ 增加人机交互的信任感&弥补可解释性不足：如果机器决策的流程可以通过文字形式通过车机与乘车人交互，能大大提高系统信任度&模型可解释性；

　　3、钛祺智库持续更新★■★■★■、收录行业深度技术文章、研究报告◆■★★，并不定期上传行业专家特约文章，为汽车行业朋友提供专业支持。

　　➢ 端到端的本质还是基于规则，Zero-shot的能力依旧是短板：端到端只是把基于规则的多模块框架转化为可以数据驱动的一体化框架；还是欠缺针对长尾场景的zero-shot能力（从直接遵从规则代码到从海量数据中学习到规则）；L4任何的未知场景中用户都不需要接管；数据驱动的end-to-end本质还需要见过这些场景，才能理解，所以还是不能胜任长尾场景★◆；

　　高阶智驾的技术进步：目前特斯拉是Level3的端到端，小鹏为代表的国内智驾逐步从level2走向level3

上一篇：顶会 VLDB‘22 论文解读：CAE-ENSEMBLE 算法

下一篇：【公司前线亿元人民币成立新全资子公司