1. 首页 > 广告运营 >

关于自动驾驶,不要过于神话特斯拉

鲁迅先生说过,世上本没有路,走的人多了也就有了路,车圈的营销专家们说过,世上本来没有话题,讨论的人多了,也就有了话题。由于开车的门槛太低,以至于在智能电动汽车市场,技术含量最高的自动驾驶反而成了最能引战的话题集中地,没有之一。说到这个领域里的各个热点,特斯拉的行业地位是其中最为引战的话题。被马斯克头顶的光环眩晕了的特斯拉拥趸们表示,特斯拉是电、特斯拉是光,特斯拉是唯一的神话,包括华为和小鹏,哪个友商不是在特斯拉开辟的技术路线下亦步亦趋的?觉得国外的月亮未必比国内的圆、外来的和尚不一定更会念经的反对者则表示,无论你怎么夸,反正在我们的心里,自动驾驶就是华为和其他。倘若从事实出发,真相到底是怎样的呢?



核心算法创始者不是特斯拉
说者无心,听者有意,2023年年底,一位知名学者发文称,特斯拉在自动驾驶大模型领域领先国内友商三年时间,话音刚落,很多网友的玻璃心碎了一地,迅疾对这位清华大学的专家教授发起了人身攻击。2024年的世界人工智能大会上,从特斯拉跳槽到小鹏、又从小鹏出走奇瑞的自动驾驶部门负责人谷俊丽发表观点称,特斯拉领先国内友商1.5-2年时间,这番话同样引发了网络杠精的大规模声讨。网友们声讨的热点当然不是特斯拉到底是领先国内两年还是三年,而是特斯拉凭什么坐定行业标杆的位置。
说真话虽然容易伤人,但是,不可否认的是,从基于CNN的后融合到基于Transformer的BEV前融合,从BEV到占用网络OCC,再到目前大火的端到端,三次技术路线转变,特斯拉确实走在了所有友商的前面。

image.png

图片来源:爱芯元智
特斯拉在自动驾驶行业的地位原本并不显著,真正为它博得自动驾驶引领者美誉的是2021年横空出世的基于Transformer的BEV。这里面有两个关键词:Transformer、BEV,其实,无论是BEV算法还是Transformer架构,其首创者都不是特斯拉。

image.png

 图片来源:江淮
就理解门槛而言,BEV鸟瞰视图比Transformer低太多了,无非是模仿人类的视觉和认知方式,通过鸟瞰图立体描述现实世界,提高感知的自然性和可解释性,从这个角度来看,BEV这种思想并非多么石破天惊的发明。事实上,自动驾驶行业2018年就实现了基于CNN的BEV算法,只不过,CNN深度卷积神经网络的优势在其局部特征提取能力,全局信息的有效建模能力较差,很难在CNN的架构下获得一个非常好的BEV视图。事后证明,Transformer具备非常好的时序融合和空间融合能力,可以很好地克服CNN感知范围的局部局限性。

image.png


 图片来源:地平线
Transformer问世于2017年。当时,为了解决长文本机器翻译的复杂语义理解问题,谷歌的几名研发人员发表了一篇旷世之作:Attention is all you need!Transformer的优异特性很快就在机器翻译任务得到了淋漓尽致的展现,OpenAI时任首席科学家、刚刚获得诺贝尔物理学奖的辛顿口中“活都是他们干的”那俩著名的研究生之一的IIya,以其卓越的洞察力和高度前瞻性思维敏锐地捕捉到了Transformer的巨大威力,把它扩展到更广泛的自然语言处理领域。
作为OpenAI联合创始人的马斯克挖来OpenAI创始成员Andrej Karpathy,再接再厉,进一步地将Transformer应用到了图像处理和计算机视觉领域。这么捋下来,大家应该明白了,特斯拉的核心贡献既不是首创了BEV也不是发明了Transformer,而在于借用自动驾驶行业已经问世两三年的基于CNN的BEV和在NLP自然语言处理领域大放异彩的Transformer,进行了组合创新,实现了“基于Transformer的BEV”。


真正的贡献在于大模型化

在错综复杂的技术体系中抽丝剥茧,捋出一个前进的方向,很多人都是事前猪一样,事后诸葛亮。现在回过头来看,Transformer架构的威力怎么赞誉都不过分,正是该神经网络架构的出现,导致了人工智能从多分支、小模型的发展阶段慢慢走向了大模型时代。

image.png


 图片来源:华为
在自动驾驶领域,历史上出现过很多用于各种各样感知任务的小模型,比如用于信号灯及交通标识检测的YOLOv3或v5、用于可行驶区域分割的SOLOv2、用于车道线检测的CondLaneNet等,在推动自动驾驶系统性能的发展过程中,这些小模型都发挥了比较重大的作用,不过,采用多个小模型执行多个感知任务的显著缺点在于,因为数量众多,造成了大量的计算浪费。在车端算力依然捉襟见肘的情况下,浪费就是犯罪,共享Backbone的大模型叠加多个感知头,执行多个感知任务,显然可以有效地实现算力的集约化使用。事实上,当大模型的核心神经网络架构Transformer问世且在NLP领域证明了其价值之后,特斯拉就开始探索并成功地将之用于自动驾驶领域,自此,多个自动驾驶小模型也开始统一到Transformer大模型上。

image.png


 图片来源:毫末智行
在今年的第2届汽车人工智能大会上,华为总结了智驾行业的三大现状-数据倍增、模型收敛、训练频次加快。其中,模型层面由几百个基于CNN、RNN、LSTM的小模型收敛到几个基于Transformer的大模型,可以认为是这几年来自动驾驶算法层面最为重要的演变。

image.png


 图片来源:华为
好汉敬好汉,英雄惜英雄,华为在这张PPT里表示,特斯拉引领BEV+Transformer+OCC。确实,在由多个完成分类感知任务的小模型收敛到基于Transformer多头注意力机制的端到端感知大模型的道路上,特斯拉的确发挥了引领者的作用。
值得一提的是,这里的大模型的概念不同于近两年来随着ChatGPT大火破圈的生成式AI大语言模型。在很多语境下,自动驾驶大模型里的“大”指的是体量大和作用大。体量上,和之前的多个小模型相比,目前基于Transformer实现的模型参数量更大,作用上,现在少数几个大模型实现了之前多个小模型完成的任务。

image.png




全面AI化 是愿景也是豪赌

承认别人优秀总是很难的。最近,马斯克的Space X成功实现了“筷子夹火箭”,一些人也觉得不以为然,“无非是一系列眼花缭乱的技术攻坚,东大其实也能实现”。确实,别人实现了从0到1的突破,验证了一条技术路线之后,我们可以发挥优势复现从0到1并迅速实现从1到10。不过,从0到1和从1到10还是有着巨大的区别,本质的区别在于有没有愿景,愿不愿意豪赌。

image.png


特斯拉在自动驾驶领域的一系列突破之所以赢得了业内人士的一片赞誉,最根本的原因在于特斯拉早在多年前就押注神经网络大模型,逐步将自动驾驶算法模型化,展示了将自动驾驶系统全面AI化、大模型化的愿景。
前段时间,特斯拉的股东们投票通过了向马斯克发放560亿美金天价薪酬的表决案,别的不说,这个硬汉在纯视觉、重感知、轻地图上的洞见和坚持,是特斯拉FSD独步天下的头号原因。真男人不用枪,特斯拉为什么一开始就能不依赖激光雷达呢?或许是因为马斯克心怀全面AI化的自动驾驶系统的能力必将随着模型变大、训练数据增加而不断提升的愿景吧。激光雷达相较于摄像头的两大优势无非两条:在暗光、逆光、炫光下的表现,天然具备深度信息。AI化的ISP可以通过自动增益控制技术应对暗光场景,通过高动态范围技术应对强光场景,AI视觉神经网络可以从海量的数据中逐渐学习到估计深度信息的能力,不用激光雷达有何不可的呢?
2018年,特斯拉前自动驾驶负责人Andrej Karpathy提出软件2.0时代的说法,软件2.0范式的核心在于构建数据驱动的AI系统,通过数据闭环自动化平台和算力闭环持续提升模型平均精度均值。

image.png


 图片来源:地平线
2020年,Andrej在一次访谈中进一步表示,全面神经网络化、不写一行代码是自动驾驶领域的圣杯。特斯拉将自动驾驶系统全面AI化的愿景等价于完全依靠可解释性差、基于统计学习、概率判断的神经网络实现安全要求极高的自动驾驶系统,这种做法一直备受质疑,到了2024年,更加符合这种愿景的端到端火起来之后,这种开发范式其实也没有得到大家的一致认可。特斯拉10月10号发布没有方向盘和刹车踏板的Robotaxi,包括Waymo在内的很多L4玩家质疑特斯拉FSD不可能具备L4能力的根源也在这里:全面AI化,怎么可能达到L4的安全等级?

image.png


 图片来源:网络

今年下半年以来,大家经常提到传统端到端方案上限很高、下限很低,其核心根源也在这里。特斯拉是否真的可以完全仰仗全面AI化的神经网络实现上限很高、安全等级也很高的L4级自动驾驶,是业界非常关心的一场豪赌。

端到端范式大火之后,特斯拉在自动驾驶领域的声望可谓如日中天,其实特斯拉并不是第一家探索端到端技术路线的企业。早在2016年,英伟达就在思考能否采用端到端的形式实现自动驾驶了!不过,说起来,英伟达这个目前市值高达3.5万亿美金的明星企业,它的营收和股价是被OpenAI横空出世的ChatGPT引发的大模型狂潮带得一飞冲天的,而OpenAI又是马斯克当年和萨姆·奥尔特曼等人联合创办的,想一想,现实果然真的很魔幻!也许,在看到特斯拉在端到端路线上的成功和享受到的殊荣之后,老黄心中一边念叨着“功成不必在我”,一边默默盘算特斯拉到底能买多少显卡吧。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.fwsgw.com/a/guanggao/209995.html

新势力专利之战:谁更愿意为未来技术买单?
« 上一篇 2024-11-19
特斯拉FSD:离真正的无人驾驶还有多远?
下一篇 » 2024-11-19

相关推荐