异动
登录注册
开源中小盘&汽车 | 智驾底层技术:世界模型和认知智能,自动驾驶的下一站
Bobo
超短低吸的散户
2024-09-07 16:02:26 上海市
会议要点
1、自动驾驶技术发展方向
自动驾驶技术的发展正在朝着结合神经网络模型和大语言模型的方向迈进,以实现L4和L5级别的自动驾驶。这种结合将使自动驾驶系统不仅具备快速反应的能力,还具备深度思考的能力,类似于人类的条件反射和认知智能。这一发展方向不仅在汽车领域具有应用潜力,还可能在更广泛的场景中得到应用,如人形机器人等。
特斯拉正在引领自动驾驶技术的发展,其BEV加上Transformer的端到端大模型正在推动自动驾驶向更高级别迈进。特斯拉计划在10月10日发布的Robotaxi将是这一技术发展的重要里程碑。未来,自动驾驶技术的发展将逐步与大语言模型结合,以实现更高效的条件反射和深度思考能力。
2、世界模型与认知智能
世界模型和认知智能是自动驾驶技术发展的关键方向。世界模型通过对环境的理解和预测,帮助自动驾驶系统更好地应对复杂的驾驶场景。认知智能则通过模拟人类的思维方式,提升自动驾驶系统的决策能力。这两者的结合将大幅提升自动驾驶技术的泛化能力和应对长尾场景的能力。
人类驾驶的泛化能力源于对世界模型的理解,这种能力使得人类能够在复杂多变的驾驶环境中快速适应。自动驾驶技术需要通过模拟人类的世界模型和认知智能,提升其在复杂场景中的表现能力。通过引入多模态数据和大语言模型,自动驾驶系统可以更好地理解和预测驾驶环境的变化。
3、算法、算力与数据
自动驾驶技术的发展需要强大的算力支持。特斯拉计划在年底将算力提升到8.5万片H100等效算力,以支持更复杂的端到端模型和大语言模型的训练。国内外的自动驾驶玩家都在积极提升算力,以支持更高效的算法和数据处理能力。
数据的质量和多样性对自动驾驶技术的发展至关重要。通过量产车收集真实世界的数据,以及利用仿真技术生成多样化的数据,自动驾驶系统可以在更广泛的场景中进行训练和验证。数据的筛选和生成能力是自动驾驶技术开发商的重要竞争力。
这些要点涵盖了自动驾驶技术的未来发展方向、世界模型与认知智能的作用、以及算法、算力与数据在自动驾驶技术中的重要性。


会议实录
1、自动驾驶技术发展方向
各位投资者,大家早上好。我是开源中小盘和汽车的任娜。欢迎大家参加我们智能车研究框架系列的深度汇报。最近两天,我们主要讨论了供给端底层算法的技术方向,尤其是神经网络模型与端到端模型的结合。
要实现L4甚至L5级别的自动驾驶,系统需要具备快速反应的条件反射能力,以及深度思考的AGI能力。因此,自动驾驶系统将与大语言模型紧密结合。这种结合不仅在汽车上应用,也将在人形机器人等通用场景中发挥作用。我们探讨的方向是迈向认知智能和世界模型的发展。
未来的L4、L5自动驾驶需要具备专业的快速反应能力和通用的AGI认知能力,才能实现真正的突破。这类似于智能手机的发展催生了移动互联网生态,自动驾驶的普及也可能孕育出新的生态。具备AGI能力后,功能体验将更加丰富,能够结合更多场景。因此,这一发展方向非常重要。
今天分享的第三个核心内容是未来的发展方向,包括世界模型、认知智能和通用AGI的大语言模型结合。这也是特斯拉正在推动的技术方向。接下来,请我的同事徐阳为大家做深度汇报。徐阳是我们团队技术研究最深入的同事,欢迎大家与我们进一步探讨和交流。接下来时间交给徐阳。
感谢任总。各位领导早上好,今天我汇报一下自动驾驶技术的未来展望。前几期我们介绍了底层技术和当前使用的算法,如端到端等。今天我们将讨论未来实现自动驾驶需要在哪些技术上取得突破,并进行分解和研究。
报告分为三个部分:第一,介绍行业内AI的几个维度及自驾所需内容;第二,端到端后的模型需求变化;第三部分由任总和陈总补充。
抱歉,我需要调整一下PPT。请稍等,我马上改好。
任总,不好意思,我重新调整了一下PPT目录。请稍等,我马上完成。
调整好了。任总,准备好了。
好的,我们十秒钟后开始。
2、自动驾驶算法的未来方向
各位投资者,大家早上好。欢迎继续参加我们的智驾研究系列电话会议。今天是关于供给端算法的第三次深度汇报,主要探讨未来大模型在自动驾驶发展中的方向。我们看到特斯拉通过BEV加Transformer的端到端大模型引领行业发展,并计划在10月10日发布Robotaxi,推动自动驾驶迈向L4和L5级别。
要实现L4和L5级别的自动驾驶,端到端大模型的发展方向将逐步与神经模型LLM结合。这种结合既能实现快速反应的自动驾驶功能,也具备深度思考的AGI功能,从而真正迈向高级别自动驾驶。这种发展方向中,大模型与大语言模型LLM的结合,以及形成的AGI认知能力和世界模型的发展,对自动驾驶算法影响重大。
今天的核心汇报聚焦于世界模型和认知智能。我们认为这是迈向L4和L5级别自动驾驶的必然方向。接下来,我的同事徐阳将深入分享这一主题。徐阳在技术研究上非常深入,欢迎大家与他和我们的团队联系,进行进一步探讨。
感谢任总。各位投资者,早上好。今天我将汇报底层技术线的第三部分,介绍世界模型和认知智能对自动驾驶的赋能。前几天我们主要从AI底层算法和当前自动驾驶技术进行拆解。今天希望介绍未来实现自动驾驶所需的技术变革。
报告分为几个部分。首先,从AI维度介绍实现自动驾驶需要的内容。其次,详细介绍认知智能及其对自动驾驶的帮助。最后,从算力、算法和数据三个维度介绍当前的工作,推动自动驾驶的实现。
自动驾驶是AI领域的重要应用,其核心要素是算法、算力和数据。就像小朋友做题一样,自动驾驶需要强大的车端和云端算力。数据方面,训练模型需要丰富的题目,以便在实际应用中应对各种情况。算法方面,思维方式和学习方法决定学习速度和理解深度。
前两期我们提到行业从高精地图加激光雷达到BEV Transformer,再到特斯拉的端到端算法,经历了算法变革。特斯拉的FSD V12代表了目前最先进的技术。但即使推高数据规模和算力,现有算法仍无法解决所有驾驶问题。因此,需要在算法上进行更深层次的变革。
我们观察到特斯拉FSD V12版本表现优异,但仍无法处理所有场景,驾驶员需集中精力。比如,在青藏高原道路上遇到牦牛群时,人类驾驶员会减速缓行,而自动驾驶可能会停下,导致长时间无法通过。
另一个例子是钉子板障碍物,自动驾驶算法可能误判为低矮物体,导致轮胎被扎。因此,模型需要专门训练或具备普世常识的理解。
3、自动驾驶的功能安全挑战
第三个图中,我们观察到潮汐车道的指示可能会非常复杂。有些潮汐车道的指示标志会直接写在地面上,比较明确,而有些则可能出现在交通标志上。这种情况下,潮汐车道的呈现方式以及行驶时间(白天或晚上)都可能变化多端。我们设想,端到端模型是否能够有效处理这些复杂的潮汐车道指示。
接下来,我们看左边的图。图中展示的场景是车子在乡间小路上行驶,旁边有一棵高大的树缓缓倒下,挡住了道路。人类驾驶员可能会在看到树倾斜时提前停车或加速通过,但算法可能无法理解树的倾斜意味着什么,可能会继续前进,直到激光雷达或视觉系统检测到障碍才会刹车。
第五个图展示了一个奇怪的手势,代表不要前进。算法需要在见过类似场景和数据后,才能理解这个手势的含义。最后一个场景是下雪天没有车道线,人类通常会跟随前车的车辙行驶,而算法则需要专门训练才能在这种情况下安全驾驶。即使有端到端算法,一些小问题仍难以解决,这涉及到功能安全的概念。
解决自动驾驶长尾场景的思路是将场景分为四类:已知安全、已知不安全、未知安全和未知不安全。已知安全的场景是算法可以处理的,主要在绿色区域。已知不安全的场景是人类知道不安全,但算法未体验过的,需要通过训练将其转为已知安全。
然而,未知不安全(Unknown Unsafe)的场景是我们无法提前训练的,因为我们自己也不知道这些场景的存在。例如,树木倒下的案例,树可能生长了几十年而未倒下,只有在某个特定时刻才会倒下,拦住道路。这种场景是无法通过历史数据学习到的,因为它是未来才会发生的事件。
4、人类驾驶与世界模型
在历史上未曾发生、未来可能出现的案例中,通过大规模数据收集来解决自动驾驶长尾场景的问题,可能行不通。这是因为长尾场景似乎无穷无尽,总有新的情况出现。尽管算法已经迭代到一定程度,仍然面临挑战。因此,工程师们开始反思人类为何能如此出色地驾驶。这引出了理想汽车提出的DVRM双系统方案,旨在研究人类驾驶的特质。
人类思考包括系统一和系统二,这是诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中提出的。系统一是快速、本能、自动化的反应,如计算简单的乘法。系统二则是缓慢、刻意、逻辑的思考,适用于复杂任务,尽管耗费精力且速度较慢。在日常行为中,这两种思维方式共同作用,例如驾驶。
学习驾驶时,科目一涉及交通规则,主要训练系统二的理解能力。科目二则通过重复操作训练系统一的肌肉记忆。在熟悉的道路上驾驶时,系统一主导,人们可以分心做其他事情。但在赛车或赶时间时,系统二会帮助规划路线,确保快速到达目的地。赛车手需要领航员提醒前方障碍,说明驾驶中系统一和系统二同时运作。
人类能快速学会驾驶,通常只需一个月或几十小时。学习过程中遇到的长尾场景很少,大部分在实际驾驶中逐步处理和学习。这显示出人类驾驶的泛化能力,即学会简单技能后能应对多变场景。这种能力与世界模型有关。
世界模型的概念最早由谷歌在论文《world models》中提出,指人类通过对世界的理解预测未来。以棒球运动员击球为例,击球时间仅为毫秒级,理论上无法在空中调整挥棒角度。然而,运动员击中的是脑中预测的棒球轨迹,而非实际棒球。他们通过丰富经验和对棒球旋转、飞行轨迹的理解,精准预测并击中棒球。这种预测能力即是大脑中的世界模型。
5、自动驾驶与人类认知对比
人在学习驾驶时之所以能够很快掌握,是因为从出生起,人类就开始学习一些基础的世界运行规律。例如,左右眼的视差、物体不会凭空消失或出现等。在大约七岁时,我们会学到一些社交方面的帮助或障碍,以及感知方面的稳定性支持等概念。到了十几岁,我们可能会理解重力、惯性、动量守恒等原理,尽管不一定理解公式本身,但对运动状态会有一定的认知。
在13到14岁时,人们甚至会形成目标导向的行动状态的恒常性,即不会突然无故变化。这些基本知识在人类18岁之前基本掌握。因此,当人类成年后学习驾驶时,并不是从头开始学习所有内容,而是将已知的世界运行规律重新排列组合,并通过不断训练形成驾驶的肌肉记忆,最终具备驾驶能力。这也是为什么人类学习驾驶具有较好的泛化性和较快的速度,因为在学车之前,许多知识已经在日常活动中得到应用。
相比之下,自动驾驶模型在训练过程中需要从头学习所有信息,因此需要大量数据。当面对长尾场景时,人类可以依靠强大的世界模型和底层知识进行思考和推理,从而解决问题。例如,当看到飞碟落在路上时,人类知道要避开,因为我们知道飞碟和路是什么。而自动驾驶算法可能无法处理这种场景,因为训练中未曾遇到过。
因此,自动驾驶需要类似人类的能力,以增强算法的泛化性,解决之前难以应对的极端情况。这种结合逻辑思维和本能反应的思路也被应用到自动驾驶领域。早期,谷歌在DARPA Challenge中认为自动驾驶可以在几年或十几年内实现,特斯拉刚开始时也持类似观点。然而,直到今天,尽管算法效果惊艳,但仍无法完全取代人类驾驶员。
6、自动驾驶认知智能演进
当我们试驾车辆时,可以明显感受到在没有障碍物或动态物体的道路上,车辆能够较好地实现自动驾驶。然而,一旦道路上车辆增多,尤其在复杂的交通博弈中,车辆可能会表现得过于激进或过于保守。这反映出自动驾驶的难点不仅仅在于驾驶技术本身,还需要对场景有更广泛的理解。驾驶不仅仅是技术问题,还涉及对道路标志和环境的认知,这需要广泛的通识知识。
驾驶行为本质上是通过动作与其他驾驶员进行交流,这涉及到人际间的心理博弈和反馈。对于算法而言,这种复杂的互动增加了难度。例如,当其他车辆试图加塞时,驾驶员可能通过加速来阻止,而算法可能仅依赖距离判断,无法准确理解驾驶员的意图。这是当前自动驾驶难以实现的核心原因之一。
在算法方面,自动驾驶技术正从模块化向端到端演进,从基于规则向基于神经网络转变。未来的方向是认知智能,让算法具备常识,以增强对场景的理解和博弈能力。最终,如果强大的AGI(通用人工智能)得以实现,它将能够执行包括驾驶在内的各种任务。
在端到端演进的初期,规则和端到端方法会结合使用,以确保系统的安全性。随着端到端方法的成熟,规则将逐步减少,仅保留少量关键规则以保障安全。下一步是迈向认知驱动,当前算法缺乏常识和物理知识的理解能力。过去的专家系统虽然拥有通识知识,但缺乏灵活应用的能力。如今,大语言模型和多模态模型展现出强大的认知能力,能够在特定场景中超越人类。
一些公司,如理想,已经开始将视觉语言模型与端到端模型结合应用于自动驾驶。特斯拉也在探索将预训练的大语言模型嵌入基础神经网络中,以指导和解释端到端行为。在这种结合下,系统能够识别广告牌上的停车标志并避免不必要的停车。
许多公司正在进入这一领域。理想在去年的GTC大会上介绍了他们的方案,采用了经过大量数据训练的端到端模型,并结合视觉语言模型进行复杂场景处理。虽然端到端模型推理速度快,适用于大多数场景,但在复杂长尾场景中,视觉语言模型提供了支持。
理想已经向早期用户开放试驾,表现令人惊艳,预计今年年底或明年将进一步推广。蔚来也在探索世界模型,认为需要更广泛的知识来训练模型,以应对复杂场景。Waymo作为自动驾驶行业的先驱,一直坚持激光雷达和高精地图策略,但也开始关注视觉语言模型在自动驾驶中的潜力。
7、认知智能与数据挑战
清华产业研究院与百度联合发布了AIR Apollo FM基础模型。这一算法强调自动驾驶的端到端基础模型,即具身智能技术模型,也是通用机器人技术模型。其能力要求包括感知万物、通晓常识和推理能力。这种具身智能模型被称为VLA模型,即视觉、语言、行动模型。除了视觉和语言输入外,还可能输入控制信息,以便更好地感知外部世界的状态。总体来看,行业正在探索认知智能方向。
在实现路径上,各家公司有所不同。比如,理想汽车采用双系统并行运转,而有些公司则将其融合到一个大模型中实现所有功能。特斯拉在最近的AI Day后,仅在2023年CVPR上介绍了世界模型,未详细公布技术细节。然而,特斯拉创始人马斯克成立了xAI公司,开发大语言模型Grok,该模型在理解物理世界方面表现出色。
大模型在自驾任务中对空间理解能力有限,因为训练时缺乏三维信息。Grok通过特斯拉车辆收集的三维数据进行训练,增强了空间理解能力。xAI发布了real world QA标准,考验模型对三维世界的理解能力。Grok 1.5在real world QA上超越了GPT-4V。
认知智能需要多模态感官和外部反馈,以更好地理解世界。机器人领域也在探索具身智能的发展。大语言模型主要依赖文字和图片训练,现有语料库有限。特斯拉等公司通过汽车和机器人收集数据进行训练,提升模型效果。
在数据端,从模块化算法转向端到端后,对数据要求提高。传统算法通过规则定义行为,而端到端无法直接改变算法行为。数据筛选和生成对自动驾驶开发商提出高要求,数据质量至关重要。量产车收集和仿真工具生成是主要数据来源。仿真技术路线多样,各有优劣。真实度和可控性之间存在权衡,仿真分为闭环评估和开环评估。
8、智驾技术与算力竞赛
我们在进行闭环验证时,确实遇到了一些难点。主要是如何构建一个逼真的虚拟环境,并从中获得充分的反馈。这是大家都在探索的方向。理想汽车在其发布会上介绍了他们的世界模型,提到他们在这方面投入了大量精力,希望模型能更好地作为一个“老师”来验证自动驾驶算法的性能。
在算力层面,我们可以看到,国内外的企业在推动端到端技术后,都开始大规模增加算力。特斯拉计划在年底达到8.5万片H100等效算力,约10万PFLOPS,这比国内的水平高出不少。此外,特斯拉在股东会上提到,他们的下一代FSD 5.0芯片的算力将是当前4.0芯片的十倍,约5000到7000TOPS。如此强大的算力,结合云端10万T的算力,是否会用于端到端模型之外的大语言模型或认知智能,我们可以继续观察。
最后,我们来看各家企业的进展。目前,量产的玩家主要采用模块化端到端算法,而下一代的研发倾向于认知智能,希望突破现有技术的瓶颈,提高模型规模和效率。我们可以期待未来,包括理想、华为、小鹏等国内领先企业在自动驾驶性能上的进一步提升。整个行业和车企都值得高度关注。今天的汇报就到这里,谢谢大家。


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
大众交通
工分
3.65
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    09-08 06:09 广东省
    谢谢
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    09-07 21:48 四川省
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往