来源:次世代车研所
11月7日-8日,2024中国汽车软件大会在上海嘉定召开。重庆梧桐车联科技有限公司技术委员会轮值主席王超发表演讲。
以下内容为现场发言实录:
谢谢大家!我是梧桐科技的王超,今天很高兴能够在这里和大家交流一下,关于座舱相关的话题。今天我分享的主题是梧桐科技在AI座舱方面的思考,以及我们的实践。
大家都知道,最近这几年最热门的技术肯定是AI大模型,我看今天很多演讲嘉宾分享的主题也都与AI有关。但是基于神经网络的技术,其实并不是这几年才出现的。在上个世纪80年代,其实就有了这种技术。这些年也是经过一系列的演变,2017年谷歌推出Transformer架构,2018年又推出BERT模型,很大程度上促进了大模型技术的发展,但是没有达到这么火爆的程度。直到2022年,Open AI推出ChatGPT之后,基本上引爆了这轮技术行情。随着这种技术的爆发,越来越多的AI产品也开始出现在我们的周围,像AI手机,基本上现在头部的手机品牌都发布了自己AI手机和AI操作系统。
国外的产品,像AI Pin,以及国内最近刚出的AI耳机等新的产品也都开始出现。有一个数据预测,到今年年底,整个AI手机出货量将达到1.7个亿,在全球手机量的占比能够达到15%,这个增长速度还是非常快的。大模型技术现在也是越来越多被各个车企开始使用,很多车企也在推出自己专属的大模型。
在这个背景下,梧桐科技也是对自己的AI座舱进行了全新定义,主要是分成三部分重塑。第一部分是座舱专属算力,它就像我们身体一样,你要有一个强壮强健的身体;第二部分是座舱专属架构,它为我们提供了很强大技能,提供全面的技能支持;有了身体和技能之后,接下来要对AI座舱专属应用进行很好的打造,为用户提供更多情感上的关怀,提供积极的情绪价值。
今天,我重点会介绍面向AI座舱的五大架构,分别是生成式AI架构、AI大模型端云架构、AI 3D引擎架构、AI舱驾协同架构、AI软总线架构。
一、生成式AI架构。
这个架构特点零层级交互能力以及跨域理解的能力。这里采用了多模感知,大模型决策和自然语言处理等等技术。这个架构分成三层,数据感知层、模型融合层、应用层,这三层各司其职,互相紧密配合,支撑用户在整个出行过程中对智能的体验。数据感知层负责把很多感知到的数据,比如行车数据、用户数据、环境数据,以及DMS、TOF数据、语音数据,把这些感知数据给到模型融合层。模型融合层通过大模型+小模型这种双向模型处理能力,精准预测用户接下来的行为和预期结果。再把结果给到应用层,应用层就会根据拿到的结果进行最优化展现,可以说是提供了一个“千人千面”的呈现效果。说到“千人千面”,梧桐科技最早在2019年、2020年的样子就已经推出“千人千面”技术。
当时的技术其实是基于把底层的组件化能力,以及我们基于多窗口可以编排的能力开放出来给用户,用户可以根据自己的喜好删除、添加,可以改变整个界面的元素,也可以拖拽排布,通过这样实现个人专属HMI展现,它也是一种“千人千面”。基于当时技术实现方式,它还是有很多的局限性,比如需要用户提前主动参与,通过主动参与才能得到你想要的结果。基于现在生成式AI架构,我们重新定义了“千人千面”,它可以真正意义上做到“千人千面”,因为它结合了你的行为数据,还有你当时所处的位置,然后环境、温度等等一系列,以及你当前正在跟这个车机进行什么样的交互。通过模型预测和生成对应的HMI,每时每刻每个人都是不一样的,所以达到了真正意义上的“千人千面”。生成式架构在产品上的应用,已经开始做研发,很快就会在座舱智能助手3.0系统融入进去,会提供更多复杂多元化,以及复杂场景理解的能力。
在研发生成式AI架构的过程中,我们遇到了很多技术挑战。像我们都熟知的大模型幻觉问题如何解决,以及信息反馈及时性的问题。因为我们使用手机的时候,你用AI助手和行车场景下完全不一样,尤其是在驾驶位的时候,需要信息反馈非常及时。
基于以上这几个技术痛点,我们采用了一种基于复杂度分发的技术。对于“幻觉”这个问题,我们采用由小模型给大模型打一些草稿,大模型为小模型提供灵感,这两个模型进行双向反馈。通过两个模型有效配合来消除幻觉,能够减轻50%以上模型幻觉。在信息反馈及时性问题处理上,我们采用复杂意图分发模式,把80%简单意图交给小模型处理,20%复杂意图由大模型来进行处理,两个模型去做有效的配合,以此来解决这个问题。
二、AI大模型端云架构。
这是一个围绕“人-车-路-云”全交通体系,以及人、车、环境等多维度数据,通过端云共同构建全时域和全空域,情商、智商和双商都在线的技术架构。由云侧大模型来保证智能的上限,因为云侧的运算能力非常强。然后用端侧大模型来保证智能的下限,解决在典型场景下,像无网、弱网,以及用户隐私等一系列问题。
这里还引入了AI Agent的能力,通过Agent的能力,保证我们从识别感知-分析-决策-执行,整个全交互链路都有智能体的参与,而不是说非常割裂的。前面有智能体,后面没有智能体,这种割裂感是非常不好的。在这个架构里面也涉及到典型的挑战,像异构芯片如何保证高性能推理,因为我们是端云架构,云端对数据存储量、带宽等等的能力及要求和端侧都是不同的,车端本身受很多限制,计算能力包括架构都不一样的情况下,怎么样用合适的算法去满足这个异构的场景,其实这个也是有很大的挑战。我们采用了很多技术,首先大模型要走轻量化,因为我们项目上也经常说,你们现在动不动就搞一个十几B这么大的模型,我的这个车机怎么跑得起来,有很多这种现实的问题。
另外是芯算一体,我们在存储和计算都做了很多技术上的攻坚,尤其在端侧进行异构计算融合,去充分发挥每一种计算单元不一样的特性,利用软件为它做深度的加速。通过这一系列技术来解决以上的难题。
三、AI 3D引擎架构。
它是我们基于国产3D引擎自研的虚实融合,数字孪生的架构。这也是分成三层,里面用到基于神经网络辐射场技术、3D超分、高斯堆叠等等一系列技术。这里面临两个挑战,第一对于场景还原度;第二个对于渲染的画质保证。
先讲一下场景还原度的问题,海量数据怎么进行有效准确的还原,这里涉及到很多技术上的难处。我们构建了自己AI三维重建技术,主要是NeRF。我们把很多稀疏视点的3D坐标分成组,输入给神经网络,由它去做计算和推测,预测出来每个点的体积是多大、辐射强度、位置等等一系列计算结果,把它交给3D引擎再去进行渲染。通过这种技术,我们能够在成本降低30%的情况下,整个还原效率还能提升60%。
可以看一下右边这个视频,可能在这上面播放不是很清楚。这是在上海,我们把上海地标性建筑,以及其他周边环境做了一个还原的效果,包括天空、水系,以及车模等等,大家可以看到还原的效果还是非常棒的。
刚才说完了还原,下面说一下渲染。渲染面临的问题,还是车机资源不够。车机芯片,比如像8155,这些是不能够像我们玩游戏,以及《黑神话》这种,你是80、90显卡去玩的,因为它的架构都不一样。比如人家用的是图灵架构,由于车规的限制你车机芯片也做不到,很多计算因子,包括API支持的数量都是不一样的,车机端都比PC端要少很多的。
我们怎么解决这个问题?说简单点就是减少输入端的输入,通过降低这个来降低计算消耗。怎么解决输入少之后画质还能保证很好?我们引入了一系列技术,像3D超分、光线重建技术,包括预测3D帧、材质风格转移等等一系列技术,通过这一系列技术组合起来,达到很高的渲染画质。
右面这三张图,第一张可以看到是常规渲染,常规渲染就很消耗资源,你要建大量的模型,很多面需要渲染,既需要消耗人工,又需要消耗计算资源,效果也是比较模糊的一种效果。第二张图开启了光追效果,可以看到还原的效果就比较逼真,但是对资源的消耗是非常巨大的。第三张图我们关掉了光追,用我们梧桐科技自研的AI 3D渲染引擎来进行画质的渲染,效果也是非常棒的。
上面我简单介绍了一下梧桐科技的几大自研架构。面向未来,我们在AI座舱方面的技术趋势是什么,在这里我也大胆做一个预测。
第一,全面芯算一体。刚才我讲基于端和云异构,基于这种异构去做很多芯算一体技术工作。其实还有很多像刚才一汽老师也讲了,你基于驾驶和基于座舱不同异构等等,其实也是要去做芯算一体的。
第二,全面数实融合。我们真实世界与物理世界未来会有更高的融合的需求,尤其是座舱。现在产品经理已经开始提这些,你要去做未来世界,你要去做元宇宙,你要把很多真实世界中的东西搬到虚拟世界,刚才也说到车机的性能还是比较低的。从真实世界来讲,我举个例子。比如说建筑物的还原,现在做建筑物什么的,大家都是弄个楼模型,这个模型到底怎么样,其实也不真实。未来基于这种真实世界的投影,会把很多真实的东西搬进来。比如这个楼到底长什么样子,上面有多少层,外观是怎样的,玻璃是什么材质,它会做什么样反光等等。这一系列真实世界投影需要大量技术去做工作,包括模型构建的量级会几何级的增长,所以说技术还有很多难题需要攻克。
第三,全面群体智能。基于现在单体智能,未来越来越不能满足我们出行要求。未来“人-车-路-云”的群体智能是必然的趋势,包括路边会有更多的设备去辅助整个群体去做智能决策,包括前段时间克强院士也在讲“车-路-云”的相关重要报告。通过这种群体智能才能更好的为我们的生活和我们的出行提供更好的服务。
今天我的分享就到这里结束,谢谢大家!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)