这条新闻小编有点看不懂,但想发……
创始人
2025-07-27 17:21:28
0

7月26日,全球首个拥有“原生记忆力”的大模型Yan 2.0 Preview2025 世界人工智能大会上正式亮相。

Transfromer架构几乎在大模型赛道上“一骑绝尘”之际,来自上海张江的一支不到百人组成的AI初创团队RockAI(岩芯数智),选择了一条“非共识”之路——自研全新的Yan架构大模型,以神经元选择激活(类脑激活机制)以及状态记忆这两个模块替换了Transformer里面的Attention机制。

RockAI团队想通过底层架构创新,减少冗余计算和算力消耗,“让世界上每一台设备拥有自己的智能(Make every device its own intelligence)”,最终实现AGI的终局——群体智能。

当大模型具备记忆能力

相较于此前发布的Yan1.3系列模型,此次发布的Yan2.0 Preview模型,“不仅能够看懂、听懂、说清楚,还能够记住我们。”在25日的媒体沟通会上,RockAI CTO杨华向媒体展示了Yan 2.0 Preview模型的记忆能力。

RockAI CTO杨华正在演示

在他和模型对话过程中,模型会记住杨华的家乡、出生年月日等这类基本人物信息,甚至还能记住他的生活习惯。

比如,杨华在对话框里输入,“我最近胃不好,有点难受”。当他第二次进入对话框输入,“推荐一款面食给我”时,模型记住了他的出生背景、包括近期饮食习惯等,最终模型给他的回复是“虽然可以推荐面条做法,但注意到您不能吃太多面食,建议尝试其他主食如米饭或馒头,或者选择其他容易消化的食物。

杨华认为,这说明模型已经对用户的偏好有了整体的把握。

这背后则反映Yan 2.0 Preview模型的一个关键机制:它并不是简单依赖上下文窗口来理解用户,而是能将过往的对话内容“内化”进模型的行为逻辑中。

这种自主理解的能力,在此次WAIC展会现场,RockAI团队也会在现场为观众演示。此外,他们团队还带来了两款互动游戏:“推箱子”和“黄金矿工”,这两款游戏通过灵巧手搭载Yan 2.0 Preview模型协作完成。

RockAI CEO刘凡平向现场观众演示模型在完全断网、离线的状态下依然可以实现自然对话、操控游戏的能力,吸引不少科技迷围观。让不少观众第一次直观感受到:AI,并不一定非要依赖“云”。

RockAI演示视频,展示自主学习能力

“推箱子”游戏中,模型需要识别场景中的障碍物与目标位置,规划路径后将多个箱子逐一推送到指定区域。整个过程中,模型还会同步输出自己的“思考逻辑”,例如:“为什么要从A点推到B点”,将AI决策过程可视化。在“黄金矿工”游戏中,模型需要识别出黄金与石头的位置,并发出精准指令,控制“抓手”完成出爪操作。这一过程不仅涉及视觉和语音的多模态理解识别,还包括动作规划、精准定位等能力。

值得一提的是,模型还具备对环境变化的实时感知能力。例如,如果摄像头视野被遮挡,模型会立即感知到“视觉受阻”,并暂停执行下一步动作。这种基于视觉输入的动态反馈能力,体现了Yan 2.0 Preview在多模态感知、人机交互和环境理解方面的智能化水平。

现场搭载Yan2.0Preview模型的机器狗

“我们一直想做的事情是,打造一个能真正适应物理世界变化、具备多模态理解和交互能力的模型。”杨华说,“这模型刚出厂时可能并不是最聪明的,但模型能够根据用户所处环境的变化,实时学习并习得新的信息,从而做出针对用户习惯的个性化响应。”杨华说。

“譬如,在居家场景里,向搭载Yan 2.0 Preview模型的家用机器人介绍空间布局、家人的生活习惯、饮食偏好等内容,模型就能理解并记住,在后续服务中自动适配,提供真正贴合你的个性化体验。”

大模型底层架构创新

要让模型实现“边学边用”,并非只靠调算法参数,而要从大模型架构底层打破传统。

在这波全球人工智能热潮中,很多主要模型产品如GPT、LLAMA、PaLM 等,都是基于 Transformer 模型架构构建的。Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中,关键见解在于,注意力可以作为推导输入和输出之间依赖关系的唯一机制。

Transformer 的核心在于能快速捕捉输入内容各部分间的相互作用,适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。

不过,尽管Transformer 模型在人工智能领域取得了显著成就,但它们也存在一些局限性。

事实上,行业内对于是否一直要坚定不移地走Transformer架构曾有过争论之声RockAI团队指出,从图灵奖得主Yann LeCun到一线学者再到产业开发者,都不约而同提到过一个问题:Transformer或许并不是通向通用人工智能(AGI)的唯一解法。

著名的图灵奖获得者Yann Lecun曾说,“ChatGPT、Gemini等大家熟悉的模型虽然表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,大语言模型对潜在现实的了解有限,缺乏尝试,没有记忆,而且无法规划答案。”

包括产业界也开始逐步意识到,Transformer 的主要局限性包括高昂的计算成本、推理能耗高、对语料的数量和质量依赖极高,此外,模型提升主要依赖于“喂数据”和“堆参数”,带来了“幻觉”,以为模型真的“理解”了,但模型的本质理解能力并未增强,CEO刘凡平说。

RockAI技术团队从创业之初一开始放弃了主流的Transformer架构,转而自研全新的Yan架构,以神经元选择激活(类脑激活机制)以及状态记忆这两个模块替换了Transformer里面的Attention机制。

“我们想做真正有差异化的架构,如果跟国内互联网大厂做同质化竞争,创业公司很难有竞争力。”杨华说。

2024年1月,RockAI确定技术路线至今,Yan系列模型架构从1.0 更新迭代升级至现在的 Yan 2.0 Preview,杨华回忆起整个研发过程并不算顺利。

“这期间,机器几乎一直没有停过,一直在训练、迭代、验证。”杨华称,“最大的难点并不在于某个技术上的卡点,而在于模型架构和数据之间经常暴露出问题。比如一个模型架构在小批量数据上效果不错,但一上大规模数据就会暴露出新问题。有时架构调整后,某些能力又达不到预期。”杨华回忆道。

相较于Transformer架构,最终迭代升级的Yan架构大模型好处在于,能耗低、成本小、落地周期快。

从单体智能走向群体智能

杨华称,在类脑激活机制和状态记忆这两块技术模块的加持下,Yan架构的设计理念秉承三点:

一是类人的感知,我们认为模型跟外界环境的接触,不仅仅是文本一种形态,还会有视觉形态,也会有语音形态。

二是类人的交互,如果我们过度依赖于云端的模型,隐私的安全、通信的延迟,都有可能成为它的瓶颈。

三是类人的学习,现在的模型部署后,在和物理世界交互的过程中并不会获得二次进化的能力。

基于Yan架构的多模态大模型,无论是部署在机器人还是其他端侧设备中,都能实现环境感知、通用问答、离线智能。

现在Yan系列模型已经广泛适配PC、手机、机器人、树莓派、无人机等端侧设备。

当所有大模型还在堆Transformer层数、追求“更大”时,RockAI率先喊出另一种主张——“Attention isnot all you need.”

Yan 2.0 Preview或许只是一个开始,但它至少让我们看到有另一种路径的可能:

未来的智能,不必一定高度仰赖某个中心,也可以由千万个端点共同生长。接下来,模型个性化时代真正开始,智能重新定义硬件。CEO刘凡平说。

来源:澎湃新闻

编辑:礼貌

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...