出品|搜狐科技
作者|常博硕
“结硬寨,打呆仗”,这是高继扬在接受采访时引用的一句曾国藩的名言。
这句话是曾国藩带领湘军镇压太平天国时的核心战术。1854年,湘军初战,曾国藩率领一群临时拼凑起来的湖南团练出征,接连败北,被太平军打得狼狈不堪,甚至一度投水自尽。
但在那种境遇之下,面对部下急于求成、渴望奇谋制胜的焦躁情绪,他却坚持结硬寨,打呆仗。
所谓“结硬寨”,是每到一地,先挖壕沟、筑营垒,把后路和补给稳稳扎牢。“打呆仗”则是说不贪奇袭、不赌运气,不指望一战定乾坤,而是用最笨的办法,一寸一寸向前推进。
后人回望曾国藩,看到的是平定乱局后的功名。但真正支撑他走出低谷的,是耐心。知道什么能做,什么不能做,知道哪些仗必须打,哪些胜利不能急。
170多年后,这句话被高继扬带回了当下的具身智能行业。
2023年夏天,高继扬、赵行(星海图首席科学家)和罗天奇(星海图CFO)从一家上海投资机构走出来。那次路演最终并没有拿到投资,但后来被高继扬反复提及,称之为“一切的起点和原点”。
彼时,“具身智能”还是一个陌生词汇,市场上更流行的叫法是“人形机器人”。激昂与迷茫交织,是许多创业者共同的情绪。但高继扬说,有两件事他们从第一天起就想得很清楚,而且至今没有改变。
第一,具身智能的未来是“一脑多形”。双足人形不会是唯一答案,轮式、单臂、双臂,乃至未来尚未出现的新形态,都只是智能的不同载体。
第二,具身智能真正的长期壁垒,不在于某个炫目的Demo,而在于物理世界的数据闭环。而要建立这个闭环,必须坚持“整机+智能”。
2023年,星海图获得IDG资本和百度风投的天使轮投资;2025年完成A轮系列融资;2026年上半年,B轮和C轮融资完成,总融资额超过25亿元,估值突破200亿元。
资本的追逐之外,星海图的版图也在迅速扩张。
从轮式双臂整机切入,为了突破整机性能瓶颈,他们又开始自研动力模组。意识到数据的重要性后,他们建立开放场景数据采集体系,随后发布全球首个开放场景操作数据集GOD,以及基于开放数据训练的具身基础模型G0。 2026年初推出万物抓取模型G0 Plus,半年后,升级版G0.5在全球六大榜单跻身第一梯队,与此同时,他们又推出首款双足机器人Kengo,补齐了非结构化场景的拼图。
短短三年,这家公司经历了外界认知的数次变化。
有人说它是卖硬件的公司,有人说它是做数据的公司,也有人将其归类为基础模型公司。但在高继扬看来,这些标签都只是阶段性的投影。
“我们所有路径,都是围绕具身智能的生产力展开的。”生产力是高继扬在2026年星海图开发者大会上频繁提到的词。
在高继扬的构想里,具身智能的发展并非一蹴而就,而是一场漫长的接力。它会先经历开发者市场和展演市场,随后进入真正的生产力场景:工业上料、物流分拣、电商打包,再从厘米级精度迈向毫米级精度,进入制造业装配、检测、插拔,最终跨越结构化场景,走向农业、建筑业等非结构化环境。
商业模式也将随之演变:从整机销售,到方案订阅,再到Token收费。
那意味着,今天行业里争论的许多问题比如销量、订单规模、Benchmark排名等等,其实都只是序章。真正决定胜负的是谁能率先完成从展演市场到生产力的跨越。
这也是为什么,在整个行业不断追逐“绝对第一”的时候,高继扬反而显得有些克制。
他承认泡沫存在,也承认资本的重要性,但他认为:“在整机销售阶段,如果为了冲销量第一而恶性竞争,很多时候得到的不是资产,而是负债。”
以下为本次对话精编:
数据决定上限,具身智能的“军备竞赛”才刚刚开始
媒体:现在行业里有一些声音把VLA和世界模型(WIM)对立起来,想请教一下,两类模型的数据到底能不能通用?
高继扬:我们一直不认为VLA和世界模型是对立关系,它们是同源共生,而且未来一定会越来越融合。无论训练VLA还是训练世界模型,底层逻辑其实都一样:把多模态数据转化成Token,通过多层Transformer编码,再通过不同的监督和训练方式得到输出。从这个角度来看,底层数据本质上是可以混用的。
媒体:目前行业普遍采用真实数据进行预训练。真实数据成本很高,未来会不会大量转向仿真?另外,对于类脑路线,您怎么看?
高继扬:至少在100万小时之前,我们看不到使用仿真数据的必要性。现在的预训练基本全部采用真实数据,而且未来很长一段时间,我们仍然会坚持这一点。因为真实数据能够更快、更有效地覆盖刚才提到的四个维度。如果数据质量不好,再多算力也训不出好模型。
具体来看,Human-centric Data采集成本大约是每小时50至100元;Robot-centric遥操作数据大约250元每小时。综合下来,平均每小时100至150元。100万小时的数据,大约需要1亿到2亿元人民币。相比今天大模型每年数亿美元的算力投入,这笔钱不仅值得花,而且必须花。
媒体:数据能不能成为一种标准化商品?未来会不会出现专门卖具身数据的公司?
高继扬:从商业模式上看,是成立的。但具身智能有一个特殊性:数据采集、采集设备和模型训练之间耦合得太紧密了。很多时候,数据采回来之后才发现这里有问题、那里有问题,需要算法团队、运营团队和数采团队不断迭代,才能把数据质量提上去。所以理论上可以形成标品,但实际业务过程中,这三者必须深度协同。
媒体:今年百万小时、未来千万小时的数据目标,具体怎么实现?数据量上来之后,模型能力会发生什么变化?
高继扬:整个行业其实已经不止一家企业迈向百万小时数据规模。对我们来说,实现路径主要有两种。
第一种是众包采集,大家在日常工作、生活中佩戴设备进行伴随式采集,比如生产场景中的作业数据;第二种是外包采集,针对特定任务和场景,组织专门人员完成专项采集。两种模式结合,实现规模化放量。
数据量增加并不会直接提升执行速度。预训练解决的是泛化能力问题,也就是到了一个新场景、新任务,即使动作很慢,但至少知道该怎么做;后训练解决的是效率问题,通过专项训练把速度提上去。简单来说,预训练解决“会不会”,后训练解决“快不快”。
媒体:不同企业对数据的理解不同,这种认知差异会不会成为未来竞争壁垒?
高继扬:一定会。未来99%的具身智能数据都是Private Data,也就是私有数据。谁的数据更好、谁更懂数据,最终就会形成模型能力上的差距。模型能力的差距,又会传导到应用效果,应用效果最终会传导到商业价值,这是一个完整链路。所以未来具身智能模型制高点的竞争,很大程度上就是数据认知能力的竞争。
在脑不在形:机器人的价值,不在于会不会翻跟头
媒体:具身智能竞争的关键,到底是世界模型、大小脑协同,还是自然语言理解?
高继扬:我们创业最早就提出过两个观点:第一,“一脑多形”;第二,“在脑不在形”。没有大脑驱动,再好的形体也只是破铜烂铁。整个行业真正的突破,一定来自具身基础模型和具身大脑的突破。只有大脑突破了,整机、零部件、应用和分销体系才会被真正带动起来。所以我认为,具身大脑才是这个行业真正的核心。
媒体:整机和智能,哪个更重要?
高继扬:我们的战略一直是“整机+智能”。真正释放物理世界生产力,只有模型是不够的。整机必须具备可靠性、一致性和负载能力;而智能则决定了它到底能干什么活。从商业成功的角度来看,两者缺一不可。如果非要说区别,那就是研发投入上,智能远远高于整机,大概会差一个数量级。
媒体:星海图原本是一家偏“大脑”的公司,现在开始做双足机器人Kengo。它的关节模组有哪些亮点?对于万元级人形机器人的价格怎么看?作为第一款双足产品,您对它的期待是什么?
高继扬:很多人会好奇,一家做基础模型的公司,为什么还要亲自下场做机器人本体?
我的答案是:整机和供应链是有限游戏,智能和应用才是无限游戏。但如果前面的有限游戏做不好,也没有机会进入后面的无限游戏。
具体到Kengo,我们在关节模组上采用的是整机EC通信方案。行业里常见的是CAN通信、485通信,而EC通信最大的优势是同步性最好,但研发难度也更高。为了实现EC通信,我们在中空设计、电机、电磁仿真、减速器等方面做了很多优化。从整体性能来看,我们认为已经进入行业第一梯队。
未来两年左右,无论是双足还是轮式双臂,硬件成本都会稳定在1万美元左右,甚至更低。如果一个机器人能够完整承担一个岗位的工作,发达国家一个岗位每年的劳动力成本是4万到5万美元,除去硬件成本以后,剩余的价值空间,其实都是智能创造出来的。真正的空间,不在整机,而在智能。
媒体:为什么要做Kengo?双足机器人的意义到底是什么?
高继扬:过去无论做世界模型还是VLA,大多数能力都集中在双臂操作上。但未来一定会走向Locomanipulation(移动操作)和Whole-body Manipulation(全身操作)。也就是说,从双臂智能走向全身智能。只有这样,机器人才真正有机会进入非结构化空间。我们做Kengo,就是希望基于本能智能、作业智能和进化智能不断迭代,最终把机器人从“会干活”推进到“真正理解并适应复杂世界”。
媒体:Kengo未来会优先落地在哪些场景?
高继扬:本能智能最初阶段,主要依靠强化学习。这个阶段机器人能做什么?跑、跳、翻、跳舞,更多是展演展示价值,也可以通过租赁等方式完成商业化。
下一阶段,一个非常重要的能力是全身遥操作(Human Tracking)。如果这个能力成熟,每个人都可能拥有自己的“远程化身”。比如我坐在办公室,就能远程操控另一个机器人,在储能站、电站等危险环境中工作。再往后,本能智能会和作业智能逐渐融合,进入非结构化场景,完成更复杂的重作业。
但另一方面,我们也必须承认,80%的现实世界仍然是结构化场景。在平地上搬运、分拣、打包,轮式双臂往往比双足效率更高、成本更低。所以并不是所有场景都需要双足。未来一定是多种形态并存。
真正的星辰大海还没展开:生产力市场规模是今天的几万倍
媒体:宇树去年已经实现了较高营收,这是否意味着具身智能已经进入真正的商业化阶段?
高继扬:今天整个行业看到的销售,几乎全部还是整机销售。目前真正成熟的市场,其实只有两个:第一,开发者和科研教育市场;第二,展演娱乐市场。宇树在展演娱乐市场遥遥领先,这是事实。
但真正的生产力市场还没有打开,目前没有任何一家企业真正实现了在生产力场景中的大规模有效作业。而这个市场的规模,是今天开发者市场和展演市场的几万倍。真正的星辰大海,还没有展开,因为这个市场对应的是GDP背后的生产活动,它真正有机会重写整个生产体系。
媒体:工业会是星海图未来最重要的方向吗?
高继扬:我们不会局限在某一个细分市场。我们对商业化的概括是:从开发者到生产力。
生产力无处不在,我们的产品未来也会无处不在。制造业只是开始,而不是终点。
媒体:您为什么不追求现阶段的绝对第一?
高继扬:因为现阶段的“第一”,很多时候意义不大。我们当然追求增长。今年销售额会比去年增长数倍,去年比前年增长了十倍。但在整机销售阶段,如果为了冲销量第一而恶性竞争,很多时候得到的不是资产,而是负债。真正值得争夺的是第二阶段——智能驱动的商业化阶段。那个阶段的第一,才真正有价值。
媒体:数据和训练投入越来越高,具身智能会不会太烧钱?
高继扬:融资路径和支出路径,其实是两回事。融资上,要顺应资本周期。在资本市场好的时候尽量储备资源。支出上,具身智能背后的驱动力是:Scaling Law。
什么叫Scaling?今年投入是1,明年是5,后年是20,再往后是100,这叫Scaling。
如果今年是1,明年1.2,后年1.4,那就不是。AI的发展决定了投入一定是指数级增长,而不是线性增长,不能用传统创业公司的逻辑,来理解AI公司的投入节奏。