就像当年马斯克的机器人最初被质疑成"人工cosplay"一样,在国内,何小鹏的机器人也在这两天遭遇了类似的拷问--他们不得不立刻"解剖"了一台,以证清白。

小鹏新展示的机器人丨小鹏官网

即使是在首台家用机器人已经开启预售的今天,人们对于人形机器人的疑惑依然是巨大的。

花了200美金下定号称全球首款家用机器人(NEO)之后,琳琳(化名)在逛小红书的时候发现,NEO居然还需要人工远程操作,NEO现在能干一些基本的家务活,但是遇到他搞不定的情况,就需要呼叫总部的人工,通过摄像头看看家里情况,让后人工操作一下。

在知道自己很可能要花2万美金买到一个"机器皮影人"之后,琳琳倒是想得很开:反正也都会有用户数据隐私协议,而且现在到处都是摄像头。

"科技进步总是需要用户支持的,就当支持一下。"

琳琳说的没错,从零到一的科技投入使用的时候总是需要极大的包容的。

就比如,最近市场给特斯拉的包容。

前几天,特斯拉再次推迟了 Optimus 的量产计划,这已经是这个机器人第三次"被推迟"了。不过特斯拉的股价几乎没有收到影响,到现在已经破了1.5万亿美金。可见人形机器人不只有用户的包容,还有投资人的包容。

但如果我们知道特斯拉为什么量产不了机器人,又会陷入沉思--原因既不是"不够聪明",也不是"腿脚不便",而是一个更反直觉的难题:手。

人的手有 27 块骨头、数量众多的神经和实时反馈系统,能"知道"自己该用多少力、该从哪个角度握、应该怎样微调。而机器人手必须靠微型电机、减速器、传感器和算法一层层堆出来,力量、稳定性和柔性控制缺一都不行。

做出"能动的手"不难,做出"像人一样不出错的手"极难。

这不仅是特斯拉的难题。几乎所有人形机器人企业,都卡在了这只手上。于是,一个被反复提出但从未真正回答的问题又浮上来--既然酒店机器人、清洁机器人、物流机器人都已经能跑通商业化,为什么我们还要执着于一个连手都要和人一样的机器人?

哆啦A梦呢?人家过得不也挺好的?

越像人,越难产

刚刚过去的这个万圣节,跟你玩"treat or trick"的甚至可以是机器人了。

这两天如果你足够幸运,走过纽约街头的时候就会看到特斯拉的擎天柱在街头给行人派送糖果,他们从一揽子糖果里抓上一个送给路过的行人,有的时候糖果掉在地上他们还会弯腰拾起重新交到行人的手里。

Tesla Optimus丨Tesla 官网

不要小瞧这个看起来没什么意义的动作,让机器人站上街头发糖果,特斯拉就用了近五年的时间。

2021 年,在特斯拉的 AI Day 上,马斯克第一次把"人形机器人"搬到大屏幕上。只是当时机器人并不真的存在在物理世界,马斯克安排了一位穿着白色机器人服装的演员上台跳了一支舞,当时这个安排还大受嘲讽,不过这个发布会表达了马斯克对机器人这个概念的最初愿景:特斯拉要做的从来不是只能重复一个机械性动作的机器,而是一个能理解世界运作的智能体。

一年后,第一版真正的 Optimus 亮相了。

它能走路,动作有些笨拙,像一只刚学站立的长颈,小心翼翼、摇摇晃晃。可它的意义非常大,这只机器人由电驱动,不依赖液压结构,这意味着未来可量产、可降本、可以安全进入人类生活场景。

到了 2023 年,Optimus 开始变"聪明",特斯拉给它接上了与自动驾驶同源的视觉识别系统 + 神经网络模型。它能自己识别物体,分辨不同形状的物品、执行"放稳、夹取、移动"的基本操作。

Optimus 还当众表演了一个折衣服,这个需要柔性操控 + 力控制 + 实时视觉反馈的超复杂动作也是此前传统工业机器人无法想象的。

形势一片大好,Optimus 也传来量产计划,结果,机器人开始"难产"。

Optimus 的量产计划已经出现了三次推迟的节点:

第一次是在 2023 年,Optimus 原计划在 2024 年实现"首批出货",但由于基础运动控制算法未达标,被推迟一年;

第二次是在 2024 年底,量产目标被下调至 2025 年试产数千台;

第三次是现在--特斯拉再次被爆出暂停Optimus的量产。

在三季度的财报会议上,马斯特也没有避讳聊起了量产机器人的难题:我们没有现成的供应链。

就拿造车和造机器人来对比,如果你走进一家造车工厂,你会看到一种高度协同的分工景象:电机、传感器、车灯、线束、座椅……所有零件都有成熟的供应商、有标准化接口、有替换方案、有成本曲线。

但是人形机器人没有一条这样的成熟的生产线。汽车有整车标准、零件标准、维修换件标准,而人形机器人几乎每家长得都不一样,关节布局不同,传感器位置不同,动作模型也不同。这意味着没有标准化接口,没有共用件,成本没法降,制造没法规模化。换句话说,想要做一百万台人形机器人,就得先搭建一个能做一百万台机器人的产业链。

这边供应链还没健全,那边机器人高层也传来变动的消息。

前段时间特斯拉机器人项目负责人 Milan Kovac 离职,这位出身波士顿动力、主导 Optimus 系统架构的核心人物,在特斯拉内部被视为"最懂机器人运动控制的人"。他的离开一度引发团队重组。据多家外媒报道,马斯克随后亲自接手项目方向,研发汇报线从自动驾驶部门并入 AI 芯片团队。

"手"是真正的难题

机器人身上最难做的就是"手"。

"这么说吧,机器人的灵巧手量产难度甚至超过机器人全身的量产难度"在北大专门做机器人研究的博士林武(化名)是这样形容灵巧手的制造难度的。

要知道手为什么难,得先看看人类手本身有多离谱。

我们的手由 27 块骨头、数十个肌肉群、数量众多的神经末梢共同协作,手掌上分布密集的触觉感受点,这就让人类的手指可以轻轻捏起米粒,也能抓住手提箱;能够感知玻璃杯温度的细微变化,也能凭经验判断一颗葡萄是不是熟透。

这种精细控制是连续的、实时的、生物级别的反馈回路:力量从前臂肌肉传来,手指关节协同控制,皮肤触觉提供反馈,大脑在几十毫秒内做出微调。

再没有更好的主意之前,目前机器人对于人手的复刻,就是把关键的元素全部用机器替代一遍。

人的手指肌腱被微型电机替代,关节靠减速器与传动线驱动,骨骼变成轻量化支架,触觉感受器变成力/压力/温度传感器阵列,而大脑执行的动作预测和反馈控制则交由实时运动模型与 AI 决策系统完成。

这只是第一步,灵巧手真正的问题在于--力量、准确和持久。

可是,手的物理空间太小了。

这就导致每一个关节安置的电机、传感器、减速器对精密制造的要求都更高,而更小的物理空间代表着更小的电机,更小的电机代表着更低的电池密度,也代表了灵巧手的抓力不够。

"现在六七十公斤的机器人只能抓取十公斤左右的重物",这位博士透露道,"这和我们对机器人的期许相差甚远"。

解决抓力这个问题有两种主流方式,一种是做"仿生肌肉"。通过电动肌纤维、气动人工肌或液压微管来模拟人体肌腱,使手指能够像人一样柔性弯曲。这种方式在实验室里动作优美,但难点是力量放大和长期耐用性,距离量产还比较远。

另一种是和人类一样,把力量"外包"到前臂。特斯拉、波士顿动力、Figure 都是这条路线。它们将驱动力电机放在前臂,手指通过细传动线来控制关节,这样做可以让机器人整体力量够大、结构可控,但是结构复杂、维护成本高。

"准确"是另一个难题。

对于人类来说,要拿起眼前的一个杯子是一件根本不需要思考的无意识行为但实际上,这背后发生的是一个高度复杂的生物协作系统。

眼睛首先识别出物体,判断它的形状、大小、材质;大脑快速估算杯子离手的距离、手臂伸展的轨迹,并在一瞬间决定"应该用几根手指,以多大力度,从哪个方向夹住它";等手指碰到杯身,皮肤上的压力感受器又会实时告诉我们"用力还不够"或"太用力快要挤碎了",于是手会自然而然地进行微调。这整个过程看似不经意,实际上涉及到视觉系统、运动皮层、小脑、躯体感觉系统和肌肉系统的同步工作,每一步都快得让我们来不及意识。

但是机器人没有"无意识经验"。

在机器人世界里,拿起同样的杯子,要分成五个部分一步一步来:首先,它得"看见"杯子是什么,这需要摄像头和深度传感器来进行物体识别。

接着,它得算清楚杯子在三维空间中的位置,确定手要往哪儿伸、伸多远。它还要推断该从哪里抓,抓得太靠上会滑,太靠下可能会打翻。

接下来,是最难的一步,决定使用多大的力量。玻璃杯、塑料杯、纸杯需要完全不同的抓力,否则要么碎掉、要么滑掉、要么直接变形。

最后,当手指真正接触杯子时,机器人还得进行实时微调--这需要触觉传感器和反馈算法的精准配合。

听上去和人类做的步骤差不多,但关键差别在于人类是在行动之前就"已经知道"怎么做,机器人是在"做的过程中"努力推测、修正、再修正。

所以机器人的准确性就成了一个难题,林武就讲了自己在实验室碰到的问题:"我们给机器人下达一个任务,抓取眼前物体的时候,遇到过这样的事情,它要先决定一下最佳路径,用右手还是左手,或者眼前物体有一定距离的时候是要先往右走还是往左走,在探索这个最佳路径的过程中它可能满屋子乱跑。当然抓碎草莓、掉落玻璃杯的事情也是有发生的。"

这些画面脑补起来好像问题不大甚至有些可爱,但是如果这是一台售价几十万的在企业流水线上做生产的机器人,就一点也不可爱,甚至可能造成极大损失了。

为了解决准确性,有一部分派系就开始思考,不能总是死磕硬件,可以用 AI 模型让机器人的大脑变得更聪明一点,比如说如果灵巧手还没有灵巧到可以轻轻捏起一颗葡萄,就让葡萄滚到手掌中间。

特斯拉、Figure、Agility、DeepMind 都在尝试这个路径,他们收集大量工厂工人手部、臂部、身体操作视频 ,让模型学习每种动作背后的意图,把动作拆解为机器人可以执行的指令让机器人在环境中反复试错和微调 ,让大模型逐渐"悟出"如何完成任务。

只是解决"灵活"就已经困难重重,要做到量产,灵巧手还需要解决"持久",就是寿命问题。晚点就报道过因为散热不足、零部件寿命短等问题 Optimus 灵巧手使用寿命不超过两个月。

马斯克也说过:特斯拉在帕洛阿尔托总部已有 Optimus 在全天候行走,"如果你让他给你带路去参加一个会议,他甚至可以给你带路,但关键的问题是手。"

"我不是人!还不行么!"--不行

既然手这么难,不做人形机器人不就可以了。

事实上,如果你稍微留心,就会发现,机器人其实已经悄悄进入了我们的生活,不过它们大多数都不像人。

酒店里送水、送牙刷、送外卖的服务机器人,长得更像一台"带货梯的桶"。它们靠激光雷达和阈值导航,以毫米级精度穿行在走廊里,不会跑、不需要学,只负责从点 A 到点 B,稳稳停下、开盖、嘟一声。

商场里的清洁机器人也是同理。本质上是"工业增强版扫地机"--路径规划 + 吸水刮地 + 避障。关键在于耐力稳定,不会偷懒。你让一个人夜里拖 5 小时地,她会累;机器人不会。

而最"反人类直觉"的,是仓库里的物流机器人。京东、亚马逊的智能仓库里,成百上千台"小乌龟"在地面穿梭,把货架送到分拣员面前--它们不是学人搬东西,而是让人不再走路。这不是模仿人类,而是绕过人类身体的限制,把效率推到极致。

2024 年中国酒店服务机器人出货量接近 50 万台,清洁机器人全球市场规模超过 80 亿美元,而仓储物流机器人更是成为亚马逊、京东供应链降本的核心力量。

这些机器人的共同点是:任务单一、场景可控并且不需要像人一样思考。所以它们跑通了商业化。甚至在部分场景里,它们的成功恰恰在于放弃模仿人类,而是成为比人类更贴近场景需求的"最优解"。比如清洁:人类的胳膊长度、关节角度和体力,天生无法覆盖大空间,而清洁机器人天生就是"为地板而生"。

那问题来了,既然非人形机器人已经能完成很多工作,为什么我们还要执着做一个昂贵、难做、量产慢、还可能"笨手笨脚"的人形机器人?

何小鹏在刚刚结束的小鹏科技日上给出了自己的答案--他最开始也是坚定的"四足"机器人派。但是在研发过程中有两个问题完全改变了他的看法:

四足机器人没有部位能装一个手,"你去问大家一个问题,现在你是一个战场的士兵,你周围有个炸弹要爆炸,你要极限选择,失去手还是失去脚,绝大部分人都选失去脚。"何小鹏举了个例子来说明"手"的重要性。

小鹏机器人丨小鹏官网

于是乎小鹏就尝试在各种奇怪的部位,比如"大象机器人的鼻子"甚至"马形状机器人的屁股"的位置加上一只手,由于效果太过诡异最终放弃。

另一个问题是,中国家庭大部分是在100平方米或者以下,任何不是人形的四足机器人转弯都是个大问题,毕竟机器人不像宠物那种柔软又有皮毛,所以每次转弯都得伤着自己或者其他家具。

因此,小鹏团队最终决定,机器人,必须得像人。

其实小鹏的机器人进化可以高度概括为什么一定要研发人形机器人:答案比我们想的更单纯,因为今天我们生活的日常环境,都是为了"人"设计的。

我们所有的门把手、货架高度、桌子宽度、楼梯跨度、电梯尺寸、操作台距离、工具手柄直径……都是"以人手的握距、手臂的长度、躯干的重心"为标准设计的。

换句话说,世界是人形接口,工具是人形操作器,而工作流程是围绕人类身体建立的。人形机器人追求的本质,是通用性。

要想让一种机器人无缝进入人类世界的各个场景,最现成的办法就是做成人类的样子。

一个通用的人形机器人,代替的并不是一个场景的工作,而是要补充未来可能出现极大缺口的劳动力。

到 2030 年,日本劳动人口可能再减 15%、中国劳动力很有可能在 2035 年达到峰值后出现回落,美国制造业劳动力缺口已经超过 800 万人,越来越多的年轻人不再愿意做护工、清洁、仓库搬运等工作。

总有一天,我们必须面对一个无论什么领域有需要各种机器人能顶上的世界。

到时候,当机器人再跟你摆烂,说"别拿我当人!我不是个人!还不行么?"你就只能告诉他:不行。