人形机器人大脑所用到的AI和AI大模型的区别

虽然现在机器人的大脑也用到了AI大模型,但是机器人用的AI大模型和OpenAI/Gemini等公司的主流大模型有很大区别。

首先,从目的上,机器人AI大脑的目的是为了理解主人意图,理解环境,从而规划动作、执行动作,完成主人交给的任务。而AI大模型主要还是处理文本、图片、音视频等方面的任务,例如回答问题、生成文本/音频/视频。目的不同,很多东西都会不一样。

其次,两者的训练数据源也很不一样。AI大模型主要基于文本、图片和音视频数据进行训练。而机器人AI大模型则需要采集各类真实场景下的环境数据和动作数据,其中视觉数据通过摄像头、深度相机、激光雷达获取,动作数据涵盖电机扭矩、关节角度、机械臂轨迹,同时还包括碰撞、摩擦、重力、平衡等物理反馈相关数据,例如家居环境、工厂环境数据,倒水动作流程、扫地/拖地动作数据。

当然,两者并非完全割裂,在训练方法和算法层面,存在很多可以相互借鉴的地方。主流AI大模型的多模态融合技术、注意力机制、深度学习框架,能够帮助机器人AI大脑更好地融合视觉、听觉、触觉等多维度感知信息,提升对环境和意图的理解精度;而机器人AI大脑的强化学习算法、场景自适应技术,也能为主流AI大模型提供新的思路,比如让主流大模型更好地理解物理世界的规律,提升内容生成的场景适配性。随着人工智能技术的发展,两者的融合趋势也越来越明显——比如主流大模型为机器人提供更精准的意图理解和对话能力,机器人AI大脑则让主流大模型的能力落地到物理世界,实现“能思考、能行动”的全方位智能。

机器人 AI 与 LLM 区别

维度 LLM 机器人AI
输入 文本 图像+传感器+动作
输出 token 电机控制
世界 语言世界 物理世界
训练目标 下一个token 最优动作
错误代价 回答错 摔倒/损坏
数据 静态互联网 动态交互
时间要求 秒级 毫秒级
是否闭环 弱闭环 强闭环
是否理解物理 很弱 必须强

容错性的区别

在生产环境中,大语言模型说错话,写错代码,没有什么大的问题,可以继续输入提示词修正,但是机器人大模型如果发出错误指令,麻烦就大多了,就可能伤害到人,或者毁坏机器设备。两者的容错性不在一个层级上。这也是为什么自动驾驶作为机器人的一个子集,十几年了都没能大规模普及,而大模型两三年就风靡世界。