人形机器人大脑所用到的AI和AI大模型的区别-Eddy's Blog

人形机器人大脑所用到的AI和AI大模型的区别

虽然现在机器人的大脑也用到了AI大模型，但是机器人用的AI大模型和OpenAI/Gemini等公司的主流大模型有很大区别。

首先，从目的上，机器人AI大脑的目的是为了理解主人意图，理解环境，从而规划动作、执行动作，完成主人交给的任务。而AI大模型主要还是处理文本、图片、音视频等方面的任务，例如回答问题、生成文本/音频/视频。目的不同，很多东西都会不一样。

其次，两者的训练数据源也很不一样。AI大模型主要基于文本、图片和音视频数据进行训练。而机器人AI大模型则需要采集各类真实场景下的环境数据和动作数据，其中视觉数据通过摄像头、深度相机、激光雷达获取，动作数据涵盖电机扭矩、关节角度、机械臂轨迹，同时还包括碰撞、摩擦、重力、平衡等物理反馈相关数据，例如家居环境、工厂环境数据，倒水动作流程、扫地/拖地动作数据。

当然，两者并非完全割裂，在训练方法和算法层面，存在很多可以相互借鉴的地方。主流AI大模型的多模态融合技术、注意力机制、深度学习框架，能够帮助机器人AI大脑更好地融合视觉、听觉、触觉等多维度感知信息，提升对环境和意图的理解精度；而机器人AI大脑的强化学习算法、场景自适应技术，也能为主流AI大模型提供新的思路，比如让主流大模型更好地理解物理世界的规律，提升内容生成的场景适配性。随着人工智能技术的发展，两者的融合趋势也越来越明显——比如主流大模型为机器人提供更精准的意图理解和对话能力，机器人AI大脑则让主流大模型的能力落地到物理世界，实现“能思考、能行动”的全方位智能。

机器人 AI 与 LLM 区别

维度	LLM	机器人AI
输入	文本	图像+传感器+动作
输出	token	电机控制
世界	语言世界	物理世界
训练目标	下一个token	最优动作
错误代价	回答错	摔倒/损坏
数据	静态互联网	动态交互
时间要求	秒级	毫秒级
是否闭环	弱闭环	强闭环
是否理解物理	很弱	必须强

容错性的区别

在生产环境中，大语言模型说错话，写错代码，没有什么大的问题，可以继续输入提示词修正，但是机器人大模型如果发出错误指令，麻烦就大多了，就可能伤害到人，或者毁坏机器设备。两者的容错性不在一个层级上。这也是为什么自动驾驶作为机器人的一个子集，十几年了都没能大规模普及，而大模型两三年就风靡世界。

<< 手动阀

AI爆发，V2X被边缘化了吗？ >>