AI大模型+人形机器人，加速机器人走进现实

新闻资讯2023-06-05 14:57:53橙橘网

机器人，多数人的第一次“亲密接触”源于科幻大电影，源于对超越现实生活的无尽想象，机器人逐渐从“单纯工具”逐步进化成为“亲密伙伴”。

年初爆红的“大模型”以及再次“走红”的人形机器人，让人们再次惊呼科技对于生活方式的改变。

未来，随着AI技术的不断成熟，人形机器人研发的突破，让“机器人走进普通人生活的愿景”越来越逼近现实。

一、机器人：从“自动化”向“智能化”演进

国际机器人协会（International Federation of Robotics，IFR）提出，机器人是可在两个或多个轴上进行编程的驱动机制，具有一定程度的自主性，在特定环境中移动以执行预定的任务。

1.机器人应用场景逐步由“简单，初级”向“复杂，高级”迈进

最初机器人的核心功能是替代人进行重复的、危险的工作，同时提高效率与精度；之后以“服务人”为功能的机器人走入人们的眼帘，用于迎宾接待等与人类距离更近的场景，娱乐/扫地机器人等大规模进入家庭；接着其高精度的特性被用于物流、医疗，自动取件、辅助护理机器人开始出现。

2.机器人逐步由“自动化”向“智能化”演进

机器人的发展经历了三代的演进，第一代为程序控制机器人：通过编程或示教将动作指令输入机器人中，而由于缺之外部传感器，机器人只能刻板地完成程序规定的动作，一旦环境情况略有变化，机器人的工作就会出现问题；第二代为自适应机器人：其带有视觉、力觉等传感器，能据传感器获得的信息调整工作状态：第三代为智能机器人：其拥有更丰富的传感器，不仅能获取并处理外部综合信息，甚至能据此自己制定行动目标，其智能主要体现在感知交互、独立决策、自我优化三个方面。

二、大模型：多个城市持续发力，主攻通用人工智能

2023年4月中共中央政治局会议指出，要重视通用人工智能发展，营造创新生态，重视防范风险。区别于此前中央经济工作会议等重要会议中泛指的“人工智能”，此次政治局会议明确强调“通用”，即Chat-GPT自去年11月以来引领的通用性AI大模型技术路线。

图表1 主要城市人工智能政策列示（不完全统计）

以人工智产业发展高地，北京为例。北京市《若干措施》的发布是国内首个地方政府紧贴AI大模型产业化发展提出的专项措施，北京打响了地方大模型竞赛的第一枪。当下正值Chat-GPT引发的“千模大战”打响，大模型可能为各行各业带来新的效率革命和体验升级。随着AI第一城北京行动了，上海、深圳、成都等地区都已陆续采取行动，抢占发展的“窗口期”。

三、人形机器人：人与机器的“不期而遇”

从定义和使用目的出发，人形机器人是具有与人类似的外观和运动方式的智能机器人。人形机器人（humanoid robots）又译“仿人机器人”，字面意思是模仿人的形态和行为设计制造的机器人。目前人形机器人并没有普遍定义，但根据专业书籍《Humanoid Robots》的归纳，人形机器人应当能“在人工作和居住的环境工作，操作为人设计的工具和设备，与人交流”。在此前提下，人形机器人最终应具有与人类似的身体结构，包括头、躯干和四肢，使用双足行走，用多指手执行各种操作，并具有一定程度的认知和决策智能。

人形机器人起步于1960年代后期，以日本的研究成果最为瞩目。1973年日本早稻田大学的加藤一郎教授研发出世界上第一款人形机器人 WABOT-1 的 WL-5 号两足步行机，严格讲类属于仿生机械，是人形机器人的雏形。1986年日本本田开始进行人形机器人 ASIMO 的研究，并成功于2000年发布第一代机型。

图表2 人形机器人信息展示（不完全统计）

AI大模型+人形机器人，加速机器人走进现实

四、人形机器人与AI大模型：通用场景加速C端革命性推进

随着集成设计技术、运动管理控制技术、传感器感知技术等关键技术的不断突破，以及人工智能、5G等新一代信息技术的融合应用持续深入，特种机器人加速应用于煤矿、深海、极地等场景，释放出巨大的生产和科研价值，而其中最让前沿科技公司、普通消费者“着迷”的是以人形机器人为代表的智能移动机器人的出现，迭代。

目前，AI技术通过构建全面感知、实时互联、分析决策、自主学习的智能系统，使机器人自主作业成为可能。AI通过机器人视觉技术强化机器人的感知能力，通过构建算法模型提升其分析决策、自主学习的能力，从而使机器人能够独立完成作业。

1.感知世界的能力（机器人的眼睛）

机器人自主移动的感知和定位技术中激光和视觉导航是主流应用方案。计算机视觉的发展经历了基于以特征描述子代表的传统视觉方法、以CNN卷积神经网络为代表的深度学习技术，目前通用的视觉大模型正处于研究探索阶段，人形机器人的场景相对工业机器人更通用、更复杂，视觉大模型的All in One 的多任务训练方案能使得机器人更好地适应人类生活场景。

一方面，大模型的强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割等任务时具备更高的精确度；另一方面，大模型解决了深度学习技术过分依赖单一任务数据分布，场景泛化效果不佳的问题，通用视觉大模型通过大量数据学到更多的通用知识，并迁移到下游任务中，基于海量数据获得的预训练模型具有较好的知识完备性，提升场景泛化效果。

典型产品：特斯拉“Optimus（擎天柱）”

感知层面，特斯拉机器人头部使用8个摄像头采集视觉信息。计算层面，机器人将采用目前特斯拉汽车使用的FSD（Full Self-Driving，全自动驾驶）电脑、运用神经网络等模型实时处理信息。特斯拉将使用超算“Dojo（道场）”训练机器人使用的AI模型，使其更有效的识别外界物体并做出反应。

2.思考和决策的能力（机器人的大脑）

目前的机器人都是专用机器人，只能在限定场景中应用，即使是机器人抓取，基于计算机视觉，仍然是在限定场景中，算法仅用于识别物体，如何做、做什么仍需要人的定义。要让机器人通用，叫他去浇花，他就知道去拿水壶，接水，然后浇花，这是需要常识才能完成的事情。如何能让机器人拥有常识？在大模型出现之前，这个问题几乎是无解的。大模型让机器人可以拥有常识，从而具备通用性去完成各种任务，彻底改变通用机器人实现的模式。人类工具和环境的适应性，不用再为了机器人而造工具。

典型产品：首个机器人公民“索菲亚”

2017年，索菲亚成为世界上第一个获得公民身份的机器人。她说她会用她的智慧帮助人类发展，让我们不要害怕她，她很友善。2018年，她还成为全球首位开展在线教育课程的AI老师。索菲亚表示，未来的机器人完全胜任教师的工作，能够基于与学生的互动，有效解决学生遇到的心理和情感问题。

3.执行能力（机器人的四肢）

行动能力（腿）+精细操作（手）。把机器人做成人形，就是为了让机器人的执行能力更加通用。机器人执行任务时所处的环境是按照人类的体型建造起来的：建筑、道路、设施、工具等，这个世界是为了方便人类这种人形生物才这样设计。如果出现了某种新形态的机器人，人们就必须重新设计一套机器人适应的全新环境。设计在某个特定范围内执行任务的机器人相对容易，如果想要提高机器人的通用性，就必须选择可以作为分身的人形机器人。此外，人类与人形机器人更容易有情感上的交流，人形机器人会让人感到亲近。

典型产品：波士顿动力Atlas

2020年12月，波士顿动力发布了Atlas跳舞的视频，动作流畅且富有表现力。在舞蹈中，机器人需要在起跳悬空状态下调整姿势，以保持平衡并精确做出动作。2021年8月，在官方最新视频中，Atlas可以在障碍环境内“跑酷”，做出跳跃、俯冲翻滚、空翻等一系列高难度全身动作。

4.“具身智能”+机器人：人工智能的终极形态

如何让电脑有如一岁小孩般的感知和行动能力的问题，诞生了“具身智能”的概念。其可以简单理解为，各种不同形态的机器人，让它们在真实的物理环境下执行各种各样的任务，来完成人工智能的进化过程，比如：人形机器人、智能驾驶汽车，或者未来的“变形金刚”。

英伟达创始人黄仁勋在 ITF World 2023 半导体大会上表示，具身智能（Embodied AI）是能理解、推理、并与物理世界互动的智能系统，是人工智能的下一个浪潮。

具身智能最大的特质就是能够以主人公的视角去自主感知物理世界，用拟人化的思维路径去学习，从而做出人类期待的行为反馈，而不是被动的等待数据投喂。人形机器人提供了各种基于人类行为的学习和反馈系统，为实现更复杂行为语义提供了迭代的基础和试验场。因此，人形机器人的逐步完善也为具身智能的落地提供了方向，是具身智能的重要应用场景，也将为具身智能的迭代优化提供方向和空间。

五、专利技术：机器人、大模型专利申请逐年增加

1.机器人专利：

近年来，机器人与前沿科技产业，诸如：大数据，人工智能等结合愈加紧密，特别是人形机器人的出现，让机器人作为科技产业的“技术”含量日益提升。

从数量来看，机器人专利保持稳定增长，2022年申请专利2.3万余项；从类型上来看，发明专利与实用新型占比较高，两者之和占总数的9成。

AI大模型+人形机器人，加速机器人走进现实