中国工程院外籍院士张建伟：今后10年，具身智能将落地机器人

新闻资讯2023-12-27 12:05:41橙橘网

文/普子胥

12月22日，第十届以“智能涌现·发现未来”为主题的网易未来大会，在杭州正式启动。本次大会由杭州市人民政府和网易公司联合主办，杭州市经济和信息化局、杭州市商务局、杭州滨江区人民政府、北京网易传媒有限公司及网易（杭州）网络有限公司承办。大会包括思想之夜、未来局、未来公开课、主论坛、AGI论坛、汽车科技论坛、灵感无界等，广邀顶级学者、产业专家和行业精英，作答未来科技、人文艺术、时代个人的精彩变化。

开幕式现场，中国工程院外籍院士、德国国家工程院院士、德国汉堡大学教授、清华大学杰出访问教授张建伟发表了《多模态具身智能与未来机器人》主题演讲。张教授表示，现在非具身人工智能发展迅速，然而在制造、未来出行、大健康、农业、家庭和教育方面，现在还需将人工智能算法落地真实物理世界的多学科综合的解决方案。

张教授谈到，从非具身智能走向具身的智能，需要我们在传统的ICT信息通讯系统上，加上body的运动执行互动功能，以及高层智能功能，从基本的识别到记忆、到推理，乃至意识。集成这三部分为一体，才使得我们能从信息世界通讯走向物理世界交互，创造新的巨大应用蓝海。

此外，智能机器人在发展过程中仍有很多挑战，要实现更好落地，一方面依赖于基础研究，另外一方面也依赖于科学家和企业家的强强合作：“融合多模态大模型和机器人，并解决真实物理世界的刚需问题，将是创造未来的一个特别重要的前沿方向“。

以下为张建伟院士主题演讲节录：

非常高兴接到网易的邀请，在当今战争和冲突纷争不断的时代，我们在这里能够跨界、讨论，用批判思维来脚踏实地、仰望星空、预测未来，一起塑造未来，我觉得是件非常有意义的事情！

今天的我们处于一个智能物联网的时代。如果从未来实际需求来讲，我们现在把人工智能基础技术驱动的方法和未来需求相比，我们看到它们中间的差距是非常远的。现在ChatGPT版本是纯粹的一种技术驱动的方法，它现在要代替的很多白领工作，并不是我们特别希望它们来代替的。在制造、未来出行、大健康、农业、家庭和建筑等方面，我们希望替代更多的是辛苦的蓝领工作，比如工厂里重复单调的装配、帮助照顾我们的父母、农业里的除草、采摘等，但是到目前为止，我们还没有很好的方案，现在非具身人工智能解决不了这些问题。

现在大家都在思考未来在手机、手表、眼镜之后，会是一个什么样的形态，把手机替代的是什么样的形式，现在新发布的VR/AR眼镜，不外乎还是一种信息和视觉、听觉交互形式的改变。

未来，我们说从非具身智能走向具身的智能，需要我们在传统的信息通讯系统上，加上body运动执行互动功能，加上高层智能功能，从基本的识别到记忆、到推理，乃至意识。集成这三部分为一体，就使得我们能从信息世界通讯走向物理世界交互，创造新的巨大的应用蓝海。

如何打通基础研究到应用研究再到最后的创新应用？用这张图把技术成熟度一到十的步骤整合起来。技术成熟度一至三的基础研究包括人脑模型、深度学习模型、知识图谱等等。我们把关键的基础研究结果打造成技术成熟度从四到七的模块，用共享的软件ROS机器人操作系统来解决这些开源模块，包括识别、抓取、情感交互等，把它们整合起来解决未来的制造、医疗、健康、出行和家庭服务等。

打通从基础到应用，我们投入了近二十年的工作。在二十年前我们做双臂立体装配机器人，现在工业界对立体产品装配方面呈现非常多重要的需求。我们的研究也影响了协作机器人这个新的技术形态，思灵协作机器人作为独角兽公司，产品现在在富士康iPhone装配工厂已经得到了应用，未来在医疗物理服务方面也会为人类起到更多的作用。我们都盼望着未来我们的父母能够有尊严独立生活不需要护工，利用人工智能、机器人实现助老助残。在未来新感知状态层面，我们从二维数字图像感知到未来三维感知也是走上了新的台阶，今天另一家独角兽公司“梅卡曼德机器人”，基于结构光测的原理，实现了3D点云相机的产业化，已经应用到广泛的制造、物流领域，也在做创新的具身智能的实践。

在疫情前，我们在中国的机器人学术年会晚宴之前，活动热场的不是请帅哥美女在台上跳舞，而是请机器人在台上表演，包括机器鱼、四足机器狗、仿生爬壁飞行机器人、类脑自控的自行车等来展现机器人未来的移动平台。

当然具身智能还有非常大的挑战，现在仅基于互联网和大数据的非具身的智能实现了一些应用场景，正在替代一些白领的工作，但是未来要替代物理世界很多蓝领的工作，我们还需要克复非常多的挑战，比如未知、非结构化环境的建模挑战、灵巧操作挑战、多模态自然交互挑战等等。

现在我们在家里能够触摸到、买到的机器人还只是能够单功能扫地、吸尘。在酒店、博物馆和工厂，我们能看到一些运载服务的机器人。但是在未来，各行各业其实有非常大的需求，例如，我们现在智能制造急需的应用场景，70%工厂属于用手操作的劳动密集型，需要多模态机器人化的制造系统；需要帮助我们收割、除草、施肥的农业机器人；需要在家里做家务，和我们互动，陪伴我们健康养老的类人机器人；未来出行城市的交通系统，建筑机器人等，都给我们未来人工智能理论和技术提出了巨大的需求和挑战。

近来，人工智能在四个方面取得了突飞猛进的进展：

1.算力的增长。和30年前相比，30年后算力的增长不是30倍，而是百万倍。如果我们再放眼今后10年，算力会再增加百倍。在这种大的算力引擎的支持下，我们需要充足的数据燃料。

2.多模态数据的感知。从单模态的视觉、听觉、多肢体感觉等巨型数据的收集和融合、自动聚类、自主决策等，都取得了快速进展。

3.算法日新月异发展。从，能够识别的CNN，卷积神经网络处理视觉算法的发展突飞猛进，Segment anything，把所有的二维图像都能分割；处理语音文本RNN、实现语言大模型的应用；以及具身智能在智能体和机器人进行的“增强学习”。现在每天都有上百篇非常专业的论文发表，体现了在算法方面的突飞猛进。

4.机器人正在掌握如何学习。例如Sim2real，把各种机器模型、人工交互模型在仿真里进行测试训练，把仿真里的测试再迁移到实物机器人上面。我们把行走的技术、上身操作的技术、仿人表情机器人头的技术融合在一起，做一个真正实现人功能的仿人机器人。

如何把多模态信息整合在一起，也是整合技术方面非常重要的方向。10年前在深度学习、多模态、ChatGPT尚处于萌芽状态的时候，我们已经筹划并启动了人工智能基础合作项目，“跨模态学习”。针对如何用类脑地形式实现机器整合多模态并进行学习的科学问题，和神经科学家、心理学家共同合作，来研究人是有什么样的机理，能够把视觉、听觉、触觉有机融合在一起，进行存储、表达、交互和学习。我们最近也做出了一系列能够融合多模态深度学习的算法，比如在3D感知的时候用新的算法能够把遮挡的不完全信息自动的补齐，以及我们通过自然语言，能够进行图像自由的处理和分割。

未来，如何把机理模型和大数据学习的新方法融合在一起，是特别重要的一个科学方向。我们把机器人整个控制的等级进行划分，比较低的等级，包括位置控制、力控制等领域，已经有稳定的机理模型，在其基础上可以进行快速的控制。但机器人智能层次和交互的层级越高，它需要多模态的形式就越丰富，包括视觉、触觉、感觉和声音等。在这方面，还欠缺很好的、基于大脑的可计算的模型，所以我们今天还需要很多大数据的支撑。

今年2023年，我们对模型的理解，尤其是在生物、物理的模型理解和世界交互的模型理解，大脑神经结构的理解，未来在认知功能方面的理解，还有整个世界模型建模方面，还差得非常多。所以我们现在只能是用这种大数据收集、端到端学习的办法，来补偿模型的缺失。但通过具身智能，比如机器人，比如医疗系统、自动驾驶，把现在的物理模型逐渐做得越来越精确、越来越优化，通过所谓单模态到双模态，把视觉文本融合在一起，到整个多模态，把触觉和力觉、肢体感觉等融合在一起。到2050年，我们能够把类人全模态的信息，包括第六感官能够融合在一起，不断丰富人工智能系统一些功能，这种具身智能的模型丰富度，就是我们未来努力的方向。

我的博士生最近把人的运动学与两个普通相机采集的数据融合在一起，对动态模型进行优化，很方便地实现了人的运动捕捉系统，并把人的运动系统的捕捉结果转移到机器人身上。此外，我们现在也可以做到把大量人动作的视频信息来进行提取，转移到机器人上。

我们做出了拿到吉尼斯世界纪录的乒乓球机器人，可以打出任意位置、任意速度，机器人通过把模型和训练融合在一起，实现了和人打了一个半小时、六千多个来回，未来为个性化康复系统以运动处方的形式为人类服务。

我们用新的进化计算控制方法，运用到机器人运动学的逆解方案中，使得机器人是在给定工作空间里的轨迹，对各种各样的机器人产生出优化运动学逆解的算法，这叫“基于生物感知运动学逆解算法”，现在从人形机器人到工业机器人中都得到了应用。

二十年前，我指导的一个德国博士生喜欢做机器人，也喜欢画漫画，我让他画了几幅我想象的场景，未来二十年后服务机器人会是什么样子，包括端茶倒水能够和人交互等，现在我们已经逐渐实现了能够操作的具身智能的机器人，通过不断学习把人机交互的长度变得越来越短，让它对世界的理解变得越来越精确。

今年科技的关键词ChatGPT、大模型。但是在我看来，具身大模型实际上还有非常大的挑战，让现在这个单模态的模型，现在已经到这种双模态语言，和图像模型进行融合；到未来全模态模型的制作以及我们如何实现高质量、高稳定、高可信的大模型摆脱高的计算成本，可解释等。另外就是垂直领域的模型结合，如何将通用大模型运用到千行百业，这是我们未来共同要努力的方向，也是我们的机会。

在大模型AI时代，各行各业如何能做出自己的反应？从人工智能的角度讲，我们现在要实现更加透明的人工智能，要集成多模态的信息，研究真实世界的具身智能，而且我们要高度重视以人为本的AI伦理，要用重大需求作为牵引，而不仅仅是技术驱动。

从其他非人工智能从业者来讲，我建议大家要扬长我们人类的多模态，在二维视觉到三维视觉到未来的机器人系统中，要增加不同模态的感知，我们要学会跨学科的合作，基于项目的学习方法；不管是学习什么样的专业，要理解AIGC是怎么工作的，要知道它还不能做什么，要学会和人工智能进行合作，要更加有富有想象力、好奇心和创造力，问好的问题。

人工智能在模型和大数据的融合方面，还需要克服非常多的挑战，需要产学研的国际合作，以及具有国际视野的、跨学科卓越工程师的出现。未来我们应该更好地进行全球范围合作来应对重大挑战，交叉协同，注重AI伦理，共创和谐社会、美好生活。

本文标签：张建伟机器人人工智能中国工程院算法具身