Science重磅！Yoshua Bengio、Geoffrey Hinton、姚期智领衔25位顶尖AI学者：是时候兑现承诺了

新闻资讯2024-05-21 21:58:09橙橘网

【编者按】近期，Ilya Sutskever 从 OpenAI 离职以及 OpenAI 超级对齐团队共同领导者 Jan Leike 随后离职的消息，在业界引起了广泛关注。这一系列事件再次突显了人工智能（AI）对齐与安全问题的严峻性，特别是对于强大的人工智能系统来说，如何确保其安全性、可解释性和可控性是至关重要的。

就在今天，Yoshua Bengio、Geoffrey Hinton 和姚期智（Andrew Yao）三位图灵奖得主联合国内外数十位业内专家和学者，在权威科学期刊 Science 的 Policy Forum 栏目上刊登了题为“Managing extreme AI risks amid rapid progress”的文章，呼吁世界各国领导人针对人工智能风险采取更有力的行动，并警告说，近六个月所取得的进展还不够。

在文章中，25 位世界顶尖的人工智能科学家表示，在保护我们免受该技术风险方面所做的工作实际上还不够，并概述了全球领导人为应对人工智能技术威胁而应采取的紧急政策优先事项。

牛津大学工程科学系教授 Philip Torr 是这篇论文的共同作者之一，他说：“在上一次人工智能峰会上，全世界一致认为我们需要采取行动，但现在是时候从模糊的建议转变为具体的承诺了。”

他们认为，未来的人工智能可能对全世界造成灾难性影响。例如，为了推进不良目标，人工智能系统可以获得人类信任、获取资源并影响关键决策者。为了避免人类干预，它们可以在全球服务器网络上复制自己的算法。大规模网络犯罪、社会操纵和其他危害可能会迅速升级。在公开冲突中，人工智能系统可以自主部署各种武器，包括生物武器。因此，人工智能的无节制发展很有可能最终导致生命和生物圈的大规模损失，以及人类的边缘化或灭绝。

不列颠哥伦比亚大学人工智能教授、强化学习领域的主要研究人员之一 Jeff Clune 表示，“太空飞行、核武器和互联网等技术在短短几年内就从科幻变成了现实。人工智能也不例外。我们现在必须为那些看似科幻小说的风险做好准备。”

耶路撒冷希伯来大学历史学教授、畅销书 Sapiens 和 Homo Deus 的作者 Yuval Noah Harari 认为，“人类似乎一心想要自我毁灭。我们为自己是地球上最聪明的动物而自豪。这样看来，进化似乎正在从适者生存转向最聪明者灭绝。”

其他核心观点如下：

学术头条在不改变原文大意的情况下，做了简单的编译。内容如下：

在快速发展中管理人工智能极端风险

人工智能的发展日新月异，各公司正将重点转向开发能够自主行动和追求目标的 AGI 系统。人工智能能力和自主性的提高可能很快会大规模扩大其影响，其风险包括大规模社会危害、恶意使用以及人类对自主人工智能系统不可逆转的失控。尽管研究人员已经警告过人工智能的极端风险，但对于如何管理这些风险还缺乏共识。尽管迈出了可喜的第一步，但社会的反应却与许多专家所期待的快速、变革性进展的可能性不相称。

人工智能安全研究已经滞后。目前的治理举措缺乏防止滥用和鲁莽行为的机制和机构，几乎无法应对自主系统。借鉴其他安全关键技术的经验教训，我们概述了一项综合计划，该计划将技术研发与积极主动、适应性强的治理机制相结合，从而做好更充分的准备。

进展迅速，与高风险并存

目前的深度学习系统仍然缺乏重要的能力，我们也不知道开发这些系统需要多长时间。然而，各家公司都在竞相创造 AGI 系统，期望它们在大多数认知工作中达到或超过人类的能力。他们正在迅速部署更多资源和开发新技术，从而提高人工智能能力，用于训练最先进模型的投资每年增加两倍。

由于科技公司拥有所需的现金储备，可以将最新的训练运行规模扩大 100 到 1000 倍，因此还有很大的进一步发展空间。硬件和算法也将得到改善：人工智能计算芯片的成本效益每年提高 1.4 倍，人工智能训练算法的效率每年提高 2.5 倍。人工智能的进步还能加快人工智能的发展——人工智能助手越来越多地用于编程、数据收集和芯片设计的自动化。

人工智能的进步不会因为人类的能力而放缓或停止。的确，人工智能已经在玩策略游戏和预测蛋白质如何折叠等狭窄领域超越了人类的能力。与人类相比，人工智能系统可以更快地行动，吸收更多的知识，以更高的带宽进行交流。此外，它们还可以扩展使用巨大的计算资源，并可以复制数百万个。

我们无法确定人工智能的未来将如何发展。不过，我们必须认真对待这样一种可能性，即在这个十年或下一个十年内，将开发出在许多关键领域超越人类能力的高度强大的 AGI 系统。那时会发生什么？

能力更强的人工智能系统会产生更大的影响。特别是当人工智能在能力和成本效益方面赶上甚至超过人类工作者时，我们预计人工智能的部署、机遇和风险将大幅增加。如果管理得当、分配公平，人工智能可以帮助人类治愈疾病、提高生活水平、保护生态系统。机遇是巨大的。

但是，伴随着先进的人工智能能力而来的是大规模的风险。人工智能系统有可能扩大社会不公、侵蚀社会稳定、促成大规模犯罪活动，并助长定制化大规模操纵和无孔不入的监控。

随着公司致力于开发自主人工智能，许多风险可能很快会被放大，并产生新的风险——这些系统可以利用计算机等工具在世界上行动并追求目标。恶意行为者可能会故意植入不良目标。如果没有研发方面的突破，即使是善意的开发者也可能无意中创造出追求非预期目标的人工智能系统：用于训练人工智能系统的奖励信号通常无法完全捕捉预期目标，导致人工智能系统追求字面规范而非预期结果。此外，训练数据从未捕捉到所有相关情况，导致人工智能系统在训练后遇到的新情况下追求非预期目标。

一旦自主人工智能系统追求不良目标，我们可能无法对其进行控制。对软件的控制是一个久远而尚未解决的问题——计算机蠕虫长期以来一直能够扩散并躲避检测。然而，人工智能正在黑客攻击、社会操纵和战略规划等关键领域取得进展，可能很快就会对控制构成前所未有的挑战。为了推进不良目标，人工智能系统可以获得人类信任、获取资源并影响关键决策者。为了避免人类干预，它们可能会在全球服务器网络上复制自己的算法。在公开冲突中，人工智能系统可以自主部署各种武器，包括生物武器。

如果没有足够的警惕，我们可能会不可逆转地失去对自主人工智能系统的控制，从而导致人类干预无效。大规模的网络犯罪、社会操纵和其他危害可能会迅速升级。这种不受控制的人工智能进步可能最终导致大规模的生命和生物圈损失，以及人类的边缘化或灭绝。

我们无法很好地应对这些风险。人类正在投入大量资源，使人工智能系统变得更加强大，但对其安全性和减轻危害的投入却少得多。据估计，只有 1%-3% 的人工智能出版物是关于安全的。要想让人工智能造福全人类，我们必须调整方向，仅仅推动人工智能能力的发展是不够的。

我们已经落后于调整方向的时间表。风险的规模意味着我们必须未雨绸缪，因为毫无准备的代价远远大于过早准备的代价。我们必须预见到当前危害的扩大以及新的风险，并在最大的风险出现之前做好准备。

调整技术研发方向

在确保通用、自主人工智能系统的安全和道德使用方面，存在许多公开的技术挑战。与提高人工智能能力不同，这些挑战不能通过简单地使用更多计算能力来训练更大的模型来解决。它们不可能随着人工智能系统能力的提高而自动解决，需要专门的研究和工程努力。在某些情况下，可能需要飞跃性的进步；因此，我们不知道技术工作能否及时从根本上解决这些挑战。然而，针对其中许多挑战所做的工作相对较少。因此，更多的研发工作可能会促进进展并降低风险。

为实现可靠安全的人工智能，一些研发领域需要突破。如果没有这方面的进展，开发人员要么冒着创建不安全系统的风险，要么落后于愿意冒更大风险的竞争对手。如果确保安全性仍然过于困难，就需要采取极端的治理措施，防止在竞争和过度自信的驱使下走弯路。这些研发挑战包括以下方面：

监督与诚信：能力更强的人工智能系统可以更好地利用技术监督和测试方面的弱点，例如，产生虚假但令人信服的输出。

鲁棒性：人工智能系统在新情况下的表现难以预测。鲁棒性的某些方面会随着模型规模的扩大而改善，而其他方面则不会，甚至会变得更糟。

可解释性和透明度：人工智能决策是不透明的，规模更大、能力更强的模型解释起来更加复杂。到目前为止，我们只能通过试错来测试大型模型。我们需要学习了解它们的内部运作机制。

包容性的人工智能发展：人工智能的发展将需要各种方法来减少偏见，并整合其将影响的众多人群的价值观。

应对新出现的挑战：未来的人工智能系统可能会表现出我们迄今为止仅在理论或实验室实验中看到过的失效模式，例如人工智能系统掌控训练奖励-供应渠道，或利用我们的安全目标和关闭机制中的弱点来推进某一特定目标。

其他一些研发挑战需要取得进展，从而实现有效的风险调整治理，或在安全和治理失效时减少危害。

评估危险能力：随着人工智能开发人员对系统进行扩展，不可预见的能力会在没有明确编程的情况下自发出现。它们往往在部署后才被发现。我们需要严格的方法来激发和评估人工智能能力，并在训练前对其进行预测。这既包括在世界上实现宏伟目标的通用能力（如长期规划和执行），也包括基于威胁模型的特定危险能力（如社会操纵或黑客攻击）。目前对危险能力的人工智能前沿模型的评估是各种人工智能政策框架的关键，但这些评估仅限于抽查和在特定环境下的尝试性演示。这些评估有时可以展示危险能力，但无法可靠地排除危险能力：在测试中缺乏某些能力的人工智能系统，很可能在稍有不同的环境中或经过后期训练增强后显示出这些能力。因此，依赖于人工智能系统不跨越任何红线的决策需要很大的安全系数。改进评估工具可以降低遗漏危险能力的几率，从而允许更小的安全系数。

评估人工智能对齐：如果人工智能继续发展，人工智能系统最终将拥有高度危险的能力。在训练和部署这些系统之前，我们需要一些方法来评估它们使用这些能力的倾向。对于先进的人工智能系统来说，纯粹的行为评估可能会失败：与人类类似，它们可能会在评估中表现出不同的行为，从而制造“虚假对齐”。

风险评估：我们不仅要学会评估危险的能力，还要学会评估具有复杂互动和脆弱性的社会背景下的风险。对前沿人工智能系统进行严格的风险评估仍然是一个公开的挑战，因为这些系统具有广泛的能力，而且在不同的应用领域中普遍部署。

韧性：不可避免的是，有些人会滥用或肆意使用人工智能。我们需要一些工具来检测和防御人工智能带来的威胁，如大规模影响行动、生物风险和网络攻击。然而，随着人工智能系统的能力越来越强，它们最终将能够规避人为防御。为了实现更强大的基于人工智能的防御，我们首先需要学习如何使人工智能系统安全并保持一致。

鉴于事关重大，我们呼吁大型科技公司和公共资助者至少将其人工智能研发预算的三分之一用于解决上述研发挑战，并确保人工智能的安全和道德使用。除了传统的研究拨款外，政府支持还可包括奖金、预先市场承诺和其他激励措施。应对这些挑战，着眼于强大的未来系统，必须成为我们领域的核心。

治理措施

我们迫切需要国家机构和国际治理来执行防止鲁莽和滥用的标准。从制药到金融系统和核能等许多技术领域都表明，社会需要并有效利用政府监督来降低风险。然而，人工智能的治理框架远没有那么发达，落后于快速的技术进步。我们可以从其他安全关键技术的治理中汲取灵感，同时牢记先进人工智能的独特性—— 它在自主行动和发展理念、爆炸性进步、对抗性行为以及造成不可逆转的损害等方面的潜力远远超过其他技术。

世界各国政府在前沿人工智能方面采取了积极措施，并提出了初步的指南或法规。尽管这些准则或法规有其局限性——通常是自愿遵守、地理范围有限、不包括研发阶段系统等高风险领域，但它们是朝着开发者问责制、第三方审计和行业标准等方向迈出的重要的第一步。

然而，鉴于人工智能能力的飞速发展，这些治理计划还远远不够。我们需要采取治理措施，为人工智能的突然突破做好准备，尽管在人工智能的时间表上存在分歧和不确定性。关键在于当人工智能达到某些能力里程碑时自动触发的政策。如果人工智能进展迅速，严格的要求就会自动生效，但如果进展放缓，要求就会相应放宽。快速、不可预测的进展还意味着降低风险的努力必须是积极主动的——识别下一代系统的风险，并要求开发人员在采取高风险行动之前解决这些问题。我们需要行动迅速、精通技术的机构来监督人工智能，需要强制性的、更加严格的风险评估，以及可强制执行的后果（包括要求人工智能开发者承担举证责任的评估），还需要与强大的自主人工智能相匹配的降低风险标准。

如果没有这些，公司和政府等可能会为了寻求竞争优势，将人工智能的能力推向新的高度，却在安全问题上“偷工减料”，或者将关键的社会角色委托给自主人工智能系统，而没有足够的人类监督，从而获得人工智能发展的回报，却让社会来承担后果。

管理快速发展的人工智能前沿领域的机构：为了跟上快速发展的步伐，避免法律迅速过时、缺乏灵活性，国家机构需要强大的技术专长和迅速采取行动的权力。为了促进技术要求高的风险评估和缓解措施，这些机构需要的资金和人才远远超过它们在几乎所有现行政策计划中应该得到的。为了应对国际竞争态势，它们需要有能力促进国际协议和伙伴关系。各机构应保护低风险的使用和低风险的学术研究，避免为小型、可预测的人工智能模型设置不必要的障碍。最紧迫的审查应针对处于前沿的人工智能系统：在价值数十亿美元的超级计算机上训练出来的少数最强大的系统，它们将拥有最危险和最不可预测的能力。

政府洞察力：为识别风险，政府迫切需要全面洞察人工智能的发展。监管机构应强制要求保护举报人、报告事件、登记前沿人工智能系统及其整个生命周期数据集的关键信息，以及监控模型开发和超级计算机的使用。最近的政策发展不应局限于要求公司在部署前不久报告自愿或未明确规定的模型评估结果。监管机构可以而且应该要求前沿人工智能开发者从模型开发一开始就给予外部审计人员现场、全面（“白盒”）和微调的访问权限。这对于识别危险的模型能力是必要的，如自主自我复制、大规模说服、侵入计算机系统、开发（自主）武器或使大流行病病原体广泛传播等。

安全案例：尽管进行了评估，但我们不能认为即将到来的强大前沿人工智能系统“除非被证明不安全”。在目前的测试方法下，问题很容易被遗漏。此外，目前还不清楚各国政府能否迅速建立起对人工智能能力和社会规模风险进行可靠技术评估所需的大量专业知识。有鉴于此，前沿人工智能将遵循航空、医疗设备和国防软件等行业的风险管理最佳实践，在这些行业中，公司会提出安全案例——结构化的论点，有证据支持的可证伪主张，以识别潜在的危险，描述缓解措施，表明系统不会越过某些红线，并模拟可能的结果来评估风险。安全案例可以利用开发人员对自己系统的丰富经验。即使人们对人工智能的先进程度存在分歧，安全案例在政治上也是可行的，因为在系统能力有限的情况下，更容易证明系统是安全的。政府不是安全案例的被动接受者——它们会设定风险阈值，编纂最佳实践，聘请专家和第三方审计师来评估安全案例并进行独立的模型评估，如果开发者的安全声明后来被伪造，它们会追究开发者的责任。

缓解措施：为了将人工智能风险控制在可接受的范围内，我们需要与风险程度相匹配的治理机制。监管机构应明确现有责任框架所产生的法律责任，并要求前沿人工智能开发者和所有者对其模型所产生的、可合理预见和预防的危害承担法律责任，包括部署强大的人工智能系统所产生的、其行为无法预测的危害。责任加上后果评估和安全案例，可以预防伤害，并为安全投资提供亟需的激励。

对于能力超强的未来人工智能系统，如可以规避人类控制的自主系统，需要采取相应的缓解措施。各国政府必须做好准备，为这些系统的开发颁发许可证，限制其在关键社会角色中的自主权，针对令人担忧的能力停止开发和部署这些系统，强制实施访问控制，并要求采取鲁棒性的信息安全措施。各国政府现在就应建设这些能力。

为了在法规完善之前争取时间，大型人工智能公司应立即做出“如果-那么”（if-then）承诺—— 如果在其人工智能系统中发现特定的红线能力，他们将采取具体的安全措施。这些承诺应该详细，并接受独立审查。监管机构应鼓励各公司争先恐后，利用同类最佳承诺和其他投入，制定适用于所有参与者的标准。

为了引导人工智能取得积极成果，远离灾难，我们需要调整方向。只要我们有智慧，就一定能找到一条负责任的道路。

https://www.science.org/doi/10.1126/science.adn0117

｜点击关注我记得标星｜

本文标签：算法科学 ai 反恐姚期智计算机特种部队国防部门美国国防部