人工智能安全的具体问题综述

2022-09-09 10:18:41 编辑：濮阳悦烟来源：

导读自谷歌，斯坦福，加州大学伯克利分校和OpenAI的研究人员发表论文人工智能安全中的具体问题以来，已有将近两年的时间了，但它仍然是人工智能...

自谷歌，斯坦福，加州大学伯克利分校和OpenAI的研究人员发表论文“人工智能安全中的具体问题”以来，已有将近两年的时间了，但它仍然是人工智能安全最重要的部分之一。即使在两年之后，它也代表了研究人员在开发人工智能时面临的一些问题。在论文中，作者探讨了事故问题- 人工智能系统中的意外和有害行为，他们讨论了不同的策略和正在进行的研究工作，以防止这些潜在的问题。具体而言，作者提出了解决问题 - 避免负面影响，奖励黑客攻击，可扩展监督，安全探索以及对分布式变更的稳健性 - 这些都是以经过培训的机器人清洁办公室为例进行说明的。

我们在这里重新审视这五个主题，从论文中总结它们，提醒我们这些问题仍然是AI研究人员正在努力解决的主要问题。

避免负面影响

在为AI系统设计目标函数时，设计人员会指定目标，但不会指定系统要遵循的确切步骤。这使得AI系统能够提出新颖且更有效的策略来实现其目标。

但如果目标函数没有明确定义，AI开发自己的策略的能力可能会导致意想不到的有害副作用。考虑一个机器人，其目标功能是将盒子从一个房间移动到另一个房间。目标似乎很简单，但有很多方法可能会出错。例如，如果一个花瓶在机器人的路径中，机器人可能会将其击倒以完成目标。由于目标函数没有提到任何关于花瓶的东西，机器人不知道要避开它。人们认为这是常识，但人工智能系统并不分享我们对世界的理解。将目标表述为“完成任务X”是不够的;设计者还需要指定完成任务的安全标准。

一个简单的解决方案就是每当它对“环境”产生影响时对机器人进行处罚 - 例如敲击花瓶或刮擦木地板。但是，这种策略可以有效地抵消机器人，使其无用，因为所有操作都需要与环境进行某种程度的交互(从而影响环境)。更好的策略可以是定义允许AI系统影响环境的“预算”。这将有助于在不中和AI系统的情况下最小化意外影响。此外，这种预算代理影响的策略非常通用，可以在多个任务中重复使用，从清洁，驾驶到金融交易，再到AI系统可能做的任何事情。

另一种方法是训练药剂识别有害的副作用，以便它可以避免导致这种副作用的行为。在这种情况下，代理将被训练为两个任务：由目标函数指定的原始任务和识别副作用的任务。这里的关键思想是，即使主要目标不同，甚至在不同的环境中运行，两个任务也可能具有非常相似的副作用。例如，房屋清洁机器人和房屋涂装机器人都不应该在工作时撞倒花瓶。类似地，清洁机器人不应损坏地板，无论其在工厂还是在房屋中操作。这种方法的主要优点是，一旦代理人学会避免对一项任务的副作用，它就可以在对另一项任务进行训练时传授这些知识。

尽管设计限制副作用的方法很有用，但这些策略本身并不充分。在真实环境中部署之前，AI系统仍需要经过大量测试和关键评估。

奖励黑客

有时人工智能会在系统设计中出现某种“黑客”或漏洞，以获得无法获得的奖励。由于AI经过培训可以最大限度地提高其奖励，因此寻找这样的漏洞和“快捷方式”对于AI来说是一个非常公平和有效的策略。例如，假设办公室清洁机器人只有在办公室看不到任何垃圾时才能获得奖励。机器人可以简单地关闭其视觉传感器，而不是清理场所，从而实现不看垃圾的目标。但这显然是一个错误的成功。这种“游戏”系统的尝试更有可能在具有模糊定义的奖励的复杂系统中体现出来。复杂系统为代理提供了多种与环境交互的方式，从而为代理提供了更多自由，

就像负面副作用问题一样，这个问题也是客观错误指定的一种表现形式。人工智能的正式目标或最终目标的定义不足以捕捉创建系统背后的非正式“意图” - 即设计者实际上希望系统做什么。在某些情况下，这种差异会导致不理想的结果(当清洁机器人关闭其视觉传感器时);在其他情况下，它会导致有害的结果(当清洁机器人击倒花瓶时)。

减轻此问题的一种可能方法是拥有“奖励代理”，其唯一的任务是标记给予学习代理的奖励是否有效。奖励代理确保学习代理(我们的示例中的清洁机器人)不利用系统，而是完成所需的目标。在前面的例子中，“奖励代理人”可以由人类设计师训练以检查房间是否有垃圾(比清洁房间更容易)。如果清洁机器人关闭其视觉传感器并声称获得高回报，则“奖励代理”将奖励标记为无效。然后，设计者可以查看标记为“无效”的奖励，并对目标函数进行必要的更改以修复漏洞。

可扩展的监督

当代理人学习执行复杂任务时，人工监督和反馈比仅从环境中获得奖励更有帮助。奖励通常被建模，以便它们传达任务完成的程度，但它们通常不会提供关于代理人行为的安全影响的充分反馈。即使代理成功完成任务，它也可能无法仅从奖励中推断出其行为的副作用。在理想的环境中，每当代理执行操作时，人员都会提供细粒度的监督和反馈。虽然这将为代理人提供关于环境的更多信息，但这种策略需要人类花费太多时间和精力。

解决这个问题的一个有希望的研究方向是半监督学习，其中代理仍然在所有动作(或任务)上进行评估，但仅针对那些动作(或任务)的一小部分样本获得奖励。例如，清洁机器人将采取不同的行动来清洁房间。如果机器人执行有害行为 - 例如损坏地板 - 它会对该特定动作产生负面回报。任务完成后，机器人将对其所有操作的整体效果进行评估(并且不会针对每个操作单独评估，例如从楼层拾取物品)，并根据整体性能给予奖励。

另一个有前景的研究方向是分层强化学习在不同的学习代理之间建立层次结构。该想法可以以下列方式应用于清洁机器人。将有一个主管机器人，其任务是将一些工作(例如，清洁一个特定房间的任务)分配给清洁机器人并向其提供反馈和奖励。主管机器人本身只需要很少的动作 - 为清洁机器人分配一个房间，检查房间是否干净并提供反馈 - 并且不需要大量的奖励数据来进行有效的训练。清洁机器人执行更复杂的清洁房间任务，并从主管机器人获得频繁的反馈。同一个主管机器人也可能忽略了多个清洁剂的培训。例如，主管机器人可以将任务委派给各个清洁机器人，并直接向他们提供奖励/反馈。主管机器人本身只能采取少量抽象行为，因此可以从稀疏的奖励中学习。

安全探索

培训AI代理的一个重要部分是确保它探索和理解其环境。虽然在短期内探索环境似乎是一个糟糕的策略，但从长远来看，这可能是一个非常有效的策略。想象一下，清洁机器人已经学会识别垃圾。它捡起一块垃圾，走出房间，把它扔到外面的垃圾桶里，回到房间里，寻找另一块垃圾并重复。虽然这种策略有效，但可能有另一种策略可以更好地运作。如果代理花时间探索其环境，可能会发现房间内有一个较小的垃圾箱。而不是一次一件地来回，代理商可以先将所有垃圾收集到较小的垃圾箱中，然后单程将垃圾扔进外面的垃圾箱。除非代理旨在探索其环境，否则它将无法发现这些节省时间的策略。

然而，在探索时，代理人也可能采取一些可能损害自身或环境的行动。例如，假设清洁机器人在地板上看到一些污渍。该代理决定尝试一些新策略，而不是用拖把擦洗污渍。它试图用钢丝刷刮掉污渍并在此过程中损坏地板。列出所有可能的故障模式并对代理进行硬编码以保护自己免受攻击是很困难的。但是，减少伤害的一种方法是在最坏的情况下优化学习代理的性能。在设计目标函数时，设计者不应假设代理将始终在最佳条件下运行。可以添加一些明确的奖励信号以确保代理不执行某些灾难性行为，

另一种解决方案可能是减少代理对模拟环境的探索或限制代理可以探索的程度。这是一种类似的预算代理影响的方法，以避免负面影响，但需要注意的是，现在我们要预算代理可以探索环境的程度。或者，AI的设计者可以通过演示在不同场景下最佳行为的演示来避免探索的需要。

分配变化的稳健性

在现实生活环境中部署AI代理的一个复杂挑战是代理可能最终处于以前从未体验过的情况。这种情况本质上更难以处理，并可能导致代理人采取有害行动。请考虑以下情况：清洁机器人已经过培训，可以在处理所有先前的挑战时清洁办公空间。但今天，一名员工带着一家小工厂留在办公室。由于清洁机器人之前没有看过任何植物，因此可能认为该植物是垃圾并将其丢弃。因为AI不承认这是以前看不见的情况，所以它继续表现为好像什么都没有改变。一个有前景的研究方向侧重于确定代理何时遇到新的方案，以便它认识到它更有可能犯错误。虽然这并没有解决为不可预见的情况准备AI系统的根本问题，但它有助于在错误发生之前检测问题。另一个研究方向强调将知识从熟悉的场景转移到新场景中。

结论

简而言之，总体趋势是增加人工智能系统的自主权，随着自主权的增加，错误的可能性增加。与人工智能安全相关的问题更可能体现在人工智能系统直接控制其物理和/或数字环境而无需人为循环的情况下 - 自动化工业流程，自动化金融交易算法，人工智能支持的社交媒体活动政党，自动驾驶汽车，清洁机器人等。挑战可能是巨大的，但一线希望是人工智能安全中的具体问题帮助AI社区了解这些挑战并就核心问题达成一致。从那里，研究人员可以开始探索策略，以确保我们日益先进的系统保持安全和有益。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！