在不可预知的世界中保持AI安全：Thomas G Dietterich访谈录

2022-09-09 16:55:02 编辑：路翔振来源：

导读我们的AI系统在封闭的世界中运行得非常好。那是因为这些环境包含一定数量的变量，使得世界完全为人所知并且完全可预测。在这些微环境中，机...

我们的AI系统在封闭的世界中运行得非常好。那是因为这些环境包含一定数量的变量，使得世界完全为人所知并且完全可预测。在这些微环境中，机器只会遇到他们熟悉的对象。结果，他们总是知道应该如何行动和回应。不幸的是，这些系统在现实世界中部署时很快就会变得混乱，因为许多对象并不熟悉。这是一个问题，因为当AI系统变得混乱时，结果可能是致命的。

例如，考虑一辆遇到新物体的自动驾驶汽车。它应该加速，还是应该减速?或者考虑一个看到异常的自主武器系统。它应该攻击还是应该关闭?这些例子中的每一个都涉及生死攸关的决定，它们揭示了为什么，如果我们要在现实环境中部署先进的AI系统，我们必须确信它们在遇到不熟悉的对象时会表现得正确。

Thomas G. Dietterich俄勒冈州立大学计算机科学荣誉教授解释说，解决这一识别问题的第一步是确保我们的人工智能系统不太自信 - 他们在遇到异物时会认出来并且不会将其误认为是他们熟悉的东西。为实现这一目标，Dietterich断言我们必须远离(或至少，大大改变)目前主导AI研究的歧视性训练方法。

但是，要做到这一点，我们必须首先解决“开放类别问题”。

了解开放类别问题

在开车的路上，我们可以遇到几乎无限的异常。也许会出现暴风雨，冰雹会开始下降。也许我们的愿景会受到烟雾或过度雾气的阻碍。虽然这些遭遇可能是意料之外的，但人类的大脑能够轻松地分析新信息并决定适当的行动方案 - 我们将认识到一条漂浮在马路上的报纸，而不是突然抨击休息，继续前进。

由于它们的编程方式，我们的计算机系统无法做到这一点。

“现在我们使用机器学习来创建人工智能系统和软件的方式通常使用一种叫做”歧视性训练“的东西，”Dietterich解释说，“这隐含地假设世界只包含千种不同的物体。”意味着，如果一台机器遇到一个新的物体，它将认为它必须是它训练过的一千件事物之一。结果，这样的系统错误地分类了所有外来物体。

这是Dietterich和他的团队试图解决的“公开类别问题”。具体来说，他们试图确保我们的机器不会假设他们遇到了所有可能的对象，而是能够可靠地检测 - 并最终响应 - 新的外来物体类别。

Dietterich指出，从实际角度来看，这意味着创建一种异常检测算法，为AI系统检测到的每个对象分配一个异常分数。必须将该分数与设定的阈值进行比较，如果异常分数超过阈值，系统将需要发出警报。Dietterich指出，为响应此警报，AI系统应采取预先确定的安全措施。例如，检测异常的自动驾驶汽车可能会减速并驶向道路一侧。

创造安全理论保障

使这种方法有效有两个挑战。首先，Dietterich断言我们需要良好的异常检测算法。以前，为了确定哪些算法运行良好，该团队将八种最先进的异常检测算法的性能与大量基准问题进行了比较。

第二个挑战是设置警报阈值，以便保证AI系统检测到外来物体的所需部分，例如99%。Dietterich说，为这个阈值制定一个可靠的设置是最具挑战性的研究问题之一，因为有可能存在无限种类的外来物体。“问题在于我们无法为所有人提供标记的训练数据外星人。如果我们有这样的数据，我们只需在标记数据上训练判别分类器，“Dietterich说。

为了规避这一标签问题，该团队假定判别分类器可以访问反映较大统计人口的“查询对象”的代表性样本。例如，可以通过从在世界各地的高速公路上行驶的汽车收集数据来获得这样的样本。此示例将包含一些未知对象，其余对象属于已知对象类别。

值得注意的是，样本中的数据未标记。相反，AI系统可以估算出样本中外星人的比例。通过将样本中的信息与用于训练判别分类器的标记训练数据相结合，该团队的新算法可以选择一个良好的警报阈值。如果已知估计的外星人分数是对真实分数的高估，则保证所选择的阈值能够检测外星人的目标百分比(即99%)。

最终，上述第一种方法可以为检测外来物体提供安全性的理论保证，报告结果的论文在ICML 2018中提出。“我们能够很有可能保证我们能找到99%所有这些新对象，“Dietterich说。

在他们研究的下一阶段，Dietterich和他的团队计划在更复杂的环境中开始测试他们的算法。到目前为止，他们一直主要关注分类，系统会查看图像并对其进行分类。接下来，他们计划转向控制代理商，如自动驾驶汽车的机器人。“在每个时间点，为了决定选择什么行动，我们的系统将根据代理及其环境行为的学习模型进行'向前搜索'。如果通过我们的方法向前看到一个被评为“外星人”的状态，那么这表明代理人即将进入状态空间的一部分而无法选择正确的行为，“Dietterich说。作为回应，如前所述，代理应执行一系列安全措施并请求人工协助。

但这种安全行动实际上包括什么?

回应外星人

Dietterich注意到，一旦某些东西被识别为异常且警报响起，这种后退系统的性质将取决于所讨论的机器，例如AI系统是在自动驾驶汽车还是自动武器中。

为了解释这些二次系统如何运作，Dietterich转向自动驾驶汽车。“在谷歌汽车中，如果计算机失去动力，那么就会有一个备用系统会自动减慢汽车速度并将其拉到路边。”然而，Dietterich澄清说停车并不总是最好的行动方案。人们可能会认为，如果一个身份不明的物体穿过它的路径，汽车应该停下来;然而，如果在一个特别冰冷的日子里，身份不明的物体恰好是一层雪，那么打破休息会变得更加复杂。该系统需要考虑冰冷的道路，可能在后面行驶的任何车辆，以及这些车辆是否能够及时折断以避免后端碰撞。

但是，如果我们无法预测每一种可能性，我们怎么能期望对AI系统进行编程，使其行为正确且安全?

不幸的是，没有简单的答案;但是，Dietterich澄清了一些一般的最佳实践;“安全问题没有普遍解决方案，但显然有一些行动比其他行动更安全。一般来说，从系统中消除能量是一个好主意，“他说。最终，Dietterich声称所有与编程安全AI相关的工作实际上归结为确定我们希望我们的机器在特定情况下的行为方式，并且他认为我们需要重新阐述我们如何描述这个问题，并专注于所有的因素，如果我们要制定一个合理的方法。

Dietterich指出，“当我们看到这些问题时，他们往往会被归入”道德决策“的分类中，但他们真正的问题是难以置信的复杂问题。它们极大地依赖于它们运行的环境，人类，其他创新，其他自动化系统等等。挑战是正确描述我们希望系统如何表现，然后确保我们的实施实际符合这些要求。“他总结道，”AI未来的巨大风险与任何软件系统中的大风险相同，这是我们构建错误的系统，所以它做错了。亚瑟克拉克在2001年：太空漫游完全正确。Hal 9000并没有“流氓”;它只是做了它的编程工作。“

标签：

免责声明：本文由用户上传，如有侵权请联系删除！