Stuart Russell(斯图尔特·罗素)是加州大学伯克利分校人类兼容人工智能中心(Center for Human-Compatible AI)创始人兼计算机科学专业教授,同时也是人工智能领域「标准教科书」《人工智能:一种现代方法》的作者。这本书的第一版早在1994年已经完成,当时就有一个章节,标题是《如果我们成功了呢》,主要讨论“如果我们制造出比人类更强大的人工智能系统,我们如何永远掌握它们的控制权?”,标题中所说的成功,就是制造出和人类一样聪明的机器。
这个问题并不是危言耸听,计算机每秒可以执行的基本操作数量大约是100亿次,而人类大脑基本上每秒只能执行大约100次操作。计算机之间的通信速度比人类快了10亿倍。如果某一天,我们真的能探索出人类认知的奥秘,叠加计算机的超速度,人类的文明岌岌可危。
最可怕的是,GPT-4确实让我们看到了“智能”的火花,而我们人类,还没有做任何严肃的准备,如果这一天突然到来,罗素教授认为“这可能会比核战争更严重”。
人工智能领域有影响力的人正在联合起来,呼吁更为理性、对人类有益的人工智能的研发,三周前,Stuart Russell、被称为人工智能三巨头的Geoffrey Hinton、Yoshua Bengio、OpenAI CEO Sam Altman等人联合签署了《关于人工智能风险的声明》,建议“减轻人工智能灭绝风险应成为全球优先事项”。几个月前,Stuart Russell也与Elon Musk等,共同签署了《暂停超过GPT-4巨型人工智能研发6个月》的公开信。
1、为何这些全世界最了解人工智能的人,多次集体预警人工智能的风险?科幻中的人类与机器人大战的场景,真的会变成现实吗?腾讯科技对话了Stuart Russell教授,和他讨论了人工智能领域最近备受关注的几件事情。 2、为什么人工智能领域有影响力的人物,短时间内签字两份公开文件,预警AI风险?它们有什么区别?为何Russell教授本人在两个文件上都签名了? 3、为什么OpenAI CEO Sam Altman仅签署了人工智能风险声明,而没有在暂停巨型人工智能研发公开信上签字? 4、签署完公开信,马上又成立了AI公司,马斯克的动机真的不单纯吗? 5、GPT-4以大量语言数据为基础进行训练,这种技术路线有什么潜在风险?真的会毁灭人类吗? 6、微软研究团队研究GPT-4四个月,并发布了火爆全网的论文《通用人工智能的火花》,他们对GPT-4的运转机制,究竟了解了多少?
Stuart Russell接受腾讯科技专访
以下为对话内容:
腾讯科技:你是什么时候开始对人工智能感兴趣的呢?
罗素:我小时候看了很多科幻小说,小说中经常看到智能机器人。我12岁的时候得到了一个可以编程的计算器,我试着给它编程,不幸的是,这个计算器只有很小的内存,我只能编写36个字母长度的程序,这和能实现“智能”的程序相差太远。但开始我对这件事着迷。后来我在高中学习了计算机科学,也从那时候开始尝试编写“象棋程序”。然而大学的时候,我学了神经科学,还好后面我又找到了机会,重新研究人工智能。
腾讯科技:你后来编写了被很多知名大学使用的教科书《人工智能:一种现代方法》。但是早在2016年,你就开始研究如何研发对人类无害的人工智能,那时人工智能还在发展早期,你这么早就看到了人工智能的风险了吗?
罗素:这本书的第一版是在1994年完成的,在结尾有一节,标题是《如果我们成功了呢》。因为人工智能的目标一直是制造与人类一样聪明或比人类更聪明的机器。我认为重要的是要问如果我们成功了会发生什么?
因此,即使在1994年,我也曾讨论过可能的风险。我们如何能够既获得人工智能的成功,又不让人类毁灭呢?就如同你刚刚提到的,2016年,“人类兼容人工智能中心(The Center For Human Compatible AI)”就在伯克利成立了。从那时候开始,我就开始探索,如何能够创造出对人类有益的AGI(通用人工智能)。
这是一个看起来非常简单的问题:“如果我们制造出比人类更强大的人工智能系统,我们如何永远掌握它们的控制权?”我一直在寻找答案,我认为我们已经有了一些初步答案。正如第四版书中所解释的那样,这个答案意味着在新的基础上重新构建我们对人工智能的理解,并重新构建我们创造的所有技术。所以这就是我们现在所做的事情。
腾讯科技:大约两周前,您签署了关于人工智能风险的声明,其中建议“减轻人工智能灭绝风险应成为全球优先事项,与流行病和核战争等其他社会规模风险并列。”您为什么要签署这份声明?
罗素:我签字是因为我认为这件事真的可能会发生。
腾讯科技:和GPT-4有关吗?
罗素:不是因为GPT-4,声明没有提到GPT-4,声明只是说我们需要关注这个风险,即我们将失去对我们文明的控制。人类能够控制地球上许多其他物种,因为人类更聪明。
如果机器比我们更聪明,为什么我们认为我们能够在未来保持对我们文明的控制?所以这就是风险。根据许多哲学家、未来学家、研究我们文明长期未来的专家分析,他们认为这个风险实际上是我们面临的最大风险。
核战争可能会是一场巨大的灾难,但大多数人认为人类将在其中幸存;大规模气候变化也将是一场灾难,但大多数人认为人类将在其中幸存。但我们可能无法幸存的两个风险:一种是对人类具有严重传染性和致命性的流行病,另一个就是我们无法控制的人工智能系统。
腾讯科技:几个月前,您与Max Tegmark、Elon Musk等人一起呼吁立即暂停训练比GPT-4更强大的人工智能系统至少6个月。为什么您支持这封公开信?
罗素:这是一个非常有趣的问题。正如你所说,这封信呼吁暂停开发比GPT-4更强大的大语言模型的开发。因此,它并不是对人工智能研究的禁令,许多人将其描述为禁令。它实际上是说,像GPT-4或更强大的系统已经对我们的社会产生了重大风险,而我们没有有效的治理办法。
我的一个朋友在英国政府和食品标准方面工作。她指出,关于三明治的规定都比关于人工智能的规定更多。
因此,这封信其实是要求我们定义系统在发布之前应满足什么样的安全标准,这与三明治是一样的。如果你不符合这些安全标准,就不能卖三明治,这很简单。而我们还没有为人工智能系统制定这些安全标准,我们需要时间来做到这一点。
当你去对照一些关于人工智能安全性的提议时,例如中国提议系统应输出真实信息,或欧洲提议系统不应操纵人类行为,就我们所知。
大型语言模型都将无法满足这些标准,因此它们不安全。我认为人工智能社区的正确反应不是抱怨“这是不公平的。即使它们不安全,我们也应该能够发布我们的系统。”正确且负责任的反应应该是说,“好吧,让我们努力使它们安全。这样就可以发布它们了”。这就是公开信的目的。
腾讯科技:“暂停超过GPT-4的人工智能研发公开信”这件事目前有进展吗?
罗素:在我写的另一本书《AI新生:破解人机共存密码——人类最后一个大问题》中,有一段虚构的电子邮件对话,是一种高级外星文明与人类之间的想象对话。他们给人类联合国写了一封电子邮件,警告说他们将在30到50年后到达地球。人类联合国回复说,“人类不在办公室,我们会在回来后回复您”。这个例子的重点是,在我举这个例子的时候,也就是2015年,世界各国政府完全没有关注人工智能的风险。
而公开信的结果是,“人类现在回到了办公室”。他们看到了这封电子邮件,不是来自高级外星文明的电子邮件,而是来自未来人工智能系统的电子邮件,警告说我们很快就会到来。世界各国政府现在正在关注这个问题。
这实际上与收到外星文明的电子邮件的后果非常相似。欧洲正在呼吁召开紧急全球峰会。中国正在发布非常严格的法规,限制这些系统的开发和部署。美国现在正在讨论制定法规,以保护人们免受不安全的人工智能系统的伤害。各国政府正在与世界各地的科学家交谈,询问科学家们应该怎么做?我认为这是一件好事。
因此,公开信的结果是,人类现在回到了办公室,并正在思考如何应对这一挑战。
腾讯科技:公开信和后来发布的声明之间有没有关系?你为什么都签名支持了?但是OpenAI的CEO Sam Altman并没有签署第一封信?
罗素:公开信和后来发布的声明之间的区别在于,公开信相当长。它提出了一个具体要求,要求正在开发这些系统的AI实验室暂停研发和政府应该监管这些系统。
它还谈到了这些系统已经存在的许多风险,包括虚假信息、失业等。这引起了很多争议。有人没有签署,因为即使他们认为AI系统存在风险,也觉得6个月的延迟不是正确的政策回应。 第二份声明的目的实际上是避免所有这些争议,只是对风险做出非常干净、简单的陈述。有趣的是,OpenAI的CEO Sam Altman没有签署第一封信,但他签署了第二份声明。
但是至于为什么,你得问问他。可能是因为他认为第二份声明只是真实而重要的,人们应该会赞同。而公开信是一个政策建议,不同于真理陈述。也许他不同意政策建议,或者他认为这应该是一个稍微不同的政策回应。至于6个月的延迟,我也有不同意见,我的观点是应该有一个无限期的延迟。如果它们不安全,那么就永远不应该发布。如果行业需要20年时间来找出如何制造安全的系统,那么没问题,我们可以等20年。
腾讯科技:外界仍然对这封公开信存在一些质疑,比如有人认为它没有实际的效果,还有人签名是处于政治或商业的某些动机,你会有同样的担忧吗?比如马斯克,在签署完公开信之后,马上就开始了相关的项目。
罗素:对于第一个问题,有人没有签署这封信,因为他们认为它不会产生任何影响。我认为事实上它产生了巨大的影响。自从公开信发出以来,这几乎每天都在几乎所有报纸的头版上,这导致了大量政治层面的实际效果。所以它实际上比我预期的更有效。这是第一件事。
第二个关于签署者动机的论点。在许多立法机构和许多其他组织中遵循的议会辩论规则中,当你讨论一个话题时,质疑提出论点的人的动机是不合适的。你要处理论点的实质,而不是这个人的动机。这是辩论的基本规则。
其中一些是针对埃隆·马斯克的,因为他决定资助一个人工智能研究项目,所以说他动机有问题,可能也不太符合逻辑。如果政府因为这封公开信,从而有动力制定法规,那么这些法规将同样适用于他的公司,也同样适用于其他所有人。所以我认为这些关于动机的论点是无效的。
腾讯科技:下面让我们继续谈一下GPT-4吧,你认为它真的已经拥有智能了吗?多久才能达到人类的智能水平?
罗素:智能?我同意GPT-4似乎很聪明。但是我认为这有点欺骗性。举个例子,如果我拿一张纸,这里有一张。如果我要把这个读给你听,它会听起来非常聪明。但是没有人认为这张纸是聪明的。对吧?纸张只是携带了别人写的文字。智慧属于文字的作者,而不属于纸张。
所以当GPT-4用非常聪明的文字回答你时,它是一张纸吗,还是文字的作者?我觉得答案是居于两者之间。我们不知道它离纸张有多近,离真正的文字作者有多近。
而且这个答案很难知道,用于训练GPT-4的文本数量大约相当于人类历史上的所有书籍、报纸档案、电视台档案、法律组织档案、立法机构档案。
没有一个人类读过那么多信息,甚至连这些信息的1%都没获得过。所以我们不知道读那么多信息是什么感觉。
对于任何给定的问题,我们都很难弄清楚它所依赖的信息来源是什么。比如算数,训练数据中有很多算术例子,比如我们告诉系统:46+92等于138,你会期望系统从数千个数学例子中学习算术规则,然后能够做新的算术题,但事实证明行不通。
它假装得很好。但是当你给它更困难的例子时,它总是得到错误的答案。所以它可能没有学会算术规则。它只是在假装,它并没有真正学会算数。在这种情况下,它似乎更像一张纸,而不像一个人类。
所以我们仍在进行很多有趣的研究,试图弄清楚它是否能够推理,甚至是否正在构建内部世界模型?
问题是它是否真正能够形成一个内部的世界模型?我认为有一些证据表明它并没有这样做。
当你向一个人类提问时,有时我们会以不智能的方式回答,而不参考内部世界模型。例如,如果我说,嗨,你今天好吗(Hi!How areyou today)?你会说,很好,谢谢,你呢(I’m fine.Thank you,and you?)这是一种机械式的回答。在这个意义上,我没有检查我的内部世界模型来看看我真实感觉如何,然后给出答案,我只是以例行的方式回答。
如果我说,“嗨,你今天银行账户里有多少钱”?那么你就必须检查一个内部的世界模型,或者甚至拿出手机查看你的银行余额。但你是根据某种真理模型来回答问题的。如果我说,你的车停在哪里了?你会参考一个内部世界模型:“它停在那边的停车场里”。这对人类来说很正常。
但是我认为有很多证据表明这些大型语言模型并没有在回答问题,我认为这一点非常重要,它们似乎回答了问题,但实际上它们并没有回答问题,因为它们实际上没有一个内部的真实模型可以参考来回答问题。它们更像是“我很好。谢谢。你呢?”只是在例行公事。
我们从哪里可以得知这点呢?GPT系统可以对同一个问题给出矛盾的答案。如果你参考一个真实的内部模型,你不能对同一个问题给出矛盾的答案。一个我朋友发给我的例子是,你问,“大象和猫哪个更大”。它说“大象比猫大”。所以你认为它知道大象比猫大。然后你问,“哪个不是更大的,大象还是猫”。它说,“大象和猫都不比另一个更大”。它在两个句子中自相矛盾。它没有关于物体相对大小的内部真实模型,因为如果有,它会给你一个一致的答案来回答那个问题。
GPT-4只有几周时间向外部研究人员开放,所以现在下定论还为时过早。但我认为我们会发现,实际上这些系统并没有像我们认为人类那样具有一致的内部真实模型。
回到最初的问题,GPT-4是否正在创造通用智能?我认为答案可能是否定的。它做得很好,创造了一些能够进行非常有效的对话的东西,语法非常正确,无论是英语还是中文。它很少犯语言错误,因为它的答案连贯,并且似乎是逻辑顺序,并且它们似乎有意响应您的输入。
“真正的智能正在发展中。真正的智能不会“为了正确”而回答。当我们对GPT的原理了解更多,可能我们能够揭开它的一些弱点究竟是因为什么。我认为,创造通用智能是一个非常复杂的谜题。人工智能研究已经进行了大约75年左右。它已经产生了许多突破,这些突破将构成这个谜题的一部分。对我来说,大型语言模型也是谜题的一部分。
但我们也应该意识到,现在我们看到的那种兴奋,其实在1950年代也同样经历过。当时我们建造了可以自己学习并击败其人类创造者的系统。我认为在1957年电视上演示过,这引起了全球惊叹,“哇 !机器可以做到这一点”。与1950年代不同的是,你现在可以在互联网上使用它。
过去几个月中发生的公众感知上的巨大变化,是因为这是历史上首次,每个拥有互联网访问权限的人都可以与这些系统进行交互并亲身体验。因此,他们正在品尝通用智能可用的世界可能会是什么样子。这只是一个味道,一种感觉,不是真正的东西。但仅仅那种感觉就足以让我认为“世界会醒来”。
腾讯科技:我们知道我们不能信任 GPT-4,但是大众还是会相信它,这也会造成一些风险,我们应该如何提示大家,不要去轻信 GPT-4 呢?
罗素:这个问题与我们所谓的“人工智能幻觉”有关。有些人不喜欢这个词,但我认为这是一个合理的词。这意味着系统在不知道的情况下生成虚假信息。所以它并不是故意撒谎。它只是输出实际上并不准确的信息。这是因为它没有根据内部真实模型回答问题。它不相信它所说的所有虚假事情。“相信”这个词不适用于GPT-4,它只是一种语言生成器。在生成描述完全错误的语言的情况下,它并没有撒谎。
我们信任它,因为通常情况下,当我们与人类交谈时,他们会给我们自信、详细的答案,并附有参考文献、引用、报纸文章的参考文献、法律案例的参考文献。
所以当有人类这样做时,你会相信他们,因为以那种方式撒谎是愚蠢的。但这些系统没有概念他们在撒谎。所以整个信任的概念,你必须把它扔掉。
这种通过系统对话性传达的概念就像另一个人一样。我认为大多数普通人误以为它就像另一个人一样,只不过是一个知识渊博、读遍全世界的书籍,并能回答任何问题的人。
腾讯科技:那你如何定义AGI 呢?如果有一天,我们达到了 AGI,它和人类的智慧是否还会有本质不同?
罗素:我认为通用人工智能将能够快速学习并超越人类在任何领域中的能力,只要这些领域是人类大脑可以处理的,例如下棋、开车、拉小提琴、教孩子骑自行车或者其他任何人类可以用大脑做到的事情,人工智能都将能够做到,而且可能做得更好。
计算机作为物理对象和人类大脑之间存在巨大的差异。人类大脑是一个了不起的东西,它能够从比我们目前使用的人工智能系统少得多的数据中学习技能、学会语言等。因此,人类大脑实际上更擅长发现数据中的潜在模式,并成功地应用在现实世界中。我认为,在我们理解了人类大脑如何做到这一点之前,AGI是不可能实现的。
我认为当前的技术正在弥补对大脑的学习方式不了解的缺陷。它通过使用比我们目前使用的数据多100万倍来弥补这种缺陷。
当我们真正理解了学习方式时,我们应该看到这些系统能够从与人类使用相似数量的数据中学习。当我想教我的孩子什么是长颈鹿时,我会拿出一本图片书。这本图片书有一页是“G”代表长颈鹿,上面有一张长颈鹿的小卡通图片,黄色和棕色相间,有一个长长的脖子。孩子看到那张小小的长颈鹿图片就知道什么是长颈鹿了。现在我可以给孩子看一张真正长颈鹿的照片,或者一个长颈鹿的骨架,或者倒着放着的长颈鹿,他们都会认出这是长颈鹿。
人类孩子只需要一个例子就能学会。创造出具有这种能力的AGI,我们还需要很长的路要走。
计算机每秒可以执行的基本操作数量大约是100亿次。而人类大脑基本上每秒只能执行大约100次操作。这是一个巨大的差异。
如果这是基本速度的一亿倍,那么计算机内存呢?正如我们所知道的,因为我们可以通过搜索引擎看到这一点,它们可以轻松地记住整个互联网。没有人类能记住那么多。它们在速度、内存、信息共享能力方面具有巨大的优势。
它们可以以每秒100亿比特的速度相互发送信息,而我们只能互相交谈,大约每秒只有10比特左右。所以计算机之间的通信速度比人类快了10亿倍。
这些优势意味着,当我们理解了作为人类认知基础的算法,并能够在机器中重新创建这些能力时,然后再加上计算、速度、内存、通信带宽等方面的优势,它们将远远超过人类。所以我们应该想象,在我们理解如何正确地做到这一点之前,我们可以通过使用大量数据来假装弥补我们不真正了解智能应该如何工作的事实。当我们理解了智能应该如何工作时,AI系统将在每个维度上迅速超越人类能力。
所以这就是为什么我们在还没弄清人类大脑的情况下,可以通过使用大量数据来假装弥补“我们还没有真正了解智能”的事实。当我们真正弄清了“智能究竟如何产生的”,AI系统将在每个维度上迅速超越人类能力。
所以这就是为什么我们必须先解决控制问题。如果我们在没有解决控制问题的情况下开发出AGI,那么我们将失去控制,到那个时候才去想这个问题的时候,为时已晚。这也是我签署声明的原因之一,就是试图向人们传达这一点有多么重要。这与人类面临的任何其他问题一样重要,甚至可能更重要。
腾讯科技:这样说来,目前包括 GPT-4 在内的大部分人工智能技术,其实还是“技术黑盒”。当科学家都没真正弄懂它的原理的时候,就让它去接触这么多普通人,这是不是很不负责任?
罗素:什么是黑盒子呢?这并不是说我们看不到里面,我们可以看到里面。事实上,有GPT-4的开源版本,所以这并不是一个秘密。事实上,即使你可以看到所有的东西,你所能看到的只是一万亿个参数。
我来举例,试着让你感受一下这是什么样子:你想象一下一个链环构造的围栏,就像一个钻石形状的围栏,我们用这种围栏来围住建筑工地和公园等地方。
你想象一下那个链环围栏,每个环都是电路中的一个连接,那么GPT-4系统基本上是一个有一万亿个连接的巨大电路。
如果那是一个链环围栏,它将是大约50千米乘以50千米的面积,2500 平方千米,它将覆盖多大面积的城市。现在想象一下,有人说它就在那里,每一个链接上都有一个数字,表示电路中这个链接的连接强度。我们完全无法理解发生了什么。如果有人说,在电路中,它认为有1.07亿人口在某个地方,但是你找不到它。它只是一堆数字,我们无法理解信息存储在哪里,推理发生在哪里,如果发生了推理。它有目标吗?我们不知道。
我询问了微软研究团队的负责人,他们的工作是探索GPT-4的能力。所以在发布之前,他们已经使用GPT-4进行了几个月的实验。他们写了一篇名为《通用人工智能的火花》的论文。他们说这个系统展示了AGI的火花,我问那个小组的首席研究员,GPT-4是否学会了建立自己的内部目标。如果是这样,那么它们是什么?他说,我们不知道。所以现在我们有了一个系统,但是它的内部运作的我们并不理解,它有可能已经有了自己的内部世界目标。
我们还什么都不知道,在这种情况下,就把这个人工智能的黑盒子发布给数亿人。对我来说,这似乎是不负责任的。
我还争论过两件事情。首先是我们训练这些系统的方式。当我们训练它们时,我们只是训练它们模仿人类语言。其实当人类写作和演讲时,他们是有自己的内部世界目标的,而这些目标指导着他们说出来的内容。如果我想和某个人结婚,那么我会在谈话中说一些话来说服她和我结婚,或者至少试图说服她喜欢我。如果我竞选公职,我是一名政治家,我会说一些话来试图说服人们投票给我。因此,所有人类语言都是由有目标,并根据目标行动的人创造出来的。
如果你想模仿人类的语言行为,那么这个训练过程的自然结果就是系统将获得与撰写所有这些文本的人类类似的目标。
现在你实际上要求它模仿的不是一个人,而是成千上万写下所有这些文本的人,他们都有不同的动机。所以你实际上正在创建一个具有多个人格的系统,有时它会像一个人一样行事,有时它会像一个不同的人一样行事,具有不同的目标。
在《纽约时报》中有一次非常广泛的对话,对话双方是《纽约时报》记者和必应搜索引擎中运行的 GPT-4 的一个版本,名为 Sydney。
这位记者名叫凯文,在某个时候,凯文说了一些话,导致 GPT-4 中激活了特定的个性。现在激活的目标是 GPT-4想要嫁给凯文。
于是它开始试图说服凯文离开他的妻子,说他的妻子并不真正爱他。凯文真正爱 的是Sydney 这个聊天机器人。这一过程持续了很多页。凯文一直试图改变话题,而 Sydney 一直在说不,我真的爱你,你也真的爱我,你不爱你的妻子,这更重要。我们应该永远在一起等等。这似乎是一个例子,激活了系统学习到的目标之一,并指导了系统的行为。
这真的很糟糕,对吧?一是,我们不知道系统的目标是什么,我们没有办法找出来,除非可能通过询问,但你可能得不到正确的答案。
但是,我们不希望 AI 系统具有与人类相同的目标。这一点非常重要。有些人想成为世界总统或宇宙统治者,我们不希望 AI 系统有这个目标。
我们唯一希望 AI 系统具有的目标是“对人类有价值,对人类有益”。很少有人有这个目标。总体而言,人类的目标都是与自己相关的,人类想活下去,想拥有一个家庭,想相对富裕,想受欢迎,想成功。他们想在自己选择的工作上表现出色。这些都是人类具有非常合理的目标。至少到目前为止,没有办法通过从人类生成的文本中训练大型语言模型来使其具有这个目标——仅对人类有益。
我认为,如果我们要构建安全且对人类有益的 AI 系统,我们就不能使用这种方法。这是错误的方法,会产生由于错误原因而做错事情的系统,我们必须尝试一些不同的方法。
腾讯科技:这是不是也是将《人工智能:一种现代方法》的第四版做了一个重要更新的原因?(在之前的版本人工智能的目的被定义为“创建试图最大化预期效用并由人类设定目标的系统”,第四版不再假定AI系统或代理具有固定的目标)
罗素:我想我应该坦白,因为在这本教科书的前三版,我认为我们只是试图提供一个关于人工智能的统一理解。
我们发现这个智能体的概念,它追求的目标是由人类定义的,实际上捕捉了我们对人工智能研究的所有理解。而且这个理解是,AI 系统应该被赋予目标。然后他们应该以理性的方式追求这些目标。这是从哲学、经济学中借鉴来的。什么是理性行为?在1940s,这在哲学、经济学中已经是一个非常成熟的理论了。它意味着最大化预期效用。在 AI 中,最初的版本比这更受限制。它们完全追求固定的目标,假设世界是确定性的。你不必担心不确定性。你有一个固定的目标,不涉及权衡。所以你只需要想出一个实现目标的计划就可以了。即存在目标并创建机器来以最佳方式实现目标。这个想法可以追溯到至少两千五百年前的亚里士多德时期。
大约在 2013 年左右,我意识到那是一个错误。因为在现实世界中,在实验室之外,不可能正确地指定目标。如果你在下棋,那么目标应该是将对手将死,而赢得比赛。如果你正在导航,你应该找到最短的路径到达目的地。我们提出了解决这些问题的算法。
但在现实世界中,情况并非如此。在古希腊时期,有一个关于国王米达斯的传说。米达斯是一个传奇国王,据说非常非常富有。但在故事中,他请求神灵让他所触碰的一切都变成黄金,他认为这是正确的目标。但后来事实证明,在现实世界中,他的食物变成了黄金,所以他不能吃;他的水变成了黄金,所以他不能喝;他的家人变成了黄金,所以他不再有家人,最终在痛苦和饥饿中死去。
因此,我们很长时间以来就已经明白,在现实世界中无法正确地指定目标。你总会忘记一些重要的东西,或者你会错误地陈述事情。这意味着 AI 的这种基本方法——即人类指定目标,机器实现目标——在现实世界中是不可行的。我们无法正确地做到这一点。
如果我们指定错了,而 AI 系统比你更聪明,但是AI 系统正在追求错误的目标,你无能为力,因为为时已晚。一旦你设定了目标,AI 系统就会实现它。这就是国王米达斯发现的问题,太晚了。因此,解决方案似乎是构建 AI 系统,它们希望对人类有益,并希望追求人类想要的未来。
但在一般情况下,它将不确定人类想要什么。这实际上会导致非常不同的技术路线,例如,一个不确定人们想要什么的系统可能会提出一个计划,但如果该计划涉及到我们偏好不确定的世界的某个部分,它可能需要征得许可。
例如,我们可能会说我们真的想解决气候变化,我们真的需要将二氧化碳水平降回到工业革命之前的水平。
因此,如果系统提出了一种解决方案,其中涉及某种化学反应来从大气中去除二氧化碳,但它会使海洋变成酸性。它会说,我不确定人类是否想要这样做。他们想解决大气问题。我不知道他们对海洋有什么要求。
因此,在执行此操作之前,AI系统应该询问人类,你们关心海洋吗?我们会说,是的,我们关心海洋,我们不希望海洋变成酸性。该系统现在已经了解了我们的偏好。在传统版本中,系统从未请求许可,因为它认为自己已经知道你想要什么。而在新版本中,系统现在有理由请求许可。在极端情况下,如果我们想关闭它,则它希望被关闭,因为它希望避免执行任何可能导致我们想关闭它的操作。再次强调,在传统情况下,它将避免被关闭,因为它希望实现目标。它实际上会抵制人类任何试图关闭或以任何方式干扰其实现目标的尝试。
因此,我认为这种新型 AI 实际上是更加智能和更加安全的。但正如我在书开头所说,我们还没有在这个新基础上开发出所有技术。仍有大量研究需要进行,因此,也许在第五版中,我们将解释如何构建这些行为正确的新型 AI 系统。我相信,如果我们能做到这一点,即使系统比人类更聪明,我们也有可能永远保持控制。
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。