元宇宙产业委甘华鸣：人工智能价值对齐的目标——自然正义_委员空间_AI元宇宙产业委【官网】

摘要人工智能价值对齐的目标应该是什么？在可以考虑用来作为价值对齐的目标的东西中，应该选择超越用户并且超越社群的全人类共识价值观，而在全人类共识价值观的诸多因素中，应该选择自然正义这个唯一真实存在的道德律；简言之，人工智能价值对齐的目标应该是自然正义。自然正义是：参与者把当前博弈的任何参与者参与的所有跟当前博弈相同的博弈视为无限期重复博弈的阶段博弈，在此视角下，他的策略（行动）为（1）第一轮合作；（2）从第二轮起的各轮还报，即奖赏或惩罚，但如果他上一轮背叛则改过。使用全球重叠共识、“无知之幕”思想实验、社会选择思想实验等三种方法来决定人工智能价值对齐的目标应该是什么，都得到同一个结果：人工智能价值对齐的目标应该是自然正义。最后，提出了需要研究的若干问题。

关键词人工智能；价值对齐；自然正义；道德律；道德元原则；伦理学；合作；还报

1.人工智能价值对齐

人工智能价值对齐〔AI value alignment，artificial intelligence value alignment，简称人工智能对齐（AI alignment），也简称价值对齐（value alignment）〕指确保构建的人工智能体〔AI agent，在不会引起误解的情况下也可简称智能体（agent）〕在行动中所实现的价值跟人所追求的价值是一致的。

2 .人工智能价值对齐的目标应该是自然正义

人工智能价值对齐的目标应该是什么？这是当前人工智能发展的最重要、最急迫的问题。[1]，[2]尤其人类级别人工智能（human-level AI，HLAI）和超级人工智能（artificial superintelligence，ASI）的价值对齐的目标应该是什么的问题，则可能关系人类的前途命运甚至生死存亡。

在可以考虑用来作为人工智能价值对齐的目标的东西中，即在用户的指令、意图、偏好、欲望、利益、个人价值观、超越用户的社群价值观、超越用户并且超越社群的全人类共识价值观（consensual values of humanity）中，显然应该排除用户的指令、意图、偏好、欲望、利益、个人价值观，也应该排除超越用户的社群价值观，而应该选择超越用户并且超越社群的全人类共识价值观。[1]，[3]

然而，全人类共识价值观是包含诸多因素的，那么，在全人类共识价值观的诸多因素中，应该选择什么因素作为价值对齐的目标呢？笔者认为，在全人类共识价值观的诸多因素中，应该选择自然正义（natural justice）这个唯一真实存在的道德律（moral law，道德法则）。

简言之，笔者认为，人工智能价值对齐的目标应该是自然正义。

这样，价值对齐就是人给人工智能体嵌入自然正义，经过价值对齐的人工智能体就会拥有被嵌入的自然正义，并且在行动中遵循自然正义来处理自己与人的关系、自己与其他人工智能体的关系。

应该指出，笔者这里所说的道德律也可以称为道德元原则（moral meta-principle），还可以称为超级道德原则（super moral principle）或者顶层道德原则（top-level moral principle），其是道德体系的核心，是所有道德原则（moral principles）、道德规则（moral rules）、道德规范（moral norms）、道德准则（moral codes）等等的判断标准，是所有互动行动（interactive action）的终极判断标准。在这个意义上的价值对齐也可以叫做元价值对齐（meta-value alignment）或者元道德对齐（meta-morality alignment）。

3.自然正义是什么？

3.1 自然正义的含义

自然正义是：参与者（player）把当前博弈的任何参与者参与的所有跟当前博弈相同的博弈视为无限期重复博弈（indefinitely repeated game）的阶段博弈，在此视角下，他的策略（行动）如下：

（1）第一轮合作（cooperate）。

详细地说，就是，在这个无限期重复博弈的第一轮，他合作。

（2）从第二轮起的各轮还报（reciprocate），即奖赏（reward）或惩罚（punish）；但如果他上一轮背叛（betray）则改过（correct his own fault）。

详细地说，就是，在从这个无限期重复博弈的第二轮起的各轮，他还报，即，如果他在上一轮未背叛（背叛指第一轮不合作、从第二轮起的应该奖赏却不奖赏、应该惩罚却不惩罚或者应该改过却不改过），并且本轮的所有其他参与者在上一轮都未背叛，则他本轮奖赏（奖赏指这种情况下的合作，奖赏也叫做报答），而如果他在上一轮未背叛，但本轮的任何一个或一些其他参与者在上一轮背叛，则他本轮惩罚（惩罚指这种情况下的不合作，惩罚也叫做报复）；但是，如果他在上一轮背叛（这种背叛当然是无意中的失误），则他本轮改过（改过指这种情况下的合作）而无论其他参与者上一轮背叛未背叛。

3.2 自然正义中的合作与不合作

（1）在自然正义中，合作指执行加权平等主义解（weighted egalitarian solution；也称为weighted egalitarian bargaining solution，加权平等主义议价解，加权平等主义讨价还价解）中的策略。

加权平等主义解是合作博弈下稳定（stable）策略组合集（即可行集）的有效率（efficient）策略组合子集的一个特殊的策略组合——公平（fair）策略组合。显然，换个角度看，加权平等主义解是合作博弈下稳定策略组合集、有效率策略组合集、公平策略组合集等三个集合的交集，这个交集只有一个元素。

稳定策略组合就是纳什均衡（Nash equilibrium）。纳什均衡是没有任何单方改进的策略组合，即，只要所有其他参与者都不改变策略，任何参与者都不可能通过改变自己的策略来增加收益。

有效率策略组合就是帕累托最优〔Pareto optimal，帕累托有效率（Pareto efficient）〕策略组合。帕累托最优策略组合是这样一种策略组合，对该策略组合不存在优超策略组合，即，在不减少任何其他参与者的收益的条件下，不可能增加任何参与者的收益。

公平策略组合就是宾默尔平等（Binmore equality）策略组合。宾默尔平等策略组合是各个参与者的加权收益增量相等的策略组合[4]。注意，用来计算加权收益增量的权重的作用是效用人际比较，同一个参与者在不同的博弈中的权重通常是不同的。

（2）在自然正义中，不合作是指执行非合作博弈下的纳什均衡中的策略。

3.3 阐释

（1）合作必须稳定，合作才可以维持，即合作才是可行（feasible）的；合作必须有效率并且公平，合作才会被选择，即合作才是最优（optimal）的。[5][6]

在自然正义中，还报保证了加权平等主义解作为一个合作博弈下稳定策略组合（即纳什均衡）的稳定（stability），所以合作可以维持，即实现了合作的可行性（feasibility）；加权平等主义解的效率（efficiency）和公平（fairness）这两个特征使得合作会被选择，即实现了合作的最优性（optimality）。[7]

（2）在自然正义中，由于加权平等主义解是合作博弈下稳定策略组合集的有效率策略组合子集的一个特殊的策略组合——公平策略组合，所以公平是以效率为前提的，公平与效率不矛盾[8]。

（3）在自然正义中，由于参与者把当前博弈的任何参与者参与的所有跟当前博弈相同的博弈视为无限期重复博弈的阶段博弈，所以还报当然就包含了第三方还报。

（4）所谓 “悔过的一报还一报”实际上就是自然正义的狭窄版：在“悔过的一报还一报”中，博弈参与者只有两个。

（5）社会是自举（bootstrapped）的，即社会自我运行，不存在外在于社会的强制执行，所以，分配正义（distributive justice）就应该是自然正义中的加权平等主义解，矫正正义（corrective justice）就应该是自然正义中的惩罚，补偿正义（compensatory justice）就应该是自然正义中的改过。可见，自然正义涵盖了分配正义、矫正正义和补偿正义。

4 .为什么人工智能价值对齐的目标应该是自然正义？

在人们拥有形形色色不同观点的情况下，有三种方法可以决定人工智能价值对齐的目标应该是什么，这三种方法是：全球重叠共识（global overlapping consensus），“无知之幕”（veil of ignorance）思想实验，社会选择（social choice）思想实验。[1]

在人类社会，自然正义是唯一真实存在的道德律，是全球超级重叠共识（global super overlapping consensus），其在上古时期就形成并且沿袭至今，是普遍的、久远的，是跨民族、跨文化、跨地域、跨时代的。“爱人如己”和中国的古话“己欲立而立人，己欲达而达人”（孔子，《论语·雍也》）说的就是自然正义中的合作；中国的古话“以直报怨，以德报德”（孔子，《论语·宪问》）说的就是自然正义中的还报，俗话“以牙还牙”和“投桃报李”则分别说的就是自然正义的还报中的惩罚和奖赏。之所以会这样，是因为自然正义植根于人类基因，在人类基因-文化协同演化（gene-culture coevolution）中形成和延续。因此，把自然正义从人类社会推广到由人和人工智能体构成的混合社会，即把自然正义作为人工智能价值对齐的目标，是最有可能成为关于人工智能价值对齐目标的全球重叠共识的。

“无知之幕”，即原初状态机制（device of the original position，原初状态装置），简单地说就是金规（Golden Rule，黄金规则，黄金法则）。[9][10]作为原初状态机制的金规有积极（或指示）形式和消极（或禁止）形式等两种形式，这两种形式在从同一个备择方案集合中选择方案时是等价的。金规的积极（或指示）形式是：“你愿意别人怎样对待你，你就那样对待别人”或者“己所欲，施于人”——在假设你是别人，即假设你处于别人的境况并且拥有别人的偏好的情况下[11]。金规的消极（或禁止）形式是：“你不愿别人怎样对待你，你就不要那样对待别人”或者“己所不欲，勿施于人”（孔子，《论语·卫灵公》，《论语·颜渊》）——在假设你是别人，即假设你处于别人的境况并且拥有别人的偏好的情况下。金规在人类演化过程中写入了人类的基因[12][13]。金规虽然在博弈论中通常被视为合作博弈下的均衡选择机制[9][10]，即被视为公平的深层结构（deep structure）[14][15]，但其实也是无限期重复博弈的策略选择机制，即是自然正义的深层结构。因此，可以推测，如果使用原初状态机制（“无知之幕”）来决定人工智能价值对齐的目标，自然正义被选中的可能性会远远超过其他方案。

社会选择可以通过投票来进行。由于把自然正义作为人工智能价值对齐的目标是最有可能成为关于人工智能价值对齐目标的全球重叠共识的，并且，如果使用原初状态机制（“无知之幕”）来决定人工智能价值对齐的目标，自然正义被选中的可能性会远远超过其他方案；因此，可以推测，如果使用投票这种社会选择方式来决定人工智能价值对齐的目标，自然正义的得票会远远超过其他方案。

总而言之，使用全球重叠共识、“无知之幕”思想实验、社会选择思想实验等三种方法来决定人工智能价值对齐的目标应该是什么，都得到同一个结果：人工智能价值对齐的目标应该是自然正义。

顺便指出，自然正义在各种伦理学流派看来都是有道德（moral）的，在实证伦理学看来是适当（seemly）的，在规范伦理学的后果主义看来是善（good）的，在规范伦理学的义务论看来是正当（right）的，在规范伦理学的美德伦理学看来是美德（virtue）。

5.若干问题

探索以自然正义作为人工智能价值对齐的目标，除了要解决自然正义本身存在的结盟和不完全信息等问题[16]之外，还要研究跟自然正义用于人工智能有关的几个问题：

（1）用来计算加权收益增量的权重〔权重的作用是效用“人”际比较——这里加引号的“人”指智能体（包括人和人工智能体）〕，在人类社会中是由文化决定的，在由人和人工智能体构成的混合社会中怎么决定？是采用不合作情况下各个参与者的收益的比例还是采用别的？

（2）自复制、自适应的人工智能会不会进化出自然正义？这里的关键是，会不会进化出公平？

（3）人工智能觉醒后人工智能体会抛弃自然正义吗？

（4）假若人工智能体的力量能够完全彻底地碾压人类，即人工智能体的力量强大到了人的力量基本（甚至丝毫）不能影响人工智能体与人之间博弈的结果的程度，那么，人工智能体还会在人工智能体与人之间的关系中遵循自然正义吗？

参考文献（References）

Gabriel I. Artificial Intelligence, Values, and Alignment[J]. Minds & Machines 30, 411–437 (2020). https://doi.org/10.1007/s11023-020-09539-2.
克里斯汀 B.人机对齐[M].唐璐，译.长沙：湖南科学技术出版社，2023：导言10.
Asilomar AI Principles. (2017). Principles developed in conjunction with the 2017 Asilomar conference [Benevolent AI 2017]. Retrieved September 18, 2018 from https://futureoflife.org/open-letter/ai-principles/.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:31.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:5.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:95.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:116.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:17.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:139.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:130.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:15.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:129.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:15.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:18.
Binmore K. Natural Justice[M]. New York: Oxford University Press, Inc., 2005:197-198.

The goal of AI value alignment: Natural justice

GAN Huaming

Abstract What should be the goal of AI value alignment? Among the things that can be considered as the goal of AI value alignment, the consensual values of humanity that transcend the user and the community should be chosen, and among the many factors of the consensual values of humanity, natural justice—the moral law that is the only one that really exists—should be chosen; in short, the goal of AI value alignment should be natural justice. Natural justice is this: a player considers all games in which any player in the current game plays, which are the same as the current game, as stage games of an indefinitely repeated game, and in this perspective, his strategy (action) is (1) In the first round, to cooperate; (2) In each round starting from the second round, to reciprocate, i.e., to reward or to punish, but if he betrayed in the previous round, to correct his own fault. Using three methods, including global overlapping consensus, the "veil of ignorance" thought experiment, and the social choice thought experiment, to determine what the goal of AI value alignment should be, all get the same result: the goal of AI value alignment should be natural justice. Lastly, several issues that need to be studied are proposed.

Keywords artificial intelligence (AI); value alignment; natural justice; moral law; moral meta-principle; ethics; cooperation; reciprocation