3.4.3 经典的算法案例
合作博弈经典案例(财产分配、Shapley 值)
(1)问题:有一个三人财产分配问题:假定财产为 100 万元,这 100 万在三人之间进行分配。a 拥有 50%的决定权,b 拥有 40%的决定权,c 拥有 10%的决定权。规定,当超过 50%的同意时,才能获得整个财产,否则三人将一无所获。
(2)Shapley 值的思想
·目的在一个大联盟 N 中,根据给定不同方式 S 对应的贡献函数 V,得出最优利益分配(成本分摊)方案。
·思想
参与者所应获得的效益x(i) 等于该参与者对每一个它所参与的的联盟的边际贡献的期望值
(3)
故三人分配为 A30 万元,B35 万元,C25 万元。非合作博弈
图 3.5 非合作的多智能体博弈
N 表示所有博弈者的标号构成的集合, S 表示所有博弈者所处 “环境” 或 “系统” 的
状态集, Ai 表示博弈者i N 的行动集, ri : S A S R
表示博弈者i N 的收益函数
i
或回报函数(Reward function), P : S A V(s) 表示状态转移概率分布函数, 表示博弈进行的时间集, A : i NA , V(s) 表示集合 S 上的所有概率分布构成的集合。在随机博弈进行的每个阶段,系统将处于状态集 S 中的某一个状态s S 。随后, 依赖系统当前的状态s S ,每个博弈者i N 将根据它的策略(Policy) i : S Ai 从其有效的行动空间 Ai 中选择一个行动i (s) ai Ai 。当所有博弈者执行完它们的行动之后,博弈将会产生两方面的结果。一方面, 取决于系统当前的状态 s S 以及所有博弈者在当前阶段采取的行动 a A ,系统将以概率 P(s | s, a) 从当前的状态 s S 转移到下一阶段的另一个状态s S 。另一方面, 作为所有博弈者行动和系统状态转移的结果,每个博弈者i N将从当前阶段的博弈中获得一个即时的收益值或回报值ri 。