3.4.3 经典的算法案例

合作博弈经典案例（财产分配、Shapley 值）

（1）问题：有一个三人财产分配问题：假定财产为 100 万元，这 100 万在三人之间进行分配。a 拥有 50%的决定权，b 拥有 40%的决定权，c 拥有 10%的决定权。规定，当超过 50%的同意时，才能获得整个财产，否则三人将一无所获。

（2）Shapley 值的思想

·目的在一个大联盟 N 中，根据给定不同方式 S 对应的贡献函数 V,得出最优利益分配(成本分摊)方案。

·思想

参与者所应获得的效益x(i) 等于该参与者对每一个它所参与的的联盟的边际贡献的期望值

1692500342624

（3）

故三人分配为 A30 万元，B35 万元,C25 万元。非合作博弈

1692518855839

图 3.5 非合作的多智能体博弈

N 表示所有博弈者的标号构成的集合， S 表示所有博弈者所处 “环境” 或 “系统” 的

状态集， Ai 表示博弈者i  N 的行动集， ri : S  A S  R

表示博弈者i  N 的收益函数

或回报函数(Reward function)， P : S  A V(s) 表示状态转移概率分布函数，  表示博弈进行的时间集， A : i  NA , V(s) 表示集合 S 上的所有概率分布构成的集合。在随机博弈进行的每个阶段，系统将处于状态集 S 中的某一个状态s  S 。随后, 依赖系统当前的状态s  S ，每个博弈者i  N 将根据它的策略(Policy) i : S  Ai 从其有效的行动空间 Ai 中选择一个行动i (s)  ai  Ai 。当所有博弈者执行完它们的行动之后，博弈将会产生两方面的结果。一方面, 取决于系统当前的状态 s  S 以及所有博弈者在当前阶段采取的行动 a  A ，系统将以概率 P(s | s, a) 从当前的状态 s  S 转移到下一阶段的另一个状态s S 。另一方面, 作为所有博弈者行动和系统状态转移的结果，每个博弈者i  N将从当前阶段的博弈中获得一个即时的收益值或回报值ri 。

< 上一个 | 内容 | 下一个 >