< 上一个 | 内容 | 下一个 >

3.4.3 经典的算法案例

合作博弈经典案例财产分配、Shapley

1)问题:有一个三人财产分配问题:假定财产为 100 万元,这 100 万在三人之间进行分配。a 拥有 50%的决定权,b 拥有 40%的决定权,c 拥有 10%的决定权。规定,当超过 50%的同意时,才能获得整个财产,否则三人将一无所获。

2Shapley 值的思想

·目的在一个大联盟 N 中,根据给定不同方式 S 对应的贡献函数 V,得出最优利益分配(成本分摊)方案。

·思想

参与者所应获得的效益x(i) 等于该参与者对每一个它所参与的的联盟的边际贡献的期望值


1692500342624


3


image

故三人分配为 A30 万元,B35 万元,C25 万元。非合作博弈


1692518855839

3.5 非合作的多智能体博弈

N 表示所有博弈者的标号构成的集合, S 表示所有博弈者所处 环境系统

状态集, Ai 表示博弈者i N 的行动集, ri : S A S R

表示博弈者i N 的收益函数

i

或回报函数(Reward function)P : S A V(s) 表示状态转移概率分布函数, 表示博弈进行的时间集, A : i NA , V(s) 表示集合 S 上的所有概率分布构成的集合。在随机博弈进行的每个阶段,系统将处于状态集 S 中的某一个状态s S 。随后, 依赖系统当前的状态s S ,每个博弈者i N 将根据它的策略(Policy) i : S Ai 从其有效的行动空间 Ai 中选择一个行动i (s) ai Ai 。当所有博弈者执行完它们的行动之后,博弈将会产生两方面的结果。一方面, 取决于系统当前的状态 s S 以及所有博弈者在当前阶段采取的行动 a A ,系统将以概率 P(s | s, a) 从当前的状态 s S 转移到下一阶段的另一个状态s S 。另一方面, 作为所有博弈者行动和系统状态转移的结果,每个博弈者i N将从当前阶段的博弈中获得一个即时的收益值或回报值ri