< 上一个 | 内容 | 下一个 >

7.4.2 适当评分规则种类

在适当评分规则发展的过程中,出现了很多不同的评分规则,如对数评分规则、Tsallis 评分、Brier 评分、Bregman 评分、Survival 评分、Hyvärinen 评分、组合评分、Pseudo 评分等[5] 。在不同的条件,不同的情形下适用的适当评分规则也会不同,每个评分规则都有其特点与优劣,本章节将会对不同类型的适当评分规则进行介绍。


适当评分规则在使用时会假设需要预测的目标的结果集X是一个有限集(如X = {晴天,雨天})。专家对需要预测的结果会有一个预测 P,而后需要提交预测报告Q,其表示了专家对于每一种结果发生的可能性的预测(如Q = {0.2,0.8})。之后,该机制会揭示真实的结果x(如下雨)。最后则是需要选择合适的适当评分规则,对专家给出的预测结果进行分配奖惩。我们的目的就是想通过选择设计适当评分规则,使专家诚实提交自己的预测(即Q = P),并努力尽可能的准确预测。假设我们关于结果的实际的信念是使用P来表示,则我们定义最小值的 H(P): = S(P, P)P的熵,D(P, Q): = S(P, Q) − H(P)则表示关于预

QP之间的差异。μ是有关的结果集概率的潜在度量,使用p(∙)表示密度dP/dμ

7.4.2.1 对数评分规则(Log Score

对数评分规则(log score)是一种用于衡量概率预测质量的评分规则,是由 Good 1952 年提出的[2] 。它基于预测的概率分布和实际观测结果之间的对数似然。对于二分类问题,对数评分可表示为真实类别标签的对数似然概率。对数评分的核心思想是通过对数似然的形式,将预测的概率分布与观测结果进行比较。对于准确的预测,对数评分会得到较高的分数,反之则会得到较低的分数。因此,对数评分鼓励预测者提供准确和可靠的概率预测。在 Good 的文章中,他强调了对数评分的重要性,并将其作为一种评估主观概率分布质量的标准。通过最大化对数评分,预测者可以寻找最佳的概率分布,以最大程度地提高预测的准确性。

对数评分规则是一种十分常用的适当评分规则,在很多情况下都是有效的,但是在一些情况下也存在局限性。对数评分规则的优点十分明显,该规则鼓励预测者提供准确的概率预测,而不仅仅是二元或离散的预测,它能够将预测的概率分布与观测结果进行比较,使预测者有动力提供更准确的概率估计。对数评分的缺点也十分明显,其对


概率预测的质量非常敏感,尤其是对极端概率的预测。预测概率接近 0 1 的情况下,对数评分会变得非常大。这可能导致对一些极端预测进行过分的惩罚,而不平衡地影响评分结果。同时,由于对数评分对预测概率过高或过低的情况下,会给予较大的惩罚。从而可能导致评分结果对概率分布的尾部预测更加敏感,而忽略了中间范围的概率预测。对数评分规则的数学表达式如下:

S(x, Q) = − ln q(x),

P 的信息熵(Shannon Entropy):H(P) = − dμ(y) ∙ p(y) ln p(y),

KL 散度(Kullback-Leibler Discrepancy): D(P, Q) = dμ(y) ∙ p(y) ln{p(y)/q(y)}

7.4.2.2 Tsallis 评分(Tsallis score

Tsallis 评分是基于 Tsallis 熵概念的一种评分方法,最早由物理学家 Constantino Tsallis 1988 年提出[6] Tsallis 在该年发表的论文中引入了 Tsallis 熵的概念,并探索了其在非平衡统计力学中的应用。随后,Tsallis 熵被广泛应用于不同领域,包括信息论、概率论和复杂系统的研究。在 1998 Basu 等人也提出了一个类似的评分方法叫做 Density power score[7]

Tsallis 评分规则的数学表达式如下:


S(x, Q) = (γ − 1) ∫ dμ(y) ∙ q(y)γ − γq(x)γ−1 (γ > 1), H(P) = − ∫ dμ(y) ∙ p(y)γ,

D(P, Q) = ∫ dμ(y) ∙ p(y)γ + (γ − 1) ∫ dμ(y) ∙ q(y)γ


+ γ ∫ dμ(y) ∙ p(y)q(y)γ−1


7.4.2.3 Brier 评分(Brier score

Tsallis 评分中的γ = 2时,该评分规则也被叫做二次评分


quadratic score)。对于更加特殊的二元情况来说(即结果集 X 只包含两个量,0 1),可以看作是 Brier 评分规则。Brier 评分是一种常用的适当评分规则,用于评估概率预测的准确性[1] 。它最早由 Glen Brier 1950 年提出,用于评估气象预测的准确性,后来被广泛应用于其他领域,如概率预测、机器学习和数据科学等。Brier 评分的取值范围在 0 1 之间,较小的 Brier 评分表示预测模型的概率预测与观测结果更为一致和准确。当 Brier 评分为 0 时,表示模型的预测完全准确,而Brier 评分为 1 时,表示模型的预测完全不准确。Brier 评分具有明确的数学解释,易于理解和解释。是一个用于衡量概率预测模型的质量的可靠评估指标。然而,Brier 评分在处理极端概率预测时存在一些限制,因为它对极端概率的预测较为敏感。

Brier 评分规则的数学表达式如下:

q: = Q(X = 1)S(0, Q) = q2

S(1, Q) = (1 − q)2

H(P) = p(1 − p)

D(P, Q) = (p − q)2

7.4.2.4 Bregman 评分(Bregman score

在数学中,特别是统计学和信息几何学中, Bregman 散度或 Bregman 距离是衡量两个点之间差异的一种度量,它是通过严格凸函数来定义的。Bregman 散度以俄罗斯数学家 Lev M. Bregman 的名字命名,他于 1967 年引入了这个概念。Bregman 评分就是以此为基础发展而来的。设φℝ+ → ℝ是凸且可微的,相关的 Bregman 评分如下:

S(x, Q) = −φ′{q(x)} − ∫ dμ(y) ∙ [φ{q(y)} − q(y)φ′{q(y)}] 。当p = p(y), q = q(y),可得:


H(P) = − ∫ dμ(y) ∙ φ(p),


D(P, Q) = ∫ dμ(y) ∙ [φ(p) − {φ(q) + φ′(q)(p − q)}]


由于φ的凸性质,因而上面的被积函数D(P, Q)是非负数,所以 Bergman 评分是适当的评分规则。当φ(p) = p ln p时,该评分规则等价于对数评分规则;当φ(p) = pγ时,该评分规则等价于 Tsallis 评分规则;当φ(p) = (2p2 − 1)/4时,该评分规则等价于 Brier 评分规则。

7.4.2.5 Survival 评分(Survival score

Survival 评分是在 Bergman 评分上的一个变种,其考虑了冒险函数(hazard function𝜆𝑄(𝑥): = 𝑞(𝑥)/{1 − 𝐹𝑄 (𝑥)},其中𝐹𝑄 (𝑥) = 𝑄(𝑋 ≤

𝑥)X 代表了直到事件发生之前的时长。假设 X 是非负的,可能在时

C 会发生事件(如:结束、死亡、取消等不同情况下的事件),C ≤

。可以得到M = min{C, X} , Δ = 𝕝(X ≤ C)。假设φℝ+ → ℝ是凸且可微的,γ(λ): = λφ′(λ) − φ(λ),则 Survival 评分如下:

m

S{(m, δ), Q} = ∫ du ∙ γ{λQ(u)} − φ′{λQ(m)}δ

0


7.4.2.6 Hyvärinen 评分(Hyvärinen score

Hyvärinen 评分是一种用于多分类问题的适当评分规则,目的是评估概率预测的准确性。它由芬兰统计学家 Aapo Hyvärinen 2005年提出[8] Hyvärinen 评分的取值范围在负无穷到 1 之间,较接近 1Hyvärinen 评分表示预测模型的概率预测与观测结果更为一致和准确。与 Brier 评分类似,Hyvärinen 评分也是一种可靠的评估指标,用于衡量多分类概率预测模型的质量,并在不同模型之间进行比较和选择。相比于Brier 评分,Hyvärinen 评分在处理多分类问题时更为通用,可 以 用 于 评 估 多 个 类 别 的 概 率 预 测 质 量 。 设 X ∈ ℝk

i=1

表示梯度,Δ 为在X 上的拉普拉斯算子k2/(∂xi)2 , 可 得 到

Hyvärinen 评分的数学表达式:



image

s(x, Q) = Δ ln q(x) +

1 |∇ ln q(x) |2 2


image image

= Δ√q(x)/√q(x)


在分式积分时可以忽略边界项的条件下,我们可得:

1

S(P, Q) =

∫ dμ(y) ∙ 〈∇ ln q(y) − 2∇ ln p(y) , ∇ ln q(y)〉,

image

2


1 2


image

H(P) = − 2 ∫ dμ(y) ∙ | ∇ ln p(y) | ,

1 2


image

D(P, Q) = 2 ∫ dμ(y) ∙ | ∇ ln p(y) − ∇ ln q(y) |


由于在Q ≠ P D(P, Q) > 0,所以 Hyvärinen score 是一个严格适当(Strictly proper)的评分规则,严格适当意味着专家对预测结果进行谎报的时候的收益会小于诚实汇报结果的收益。

7.4.2.7 组合评分(Composite score

组合评分并不是一个特定的评分规则,而是指将多个评分规则或指标组合在一起形成综合评分的方法。这种组合通常是通过加权或其他组合方式,将不同的评分规则或指标结合起来,以综合评估模型或系统的性能。组合评分的优点是可以综合考虑不同评分规则或指标的优势,从而更全面地评估模型的性能。通过合理的组合方式,可以获得更准确和客观的评估结果。然而,组合评分的缺点是在选择权重或组合方式时需要进行合理的权衡和判断。不当的组合可能导致评估结果失真或不准确。组合评分的目的是更全面地评估模型的性能,并考虑多个方面的表现。常见的组合评分方法包括:加权平均,给定不同评分规则权重,通过加权平均的方式将它们组合起来,得到综合评分;加权求和,类似于加权平均,但是采用求和的方式组合不同评分规则的分数;逻辑组合,使用逻辑操作符(如 ANDOR)将多个评分规则组合在一起,形成一个逻辑判断;机器学习方法,使用机器学习算法,如随机森林或梯度下降等,将多个评分规则组合起来,得到综合评分。组合评分例子:


S(x, Q) = ∑ Sk(xk, Qk)

k

7.4.2.8 Pseudo 评分(Pseudo score

Pseudo 评分是一种在贝叶斯统计学和概率预测中使用的评分方法,用于评估概率预测模型的准确性。在机器学习的概率预测领域中,通常会使用训练数据来训练模型,并使用该模型对未知数据进行概率预测。在这种情况下,我们无法得知未知数据的真实概率分布,因此无法直接应用适当评分规则来评估模型的预测准确性。Pseudo 评分能够通过使用模型预测的概率分布和实际观测结果之间的差异来评估模型的准确性。Pseudo 评分的计算方式与 Brier 评分较为类似,但有一个重要的区别:Pseudo 评分使用了模型预测的概率分布作为概率预测的代理,而不是真实的概率分布。这使 Pseudo 评分成为在缺少真实概率分布的情况下评估模型准确性的一种方法。尽管 Pseudo评分提供了一种在贝叶斯统计学和概率预测中评估模型的方法,但它也有一些限制,由于 Pseudo 评分使用了模型预测的概率分布作为代理,所以它可能受到模型自身的偏差影响。因此,在应用 Pseudo 评分时需要谨慎使用,最好能够结合其他评估方法来综合考虑模型的性能和表现。