在概率论 和统计学 中,耿贝尔分布 (Gumbel分布 ,也称为I 型广义极值分布 )用于对各种分布的多个样本的最大值(或最小值)的分布进行建模。
如果有过去十年的水位最大值列表,则此分布可用于表示特定年份河流最高水位的分布。它有助于预测发生极端地震、洪水或其他自然灾害的可能性。 耿贝尔分布表示最大值分布的潜在适用性与极值理论 有关,这表明如果基础样本数据的分布是正态或指数类型,它可能是有用的。本文使用耿贝尔分布对最大值的分布进行建模。要对最小值建模,请使用原始值的负值。
耿贝尔分布是广义极值分布 (也称为 Fisher-Tippett 分布)的一个特例。它也称为对数Weibull 分布 和双指数分布(该术语有时也用于指代拉普拉斯分布 )。它与Gompertz分布 有关:在原点附近,并限制在正半线上时,就得到了 Gompertz 函数。
在多项式logistic回归 模型的潜变量 公式中——在离散选择法 理论中很常见——潜在变量的误差服从 Gumbel 分布。这很有用,因为两个耿贝尔分布的随机变量 的差服从logistic分布 。
耿贝尔分布以Emil Julius Gumbel (1891 – 1966) 的名字命名,来自描述该分布的原始论文。 [ 1] [ 2]
定义
耿贝尔分布的累积分布函数 为
F
(
x
;
μ μ -->
,
β β -->
)
=
e
− − -->
e
− − -->
(
x
− − -->
μ μ -->
)
/
β β -->
.
{\displaystyle F(x;\mu ,\beta )=e^{-e^{-(x-\mu )/\beta }}.\,}
标准耿贝尔分布
标准的耿贝尔分布是
μ μ -->
=
0
{\displaystyle \mu =0}
和
β β -->
=
1
{\displaystyle \beta =1}
时的特例,其累积分布函数为
F
(
x
)
=
e
− − -->
e
(
− − -->
x
)
{\displaystyle F(x)=e^{-e^{(-x)}}\,}
概率密度函数为
f
(
x
)
=
e
− − -->
(
x
+
e
− − -->
x
)
.
{\displaystyle f(x)=e^{-(x+e^{-x})}.}
此时,众数为 0,中位数为
− − -->
ln
-->
(
ln
-->
(
2
)
)
≈ ≈ -->
0.3665
{\displaystyle -\ln(\ln(2))\approx 0.3665}
,均值为
γ γ -->
≈ ≈ -->
0.5772
{\displaystyle \gamma \approx 0.5772}
( 歐拉-馬斯刻若尼常數 ),标准差为
π π -->
/
6
≈ ≈ -->
1.2825
{\displaystyle \pi /{\sqrt {6}}\approx 1.2825}
。
对于 n>1,累积量由下式给出
κ κ -->
n
=
(
n
− − -->
1
)
!
ζ ζ -->
(
n
)
{\displaystyle \kappa _{n}=(n-1)!\zeta (n)}
特性
众数为 μ,中位数为
μ μ -->
− − -->
β β -->
ln
-->
(
ln
-->
2
)
{\displaystyle \mu -\beta \ln \left(\ln 2\right)}
,平均值是
E
-->
(
X
)
=
μ μ -->
+
γ γ -->
β β -->
{\displaystyle \operatorname {E} (X)=\mu +\gamma \beta }
,
其中
γ γ -->
{\displaystyle \gamma }
是歐拉-馬斯刻若尼常數 。
标准差
σ σ -->
{\displaystyle \sigma }
是
β β -->
π π -->
/
6
{\displaystyle \beta \pi /{\sqrt {6}}}
,因此
β β -->
=
σ σ -->
6
/
π π -->
≈ ≈ -->
0.78
σ σ -->
.
{\displaystyle \beta =\sigma {\sqrt {6}}/\pi \approx 0.78\sigma .}
[ 3]
在众数处,
x
=
μ μ -->
{\displaystyle x=\mu }
,
F
(
x
;
μ μ -->
,
β β -->
)
{\displaystyle F(x;\mu ,\beta )}
的值变为
e
− − -->
1
≈ ≈ -->
0.37
{\displaystyle e^{-1}\approx 0.37}
,与
β β -->
{\displaystyle \beta }
的取值无关。
相关分布
如果
X
{\displaystyle X}
具有耿贝尔分布,则Y= − X 的条件分布在Y 为正的情况下,或等效地在X 为负的情况下具有Gompertz分布 。 Y 的 cdf G 与X 的 cdf F 相关,公式如下
G
(
y
)
=
P
(
Y
≤ ≤ -->
y
)
=
P
(
X
≥ ≥ -->
− − -->
y
|
X
≤ ≤ -->
0
)
=
(
F
(
0
)
− − -->
F
(
− − -->
y
)
)
/
F
(
0
)
{\displaystyle G(y)=P(Y\leq y)=P(X\geq -y|X\leq 0)=(F(0)-F(-y))/F(0)}
要求y > 0。因此,两者概率密度函数相关:
g
(
y
)
=
f
(
− − -->
y
)
/
F
(
0
)
{\displaystyle g(y)=f(-y)/F(0)}
: Gompertz 密度与反射的 Gumbel 密度成正比,仅限于正半线。 [ 4]
如果X 是均值为 1 的指数分布变量,则− log( X ) 服从标准 Gumbel 分布。
如果
X
∼ ∼ -->
G
u
m
b
e
l
(
α α -->
X
,
β β -->
)
{\displaystyle X\sim \mathrm {Gumbel} (\alpha _{X},\beta )}
和
Y
∼ ∼ -->
G
u
m
b
e
l
(
α α -->
Y
,
β β -->
)
{\displaystyle Y\sim \mathrm {Gumbel} (\alpha _{Y},\beta )}
是独立的,那么
X
− − -->
Y
∼ ∼ -->
L
o
g
i
s
t
i
c
(
α α -->
X
− − -->
α α -->
Y
,
β β -->
)
{\displaystyle X-Y\sim \mathrm {Logistic} (\alpha _{X}-\alpha _{Y},\beta )\,}
(见Logistic分布)。
如果
X
,
Y
∼ ∼ -->
G
u
m
b
e
l
(
α α -->
,
β β -->
)
{\displaystyle X,Y\sim \mathrm {Gumbel} (\alpha ,\beta )}
是独立的,那么
X
+
Y
≁ ≁ -->
L
o
g
i
s
t
i
c
(
2
α α -->
,
β β -->
)
{\displaystyle X+Y\nsim \mathrm {Logistic} (2\alpha ,\beta )}
。注意
E
(
X
+
Y
)
=
2
α α -->
+
2
β β -->
γ γ -->
≠ ≠ -->
2
α α -->
=
E
(
L
o
g
i
s
t
i
c
(
2
α α -->
,
β β -->
)
)
{\displaystyle E(X+Y)=2\alpha +2\beta \gamma \neq 2\alpha =E\left(\mathrm {Logistic} (2\alpha ,\beta )\right)}
。更一般地,独立 Gumbel 随机变量的线性组合的分布可以用 GNIG 和 GIG 分布来近似。 [ 5]
与广义多变量对数伽马分布 相关的理论提供了耿贝尔分布的多变量版本。
应用
具有累积耿贝尔分布置信带 的十月最大单日降雨量分布拟合 。 [ 6]
Gumbel 表明,随着样本量的增加,将服从指数分布 的随机变量 减去样本量[ 7] 的自然对数,其最大值的分布(或最后一阶统计量 )接近耿贝尔分布。 [ 8]
具体来说,如果令
ρ ρ -->
(
x
)
=
e
− − -->
x
{\displaystyle \rho (x)=e^{-x}}
是
x
{\displaystyle x}
的概率分布,
Q
(
x
)
=
1
− − -->
e
− − -->
x
{\displaystyle Q(x)=1-e^{-x}}
是其累积分布,那么对
x
{\displaystyle x}
的
N
{\displaystyle N}
次实现(realizations)的最大值小于
X
{\displaystyle X}
当且仅当所有
x
{\displaystyle x}
的实现都小于
X
{\displaystyle X}
。所以最大值的累积分布
x
~ ~ -->
{\displaystyle {\tilde {x}}}
满足:
P
(
x
~ ~ -->
− − -->
log
-->
(
N
)
≤ ≤ -->
X
)
=
P
(
x
~ ~ -->
≤ ≤ -->
X
+
log
-->
(
N
)
)
=
[
Q
(
X
+
log
-->
(
N
)
)
]
N
=
(
1
− − -->
e
− − -->
X
N
)
N
{\displaystyle P({\tilde {x}}-\log(N)\leq X)=P({\tilde {x}}\leq X+\log(N))=[Q(X+\log(N))]^{N}=\left(1-{\frac {e^{-X}}{N}}\right)^{N}}
并且,对于较大的
N
{\displaystyle N}
,等式右边收敛到
e
− − -->
e
(
− − -->
X
)
{\displaystyle e^{-e^{(-X)}}}
。
因此,在水文学 中,耿贝尔分布用于分析日降雨量和河流流量的月度和年度最大值等变量, [ 3] 也用于描述干旱。 [ 9]
Gumbel 还表明,表示事件的概率 的估计量 r ⁄(n +1) ——其中r 是观察值在数据序列中的排名, n 是观察的总数——是分布的众数 周围的累积分布函数 的无偏估计量 。因此,这个估计量经常被用作分位图 。
在数论 中,耿贝尔分布近似于随机整数分拆 的项数[ 10] 以及最大素数间隙 和素数星座之间的最大间隙的趋势调整大小。 [ 11]
Gumbel 重参数化技巧
在机器学习 中,耿贝尔分布有时用于从分类分布 中生成样本。这种技术称为“Gumbel-max技巧”,是“重参数化技巧 ”的一个特例。 [ 12]
具体而言,令
(
π π -->
1
,
.
.
.
,
π π -->
n
)
{\displaystyle (\pi _{1},...,\pi _{n})}
非负且不全为零,并且让
g
1
,
.
.
.
,
g
n
{\displaystyle g_{1},...,g_{n}}
是Gumbel(0, 1)的独立样本,则
P
r
(
j
=
arg
-->
max
i
(
g
i
+
log
-->
π π -->
i
)
)
=
π π -->
j
∑ ∑ -->
i
π π -->
i
{\displaystyle Pr(j=\arg \max _{i}(g_{i}+\log \pi _{i}))={\frac {\pi _{j}}{\sum _{i}\pi _{i}}}}
因此,
arg
-->
max
i
(
g
i
+
log
-->
π π -->
i
)
∼ ∼ -->
Categorical
(
π π -->
j
∑ ∑ -->
i
π π -->
i
)
j
{\displaystyle \arg \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Categorical}}\left({\frac {\pi _{j}}{\sum _{i}\pi _{i}}}\right)_{j}}
等价地,给定任何
x
1
,
.
.
.
,
x
n
∈ ∈ -->
R
{\displaystyle x_{1},...,x_{n}\in \mathbb {R} }
,我们可以从它的玻尔兹曼分布 中采样:
P
r
(
j
=
arg
-->
max
i
(
g
i
+
x
i
)
)
=
e
x
j
∑ ∑ -->
i
e
x
i
{\displaystyle Pr(j=\arg \max _{i}(g_{i}+x_{i}))={\frac {e^{x_{j}}}{\sum _{i}e^{x_{i}}}}}
相关等式包括: [ 13]
如果
x
∼ ∼ -->
E
x
p
(
λ λ -->
)
{\displaystyle x\sim Exp(\lambda )}
, 那么
(
− − -->
ln
-->
x
− − -->
γ γ -->
)
∼ ∼ -->
Gumbel
(
− − -->
γ γ -->
+
ln
-->
λ λ -->
,
1
)
{\displaystyle (-\ln x-\gamma )\sim {\text{Gumbel}}(-\gamma +\ln \lambda ,1)}
。
arg
-->
max
i
(
g
i
+
log
-->
π π -->
i
)
∼ ∼ -->
Categorical
(
π π -->
j
∑ ∑ -->
i
π π -->
i
)
j
{\displaystyle \arg \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Categorical}}\left({\frac {\pi _{j}}{\sum _{i}\pi _{i}}}\right)_{j}}
。
max
i
(
g
i
+
log
-->
π π -->
i
)
∼ ∼ -->
Gumbel
(
− − -->
γ γ -->
+
log
-->
(
∑ ∑ -->
i
π π -->
i
)
,
1
)
{\displaystyle \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Gumbel}}\left(-\gamma +\log \left(\sum _{i}\pi _{i}\right),1\right)}
。也就是说,Gumbel 分布是一个最大稳定分布族。
E
[
max
i
(
g
i
+
β β -->
x
i
)
]
=
log
-->
(
∑ ∑ -->
i
e
β β -->
x
i
)
{\displaystyle \mathbb {E} [\max _{i}(g_{i}+\beta x_{i})]=\log \left(\sum _{i}e^{\beta x_{i}}\right)}
。
随机变量生成
耿贝尔分布的分位数函数(逆累积分布函数 )
Q
(
p
)
{\displaystyle Q(p)}
可由下式给出
Q
(
p
)
=
μ μ -->
− − -->
β β -->
ln
-->
(
− − -->
ln
-->
(
p
)
)
,
{\displaystyle Q(p)=\mu -\beta \ln(-\ln(p)),}
其中
μ μ -->
{\displaystyle \mu }
和
β β -->
{\displaystyle \beta }
是参数,当随机变量
U
{\displaystyle U}
是从
(
0
,
1
)
{\displaystyle (0,1)}
上的均匀分布 中抽取时,变量
Q
(
U
)
{\displaystyle Q(U)}
具有服从耿贝尔分布。
概率纸
一张包含 Gumbel 分布的方格纸。
在软件时代之前,人们使用概率纸描绘耿贝尔分布(见插图)。这种纸基于累积分布函数的
F
{\displaystyle F}
的线性化:
− − -->
ln
-->
[
− − -->
ln
-->
(
F
)
]
=
(
x
− − -->
μ μ -->
)
/
β β -->
{\displaystyle -\ln[-\ln(F)]=(x-\mu )/\beta }
在纸上,水平轴以双对数刻度构建。垂直轴是线性的。通过在纸张的水平轴上寻找
F
{\displaystyle F}
,在垂直轴上寻找
x
{\displaystyle x}
,耿贝尔分布由斜率为
1
/
β β -->
{\displaystyle 1/\beta }
的直线表示。当像CumFreq 这样的分布拟合 软件可用时,绘制分布的任务变得更加容易。
参见
参考资料
^ Gumbel, E.J., Les valeurs extrêmes des distributions statistiques (PDF) , Annales de l'Institut Henri Poincaré, 1935, 5 (2): 115–158 [2023-01-21 ] , (原始内容存档 (PDF) 于2018-03-10)
^ Gumbel E.J. (1941). "The return period of flood flows". The Annals of Mathematical Statistics, 12, 163–190.
^ 3.0 3.1 Oosterbaan, R.J. http://www.waterlog.info/pdf/freqtxt.pdf (PDF) . Ritzema, H.P. (编). Drainage Principles and Applications, Publication 16 . Wageningen, The Netherlands: International Institute for Land Reclamation and Improvement (ILRI). 1994: 175–224 . ISBN 90-70754-33-9 .
^ Willemse, W.J.; Kaas, R. Rational reconstruction of frailty-based mortality models by a generalisation of Gompertz' law of mortality (PDF) . Insurance: Mathematics and Economics. 2007, 40 (3): 468 [2023-01-21 ] . doi:10.1016/j.insmatheco.2006.07.003 . (原始内容 (PDF) 存档于2017-08-09).
^ Marques, F.; Coelho, C.; de Carvalho, M. On the distribution of linear combinations of independent Gumbel random variables (PDF) . Statistics and Computing. 2015, 25 : 683‒701 [2023-01-21 ] . doi:10.1007/s11222-014-9453-5 . (原始内容存档 (PDF) 于2022-12-20).
^ CumFreq, software for probability distribution fitting
^ user49229, Gumbel distribution and exponential distribution . [2023-01-21 ] . (原始内容存档 于2021-08-26).
^ Gumbel, E.J. Statistical theory of extreme values and some practical applications . Applied Mathematics Series 33 1st. U.S. Department of Commerce, National Bureau of Standards. 1954 [2023-01-21 ] . ASIN B0007DSHG4 . (原始内容存档 于2023-01-21).
^ Burke, Eleanor J.; Perry, Richard H.J.; Brown, Simon J. An extreme value analysis of UK drought and projections of change in the future. Journal of Hydrology. 2010, 388 (1–2): 131–143. Bibcode:2010JHyd..388..131B . doi:10.1016/j.jhydrol.2010.04.035 .
^ Erdös, Paul; Lehner, Joseph. The distribution of the number of summands in the partitions of a positive integer. Duke Mathematical Journal. 1941, 8 (2): 335. doi:10.1215/S0012-7094-41-00826-8 .
^ Kourbatov, A. Maximal gaps between prime k-tuples: a statistical approach. Journal of Integer Sequences. 2013, 16 . Bibcode:2013arXiv1301.2242K . arXiv:1301.2242 . Article 13.5.2.
^ Jang, Eric; Gu, Shixiang; Poole, Ben. Categorical Reparametrization with Gumble-Softmax . International Conference on Learning Representations (ICLR) 2017. April 2017 [2023-01-21 ] . (原始内容存档 于2023-01-21).
^ Balog, Matej; Tripuraneni, Nilesh; Ghahramani, Zoubin; Weller, Adrian. Lost Relatives of the Gumbel Trick . International Conference on Machine Learning (PMLR). 2017-07-17: 371–379 [2023-01-21 ] . (原始内容存档 于2023-01-21) (英语) .
外部链接