正态分布 (normal distribution ,台湾作常態分布 ),物理学中通称高斯分佈 (Gaussian distribution )[ 1] ,是一個非常常見的連續機率分布 。正态分布在统计学 上十分重要,經常用在自然 和社会科学 來代表一個不明的隨機變量。[ 2] [ 3]
若隨機變數
X
{\displaystyle X}
服從一個平均数 為
μ μ -->
{\displaystyle \mu }
、标准差 為
σ σ -->
{\displaystyle \sigma }
的正态分布,则記為:
X
∼ ∼ -->
N
(
μ μ -->
,
σ σ -->
2
)
,
{\displaystyle X\sim N(\mu ,\sigma ^{2}),}
[ 4]
則其機率密度函數 為
f
(
x
)
=
1
σ σ -->
2
π π -->
e
− − -->
(
x
− − -->
μ μ -->
)
2
2
σ σ -->
2
{\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}\!}
[ 4] [ 5]
正态分布的數學期望 值或期望值
μ μ -->
{\displaystyle \mu }
,可解释为位置參數,決定了分布的位置;其方差
σ σ -->
2
{\displaystyle \sigma ^{2}}
的平方根或標準差
σ σ -->
{\displaystyle \sigma }
可解释尺度參數,決定了分布的幅度。[ 5]
中心极限定理 指出,在特定条件下,一个具有有限均值 和方差 的随机变量 的多个样本 (观察值)的平均值本身就是一个随机变量,其分布随着样本数量的增加而收敛 于正态分布。因此,许多与独立过程总和有关的物理量,例如测量误差,通常可被近似为正态分布。
正态分布的機率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線 (类似于寺庙里的大钟 ,因此得名)。我們通常所說的標準正态分布 是位置參數
μ μ -->
=
0
{\displaystyle \mu =0}
,尺度參數
σ σ -->
2
=
1
{\displaystyle \sigma ^{2}=1}
的正态分布[ 5] (見右圖中紅色曲線)。
概要
正态分布是自然科學 與行為科學 中的定量現象的一個方便模型。各種各樣的心理學 測試分數和物理 現象比如光子 計數都被發現近似地服從正态分布。儘管這些現象的根本原因經常是未知的,理論上可以證明如果把許多小作用加起來看做一個變量,那麼這個變量服從正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。正态分布出現在許多區域統計 :例如,採樣分布 均值 是近似地正态的,即使被採樣的樣本的原始群體分布並不服從正态分布。另外,正态分布信息熵 在所有的已知均值及方差的分布中最大,這使得它作為一種均值 以及方差 已知的分布的自然選擇。正态分布是在統計以及許多統計測試中最廣泛應用的一類分布。在概率論 ,正态分布是幾種連續以及離散分布的極限 分布。
歷史
正态分布最早是棣莫弗 在1718年著作的書籍的(Doctrine of Change ),及1734年發表的一篇關於二項分布 文章中提出的,當二項隨機變數的位置參數n很大及形狀參數p為1/2時,則所推導出二項分布的近似分布函數就是正态分布。拉普拉斯 在1812年发表的《分析概率论》(Theorie Analytique des Probabilites )中對棣莫佛的結論作了擴展到二項分布的位置參數為n及形狀參數為1>p>0時。現在这一结论通常被稱為棣莫佛-拉普拉斯定理 。
拉普拉斯在誤差 分析試驗中使用了正态分布。勒讓德 於1805年引入最小二乘法 這一重要方法;而高斯 則宣稱他早在1794年就使用了該方法,並通過假設誤差服從常態分布給出了嚴格的證明。
将正态分布称作「鐘形曲線」的习惯可以追溯到Jouffret 他在1872年首次提出這個術語(Bell curve)用來指代二元常態分布 。正态分布這個名字還被查爾斯·皮爾士 、法蘭西斯·高爾頓 、威爾赫姆·萊克希斯 在1875分别獨立地使用。這個術語是不幸的,因為它反映和鼓勵了一種謬誤,即很多概率分布都是常態的。(請參考下面的「實例」)
這個分布被稱為「常態」或者「高斯」正好是史蒂格勒名字由來法則 的一個例子,這個法則說「沒有科學發現是以它最初的發現者命名的」。
正态分布的定義
有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數 ,這種方法能夠表示隨機變量每個取值有多大的可能性。累積分布函數 是一種概率上更加清楚的方法,請看下邊的例子。還有一些其他的等價方法,例如cumulant、特徵函數 、動差生成函數 以及cumulant-生成函數 。這些方法中有一些對於理論工作非常有用,但是不夠直觀。請參考關於概率分布 的討論。
機率密度函數
四个不同参数集的概率密度函数(紅色线代表标准正态分布)
正态分布 的概率密度函數 均值為
μ μ -->
{\displaystyle \mu }
方差 為
σ σ -->
2
{\displaystyle \sigma ^{2}}
(或標準差
σ σ -->
{\displaystyle \sigma }
)是高斯函數 的一個實例:
f
(
x
;
μ μ -->
,
σ σ -->
)
=
1
σ σ -->
2
π π -->
exp
-->
(
− − -->
(
x
− − -->
μ μ -->
)
2
2
σ σ -->
2
)
{\displaystyle f(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}
。
(請看指數函數 以及
π π -->
{\displaystyle \pi }
. )
如果一個隨機變量
X
{\displaystyle X}
服從這個分布,我們寫作
X
{\displaystyle X}
~
N
(
μ μ -->
,
σ σ -->
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
.
如果
μ μ -->
=
0
{\displaystyle \mu =0}
並且
σ σ -->
=
1
{\displaystyle \sigma =1}
,這個分布被稱為標準正态分布 ,這個分布能夠簡化為
f
(
x
)
=
1
2
π π -->
exp
-->
(
− − -->
x
2
2
)
{\displaystyle f(x)={\frac {1}{\sqrt {2\pi }}}\,\exp \left(-{\frac {x^{2}}{2}}\right)}
。
右邊是給出了不同參數的正态分布的函數圖。
正态分布中一些值得注意的量:
密度函數關於平均值對稱
平均值與它的眾數 (statistical mode)以及中位數 (median)同一數值。
函數曲線下68.268949%的面積在平均數左右的一個標準差 範圍內。
95.449974%的面積在平均數左右兩個標準差
2
σ σ -->
{\displaystyle 2\sigma }
的範圍內。
99.730020%的面積在平均數左右三個標準差
3
σ σ -->
{\displaystyle 3\sigma }
的範圍內。
99.993666%的面積在平均數左右四個標準差
4
σ σ -->
{\displaystyle 4\sigma }
的範圍內。
函數曲線的拐點 (inflection point)為離平均數一個標準差距離的位置。
累積分布函數
上图所示的機率密度函数的累積分布函數
累積分布函數 是指隨機變數
X
{\displaystyle X}
小於或等於
x
{\displaystyle x}
的機率,用機率密度函數表示為
F
(
x
;
μ μ -->
,
σ σ -->
)
=
1
σ σ -->
2
π π -->
∫ ∫ -->
− − -->
∞ ∞ -->
x
exp
-->
(
− − -->
(
t
− − -->
μ μ -->
)
2
2
σ σ -->
2
)
d
t
.
{\displaystyle F(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}\exp \left(-{\frac {(t-\mu )^{2}}{2\sigma ^{2}}}\ \right)\,dt.}
正态分布的累積分布函数能够由一個叫做误差函数 的特殊函数 表示:
Φ Φ -->
(
z
)
=
1
2
[
1
+
erf
-->
(
z
− − -->
μ μ -->
σ σ -->
2
)
]
.
{\displaystyle \Phi (z)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {z-\mu }{\sigma {\sqrt {2}}}}\right)\right].}
標準正态分布 的累積分布函數習慣上記為
Φ Φ -->
{\displaystyle \Phi }
,它僅僅是指
μ μ -->
=
0
{\displaystyle \mu =0}
,
σ σ -->
=
1
{\displaystyle \sigma =1}
時 的值,
Φ Φ -->
(
x
)
=
F
(
x
;
0
,
1
)
=
1
2
π π -->
∫ ∫ -->
− − -->
∞ ∞ -->
x
exp
-->
(
− − -->
t
2
2
)
d
t
.
{\displaystyle \Phi (x)=F(x;0,1)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}\exp \left(-{\frac {t^{2}}{2}}\right)\,dt.}
將一般正态分布用誤差函數 表示的公式简化,可得:
Φ Φ -->
(
z
)
=
1
2
[
1
+
erf
-->
(
z
2
)
]
.
{\displaystyle \Phi (z)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {z}{\sqrt {2}}}\right)\right].}
它的反函數 被稱為反誤差函數,為:
Φ Φ -->
− − -->
1
(
p
)
=
2
erf
− − -->
1
-->
(
2
p
− − -->
1
)
.
{\displaystyle \Phi ^{-1}(p)={\sqrt {2}}\;\operatorname {erf} ^{-1}\left(2p-1\right).}
該分位數函數有時也被稱為probit 函數。probit 函數已被證明沒有初等原函数。
正态分布的分布函數
Φ Φ -->
(
x
)
{\displaystyle \Phi (x)}
沒有解析表達式 ,它的值可以通過數值積分 、泰勒級數 或者漸進序列 近似得到。
生成函數
動差母函數
動差生成函數 ,或稱動差母函數被定義為
exp
-->
(
t
X
)
{\displaystyle \exp(tX)}
的期望值。
正态分布的動差產生函數如下:
M
X
(
t
)
{\displaystyle M_{X}(t)\,}
=
E
(
e
t
X
)
{\displaystyle =\mathrm {E} \left(e^{tX}\right)}
=
∫ ∫ -->
− − -->
∞ ∞ -->
∞ ∞ -->
1
σ σ -->
2
π π -->
e
(
− − -->
(
x
− − -->
μ μ -->
)
2
2
σ σ -->
2
)
e
t
x
d
x
{\displaystyle =\int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}e^{tx}\,dx}
=
e
(
μ μ -->
t
+
σ σ -->
2
t
2
2
)
{\displaystyle =e^{\left(\mu t+{\frac {\sigma ^{2}t^{2}}{2}}\right)}}
可以通過在指數函數內配平方得到。
特徵函數
特徵函數 被定義為
exp
-->
(
i
t
X
)
{\displaystyle \exp(itX)}
的期望值 ,其中
i
{\displaystyle i}
是虛數單位.
對於一個常态分布來講,特徵函數是:
ϕ ϕ -->
X
(
t
;
μ μ -->
,
σ σ -->
)
{\displaystyle \phi _{X}(t;\mu ,\sigma )\!}
=
E
[
exp
-->
(
i
t
X
)
]
{\displaystyle =\mathrm {E} \left[\exp(itX)\right]}
=
∫ ∫ -->
− − -->
∞ ∞ -->
∞ ∞ -->
1
σ σ -->
2
π π -->
exp
-->
(
− − -->
(
x
− − -->
μ μ -->
)
2
2
σ σ -->
2
)
exp
-->
(
i
t
x
)
d
x
{\displaystyle =\int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\exp(itx)\,dx}
=
exp
-->
(
i
μ μ -->
t
− − -->
σ σ -->
2
t
2
2
)
.
{\displaystyle =\exp \left(i\mu t-{\frac {\sigma ^{2}t^{2}}{2}}\right).}
把矩生成函數中的
t
{\displaystyle t}
換成
i
t
{\displaystyle it}
就能得到特徵函數。
性質
常態分布的一些性質:
如果
X
∼ ∼ -->
N
(
μ μ -->
,
σ σ -->
2
)
{\displaystyle X\sim N(\mu ,\sigma ^{2})\,}
且
a
{\displaystyle a}
與
b
{\displaystyle b}
是實數 ,那麼
a
X
+
b
∼ ∼ -->
N
(
a
μ μ -->
+
b
,
(
a
σ σ -->
)
2
)
{\displaystyle aX+b\sim N(a\mu +b,(a\sigma )^{2})}
(參見期望值 和方差 ).
如果
X
∼ ∼ -->
N
(
μ μ -->
X
,
σ σ -->
X
2
)
{\displaystyle X\sim N(\mu _{X},\sigma _{X}^{2})}
與
Y
∼ ∼ -->
N
(
μ μ -->
Y
,
σ σ -->
Y
2
)
{\displaystyle Y\sim N(\mu _{Y},\sigma _{Y}^{2})}
是統計獨立 的常態隨機變量 ,那麼:
它們的和也滿足常態分布
U
=
X
+
Y
∼ ∼ -->
N
(
μ μ -->
X
+
μ μ -->
Y
,
σ σ -->
X
2
+
σ σ -->
Y
2
)
{\displaystyle U=X+Y\sim N(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})}
(proof ).
它們的差也滿足常態分布
V
=
X
− − -->
Y
∼ ∼ -->
N
(
μ μ -->
X
− − -->
μ μ -->
Y
,
σ σ -->
X
2
+
σ σ -->
Y
2
)
{\displaystyle V=X-Y\sim N(\mu _{X}-\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})}
.
U
{\displaystyle U}
與
V
{\displaystyle V}
兩者是相互獨立的。(要求X与Y的方差相等)
如果
X
∼ ∼ -->
N
(
0
,
σ σ -->
X
2
)
{\displaystyle X\sim N(0,\sigma _{X}^{2})}
和
Y
∼ ∼ -->
N
(
0
,
σ σ -->
Y
2
)
{\displaystyle Y\sim N(0,\sigma _{Y}^{2})}
是獨立常態隨機變量,那麼:
它們的積
X
Y
{\displaystyle XY}
服從機率密度函數為
p
{\displaystyle p}
的分布
p
(
z
)
=
1
π π -->
σ σ -->
X
σ σ -->
Y
K
0
(
|
z
|
σ σ -->
X
σ σ -->
Y
)
,
{\displaystyle p(z)={\frac {1}{\pi \,\sigma _{X}\,\sigma _{Y}}}\;K_{0}\left({\frac {|z|}{\sigma _{X}\,\sigma _{Y}}}\right),}
其中
K
0
{\displaystyle K_{0}}
是修正貝塞爾函數(modified Bessel function)
它們的比符合柯西分布 ,滿足
X
/
Y
∼ ∼ -->
C
a
u
c
h
y
(
0
,
σ σ -->
X
/
σ σ -->
Y
)
{\displaystyle X/Y\sim \mathrm {Cauchy} (0,\sigma _{X}/\sigma _{Y})}
.
如果
X
1
,
⋯ ⋯ -->
,
X
n
{\displaystyle X_{1},\cdots ,X_{n}}
為獨立標準常態隨機變量,那麼
X
1
2
+
⋯ ⋯ -->
+
X
n
2
{\displaystyle X_{1}^{2}+\cdots +X_{n}^{2}}
服從自由度為n 的卡方分布 。
標準化常態隨機變量
動差(moment )
一些常態分布的一階動差如下:
階數
原動差
中心矩
累積量
0
1
0
1
μ μ -->
{\displaystyle \mu }
0
μ μ -->
{\displaystyle \mu }
2
μ μ -->
2
+
σ σ -->
2
{\displaystyle \mu ^{2}+\sigma ^{2}}
σ σ -->
2
{\displaystyle \sigma ^{2}}
σ σ -->
2
{\displaystyle \sigma ^{2}}
3
μ μ -->
3
+
3
μ μ -->
σ σ -->
2
{\displaystyle \mu ^{3}+3\mu \sigma ^{2}}
0
0
4
μ μ -->
4
+
6
μ μ -->
2
σ σ -->
2
+
3
σ σ -->
4
{\displaystyle \mu ^{4}+6\mu ^{2}\sigma ^{2}+3\sigma ^{4}}
3
σ σ -->
4
{\displaystyle 3\sigma ^{4}}
0
標準常態的所有二階以上的累積量 為零。
生成常態隨機變數
中央極限定理
正态分布的概率密度函數,參數為μ = 12,σ = 3,趨近於n = 48、p = 1/4的二項分布 的概率質量函數。
常態分布有一個非常重要的性質:在特定條件下,大量統計獨立 的隨機變量的平均值的分布趨於正态分布,這就是中央極限定理 。中央極限定理的重要意義在於,根據這一定理的結論,其他概率分布可以用正态分布作為近似。
參數為
n
{\displaystyle n}
和
p
{\displaystyle p}
的二項分布 ,在
n
{\displaystyle n}
相當大而且
p
{\displaystyle p}
接近0.5時近似於正态分布 (有的參考書建議僅在
n
p
{\displaystyle np}
與
n
(
1
− − -->
p
)
{\displaystyle n(1-p)}
至少為5時才能使用這一近似)。
近似正态分布平均數為
μ μ -->
=
n
p
{\displaystyle \mu =np}
且方差為
σ σ -->
2
=
n
p
(
1
− − -->
p
)
{\displaystyle \sigma ^{2}=np(1-p)}
.
一泊松分布 帶有參數
λ λ -->
{\displaystyle \lambda }
當取樣樣本數很大時將近似正态分布
λ λ -->
{\displaystyle \lambda }
.
近似正态分布平均數為
μ μ -->
=
λ λ -->
{\displaystyle \mu =\lambda }
且方差為
σ σ -->
2
=
λ λ -->
{\displaystyle \sigma ^{2}=\lambda }
.
這些近似值是否完全充分正確取決於使用者的使用需求
無限可分性
正态分布是無限可分 的概率分布。
穩定性
正态分布是嚴格穩定 的概率分布。
標準偏差
深藍色區域是距平均值小於一個標準差之內的數值範圍。在常態分布 中,此範圍所佔比率為全部數值之68% ,根據常態分布,兩個標準差之內的比率合起來為95% ;三個標準差之內的比率合起來為99% 。
在實際應用上,常考慮一組數據具有近似於常態分布 的機率分布。若其假設正確,則約68.3% 數值分布在距離平均值有1個標準差之內的範圍,約95.4% 數值分布在距離平均值有2個標準差之內的範圍,以及約99.7% 數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則 」或「經驗法則 」。
數字比率 標準差值
機率
包含之外比例
百分比
百分比
比例
6999318639000000000♠ 0.318639 σ
25%
75%
3 / 4
6999674490000000000♠ 0.674490 σ
7001500000000000000♠ 50 %
7001500000000000000♠ 50 %
1 / 7000200000000000000♠ 2
6999994458000000000♠ 0.994458 σ
68%
32%
1 / 3.125
1σ
7001682689492000000♠ 68.2689492 %
7001317310508000000♠ 31.7310508 %
1 / 7000315148720000000♠ 3.1514872
7000128155200000000♠ 1.281552 σ
80%
20%
1 / 5
7000164485400000000♠ 1.644854 σ
90%
10%
1 / 10
7000195996400000000♠ 1.959964 σ
95%
5%
1 / 20
2σ
7001954499736000000♠ 95.4499736 %
7000455002640000000♠ 4.5500264 %
1 / 7001219778950000000♠ 21.977895
7000257582900000000♠ 2.575829 σ
99%
1%
1 / 100
3σ
7001997300204000000♠ 99.7300204 %
6999269979600000000♠ 0.2699796 %
1 / 370.398
7000329052700000000♠ 3.290527 σ
99.9%
0.1%
1 / 7003100000000000000♠ 1000
7000389059200000000♠ 3.890592 σ
99.99%
0.01%
1 / 7004100000000000000♠ 10000
4σ
7001999936660000000♠ 99.993666 %
6997633400000000000♠ 0.006334 %
1 / 7004157870000000000♠ 15787
7000441717300000000♠ 4.417173 σ
99.999%
0.001%
1 / 7005100000000000000♠ 100000
7000450000000000000♠ 4.5σ
99.999320 465 3751%
0.000679 534 6249%
1 / 7005147159535800000♠ 147159 .5358 3.4 / 7006100000000000000♠ 1000 000 (每一邊 )
7000489163800000000♠ 4.891638 σ
7001999999000000000♠ 99.9999 %
6996100000000000000♠ 0.0001 %
1 / 7006100000000000000♠ 1000 000
5σ
7001999999426697000♠ 99.999942 6697 %
6995573303000000000♠ 0.000057 3303 %
1 / 7006174427800000000♠ 1744 278
7000532672399999999♠ 5.326724 σ
7001999999900000000♠ 99.99999 %
6995100000000000000♠ 0.00001 %
1 / 7007100000000000000♠ 10000 000
7000573072900000000♠ 5.730729 σ
7001999999990000000♠ 99.999999 %
6994100000000000000♠ 0.000001 %
1 / 7008100000000000000♠ 100000 000
7000600000000000000♠ 6σ
7001999999998027000♠ 99.999999 8027 %
6993197300000000000♠ 0.000000 1973 %
1 / 7008506797346000000♠ 506797 346
7000610941000000000♠ 6.109410 σ
7001999999999000000♠ 99.9999999 %
6993100000000000000♠ 0.0000001 %
1 / 7009100000000000000♠ 1000 000 000
7000646695100000000♠ 6.466951 σ
7001999999999900000♠ 99.999999 99 %
6992100000000000000♠ 0.000000 01 %
1 / 7010100000000000000♠ 10000 000 000
7000680650200000000♠ 6.806502 σ
7001999999999990000♠ 99.999999 999 %
6991100000000000000♠ 0.000000 001 %
1 / 7011100000000000000♠ 100000 000 000
7σ
99.999999 999 7440%
6990256000000000000♠ 0.000000 000 256 %
1 / 7011390682215445000♠ 390682 215 445
相關分布
R
∼ ∼ -->
R
a
y
l
e
i
g
h
(
σ σ -->
)
{\displaystyle R\sim \mathrm {Rayleigh} (\sigma )}
是瑞利分布 ,如果
R
=
X
2
+
Y
2
{\displaystyle R={\sqrt {X^{2}+Y^{2}}}}
,这里
X
∼ ∼ -->
N
(
0
,
σ σ -->
2
)
{\displaystyle X\sim N(0,\sigma ^{2})}
和
Y
∼ ∼ -->
N
(
0
,
σ σ -->
2
)
{\displaystyle Y\sim N(0,\sigma ^{2})}
是两个独立正态分布。
Y
∼ ∼ -->
χ χ -->
ν ν -->
2
{\displaystyle Y\sim \chi _{\nu }^{2}}
是卡方分布 具有
ν ν -->
{\displaystyle \nu }
自由度 ,如果
Y
=
∑ ∑ -->
k
=
1
ν ν -->
X
k
2
{\displaystyle Y=\sum _{k=1}^{\nu }X_{k}^{2}}
这里
X
k
∼ ∼ -->
N
(
0
,
1
)
{\displaystyle X_{k}\sim N(0,1)}
其中
k
=
1
,
… … -->
,
ν ν -->
{\displaystyle k=1,\dots ,\nu }
是独立的。
Y
∼ ∼ -->
C
a
u
c
h
y
(
μ μ -->
=
0
,
θ θ -->
=
1
)
{\displaystyle Y\sim \mathrm {Cauchy} (\mu =0,\theta =1)}
是柯西分布 ,如果
Y
=
X
1
/
X
2
{\displaystyle Y=X_{1}/X_{2}}
,其中
X
1
∼ ∼ -->
N
(
0
,
1
)
{\displaystyle X_{1}\sim N(0,1)}
并且
X
2
∼ ∼ -->
N
(
0
,
1
)
{\displaystyle X_{2}\sim N(0,1)}
是两个独立的正态分布。
Y
∼ ∼ -->
Log-N
(
μ μ -->
,
σ σ -->
2
)
{\displaystyle Y\sim {\mbox{Log-N}}(\mu ,\sigma ^{2})}
是对数正态分布 如果
Y
=
e
X
{\displaystyle Y=e^{X}}
并且
X
∼ ∼ -->
N
(
μ μ -->
,
σ σ -->
2
)
{\displaystyle X\sim N(\mu ,\sigma ^{2})}
.
与Lévy skew alpha-stable分布 相关:如果
X
∼ ∼ -->
Levy-S
α α -->
S
(
2
,
β β -->
,
σ σ -->
/
2
,
μ μ -->
)
{\displaystyle X\sim {\textrm {Levy-S}}\alpha {\textrm {S}}(2,\beta ,\sigma /{\sqrt {2}},\mu )}
因而
X
∼ ∼ -->
N
(
μ μ -->
,
σ σ -->
2
)
{\displaystyle X\sim N(\mu ,\sigma ^{2})}
.
估計
母數的最大概似估計
概念一般化
多元正态分布 的協方差矩陣 的估計的推導是比較難於理解的。它需要瞭解譜原理 (spectral theorem)以及為什麼把一個標量 看做一個1×1矩阵 的迹(trace)而不僅僅是一個標量更合理的原因。請參考協方差矩陣的估計 (estimation of covariance matrices)。
母數的動差估計
常見實例
光子計數
計量誤差
飲料裝填量不足與超量的機率
某飲料公司裝瓶流程嚴謹,每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配法則。隨機選取一罐,求(1)容量超過605毫升的機率;(2)容量小於590毫升的機率。
容量超過605毫升的機率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475
容量小於590毫升的機率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004
6-標準差 (6-sigma或6-σ)的品質管制標準
6-標準差(6-sigma或6-σ),是製造業流行的品質管制標準。在這個標準之下,一個標準常態分配的變數值出現在正負三個標準差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是說,這種品質管制標準的產品不良率只有萬分之二十六。假設例中的飲料公司裝瓶流程採用這個標準,而每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配。那么預期裝填容量的範圍應該多少?
6-標準差的範圍 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609)
因此,預期裝填容量應該介於591至609毫升之間。
生物標本的物理特性
金融變量
壽命
測試和智力分布
計算學生智商高低的機率
假設某校入學新生的智力測驗平均分數與标准差分別為100與12。那麼隨機抽取50個學生,他們智力測驗平均分數大於105的機率?小於90的機率?
本例沒有常態分配的假設,還好中央極限定理提供一個可行解,那就是當隨機樣本長度超過30,樣本平均數
x
¯ ¯ -->
{\displaystyle {\bar {x}}}
近似於一個常態變數,
因此標準常態變數
Z
=
X
¯ ¯ -->
− − -->
μ μ -->
σ σ -->
/
n
{\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}}
。
平均分數大於105的機率
P
(
Z
>
105
− − -->
100
12
/
50
)
=
P
(
Z
>
5
/
1.7
)
=
P
(
Z
>
2.94
)
=
0.0016
{\displaystyle P(Z>{\frac {105-100}{12/{\sqrt {50}}}})=P(Z>5/1.7)=P(Z>2.94)=0.0016}
平均分數小於90的機率
P
(
Z
<
90
− − -->
100
12
/
50
)
=
P
(
Z
<
− − -->
5.88
)
=
0.0000
{\displaystyle P(Z<{\frac {90-100}{12/{\sqrt {50}}}})=P(Z<-5.88)=0.0000}
计算统计应用
生成正态分布随机变量
在计算机模拟中,经常需要生成正态分布的数值。最基本的一个方法是使用标准的正态累积分布函数的反函数。除此之外还有其他更加高效的方法,Box-Muller变换就是其中之一。另一个更加快捷的方法是ziggurat算法。下面将介绍这两种方法。一个简单可行的并且容易编程的方法是:求12个在(0,1)上均匀分布的和,然后减6(12的一半)。这种方法可以用在很多应用中。这12个数的和是Irwin-Hall分布;选择一个方差12。这个随即推导的结果限制在(-6,6)之间,并且密度为12,是用11次多项式估计正态分布。
Box-Muller方法是以两组独立的随机数U和V,这两组数在(0,1]上均匀分布,用U和V生成两组独立的标准常态分布随机变量X和Y:
X
=
− − -->
2
ln
-->
U
cos
-->
(
2
π π -->
V
)
,
{\displaystyle X={\sqrt {-2\ln U}}\,\cos(2\pi V),}
Y
=
− − -->
2
ln
-->
U
sin
-->
(
2
π π -->
V
)
{\displaystyle Y={\sqrt {-2\ln U}}\,\sin(2\pi V)}
。
这个方程的提出是因为二自由度的卡方分布 (见性质4)很容易由指数随机变量(方程中的lnU)生成。因而通过随机变量V可以选择一个均匀环绕圆圈的角度,用指数分布选择半径然后变换成(正态分布的)x,y坐标。
参考文献
John Aldrich. Earliest Uses of Symbols in Probability and Statistics .網上材料,2006年6月3日存在.(See "Symbols associated with the Normal Distribution". )
Abraham de Moivre (1738年). The Doctrine of Chances .
Stephen Jay Gould (1981年). The Mismeasure of Man . First edition. W. W. Norton. ISBN 978-0-393-01489-1 .
R. J. Herrnstein and Charles Murray (1994年). The Bell Curve : Intelligence and Class Structure in American Life . Free Press . ISBN 978-0-02-914673-6 .
Pierre-Simon Laplace (1812年). Analytical Theory of Probabilities .
Jeff Miller, John Aldrich, et al. Earliest Known Uses of Some of the Words of Mathematics . In particular, the entries for "bell-shaped and bell curve" , "normal" (distribution) , "Gaussian" , and "Error, law of error, theory of errors, etc." .網上材料,2006年6月3日存在
S. M. Stigler (1999年). Statistics on the Table , chapter 22. Harvard University Press. (History of the term "normal distribution". )
Eric W. Weisstein et al. Normal Distribution (页面存档备份 ,存于互联网档案馆 ) at MathWorld .網上材料,2006年6月3日存在。
Marvin Zelen and Norman C. Severo (1964年). Probability Functions. Chapter 26 of Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables , ed, by Milton Abramowitz and Irene A. Stegun . National Bureau of Standards .
外部链接
參見