機率模型(Statistical Model,也稱為Probabilistic Model)是用来描述不同随机变量之间关系的数学模型,通常情况下刻画了一个或多个随机变量之间的相互非确定性的機率关系。从数学上讲,该模型通常被表达为 ( Y , P ) {\displaystyle (Y,P)} ,其中 Y {\displaystyle Y} 是观测集合用来描述可能的观测结果, P {\displaystyle P} 是 Y {\displaystyle Y} 对应的機率分布函数集合。若使用機率模型,一般而言需假设存在一个确定的分布 P {\displaystyle P} 生成观测数据 Y {\displaystyle Y} 。因此通常使用统计推断的办法确定集合 P {\displaystyle P} 中谁是数据产生的原因。
大多数统计检验都可以被理解为一种機率模型。例如,一个比较两组数据均值的司徒頓t檢定可以被认为是对该機率模型母數是否为0的檢定。此外,检验与模型的另一个共同点则是两者都需要提出假设并且误差在模型中常被假设为正态分布。
概率模型 P {\displaystyle {\mathcal {P}}} 是一个概率分布函数或密度函数的集合。可分为参数模型,无参数和半参数模型。
参数模型是一组由有限维参数构成的分布集合 P = { P θ θ --> : θ θ --> ∈ ∈ --> Θ Θ --> } {\displaystyle {\mathcal {P}}=\{\mathbb {P} _{\theta }:\theta \in \Theta \}} 。其中 θ θ --> {\displaystyle \theta } 是参数,而 Θ Θ --> ⊆ ⊆ --> R d {\displaystyle \Theta \subseteq \mathbb {R} ^{d}} 是其可行欧几里得子空间。概率模型可被用来描述一组可产生已知采样数据的分布集合。例如,假设数据产生于唯一参数的高斯分布,则我们可假设该概率模型为 P = { P ( x ; μ μ --> , σ σ --> ) = 1 2 π π --> σ σ --> exp --> { − − --> 1 2 σ σ --> 2 ( x − − --> μ μ --> ) 2 } : μ μ --> ∈ ∈ --> R , σ σ --> > 0 } {\displaystyle {\mathcal {P}}=\{\mathbb {P} (x;\mu ,\sigma )={\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left\{-{\frac {1}{2\sigma ^{2}}}(x-\mu )^{2}\right\}:\mu \in \mathbb {R} ,\sigma >0\}} 。
无参数模型则是一组由无限维参数构成的概率分布函数集合,可被表示为 P = { all distributions } {\displaystyle {\mathcal {P}}=\{{\text{all distributions}}\}} 。
相比于无参数模型和参数模型,半参数模型也由无限维参数构成,但其在分布函数空间内并不紧密。例如,一组混叠的高斯模型。确切的说,如果 d {\displaystyle d} 是参数的维度, n {\displaystyle n} 是数据点的大小,如果随着 d → → --> ∞ ∞ --> {\displaystyle d\rightarrow \infty } 和 n → → --> ∞ ∞ --> {\displaystyle n\rightarrow \infty } 则 d / n → → --> 0 {\displaystyle d/n\rightarrow 0} ,则我们称之为半参数模型。