從冪律分布到特征數(shù)據(jù)概率分布

lhbsd 2022-09-07 發(fā)布于廣東

展開全文

在機(jī)器學(xué)習(xí)領(lǐng)域，概率分布對(duì)于數(shù)據(jù)的認(rèn)識(shí)有著非常重要的作用。不管是有效數(shù)據(jù)還是噪聲數(shù)據(jù)，如果知道了數(shù)據(jù)的分布，那么在數(shù)據(jù)建模過程中會(huì)得到很大的啟示。

首先，如下圖所示8個(gè)特征數(shù)據(jù)概率分布情況（已經(jīng)做歸一化），這些特征是正態(tài)分布、伯努利分布，還是泊松分布、冪律分布？
在這里插入圖片描述

在這里插入圖片描述
在高斯法則生效的領(lǐng)域，平均值可以代表整體。但是在冪律法則統(tǒng)治的領(lǐng)域，平均值毫無(wú)意義。高斯法則和冪律法則的典型代表是分別身高和財(cái)富，把姚明放到100個(gè)人中，并不會(huì)顯著改變平均身高，但把比爾·蓋茨放到100個(gè)人中，就會(huì)極大改變平均財(cái)富。

在高斯法則生效的領(lǐng)域，所有人跟平均值的差距不會(huì)很大；但是在冪律法則分布的領(lǐng)域，跟平均值的差距就會(huì)大到驚人。

正態(tài)法則和冪律法則，細(xì)思極恐。帶著問題，我們開始概率分布之旅。

1. 概率分布概述

概率分布，是指用于表述隨機(jī)變量取值的概率規(guī)律。將隨機(jī)變量作為橫軸，概率作為縱軸，把隨機(jī)變量與對(duì)應(yīng)變量畫上去，構(gòu)成一個(gè)圖形，這個(gè)圖像就是概率分布的直觀表示。通常也用概率分布函數(shù)表示 F ( x ) F ( x ) F(x)來(lái)描述一個(gè)概率分布，概率分布函數(shù)被定義為：
F ( x ) = P { X < x } F ( x ) =P\{X<x\} F(x)=P{X<x}

總之概率分布也可以理解為一個(gè)函數(shù)，它刻畫了隨機(jī)變量與概率的映射關(guān)系，給定一個(gè)概率分布，就可以求任何隨機(jī)變量對(duì)應(yīng)的概率了。當(dāng)一個(gè)隨機(jī)變量與它的概率滿足某一個(gè)概率分布的映射關(guān)系時(shí)，則稱這個(gè)隨機(jī)變量服從該概率分布。

如下圖為常用概率分別關(guān)系圖。
在這里插入圖片描述

2. 常用概率分布

2.1. 均勻分布

均勻分布在 [a，b] 上具有相同的概率值，是簡(jiǎn)單概率分布。
均勻分布可以很容易地從伯努利分布中得出。在這種情況下，結(jié)果的數(shù)量可能不受限制，并且所有事件的發(fā)生概率均相同。例如擲骰子，存在多個(gè)可能的事件，每個(gè)事件都有相同的發(fā)生概率。
在這里插入圖片描述

2.2. 伯努利分布

伯努利分布（Bernoulli Distribution）是單個(gè)二值隨機(jī)變量的分布，是一種離散分布，又稱為 “0-1 分布” 或 “兩點(diǎn)分布”。例如拋硬幣的正面或反面，物品有缺陷或沒缺陷，病人康復(fù)或未康復(fù)，此類滿足「只有兩種可能，試驗(yàn)結(jié)果相互獨(dú)立且對(duì)立」的隨機(jī)變量通常稱為伯努利隨機(jī)變量。

假設(shè)二值其中之一的概率等于 p p p，而對(duì)于互斥對(duì)立面面則是（ 1 ? p ）（1-p）（1?p）（包含所有可能結(jié)果的互斥事件的概率總和為1）。

對(duì)于伯努利分布來(lái)說，其離散型隨機(jī)變量期望為：
E ( x ) = ∑ x × p ( x ) = 1 × p + 0 × ( 1 ? p ) = p E(x) = ∑x\times p(x) = 1\times p+0\times (1?p) = p E(x)=∑x×p(x)=1×p+0×(1?p)=p
E ( x 2 ) = ∑ x × p ( x 2 ) = 1 2 × p + 0 2 × ( 1 ? p ) = p E(x^2) = ∑x\times p(x^2) = 1^2\times p+0^2\times (1?p) = p E(x2)=∑x×p(x2)=12×p+02×(1?p)=p

方差為：
V a r ( x ) = E ( x 2 ) ? ( E ( x ) ) 2 = p ? p 2 = p ( 1 ? p ) Var(x) = E(x^2)?(E(x))^2 = p?p^2 = p(1?p) Var(x)=E(x2)?(E(x))2=p?p2=p(1?p)
在這里插入圖片描述

2.3. 二項(xiàng)分布

二項(xiàng)分布（binomial distrubution）就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果，而且兩種結(jié)果發(fā)生與否互相對(duì)立，并且相互獨(dú)立，與其它各次試驗(yàn)結(jié)果無(wú)關(guān)，事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變，則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn)，當(dāng)試驗(yàn)次數(shù)為1時(shí)，二項(xiàng)分布服從0-1分布。

P { X = k } = ( n k ) p k ( 1 ? p ) ( n ? k ) P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)} P{X=k}=(kn?)pk(1?p)(n?k)

式中 k = 0 , 1 , 2 , . . . , n k=0,1,2,...,n k=0,1,2,...,n， ( n k ) = n ! k ! ( n ? k ) ! \binom{n}{k}=\frac{n!}{k!(n-k)!} (kn?)=k!(n?k)!n!?是二項(xiàng)式系數(shù)，又記為 C n k C_n^k Cnk?。

二項(xiàng)式分布的主要特征是：

給定多個(gè)試驗(yàn)，每個(gè)試驗(yàn)彼此獨(dú)立（一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn)）。

每個(gè)試驗(yàn)只能得出兩個(gè)可能的結(jié)果（例如，獲勝或失?。涓怕史謩e為p和（1- p）。

如果獲得成功概率（p）和試驗(yàn)次數(shù)（n），則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率（x）。
在這里插入圖片描述
如果二項(xiàng)分布滿足p<q，np≥5，(或p>q，np≥5)時(shí)，二項(xiàng)分布接近正態(tài)分布。

E ( X ) = n p E(X)=np E(X)=np
V a r ( X ) = n p ( 1 ? p ) Var(X)=np(1-p) Var(X)=np(1?p)

2.4. 多項(xiàng)分布

多項(xiàng)式分布（Multinoulli distribution）二項(xiàng)分布的推廣。二項(xiàng)分布（也叫伯努利分布）的典型例子是扔硬幣，硬幣正面朝上概率為p, 重復(fù)扔n次硬幣，k次為正面的概率即為一個(gè)二項(xiàng)分布概率。而多項(xiàng)分布就像扔骰子，有6個(gè)面對(duì)應(yīng)6個(gè)不同的點(diǎn)數(shù)。

某隨機(jī)實(shí)驗(yàn)如果有k個(gè)可能結(jié)局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1?、A2?、…、Ak?，分別將他們的出現(xiàn)次數(shù)記為隨機(jī)變量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1?、X2?、…、Xk?，它們的概率分布分別是 p 1 ， p 2 ， … ， p k p_1，p_2，…，p_k p1?，p2?，…，pk?，那么在n次采樣的總結(jié)果中， A 1 A_1 A1?出現(xiàn) n 1 n_1 n1?次、 A 2 A_2 A2?出現(xiàn) n 2 n_2 n2?次、…、 A k A_k Ak?出現(xiàn) n k n_k nk?次的這種事件的出現(xiàn)概率P有下面公式：

P ( X 1 = n 1 , X 2 = n 2 , ? , X k = n k ) = { n ! n 1 ! n 2 ! ? n k ! p 1 n 1 p 2 n 2 ? p k n k , ∑ i = 1 k n i = n 0 , o r t h e r w i s e P(X_1=n_1,X_2=n_2,?,X_k=n_k)=\left\{

\begin{matrix} \frac{n!}{n 1! n 2! \dots n k!} p_{1}^{n 1} p_{2}^{n 2} \dots p_{k}^{n k} & , \sum_{i = 1}^{k} n_{i} = n \\ 0 & , o r t h e r w i s e \end{matrix}

\right. P(X1?=n1?,X2?=n2?,?,Xk?=nk?)={n1!n2!?nk!n!?p1n1?p2n2??pknk?0?,∑i=1k?ni?=n,ortherwise?

多項(xiàng)分布對(duì)其每一個(gè)結(jié)果都有均值和方差，分別為：

E ( X i ) = n p i E(X_i)=np_i E(Xi?)=npi?
V a r ( X i ) = n p i ( 1 ? p i ) Var(X_i)=np_i(1-p_i) Var(Xi?)=npi?(1?pi?)

2.5. 泊松分布

泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù)，電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等?！揪S基百科】

P ( X = k ) = λ k k ! e ? λ , k = 0 , 1 , . . . P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,... P(X=k)=k!λk?e?λ,k=0,1,...

泊松分布的參數(shù) λ λ λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
泊松分布的期望和方差均為 λ λ λ

在這里插入圖片描述
一般來(lái)說，我們會(huì)換一個(gè)符號(hào)，讓 μ = λ \mu=\lambda μ=λ 。

2.6. 正態(tài)分布

若隨機(jī)變量 X X X服從一個(gè)數(shù)學(xué)期望為 μ μ μ、方差為 σ 2 \sigma ^2 σ2的正態(tài)分布，記為 N ( μ ， σ 2 ) N(μ，σ^2) N(μ，σ2)。其概率密度函數(shù)為正態(tài)分布的期望值 μ μ μ決定了其位置，其標(biāo)準(zhǔn)差 σ σ σ決定了分布的幅度。當(dāng) μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。

標(biāo)準(zhǔn)正態(tài)分布又稱為 u u u分布，是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布，記為 N （ 0 ， 1 ） N（0，1） N（0，1）。
在這里插入圖片描述
一維正態(tài)分布
若隨機(jī)變量 X X X服從一個(gè)位置參數(shù)為 μ μ μ 、尺度參數(shù)為 σ σ σ的概率分布，且其概率密度函數(shù)為：
f ( x ) = 1 2 π σ e ( ? ( x ? μ ) 2 2 σ 2 ) f(x)=\frac {1}{\sqrt{2π}σ}e^{(-\frac{(x-μ)^2}{2σ^2})} f(x)=2π ?σ1?e(?2σ2(x?μ)2?)

標(biāo)準(zhǔn)正態(tài)分布
當(dāng) μ = 0 ， σ = 1 μ=0，σ=1 μ=0，σ=1時(shí)，正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布：
f ( x ) = 1 2 π e ( ? x 2 2 ) f(x)=\frac {1}{\sqrt{2π}}e^{(-\frac{x^2}{2})} f(x)=2π ?1?e(?2x2?)

2.7. 伽馬分布

伽瑪分布（Gamma Distribution），Gamma分布中的參數(shù)α，稱為形狀參數(shù)（shape parameter），β稱為尺度參數(shù)（scale parameter）。
“指數(shù)分布”和“ χ 2 χ^2 χ2分布”都是伽馬分布的特例。

令 X ～ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) X～Γ(α,β)；且令 λ = 1 β \lambda = \frac{1}{\beta} λ=β1?：（即 X ～ Γ ( α , 1 λ ) ） X \sim \Gamma(\alpha, \frac{1}{\lambda})） X～Γ(α,λ1?)）。

f ( X ) = X ( α ? 1 ) λ α e ( ? λ X ) Γ ( α ) ， X > 0 f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)}，X > 0 f(X)=Γ(α)X(α?1)λαe(?λX)?，X>0
在這里插入圖片描述

2.8. 幾何分布

幾何分布（Geometric distribution）在伯努利試驗(yàn)中，記每次試驗(yàn)中事件 A A A發(fā)生的概率為 p p p，試驗(yàn)進(jìn)行到事件A出現(xiàn)時(shí)停止，此時(shí)所進(jìn)行的試驗(yàn)次數(shù)為 X X X，其分布列為：

P ( X = k ) = ( 1 ? p ) ( k ? 1 ) p , k = 1 , 2 , . . . P(X=k)=(1-p)^{(k-1)}p,k=1,2,... P(X=k)=(1?p)(k?1)p,k=1,2,...
此分布列是幾何數(shù)列的一般項(xiàng)，因此稱 X X X服從幾何分布，記為 X ～ G E ( p ) X ～ GE(p) X～GE(p) 。
實(shí)際中有不少隨機(jī)變量服從幾何分布，譬如，某產(chǎn)品的不合格率為0.05，則首次查到不合格品的檢查次數(shù) X ～ G E ( 0.05 ) X ～ GE(0.05) X～GE(0.05) 。
在這里插入圖片描述

X ～ G E ( p ) ， q = 1 ? p ， P ( X = r ) = p q ( r ? 1 ) X\sim GE(p)，q=1-p，P(X = r) = pq^{(r-1)} X～GE(p)，q=1?p，P(X=r)=pq(r?1)，當(dāng) r → ∞ r→∞ r→∞時(shí)：

期望和方差：

E ( X ) = 1 p E(X) = \frac{1}{p} E(X)=p1?
V a r ( X ) = q p 2 Var(X) = \frac{q}{p^2} Var(X)=p2q?

2.9. 指數(shù)分布

在概率理論和統(tǒng)計(jì)學(xué)中，指數(shù)分布（Exponential distribution也稱為負(fù)指數(shù)分布）是描述泊松過程中的事件之間的時(shí)間的概率分布，即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程。這是伽馬分布的一個(gè)特殊情況。它是幾何分布的連續(xù)模擬，它具有無(wú)記憶的關(guān)鍵性質(zhì)。除了用于分析泊松過程外，還可以在其他各種環(huán)境中找到。

f ( x ) = { λ e ? ( λ x ) , x > 0 0 , x ≤ 0 f(x)=\left\{

\begin{matrix} λ e^{- (λ x)} & , x > 0 \\ 0 & , x \leq 0 \end{matrix}

\right. f(x)={λe?(λx)0?,x>0,x≤0?

在概率論和統(tǒng)計(jì)學(xué)中，指數(shù)分布是一種連續(xù)概率分布。指數(shù)分布可以用來(lái)表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔，比如旅客進(jìn)機(jī)場(chǎng)的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。

許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布。有的系統(tǒng)的壽命分布也可用指數(shù)分布來(lái)近似。它在可靠性研究中是最常用的一種分布形式。指數(shù)分布是伽瑪分布和威布爾分布的特殊情況，產(chǎn)品的失效是偶然失效時(shí)，其壽命服從指數(shù)分布。
在這里插入圖片描述

期望與方差：
E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1?
V a r ( X ) = 1 λ 2 Var(X) = \frac{1}{λ^2} Var(X)=λ21?

2.10. 卡方分布

卡方分布（chi-square distribution），也稱為 X 2 X^2 X2分布，若 n n n個(gè)相互獨(dú)立的隨機(jī)變量 ξ 1 , ξ 2 ， . . . , ξ n ξ_1,ξ_2，...,ξ_n ξ1?,ξ2?，...,ξn?，均服從標(biāo)準(zhǔn)正態(tài)分布（也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布），則這 n n n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量，其分布規(guī)律稱為卡方分布。

χ 2 ( n ) χ^2 ( n ) χ2(n) 分布 , 就是 Γ Γ Γ 分布的一種特殊形式：

其中 α = n 2 , β = 1 2 α = \frac{n}{ 2} , β = \frac{1}{ 2} α=2n?,β=21?

f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 ? 1 e ? 1 2 x , x > 0 0 , x ≤ 0 f ( x ) = \left\{

\begin{matrix} \frac{1}{2^{\frac{n}{2}} Γ (\frac{n}{2})} x^{\frac{n}{2} - 1} e^{- \frac{1}{2} x} & , x > 0 \\ 0 & , x \leq 0 \end{matrix}

\right. f(x)={22n?Γ(2n?)1?x2n??1e?21?x0?,x>0,x≤0?

定義如果隨機(jī)變臉 X i X_i Xi? 之間相互獨(dú) 立且服從 N ( 0 , 1 ) N ( 0 , 1 ) N(0,1) , 分布 , 則稱隨機(jī) 變量
χ 2 = X 1 2 + X 2 2 + . . . + X n 2 χ^2 = X_1^ 2 + X_ 2^2 + ... + X_n^2 χ2=X12?+X22?+...+Xn2? 服從自由度為 n n n 的 χ 2 χ^2 χ2 分布記為 χ 2 ～ X 2 ( n ) χ^2\sim X^2(n) χ2～X2(n)

在這里插入圖片描述

2.11. beta分布

貝塔分布（Beta Distribution) 是一個(gè)作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù)，在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)學(xué)中有重要應(yīng)用。在概率論中，貝塔分布，也稱 B Β B分布，是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。
f ( x : α , β ) = 1 B ( α , β ) x ( α ? 1 ) ( 1 ? x ) ( β ? 1 ) f(x:α ,β)=\frac{1}{B(α ,β)}x^{(α-1)}(1-x)^{(β-1)} f(x:α,β)=B(α,β)1?x(α?1)(1?x)(β?1)
其中 Γ ( z ) Γ(z) Γ(z) 是 Γ Γ Γ函數(shù)。隨機(jī)變量 X X X服從參數(shù)為 ( α , β ) (α ,β) (α,β) 的 B Β B分布通常寫作
X ～ B e B ( α , β ) X \sim BeB(α ,β) X～BeB(α,β)

在這里插入圖片描述

2.12. 冪律分布

冪律分布是指某個(gè)具有分布性質(zhì)的變量，且其分布密度函數(shù)是冪函數(shù)（由于分布密度函數(shù)必然滿足“歸一律”，所以這里的冪函數(shù)，一般規(guī)定小于負(fù)1）的分布。

冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。

假設(shè)變量x服從參數(shù)為的冪律分布，則其概率密度函數(shù)可以表示為：
f ( x ) = c x ? α ? 1 , x → ∞ f(x)=cx^{-α-1}, x→∞ f(x)=cx?α?1,x→∞
在這里插入圖片描述
在雙對(duì)數(shù)坐標(biāo)下，冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線，這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。

Zipf定律與Pareto定律（帕累托定律）
對(duì)“長(zhǎng)尾”分布研究做出重要貢獻(xiàn)的是Zipf和Pareto ，雖然他們并不是這種分布的最早發(fā)現(xiàn)者。Zipf定律與Pareto定律都是簡(jiǎn)單的冪函數(shù)，我們稱之為冪律分布。
在這里插入圖片描述

3. 總結(jié)

回顧本文的開始，冪律分布的長(zhǎng)尾現(xiàn)象很普遍，大數(shù)據(jù)中小概率數(shù)據(jù)普遍存在，如何解決呢？

我的方法是把數(shù)據(jù) x 3 \sqrt[3]{x} 3x ?，對(duì)模型的精度結(jié)果影響只有不到千分之一，也就是說數(shù)據(jù)變換縮短尾巴效果有限。另外的方法，是從整體模型上考慮細(xì)分，二八原則中，把20%的分離出來(lái)，自頂向下逐步精確。

參考：

【1】視學(xué)算法，數(shù)據(jù)分析必須掌握的概率分布！建議收藏！ CSDN博客，2019.11
【2】數(shù)據(jù)派THU，深度學(xué)習(xí)必懂的 13 種概率分布（附鏈接） CSDN博客，2020.02
【3】馬同學(xué)圖解數(shù)學(xué), 如何通俗理解泊松分布？ CSDN博客，2019.04
【4】劉之帥，機(jī)器學(xué)習(xí)中的“分布” CSDN博客，2020.04
【5】我是8位的，概率統(tǒng)計(jì)14——幾何分布博客園，2020.01
【6】sam-X，正態(tài)和伽馬分布族 CSDN博客，2018.09
【7】娜娜醬，生存法則—正態(tài)分布和冪律分布知乎，2018.07

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片