在機(jī)器學(xué)習(xí)領(lǐng)域,概率分布對(duì)于數(shù)據(jù)的認(rèn)識(shí)有著非常重要的作用。不管是有效數(shù)據(jù)還是噪聲數(shù)據(jù),如果知道了數(shù)據(jù)的分布,那么在數(shù)據(jù)建模過程中會(huì)得到很大的啟示。 首先,如下圖所示8個(gè)特征數(shù)據(jù)概率分布情況(已經(jīng)做歸一化),這些特征是正態(tài)分布、伯努利分布,還是泊松分布、冪律分布?
在高斯法則生效的領(lǐng)域,所有人跟平均值的差距不會(huì)很大;但是在冪律法則分布的領(lǐng)域,跟平均值的差距就會(huì)大到驚人。 正態(tài)法則和冪律法則,細(xì)思極恐。帶著問題,我們開始概率分布之旅。 1. 概率分布概述概率分布,是指用于表述隨機(jī)變量取值的概率規(guī)律。將隨機(jī)變量作為橫軸,概率作為縱軸,把隨機(jī)變量與對(duì)應(yīng)變量畫上去,構(gòu)成一個(gè)圖形,這個(gè)圖像就是概率分布的直觀表示。通常也用概率分布函數(shù)表示
F
(
x
)
F ( x )
F(x)來(lái)描述一個(gè)概率分布,概率分布函數(shù)被定義為: 總之概率分布也可以理解為一個(gè)函數(shù),它刻畫了隨機(jī)變量與概率的映射關(guān)系,給定一個(gè)概率分布,就可以求任何隨機(jī)變量對(duì)應(yīng)的概率了。當(dāng)一個(gè)隨機(jī)變量與它的概率滿足某一個(gè)概率分布的映射關(guān)系時(shí),則稱這個(gè)隨機(jī)變量服從該概率分布。 如下圖為常用概率分別關(guān)系圖。 2. 常用概率分布2.1. 均勻分布均勻分布在 [a,b] 上具有相同的概率值,是簡(jiǎn)單概率分布。 2.2. 伯努利分布伯努利分布(Bernoulli Distribution)是單個(gè)二值隨機(jī)變量的分布,是一種離散分布,又稱為 “0-1 分布” 或 “兩點(diǎn)分布”。例如拋硬幣的正面或反面,物品有缺陷或沒缺陷,病人康復(fù)或未康復(fù),此類滿足「只有兩種可能,試驗(yàn)結(jié)果相互獨(dú)立且對(duì)立」的隨機(jī)變量通常稱為伯努利隨機(jī)變量。 假設(shè)二值其中之一的概率等于 p p p,而對(duì)于互斥對(duì)立面面則是 ( 1 ? p ) (1-p) (1?p)(包含所有可能結(jié)果的互斥事件的概率總和為1)。 對(duì)于伯努利分布來(lái)說,其離散型隨機(jī)變量期望為: 方差為: 2.3. 二項(xiàng)分布二項(xiàng)分布(binomial distrubution)就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對(duì)立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無(wú)關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布。 P { X = k } = ( n k ) p k ( 1 ? p ) ( n ? k ) P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)} P{X=k}=(kn?)pk(1?p)(n?k) 式中 k = 0 , 1 , 2 , . . . , n k=0,1,2,...,n k=0,1,2,...,n, ( n k ) = n ! k ! ( n ? k ) ! \binom{n}{k}=\frac{n!}{k!(n-k)!} (kn?)=k!(n?k)!n!?是二項(xiàng)式系數(shù),又記為 C n k C_n^k Cnk?。 二項(xiàng)式分布的主要特征是: 給定多個(gè)試驗(yàn),每個(gè)試驗(yàn)彼此獨(dú)立(一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn))。 每個(gè)試驗(yàn)只能得出兩個(gè)可能的結(jié)果(例如,獲勝或失?。涓怕史謩e為p和(1- p)。 如果獲得成功概率(p)和試驗(yàn)次數(shù)(n),則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率(x)。
E
(
X
)
=
n
p
E(X)=np
E(X)=np 2.4. 多項(xiàng)分布多項(xiàng)式分布(Multinoulli distribution)二項(xiàng)分布的推廣。二項(xiàng)分布(也叫伯努利分布)的典型例子是扔硬幣,硬幣正面朝上概率為p, 重復(fù)扔n次硬幣,k次為正面的概率即為一個(gè)二項(xiàng)分布概率。而多項(xiàng)分布就像扔骰子,有6個(gè)面對(duì)應(yīng)6個(gè)不同的點(diǎn)數(shù)。 某隨機(jī)實(shí)驗(yàn)如果有k個(gè)可能結(jié)局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1?、A2?、…、Ak?,分別將他們的出現(xiàn)次數(shù)記為隨機(jī)變量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1?、X2?、…、Xk?,它們的概率分布分別是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1?,p2?,…,pk?,那么在n次采樣的總結(jié)果中, A 1 A_1 A1?出現(xiàn) n 1 n_1 n1?次、 A 2 A_2 A2?出現(xiàn) n 2 n_2 n2?次、…、 A k A_k Ak?出現(xiàn) n k n_k nk?次的這種事件的出現(xiàn)概率P有下面公式: P ( X 1 = n 1 , X 2 = n 2 , ? , X k = n k ) = { n ! n 1 ! n 2 ! ? n k ! p 1 n 1 p 2 n 2 ? p k n k , ∑ i = 1 k n i = n 0 , o r t h e r w i s e P(X_1=n_1,X_2=n_2,?,X_k=n_k)=\left\{ \right.
P(X1?=n1?,X2?=n2?,?,Xk?=nk?)={n1!n2!?nk!n!?p1n1?p2n2??pknk?0?,∑i=1k?ni?=n,ortherwise?
多項(xiàng)分布對(duì)其每一個(gè)結(jié)果都有均值和方差,分別為:
E
(
X
i
)
=
n
p
i
E(X_i)=np_i
E(Xi?)=npi? 2.5. 泊松分布泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù),電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等?!揪S基百科】 P ( X = k ) = λ k k ! e ? λ , k = 0 , 1 , . . . P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,... P(X=k)=k!λk?e?λ,k=0,1,... 泊松分布的參數(shù)
λ
λ
λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。 泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
2.6. 正態(tài)分布若隨機(jī)變量 X X X服從一個(gè)數(shù)學(xué)期望為 μ μ μ、方差為 σ 2 \sigma ^2 σ2的正態(tài)分布,記為 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值 μ μ μ決定了其位置,其標(biāo)準(zhǔn)差 σ σ σ決定了分布的幅度。當(dāng) μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。 標(biāo)準(zhǔn)正態(tài)分布又稱為
u
u
u分布,是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為
N
(
0
,
1
)
N(0,1)
N(0,1)。 標(biāo)準(zhǔn)正態(tài)分布 2.7. 伽馬分布伽瑪分布(Gamma Distribution),Gamma分布中的參數(shù)α,稱為形狀參數(shù)(shape parameter),β稱為尺度參數(shù)(scale parameter)。 令 X ~ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) X~Γ(α,β);且令 λ = 1 β \lambda = \frac{1}{\beta} λ=β1?: (即 X ~ Γ ( α , 1 λ ) ) X \sim \Gamma(\alpha, \frac{1}{\lambda})) X~Γ(α,λ1?))。
f
(
X
)
=
X
(
α
?
1
)
λ
α
e
(
?
λ
X
)
Γ
(
α
)
,
X
>
0
f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)},X > 0
f(X)=Γ(α)X(α?1)λαe(?λX)?,X>0 2.8. 幾何分布幾何分布(Geometric distribution)在伯努利試驗(yàn)中,記每次試驗(yàn)中事件 A A A發(fā)生的概率為 p p p,試驗(yàn)進(jìn)行到事件A出現(xiàn)時(shí)停止,此時(shí)所進(jìn)行的試驗(yàn)次數(shù)為 X X X,其分布列為:
P
(
X
=
k
)
=
(
1
?
p
)
(
k
?
1
)
p
,
k
=
1
,
2
,
.
.
.
P(X=k)=(1-p)^{(k-1)}p,k=1,2,...
P(X=k)=(1?p)(k?1)p,k=1,2,... X ~ G E ( p ) , q = 1 ? p , P ( X = r ) = p q ( r ? 1 ) X\sim GE(p),q=1-p,P(X = r) = pq^{(r-1)} X~GE(p),q=1?p,P(X=r)=pq(r?1),當(dāng) r → ∞ r→∞ r→∞時(shí): 期望和方差:
E
(
X
)
=
1
p
E(X) = \frac{1}{p}
E(X)=p1? 2.9. 指數(shù)分布在概率理論和統(tǒng)計(jì)學(xué)中,指數(shù)分布(Exponential distribution也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程。 這是伽馬分布的一個(gè)特殊情況。 它是幾何分布的連續(xù)模擬,它具有無(wú)記憶的關(guān)鍵性質(zhì)。 除了用于分析泊松過程外,還可以在其他各種環(huán)境中找到。 f ( x ) = { λ e ? ( λ x ) , x > 0 0 , x ≤ 0 f(x)=\left\{ \right.
f(x)={λe?(λx)0?,x>0,x≤0?
在概率論和統(tǒng)計(jì)學(xué)中,指數(shù)分布是一種連續(xù)概率分布。指數(shù)分布可以用來(lái)表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如旅客進(jìn)機(jī)場(chǎng)的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。 許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布。有的系統(tǒng)的壽命分布也可用指數(shù)分布來(lái)近似。它在可靠性研究中是最常用的一種分布形式。指數(shù)分布是伽瑪分布和威布爾分布的特殊情況,產(chǎn)品的失效是偶然失效時(shí),其壽命服從指數(shù)分布。 期望與方差: 2.10. 卡方分布卡方分布(chi-square distribution),也稱為 X 2 X^2 X2分布,若 n n n個(gè)相互獨(dú)立的隨機(jī)變量 ξ 1 , ξ 2 , . . . , ξ n ξ_1,ξ_2,...,ξ_n ξ1?,ξ2?,...,ξn?,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這 n n n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。 χ 2 ( n ) χ^2 ( n ) χ2(n) 分 布 , 就 是 Γ Γ Γ 分 布 的 一 種 特 殊 形 式: 其中 α = n 2 , β = 1 2 α = \frac{n}{ 2} , β = \frac{1}{ 2} α=2n?,β=21? f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 ? 1 e ? 1 2 x , x > 0 0 , x ≤ 0 f ( x ) = \left\{ \right.
f(x)={22n?Γ(2n?)1?x2n??1e?21?x0?,x>0,x≤0?
定義 如果隨機(jī)變臉
X
i
X_i
Xi? 之 間 相 互 獨(dú) 立 且 服 從
N
(
0
,
1
)
N ( 0 , 1 )
N(0,1) , 分 布 , 則 稱 隨 機(jī) 變 量 2.11. beta分布貝塔分布(Beta Distribution) 是一個(gè)作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù),在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)學(xué)中有重要應(yīng)用。在概率論中,貝塔分布,也稱
B
Β
B分布,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。 2.12. 冪律分布冪律分布是指某個(gè)具有分布性質(zhì)的變量,且其分布密度函數(shù)是冪函數(shù)(由于分布密度函數(shù)必然滿足“歸一律”,所以這里的冪函數(shù),一般規(guī)定小于負(fù)1)的分布。 冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。 假設(shè)變量x服從參數(shù)為 的冪律分布,則其概率密度函數(shù)可以表示為: Zipf定律與Pareto定律(帕累托定律) 3. 總結(jié)回顧本文的開始,冪律分布的長(zhǎng)尾現(xiàn)象很普遍,大數(shù)據(jù)中小概率數(shù)據(jù)普遍存在,如何解決呢? 我的方法是把數(shù)據(jù) x 3 \sqrt[3]{x} 3x ?,對(duì)模型的精度結(jié)果影響只有不到千分之一,也就是說數(shù)據(jù)變換縮短尾巴效果有限。另外的方法,是從整體模型上考慮細(xì)分,二八原則中,把20%的分離出來(lái),自頂向下逐步精確。 參考: 【1】視學(xué)算法,數(shù)據(jù)分析必須掌握的概率分布!建議收藏! CSDN博客 ,2019.11 |
|