免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

從冪律分布到特征數(shù)據(jù)概率分布

 lhbsd 2022-09-07 發(fā)布于廣東

在機(jī)器學(xué)習(xí)領(lǐng)域,概率分布對(duì)于數(shù)據(jù)的認(rèn)識(shí)有著非常重要的作用。不管是有效數(shù)據(jù)還是噪聲數(shù)據(jù),如果知道了數(shù)據(jù)的分布,那么在數(shù)據(jù)建模過程中會(huì)得到很大的啟示。

首先,如下圖所示8個(gè)特征數(shù)據(jù)概率分布情況(已經(jīng)做歸一化),這些特征是正態(tài)分布、伯努利分布,還是泊松分布、冪律分布?
在這里插入圖片描述

在這里插入圖片描述
在高斯法則生效的領(lǐng)域,平均值可以代表整體。但是在冪律法則統(tǒng)治的領(lǐng)域,平均值毫無(wú)意義。高斯法則和冪律法則的典型代表是分別身高和財(cái)富,把姚明放到100個(gè)人中,并不會(huì)顯著改變平均身高,但把比爾·蓋茨放到100個(gè)人中,就會(huì)極大改變平均財(cái)富。

在高斯法則生效的領(lǐng)域,所有人跟平均值的差距不會(huì)很大;但是在冪律法則分布的領(lǐng)域,跟平均值的差距就會(huì)大到驚人。

正態(tài)法則和冪律法則,細(xì)思極恐。帶著問題,我們開始概率分布之旅。

1. 概率分布概述

概率分布,是指用于表述隨機(jī)變量取值的概率規(guī)律。將隨機(jī)變量作為橫軸,概率作為縱軸,把隨機(jī)變量與對(duì)應(yīng)變量畫上去,構(gòu)成一個(gè)圖形,這個(gè)圖像就是概率分布的直觀表示。通常也用概率分布函數(shù)表示 F ( x ) F ( x ) F(x)來(lái)描述一個(gè)概率分布,概率分布函數(shù)被定義為:
F ( x ) = P { X < x } F ( x ) =P\{X<x\} F(x)=P{X<x}

總之概率分布也可以理解為一個(gè)函數(shù),它刻畫了隨機(jī)變量與概率的映射關(guān)系,給定一個(gè)概率分布,就可以求任何隨機(jī)變量對(duì)應(yīng)的概率了。當(dāng)一個(gè)隨機(jī)變量與它的概率滿足某一個(gè)概率分布的映射關(guān)系時(shí),則稱這個(gè)隨機(jī)變量服從該概率分布。

如下圖為常用概率分別關(guān)系圖。
在這里插入圖片描述

2. 常用概率分布

2.1. 均勻分布

均勻分布在 [a,b] 上具有相同的概率值,是簡(jiǎn)單概率分布。
均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結(jié)果的數(shù)量可能不受限制,并且所有事件的發(fā)生概率均相同。例如擲骰子,存在多個(gè)可能的事件,每個(gè)事件都有相同的發(fā)生概率。
在這里插入圖片描述

2.2. 伯努利分布

伯努利分布(Bernoulli Distribution)是單個(gè)二值隨機(jī)變量的分布,是一種離散分布,又稱為 “0-1 分布” 或 “兩點(diǎn)分布”。例如拋硬幣的正面或反面,物品有缺陷或沒缺陷,病人康復(fù)或未康復(fù),此類滿足「只有兩種可能,試驗(yàn)結(jié)果相互獨(dú)立且對(duì)立」的隨機(jī)變量通常稱為伯努利隨機(jī)變量。

假設(shè)二值其中之一的概率等于 p p p,而對(duì)于互斥對(duì)立面面則是 ( 1 ? p ) (1-p) 1?p(包含所有可能結(jié)果的互斥事件的概率總和為1)。

對(duì)于伯努利分布來(lái)說,其離散型隨機(jī)變量期望為:
E ( x ) = ∑ x × p ( x ) = 1 × p + 0 × ( 1 ? p ) = p E(x) = ∑x\times p(x) = 1\times p+0\times (1?p) = p E(x)=x×p(x)=1×p+0×(1?p)=p
E ( x 2 ) = ∑ x × p ( x 2 ) = 1 2 × p + 0 2 × ( 1 ? p ) = p E(x^2) = ∑x\times p(x^2) = 1^2\times p+0^2\times (1?p) = p E(x2)=x×p(x2)=12×p+02×(1?p)=p

方差為:
V a r ( x ) = E ( x 2 ) ? ( E ( x ) ) 2 = p ? p 2 = p ( 1 ? p ) Var(x) = E(x^2)?(E(x))^2 = p?p^2 = p(1?p) Var(x)=E(x2)?(E(x))2=p?p2=p(1?p)
在這里插入圖片描述

2.3. 二項(xiàng)分布

二項(xiàng)分布(binomial distrubution)就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對(duì)立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無(wú)關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布。

P { X = k } = ( n k ) p k ( 1 ? p ) ( n ? k ) P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)} P{X=k}=(kn?)pk(1?p)(n?k)

式中 k = 0 , 1 , 2 , . . . , n k=0,1,2,...,n k=0,1,2,...,n, ( n k ) = n ! k ! ( n ? k ) ! \binom{n}{k}=\frac{n!}{k!(n-k)!} (kn?)=k!(n?k)!n!?是二項(xiàng)式系數(shù),又記為 C n k C_n^k Cnk?。

二項(xiàng)式分布的主要特征是:

給定多個(gè)試驗(yàn),每個(gè)試驗(yàn)彼此獨(dú)立(一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn))。

每個(gè)試驗(yàn)只能得出兩個(gè)可能的結(jié)果(例如,獲勝或失?。涓怕史謩e為p和(1- p)。

如果獲得成功概率(p)和試驗(yàn)次數(shù)(n),則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率(x)。
在這里插入圖片描述
如果二項(xiàng)分布滿足p<q,np≥5,(或p>q,np≥5)時(shí),二項(xiàng)分布接近正態(tài)分布。

E ( X ) = n p E(X)=np E(X)=np
V a r ( X ) = n p ( 1 ? p ) Var(X)=np(1-p) Var(X)=np(1?p)

2.4. 多項(xiàng)分布

多項(xiàng)式分布(Multinoulli distribution)二項(xiàng)分布的推廣。二項(xiàng)分布(也叫伯努利分布)的典型例子是扔硬幣,硬幣正面朝上概率為p, 重復(fù)扔n次硬幣,k次為正面的概率即為一個(gè)二項(xiàng)分布概率。而多項(xiàng)分布就像扔骰子,有6個(gè)面對(duì)應(yīng)6個(gè)不同的點(diǎn)數(shù)。

某隨機(jī)實(shí)驗(yàn)如果有k個(gè)可能結(jié)局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1?、A2?、Ak?,分別將他們的出現(xiàn)次數(shù)記為隨機(jī)變量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1?、X2?、Xk?,它們的概率分布分別是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1?,p2?,pk?,那么在n次采樣的總結(jié)果中, A 1 A_1 A1?出現(xiàn) n 1 n_1 n1?次、 A 2 A_2 A2?出現(xiàn) n 2 n_2 n2?次、…、 A k A_k Ak?出現(xiàn) n k n_k nk?次的這種事件的出現(xiàn)概率P有下面公式:

P ( X 1 = n 1 , X 2 = n 2 , ? , X k = n k ) = { n ! n 1 ! n 2 ! ? n k ! p 1 n 1 p 2 n 2 ? p k n k , ∑ i = 1 k n i = n 0 , o r t h e r w i s e P(X_1=n_1,X_2=n_2,?,X_k=n_k)=\left\{

n!n1!n2!?nk!p1n1p2n2?pknk,i=1kni=n0,ortherwise
\right. P(X1?=n1?,X2?=n2?,?,Xk?=nk?)={n1!n2!?nk!n!?p1n1?p2n2??pknk?0?,i=1k?ni?=n,ortherwise?

多項(xiàng)分布對(duì)其每一個(gè)結(jié)果都有均值和方差,分別為:

E ( X i ) = n p i E(X_i)=np_i E(Xi?)=npi?
V a r ( X i ) = n p i ( 1 ? p i ) Var(X_i)=np_i(1-p_i) Var(Xi?)=npi?(1?pi?)

2.5. 泊松分布

泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù),電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等?!揪S基百科】

P ( X = k ) = λ k k ! e ? λ , k = 0 , 1 , . . . P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,... P(X=k)=k!λk?e?λ,k=0,1,...

泊松分布的參數(shù) λ λ λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。 泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
泊松分布的期望和方差均為 λ λ λ

在這里插入圖片描述
一般來(lái)說,我們會(huì)換一個(gè)符號(hào),讓 μ = λ \mu=\lambda μ=λ

2.6. 正態(tài)分布

若隨機(jī)變量 X X X服從一個(gè)數(shù)學(xué)期望為 μ μ μ、方差為 σ 2 \sigma ^2 σ2的正態(tài)分布,記為 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值 μ μ μ決定了其位置,其標(biāo)準(zhǔn)差 σ σ σ決定了分布的幅度。當(dāng) μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。

標(biāo)準(zhǔn)正態(tài)分布又稱為 u u u分布,是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為 N ( 0 , 1 ) N(0,1) N0,1
在這里插入圖片描述
一維正態(tài)分布
若隨機(jī)變量 X X X服從一個(gè)位置參數(shù)為 μ μ μ 、尺度參數(shù)為 σ σ σ的概率分布,且其概率密度函數(shù)為:
f ( x ) = 1 2 π σ e ( ? ( x ? μ ) 2 2 σ 2 ) f(x)=\frac {1}{\sqrt{2π}σ}e^{(-\frac{(x-μ)^2}{2σ^2})} f(x)=2π ?σ1?e(?2σ2(x?μ)2?)

標(biāo)準(zhǔn)正態(tài)分布
當(dāng) μ = 0 , σ = 1 μ=0,σ=1 μ=0,σ=1時(shí),正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布:
f ( x ) = 1 2 π e ( ? x 2 2 ) f(x)=\frac {1}{\sqrt{2π}}e^{(-\frac{x^2}{2})} f(x)=2π ?1?e(?2x2?)

2.7. 伽馬分布

伽瑪分布(Gamma Distribution),Gamma分布中的參數(shù)α,稱為形狀參數(shù)(shape parameter),β稱為尺度參數(shù)(scale parameter)。
“指數(shù)分布”和“ χ 2 χ^2 χ2分布”都是伽馬分布的特例。

X ~ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) XΓ(α,β);且令 λ = 1 β \lambda = \frac{1}{\beta} λ=β1?: (即 X ~ Γ ( α , 1 λ ) ) X \sim \Gamma(\alpha, \frac{1}{\lambda})) XΓ(α,λ1?)。

f ( X ) = X ( α ? 1 ) λ α e ( ? λ X ) Γ ( α ) , X > 0 f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)},X > 0 f(X)=Γ(α)X(α?1)λαe(?λX)?X>0
在這里插入圖片描述

2.8. 幾何分布

幾何分布(Geometric distribution)在伯努利試驗(yàn)中,記每次試驗(yàn)中事件 A A A發(fā)生的概率為 p p p,試驗(yàn)進(jìn)行到事件A出現(xiàn)時(shí)停止,此時(shí)所進(jìn)行的試驗(yàn)次數(shù)為 X X X,其分布列為:

P ( X = k ) = ( 1 ? p ) ( k ? 1 ) p , k = 1 , 2 , . . . P(X=k)=(1-p)^{(k-1)}p,k=1,2,... P(X=k)=(1?p)(k?1)p,k=1,2,...
此分布列是幾何數(shù)列的一般項(xiàng),因此稱 X X X服從幾何分布,記為 X ~ G E ( p ) X ~ GE(p) XGE(p)
實(shí)際中有不少隨機(jī)變量服從幾何分布,譬如,某產(chǎn)品的不合格率為0.05,則首次查到不合格品的檢查次數(shù) X ~ G E ( 0.05 ) X ~ GE(0.05) XGE(0.05)
在這里插入圖片描述

X ~ G E ( p ) , q = 1 ? p , P ( X = r ) = p q ( r ? 1 ) X\sim GE(p),q=1-p,P(X = r) = pq^{(r-1)} XGE(p),q=1?pP(X=r)=pq(r?1),當(dāng) r → ∞ r→∞ r時(shí):

期望和方差:

E ( X ) = 1 p E(X) = \frac{1}{p} E(X)=p1?
V a r ( X ) = q p 2 Var(X) = \frac{q}{p^2} Var(X)=p2q?

2.9. 指數(shù)分布

在概率理論和統(tǒng)計(jì)學(xué)中,指數(shù)分布(Exponential distribution也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程。 這是伽馬分布的一個(gè)特殊情況。 它是幾何分布的連續(xù)模擬,它具有無(wú)記憶的關(guān)鍵性質(zhì)。 除了用于分析泊松過程外,還可以在其他各種環(huán)境中找到。

f ( x ) = { λ e ? ( λ x ) , x > 0 0 , x ≤ 0 f(x)=\left\{

λe?(λx),x>00,x0
\right. f(x)={λe?(λx)0?,x>0,x0?

在概率論和統(tǒng)計(jì)學(xué)中,指數(shù)分布是一種連續(xù)概率分布。指數(shù)分布可以用來(lái)表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如旅客進(jìn)機(jī)場(chǎng)的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。

許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布。有的系統(tǒng)的壽命分布也可用指數(shù)分布來(lái)近似。它在可靠性研究中是最常用的一種分布形式。指數(shù)分布是伽瑪分布和威布爾分布的特殊情況,產(chǎn)品的失效是偶然失效時(shí),其壽命服從指數(shù)分布。
在這里插入圖片描述

期望與方差:
E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1?
V a r ( X ) = 1 λ 2 Var(X) = \frac{1}{λ^2} Var(X)=λ21?

2.10. 卡方分布

卡方分布(chi-square distribution),也稱為 X 2 X^2 X2分布,若 n n n個(gè)相互獨(dú)立的隨機(jī)變量 ξ 1 , ξ 2 , . . . , ξ n ξ_1,ξ_2,...,ξ_n ξ1?,ξ2?,...,ξn?,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這 n n n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。

χ 2 ( n ) χ^2 ( n ) χ2(n) 分 布 , 就 是 Γ Γ Γ 分 布 的 一 種 特 殊 形 式:

其中 α = n 2 , β = 1 2 α = \frac{n}{ 2} , β = \frac{1}{ 2} α=2n?,β=21?

f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 ? 1 e ? 1 2 x , x > 0 0 , x ≤ 0 f ( x ) = \left\{

12n2Γ(n2)xn2?1e?12x,x>00,x0
\right. f(x)={22n?Γ(2n?)1?x2n??1e?21?x0?,x>0,x0?

定義 如果隨機(jī)變臉 X i X_i Xi? 之 間 相 互 獨(dú) 立 且 服 從 N ( 0 , 1 ) N ( 0 , 1 ) N(0,1) , 分 布 , 則 稱 隨 機(jī) 變 量
χ 2 = X 1 2 + X 2 2 + . . . + X n 2 χ^2 = X_1^ 2 + X_ 2^2 + ... + X_n^2 χ2=X12?+X22?+...+Xn2? 服從自由度為 n n n χ 2 χ^2 χ2 分 布 記 為 χ 2 ~ X 2 ( n ) χ^2\sim X^2(n) χ2X2(n)

在這里插入圖片描述

2.11. beta分布

貝塔分布(Beta Distribution) 是一個(gè)作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù),在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)學(xué)中有重要應(yīng)用。在概率論中,貝塔分布,也稱 B Β B分布,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。
f ( x : α , β ) = 1 B ( α , β ) x ( α ? 1 ) ( 1 ? x ) ( β ? 1 ) f(x:α ,β)=\frac{1}{B(α ,β)}x^{(α-1)}(1-x)^{(β-1)} f(x:α,β)=B(α,β)1?x(α?1)(1?x)(β?1)
其中 Γ ( z ) Γ(z) Γ(z) Γ Γ Γ函數(shù)。隨機(jī)變量 X X X服從參數(shù)為 ( α , β ) (α ,β) (α,β) B Β B分布通常寫作
X ~ B e B ( α , β ) X \sim BeB(α ,β) XBeB(α,β)

在這里插入圖片描述

2.12. 冪律分布

冪律分布是指某個(gè)具有分布性質(zhì)的變量,且其分布密度函數(shù)是冪函數(shù)(由于分布密度函數(shù)必然滿足“歸一律”,所以這里的冪函數(shù),一般規(guī)定小于負(fù)1)的分布。

冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。

假設(shè)變量x服從參數(shù)為 的冪律分布,則其概率密度函數(shù)可以表示為:
f ( x ) = c x ? α ? 1 , x → ∞ f(x)=cx^{-α-1}, x→∞ f(x)=cx?α?1,x
在這里插入圖片描述
在雙對(duì)數(shù)坐標(biāo)下,冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。

Zipf定律與Pareto定律(帕累托定律)
對(duì)“長(zhǎng)尾”分布研究做出重要貢獻(xiàn)的是Zipf和Pareto ,雖然他們并不是這種分布的最早發(fā)現(xiàn)者。Zipf定律與Pareto定律都是簡(jiǎn)單的冪函數(shù),我們稱之為冪律分布。
在這里插入圖片描述

3. 總結(jié)

回顧本文的開始,冪律分布的長(zhǎng)尾現(xiàn)象很普遍,大數(shù)據(jù)中小概率數(shù)據(jù)普遍存在,如何解決呢?

我的方法是把數(shù)據(jù) x 3 \sqrt[3]{x} 3x ?,對(duì)模型的精度結(jié)果影響只有不到千分之一,也就是說數(shù)據(jù)變換縮短尾巴效果有限。另外的方法,是從整體模型上考慮細(xì)分,二八原則中,把20%的分離出來(lái),自頂向下逐步精確。

參考:

【1】視學(xué)算法,數(shù)據(jù)分析必須掌握的概率分布!建議收藏! CSDN博客 ,2019.11
【2】數(shù)據(jù)派THU,深度學(xué)習(xí)必懂的 13 種概率分布(附鏈接) CSDN博客,2020.02
【3】馬同學(xué)圖解數(shù)學(xué), 如何通俗理解泊松分布? CSDN博客,2019.04
【4】劉之帥,機(jī)器學(xué)習(xí)中的“分布” CSDN博客,2020.04
【5】我是8位的,概率統(tǒng)計(jì)14——幾何分布 博客園 ,2020.01
【6】sam-X,正態(tài)和伽馬分布族 CSDN博客,2018.09
【7】娜娜醬,生存法則—正態(tài)分布和冪律分布 知乎,2018.07

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多