常見概率分布及在R中的應(yīng)用（轉(zhuǎn)）

勤悅軒 2015-09-23

展開全文

http://eyejava./blog/324189

R提供工具來計(jì)算累計(jì)分布函數(shù)p(cummulative distribution function CDF),概率密度函數(shù)d和分位數(shù)函數(shù)q，另外在各種概率分布前加r表示產(chǎn)生隨機(jī)序列

（R這種直接在分布前面加前綴的語法太難讀了，pt() 誤以為還是一個(gè)函數(shù)，實(shí)際上的含義是p(t())，為什么不寫成這個(gè)格式呢？不過t()返回什么好...）

常見概率分布

離散型

1.二項(xiàng)分布Binomial distribution：binom

二項(xiàng)分布指的是N重伯努利實(shí)驗(yàn)，記為X ~ b(n,p)，E(x)=np,Var(x)=np(1-p)

pbinom(q,size,prob)， q是特定取值，比如pbinom(8,20,0.2)指第8次伯努利實(shí)驗(yàn)的累計(jì)概率。size指總的實(shí)驗(yàn)次數(shù)，prob指每次實(shí)驗(yàn)成功發(fā)生的概率

dbinom(x,size,prob), x同上面的q同含義。dfunction()對(duì)于離散分布來說結(jié)果是特定值的概率，對(duì)連續(xù)變量來說是密度（Density）

rbinom(n, size, prob)，產(chǎn)生n個(gè)b(size,prob)的二項(xiàng)分布隨機(jī)數(shù)

qbinom(p, size, prob),quantile function 分位數(shù)函數(shù)。

分位數(shù)：

若概率0

Za)=α的實(shí)數(shù)。如t分布的分位數(shù)表，自由度f=20和α=0.05時(shí)的分位數(shù)為1.7247。 --這個(gè)定義指的是上側(cè)α分位數(shù)

α分位數(shù)：

實(shí)數(shù)α滿足0 <α<1 時(shí)，α分位數(shù)是使P{X< xα}=F(xα)=α的數(shù)xα

雙側(cè)α分位數(shù)是使P{X<λ1}=F(λ1)=0.5α的數(shù)λ1、使 P{X>λ2}=1-F(λ2)=0.5α的數(shù)λ2。

qbinom是上側(cè)分位數(shù)，如qbinom(0.95,100,0.2)=27,指27之后P(x>=27)>=0.95。即對(duì)于b(100,0.2)為了達(dá)到0.95的概率至少需要27次重復(fù)實(shí)驗(yàn)。

2.負(fù)二項(xiàng)分布negative binomial distribution （帕斯卡分布）nbinom

擲骰子，擲到一即視為成功。則每次擲骰的成功率是1/6。要擲出三次一，所需的擲骰次數(shù)屬于集合 { 3, 4, 5, 6, ... } 。擲到三次一的擲骰次數(shù)是負(fù)二項(xiàng)分布的隨機(jī)變量。

dnbinom(4,3,1/6)=0.0334898，四次連續(xù)三次1的概率為這個(gè)數(shù)。

概率函數(shù)為f(k;r,p)=choose(k+r-1,r-1)*p^r*(1-p)^k, 當(dāng)r=1時(shí)這個(gè)特例分布是幾何分布

rnbinom(n,size,prob,mu) 其中n是需要產(chǎn)生的隨機(jī)數(shù)個(gè)數(shù)，size是概率函數(shù)中的r，即連續(xù)成功的次數(shù)，prob是單詞成功的概率，mu未知..(mu是希臘字母υ的讀音)

3.幾何分布Geometric Distribution,geom

n次伯努利試驗(yàn)，前n-1次皆失敗，第n次才成功的機(jī)率

dgeom(x,prob),注意這里的x取值是0:n，即dgeom(0,0.2)=0.2,以上的二項(xiàng)分布和負(fù)二項(xiàng)分布也是如此。

ngeom(n,prob)

4.超幾何分布Hypergeometric Distribution，hyper

它描述了由有限個(gè)(m+n)物件中抽出k個(gè)物件，成功抽出指定種類的物件的次數(shù)（不歸還）。

概率：p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, ..., k.

當(dāng)n=1時(shí)，這是一個(gè)0-1分布即伯努利分布，當(dāng)n接近無窮大∞時(shí)，超幾何分布可視為二項(xiàng)分布

rhyper(nn,m,n,k),nn是需要產(chǎn)生的隨機(jī)數(shù)個(gè)數(shù)，m是白球數(shù)（計(jì)算目標(biāo)是取到x個(gè)白球的概率），n是黑球數(shù)，k是抽取出的球個(gè)數(shù)

dhyper(x, m, n, k)

5.泊松分布 Poisson Distribution,pois

p(x) = lambda^x exp(-lambda)/x!

for x = 0, 1, 2, .... The mean and variance are E(X) = Var(X) = λ. x ~ π(λ)

泊松分布的參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率.泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)到達(dá)的人數(shù)，電話交換機(jī)接到呼叫的次數(shù)，汽車站臺(tái)的候客人數(shù)，機(jī)器出現(xiàn)的故障數(shù)，自然災(zāi)害發(fā)生的次數(shù)等等.

rpois(n, lambda)

dpois(x,lambda)

連續(xù)型

6.均勻分布 Uniform Distribution，unif

f(x) = 1/(max-min) for min <= x <= max.

runif(n,min,max).

生成16位數(shù)的隨機(jī)數(shù)：as.character(runif(1,1000000000000000,9999999999999999))

dunif(x,min,max)=1,恒定等于1/(max-min).

對(duì)于連續(xù)變量，dfunction的值是x去特定值代入概率密度函數(shù)得到的函數(shù)值。

7.正態(tài)分布Normal Distribution，norm

f(x) = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))

其中mu是均值，sigma是standard deviation標(biāo)準(zhǔn)差

理論上可以證明如果把許多小作用加起來看做一個(gè)變量,那么這個(gè)變量服從正態(tài)分布

rnorm(n,mean=0,sd=1)后兩個(gè)參數(shù)如果不填則默認(rèn)為0,1。

dnorm(x,mean,sd),sd是標(biāo)準(zhǔn)差。

畫出正態(tài)分布概率密度函數(shù)的大致圖形：

x<-seq(-3,3,0.1)

plot(x,dnorm(x)) plot中的x,y要有相關(guān)關(guān)系才會(huì)形成函數(shù)圖。

qnorm(p,mean,sd),這個(gè)還是上側(cè)分位數(shù)，如qnorm(0.05)=-1.644854,即x<=這個(gè)數(shù)的累計(jì)概率小于0.05

3sigma法則：對(duì)于正態(tài)分布的x，x取值在(mean-3sd,mean+3sd)幾乎是在肯定的。

因?yàn)閜norm(3)-pnorm(-3)=0.9973002

用正太分布產(chǎn)生一個(gè)16位長的隨機(jī)數(shù)字：

as.character(10^16*rnorm(1))

8.伽瑪分布Gamma Distribution，gamma

http://zh./w/index.php?title=伽瑪分布&variant=zh-cn

假設(shè)隨機(jī)變量X為等到第α件事發(fā)生所需之等候時(shí)間。

f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0 and s > 0.

Gamma分布中的參數(shù)α，稱為形狀參數(shù)（shape parameter），即上式中的s，β稱為尺度參數(shù)（scale parameter）上式中的a

E(x)=s*a, Var(x)=s*a^2. 當(dāng)shape=1/2,scale=2時(shí)，這樣的gamma分布是自由度為1的開方分布

http://zh./wiki/File:Gamma_distribution_pdf.png

dgamma(x,shape,rate=1,scale=1/rate), 請(qǐng)注意R在這里提供的rate是scale尺度參數(shù)的倒數(shù)，如果dgamma(0,1,2)則表示dgamma(0,shape=1,rate=2),而非dgamma(0,shape=1,scale=2)

pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE,

log.p = FALSE)

qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE,

log.p = FALSE)

rgamma(n, shape, rate = 1, scale = 1/rate)

9.指數(shù)分布Exponential Distribution，exp

指數(shù)分布可以用來表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔，比如旅客進(jìn)機(jī)場的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。

記作X ~ Exponential（λ）。

f(x) = lambda e^(- lambda x) for x >= 0.

其中l(wèi)ambda λ > 0是分布的一個(gè)參數(shù)，常被稱為率參數(shù)（rate parameter）. E(x)=1/λ,Var(x)=1/λ^2

dexp(x, rate = 1, log = FALSE)

pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)

qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)

rexp(n, rate = 1)

假設(shè)在公交站臺(tái)等公交車平均10分鐘有一趟車，那么每小時(shí)候有6趟車，即每小時(shí)出現(xiàn)車的次數(shù)~ Exponential(1/6)

我們可以產(chǎn)生10個(gè)這些隨機(jī)數(shù)看看rexp(10,1/6)

60/(rexp10,1/6)即為我們?cè)谡九_(tái)等車的隨機(jī)時(shí)間，如下：

[1] 6.443148 24.337131 6.477096 2.824638 15.184945 14.594903

[7] 7.133842 8.222400 42.609784 15.182827

可以看見竟然有一個(gè)42.6分鐘的隨機(jī)數(shù)出現(xiàn)，據(jù)說這種情況下你可以投訴上海的公交公司。

不過x符合指數(shù)分布，1/x還符合指數(shù)分布嗎？

pexp(6,1/6)=0.6321206, 也就是說這種情況下只有37%的可能公交車會(huì)10分鐘以內(nèi)來。

按照以上分析一個(gè)小時(shí)出現(xiàn)的公交車次數(shù)應(yīng)該不符合指數(shù)分布。

10.卡方分布(non-central)Chi-Squared Distribution，chisq

它廣泛的運(yùn)用于檢測數(shù)學(xué)模型是否適合所得的數(shù)據(jù)，以及數(shù)據(jù)間的相關(guān)性。數(shù)據(jù)并不需要呈正態(tài)分布

k個(gè)標(biāo)準(zhǔn)正態(tài)變量的平方和即為自由度為k的卡方分布。

E(x)=k,Var(x)=2k.

dchisq(x, df, ncp=0, log = FALSE)

pchisq(q, df, ncp=0, lower.tail = TRUE, log.p = FALSE)

qchisq(p, df, ncp=0, lower.tail = TRUE, log.p = FALSE)

rchisq(n, df, ncp=0)

其中df為degrees of freedom。ncp是non-centrality parameter (non-negative).ncp=0時(shí)是central卡方分布，ncp不為0時(shí)，表示這個(gè)卡方分布是由非標(biāo)準(zhǔn)正態(tài)分布組合而成，ncp=這些正態(tài)分布的均值的平方和。

11.β分布Beta Distribution，beta

變量x僅能出現(xiàn)于0到1之間。

空氣中含有的氣體狀態(tài)的水分。表示這種水分的一種辦法就是相對(duì)濕度。即現(xiàn)在的含水量與空氣的最大含水量（飽和含水量）的比值。我們聽到的天氣預(yù)告用語中就經(jīng)常使用相對(duì)濕度這個(gè)名詞。

相對(duì)濕度的值顯然僅能出現(xiàn)于0到1之間（經(jīng)常用百分比表示）。冬季塔里木盆地的日最大相對(duì)濕度和夏季日最小相對(duì)濕度。證實(shí)它們都符合貝塔分布

dbeta(x, shape1, shape2, ncp = 0, log = FALSE)

pbeta(q, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)

qbeta(p, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)

rbeta(n, shape1, shape2, ncp = 0)

shape1，shape2是beta分布的兩個(gè)參數(shù)。E(x)=s1/(s1+s2),var(x)=s1*s2/(s1+s2)^2 * (s1+s2+1)

12.t分布Student t Distribution，t

應(yīng)用在當(dāng)對(duì)呈正態(tài)分布的母群體的均值進(jìn)行估計(jì)。當(dāng)母群體的標(biāo)準(zhǔn)差是未知的但卻又需要估計(jì)時(shí)，我們可以運(yùn)用學(xué)生t 分布。

學(xué)生t 分布可簡稱為t 分布。其推導(dǎo)由威廉·戈塞于1908年首先發(fā)表，當(dāng)時(shí)他還在都柏林的健力士釀酒廠工作。因?yàn)椴荒芤运救说拿x發(fā)表，所以論文使用了學(xué)生（Student）這一筆名。之后t 檢驗(yàn)以及相關(guān)理論經(jīng)由羅納德·費(fèi)雪的工作發(fā)揚(yáng)光大，而正是他將此分布稱為學(xué)生分布。

dt(x, df, ncp, log = FALSE)

pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)

qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)

rt(n, df, ncp)

其中df是自由度，ncp是non-centrality parameter delta，If omitted, use the central t distribution。ncp出現(xiàn)時(shí)表示分布由非標(biāo)準(zhǔn)的卡方分布構(gòu)成。

13.F分布

一個(gè)F-分布的隨機(jī)變量是兩個(gè)卡方分布變量的比率。F-分布被廣泛應(yīng)用于似然比率檢驗(yàn)，特別是方差分析中

df(x, df1, df2, ncp, log = FALSE)

pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)

qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)

rf(n, df1, df2, ncp)

df1，df2是兩個(gè)自由度，ncp同t分布中的ncp。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：勤悅軒 > 《R》

舉報(bào)/認(rèn)領(lǐng)