免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

正態(tài)分布與中心極限定理:上帝之手

 李俊鶴館藏 2019-09-16

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

(物理學(xué)家認(rèn)為正態(tài)分布已經(jīng)在數(shù)學(xué)上得到證明,而數(shù)學(xué)家則認(rèn)為正態(tài)分布在物理試驗(yàn)中得到確認(rèn)。)

——Henri Poincaré(昂利·龐加萊,法國數(shù)學(xué)家)

我們在高中數(shù)學(xué)選修2-3學(xué)習(xí)隨機(jī)變量的時(shí)候,都接觸過一個(gè)非常特殊的函數(shù):

課本上稱它為正態(tài)分布的密度函數(shù)。如果是在選修2-3中第一次接觸到這個(gè)函數(shù),我想很可能是會(huì)給人帶來很大困惑的:首先,整個(gè)高中數(shù)學(xué)里就沒有多少場合是把某個(gè)特殊的函數(shù)(除了基本初等函數(shù)以外)的解析式單獨(dú)以定義的形式寫出來,并且還特意強(qiáng)調(diào)其重要性的。在有些部分(比如圓錐曲線的章節(jié))中,可能課本會(huì)介紹若干比較復(fù)雜的公式,但這些公式的幾何意義和研究動(dòng)機(jī)通常都是解釋得非常清晰的。然而對于正態(tài)分布的密度函數(shù),課本在引入它的時(shí)候,事先只給出了高爾頓釘板實(shí)驗(yàn)的一個(gè)示意圖,隨后就將這個(gè)直方圖形狀的圖像奇跡般地用一條連續(xù)的鐘形曲線做了擬合——并且不管三七二十一地立刻聲稱這條曲線的解析式就是

.


高爾頓釘板實(shí)驗(yàn)

第一次接觸正態(tài)分布的人,可能會(huì)感覺這簡直就像是江湖騙子算命一樣:憑著一點(diǎn)簡陋的初始(而且是離散的)數(shù)據(jù),居然立刻就能給出一個(gè)復(fù)雜程度相當(dāng)高的連續(xù)函數(shù)作為它的擬合?不僅如此,這個(gè)過程更讓人驚嘆的地方在于,即使我們對

這個(gè)函數(shù)是完全陌生的,我們卻能夠從中隱約感受到一種精巧的構(gòu)造和平衡感,一種數(shù)學(xué)對象所具有的秩序感。別的不說,e和π兩個(gè)重要的數(shù)學(xué)常數(shù)就同時(shí)出現(xiàn)在了這個(gè)函數(shù)里。不僅如此,形式如此復(fù)雜的一個(gè)函數(shù),圖像卻是一條對稱、光滑、甚至可以說是姿態(tài)很優(yōu)美的曲線。我們接觸過的絕大部分初等函數(shù),能有這樣漂亮的圖像嗎?反過來說,我們徒手畫出的曲線確實(shí)可以十分優(yōu)美,但我們能為隨便一條手繪的曲線都找到一個(gè)如此精巧的解析式嗎?

種種跡象都表明這個(gè)函數(shù)絕不可能是憑空構(gòu)造出來的。更令人驚奇的是,課本隨后還介紹到正態(tài)分布在現(xiàn)實(shí)中的意義:

'在現(xiàn)實(shí)生活中,很多隨機(jī)變量都服從或近似地服從正態(tài)分布。例如:長度測量的誤差;某一地區(qū)同年齡人群的生理指標(biāo)(如身高、體重、肺活量);一定條件下生長的小麥的株高、穗長、單位面積產(chǎn)量;正常生產(chǎn)條件下各種產(chǎn)品的質(zhì)量指標(biāo)(如零件的尺寸、纖維的纖度、電容器的電容、電子管的使用壽命等);某地每年某一時(shí)期的天氣指標(biāo)(如平均氣溫、平均濕度、降水量等),一般都服從正態(tài)分布。'

如果大街上一個(gè)不認(rèn)識(shí)的人上來就把正態(tài)分布的密度函數(shù)展示給我看,隨后就聲稱上述種種自然現(xiàn)象全部都服從這個(gè)分布,我是無論如何也不會(huì)相信的。然而令人驚奇的是,數(shù)學(xué)課本居然也這么告訴我們。一個(gè)再自然不過的問題就是:這個(gè)函數(shù)究竟是怎么被人們找到的?此外,為什么如此豐富、如此復(fù)雜的自然現(xiàn)象竟然全部都服從于這條簡潔而奇特的曲線?這背后的原因是什么?

正態(tài)分布的密度函數(shù)

在這篇文章中,我希望能對這幾個(gè)問題給出介紹性的回答。我們將會(huì)先看一看18世紀(jì)數(shù)學(xué)家棣莫弗是如何在對二項(xiàng)分布的研究中,第一次導(dǎo)出正態(tài)分布這個(gè)美妙的函數(shù)的。之后我們將會(huì)看到人類歷史上最偉大的數(shù)學(xué)家之一高斯,在研究測量誤差的分布時(shí),是如何利用他天才的數(shù)學(xué)能力企圖'猜測上帝的意圖',通過一系列推理,讓正態(tài)分布的密度函數(shù)從紛繁蕪雜的隨機(jī)誤差中顯現(xiàn)了出來。最后,我們將簡單介紹現(xiàn)代概率論中最重要的定理之一:中心極限定理。這個(gè)定理的內(nèi)容絕不僅僅是抽象的數(shù)學(xué);它巨大的力量就如同一只上帝之手般,在世界上幾乎所有的混沌和亂象背后,以一個(gè)永恒的數(shù)學(xué)表達(dá)式束縛著這一切的秩序。這篇文章不僅希望讓能讀者對正態(tài)分布的早期歷史有一個(gè)簡單的了解;更重要的是,希望能讓讀者感受到正態(tài)分布絕不僅僅是一個(gè)普通的函數(shù),而是有著令人震撼的美和力量。

一、棣莫弗:正態(tài)分布函數(shù)的首次發(fā)現(xiàn)

棣莫弗(Abraham de Moivre, 1667-1754)是18世紀(jì)初的法國數(shù)學(xué)家,他的著作《機(jī)遇論》對概率論這一數(shù)學(xué)分支的早期發(fā)展起到了非常重要的影響。古典概率論起源于對賭博(這是一類最容易引起人們興趣的隨機(jī)現(xiàn)象,原因不言而喻)中產(chǎn)生的一系列問題的研究。二項(xiàng)分布的概念就正是在棣莫弗的時(shí)代從一些賭博問題中產(chǎn)生的。

棣莫弗

我們在高中課本中都學(xué)過二項(xiàng)分布:假設(shè)做某個(gè)隨機(jī)試驗(yàn)只有成功和失敗兩種可能結(jié)果,成功概率為p,且每次試驗(yàn)的成功與否都彼此獨(dú)立,那么將這個(gè)試驗(yàn)連續(xù)進(jìn)行n次,其中的成功次數(shù)X就服從參數(shù)為n、p的二項(xiàng)分布B(n, p):

但是二項(xiàng)分布的表達(dá)式中有組合數(shù),在n很大時(shí)組合數(shù)的計(jì)算通常是費(fèi)時(shí)費(fèi)力的。于是棣莫弗就希望尋找n很大時(shí)二項(xiàng)分布的近似表達(dá)式(用今天概率論的語言來說,就是二項(xiàng)分布的極限分布)。

我們知道組合數(shù)中有階乘,因此要對組合數(shù)做近似計(jì)算,如何將階乘化為其他表達(dá)式是很關(guān)鍵的。棣莫弗在這點(diǎn)上可以說是比較幸運(yùn)的,因?yàn)楹退瑫r(shí)代的蘇格蘭數(shù)學(xué)家斯特林(James Stirling)在數(shù)學(xué)分析方面有研究,并且兩人還有書信來往。斯特林提出了一個(gè)在組合數(shù)的近似計(jì)算中有極大作用的公式,被稱為斯特林公式:當(dāng)n很大時(shí),我們有

棣莫弗正是利用這個(gè)公式,導(dǎo)出了二項(xiàng)分布的一個(gè)特殊情況的極限分布。他研究的特殊情況是B(n, 0.5),也就是將一個(gè)成功和失敗概率都為0.5的隨機(jī)試驗(yàn)重復(fù)n次,研究成功次數(shù)Xn在n很大時(shí)的分布。這個(gè)隨機(jī)變量可以在賭博中找到鮮明的實(shí)例:如果我和別人賭拋一枚硬幣的結(jié)果是正面還是反面,贏了賺1元錢,輸了賠1元錢,那么連續(xù)賭n把之后我的凈收入(賠錢計(jì)為負(fù)數(shù))就正是隨機(jī)變量Xn。我們來看看他是怎么計(jì)算的。

我們先假設(shè)這個(gè)實(shí)驗(yàn)重復(fù)的次數(shù)是偶數(shù)次(奇數(shù)次的情況可以被與它相鄰的兩個(gè)偶數(shù)的情況估計(jì))。我們有:


利用斯特林公式,我們把分子和分母上的階乘都替換掉,并且進(jìn)行一些化簡

這個(gè)式子是三項(xiàng)的乘積,其中最后一項(xiàng)在n趨于無窮大時(shí)極限為1,可以省略。而針對第二項(xiàng)分母上的三個(gè)指數(shù)式,微積分中有一個(gè)基本結(jié)果:



利用這個(gè)結(jié)果,假設(shè),我們就可以進(jìn)一步化簡:n趨于無窮大時(shí),



從而如果我們計(jì)算落在某個(gè)區(qū)間[a,b]內(nèi)的概率,并且以定積分作為和式在n趨于無窮大時(shí)的極限,就有:


看看我們得到了什么?左側(cè)這個(gè)隨機(jī)變量

是賭博結(jié)果的標(biāo)準(zhǔn)化(除以一個(gè)系數(shù)使得其方差變?yōu)?,避免方差趨于無窮大,從而其分布可以真實(shí)反映極限分布);而在右側(cè),我們得到的正是標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)的積分!這就是棣莫弗在1733年得到的結(jié)果:拋硬幣所得到的二項(xiàng)分布,在n很大時(shí)(標(biāo)準(zhǔn)化后)會(huì)收斂到一個(gè)特殊的分布——標(biāo)準(zhǔn)正態(tài)分布。不久之后法國數(shù)學(xué)家拉普拉斯改進(jìn)了棣莫弗的結(jié)果,使得這個(gè)結(jié)論(n很大時(shí)趨于正態(tài)分布)對任意的二項(xiàng)分布B(n,p)都成立了。這個(gè)結(jié)果被稱作棣莫弗-拉普拉斯中心極限定理,是中心極限定理的雛形和一個(gè)特例。

大量重復(fù)拋硬幣實(shí)驗(yàn)后形成的頻率分布直方圖,正態(tài)曲線從中浮現(xiàn)

(圖片來源:維基百科)

棣莫弗的工作使得正態(tài)分布的密度函數(shù)第一次出現(xiàn)在了人類眼前。但是在他那個(gè)年代,人們對這一分布還毫無了解,而棣莫弗自己并沒有統(tǒng)計(jì)學(xué)背景,也不可能想到這個(gè)分布在統(tǒng)計(jì)中將會(huì)有什么樣的應(yīng)用。因此,雖然棣莫弗從一個(gè)特例中導(dǎo)出了正態(tài)分布,卻不會(huì)想到它在自然界中具有普遍性和極其優(yōu)美的性質(zhì),從而也就和它擦肩而過了。但是,這個(gè)例子使我們非常直觀地看到,正態(tài)分布優(yōu)美的函數(shù)是如何從復(fù)雜的式子和混亂的計(jì)算中,像是冥冥之中自有天意般地顯現(xiàn)出來。

二、高斯:猜測上帝的意圖

德國數(shù)學(xué)家高斯(Carl Friedrich Gauss, 1777-1855)被公認(rèn)為人類歷史上最偉大的數(shù)學(xué)家之一,在數(shù)學(xué)的各個(gè)領(lǐng)域都有非常大量的貢獻(xiàn)。而他一生被公認(rèn)為最杰出的成就之一,就是導(dǎo)出了隨機(jī)測量誤差所服從的概率分布:正態(tài)分布。這一成就的偉大可以從許多方面看出來:正態(tài)分布在19世紀(jì)很長時(shí)間內(nèi)被歐洲數(shù)學(xué)家直接冠名為高斯分布;而1977年高斯二百年誕辰之際德國發(fā)行的紀(jì)念紙幣上,印著的也正是正態(tài)分布。

10馬克紙幣上的高斯頭像和正態(tài)曲線

17-18世紀(jì)人們之所以開始關(guān)注隨機(jī)誤差分布這樣一個(gè)問題,主要是由于天文、航海、測地等學(xué)科的發(fā)展,這些學(xué)科中測量、計(jì)算、回歸、誤差分析等等問題都處在最核心的位置上,因此自然推動(dòng)了數(shù)學(xué)中對這些主題的研究。誤差分布的問題其實(shí)很簡單:已知有一個(gè)真值θ需要測量,測量的結(jié)果X是一個(gè)隨機(jī)變量,那么X-θ也是一個(gè)隨機(jī)變量,并且常識(shí)告訴我們它是連續(xù)的。誤差分布就是要求這個(gè)連續(xù)隨機(jī)變量X-θ的密度函數(shù)f(x)。

在高斯之前幾個(gè)世紀(jì),人們已經(jīng)對f(x)有了定性的認(rèn)識(shí)了:這個(gè)函數(shù)關(guān)于0點(diǎn)是對稱的;并且絕對值大的誤差出現(xiàn)概率小,絕對值小的誤差出現(xiàn)概率大。但是從來沒有人能夠給出這個(gè)函數(shù)究竟是什么。這確實(shí)有點(diǎn)太像在猜測上帝的意圖了:難道隨機(jī)誤差這種東西可以用一個(gè)解析式刻畫?什么樣的解析式才能具有這樣巨大的力量,能夠支配一切隨機(jī)誤差的行為?的確是非常難以想象。這就輪到高斯出場了。他在1809年發(fā)表的一篇關(guān)于數(shù)據(jù)分析(其中涉及對谷神星位置的計(jì)算和預(yù)測,這同樣是高斯生平非常輝煌的一件成就)的論文中,采取了一條非常異于常人的思維路線,導(dǎo)出了隨機(jī)誤差的分布——正是正態(tài)分布。

高斯的想法可以這樣簡單描述:我們平時(shí)做物理、化學(xué)等實(shí)驗(yàn)的時(shí)候,對許多物理量都習(xí)慣采取測量多次取平均值的做法。經(jīng)驗(yàn)表明,如果對真值θ的n次測量結(jié)果是

, 那么是對θ的一個(gè)很好的估計(jì)。這是我們都熟知的算術(shù)平均值。然而高斯的天才就在于,他反其道而行之:如果我們不把n次的測量結(jié)果當(dāng)成隨機(jī)變量,而把真值θ當(dāng)成一個(gè)待估計(jì)的隨機(jī)變量呢?既然我們?nèi)粘I钪胁扇∷阈g(shù)平均值作為θ的最好估計(jì),那它一定有它的道理。他大膽斷言:對于確定的, 如果誤差分布的函數(shù)是f(x),那么測量誤差的聯(lián)合分布:

在看成是θ的函數(shù)時(shí),應(yīng)當(dāng)在算術(shù)平均值

處取得最大值(因?yàn)檫@是在確定的一組測量值,對真值最好的估計(jì))!

基于這個(gè)想法,立刻可以展開一連串的推導(dǎo)。我們知道導(dǎo)數(shù)可以描述函數(shù)的極值點(diǎn),這意味著:

(L(θ)和它的對數(shù)值增減性相同,對對數(shù)求導(dǎo)有利于計(jì)算。)把這個(gè)導(dǎo)數(shù)算出來:

我們記

,于是:

這里的關(guān)鍵在于,這個(gè)式子對任意的一組測量值

都應(yīng)當(dāng)是成立的,因此我們可以取特殊值代入。如果取n=2,那么對任意的實(shí)數(shù)x,如果取X1=x,X2=-x,就有:

再取

,就有:



這個(gè)式子對所有整數(shù)m和實(shí)數(shù)x都成立。取x=x'/m,就有:

從而

對所有有理數(shù)q都成立。只要我們添加g(x)連續(xù)的條件(這對誤差分布而言是自然的),就可以導(dǎo)出對所有實(shí)數(shù)r都成立。滿足這一條件的函數(shù)只有正比例函數(shù):



這個(gè)方程是很好解的,最基本的微積分工具就可以解決。它的解是:


其中M是常數(shù)??紤]到f是一個(gè)概率密度函數(shù)(它就是我們要求的誤差分布),我們要求f在實(shí)數(shù)集上的積分是1,同時(shí)我們還希望把f標(biāo)準(zhǔn)化,使得對應(yīng)的隨機(jī)變量期望和方差都為1(這兩個(gè)操作在概率論中合稱為正規(guī)化)。利用積分為1和方差為1兩個(gè)條件,就可以解出系數(shù)M和c,具體推導(dǎo)過程不需要很深的微積分知識(shí),但出于長度考慮,我們放在文末,有興趣的讀者可以閱讀。最終的結(jié)果正是:

多么熟悉的結(jié)果——同時(shí)又是多么地出乎意料!高斯竟然基于“算術(shù)平均值是對真值的良好估計(jì)”這樣一個(gè)再簡單不過的法則,生生把隨機(jī)誤差服從的概率分布——正態(tài)分布,當(dāng)成一個(gè)函數(shù)給解出來了!

生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓(就是文章開頭提到的高爾頓釘板的發(fā)明者)曾經(jīng)感嘆過高斯這個(gè)結(jié)果的震撼:“我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么美妙而激發(fā)人們無窮想象的宇宙秩序。如果古希臘人知道這條曲線,想必會(huì)給予人格化乃至神格化。它以一種寧靜無形的方式在最野性的混亂中實(shí)施嚴(yán)厲的統(tǒng)治。暴民越多,無政府狀態(tài)越顯現(xiàn),它就統(tǒng)治得越完美。他是無理性世界中的最高法律。當(dāng)我們從混沌中抽取大量的樣本,并按大小加以排列整理時(shí),那么總是有一個(gè)始料不及的美妙規(guī)律潛伏在其中。”

然而,接下來我們馬上就將看到,隨機(jī)誤差服從正態(tài)分布這個(gè)事實(shí),只不過是更普遍、更令人震撼乃至震驚的一個(gè)定理——中心極限定理——的特例。中心極限定理,是真正地將正態(tài)分布那“上帝之手”般巨大的支配力和統(tǒng)治秩序體現(xiàn)到了淋漓盡致。

三、中心極限定理:上帝之手

高斯關(guān)于隨機(jī)誤差的論文發(fā)表于1809年,立即將正態(tài)分布推上了概率論這個(gè)方興未艾的研究領(lǐng)域的風(fēng)口浪尖。拉普拉斯是同時(shí)期法國一位著名的數(shù)學(xué)家(值得一提的是,他在高斯之前也研究過隨機(jī)誤差的分布,但失敗了),前面我們提到他改良了棣莫弗的結(jié)果,認(rèn)識(shí)到獨(dú)立的n個(gè)隨機(jī)試驗(yàn)的結(jié)果之和(二項(xiàng)分布)總是趨于正態(tài)分布。這自然使得他開始考慮一般的獨(dú)立同分布隨機(jī)變量的和的分布的問題。拉普拉斯也是一位非常有天賦的數(shù)學(xué)家,他富有創(chuàng)新性地引入了特征函數(shù)的工具。一個(gè)隨機(jī)變量X的特征函數(shù)φ(t)定義為:


也就是說,對于每個(gè)復(fù)數(shù)t,特征函數(shù)在t處的取值是隨機(jī)變量e^(itX)的期望。對傅里葉分析有一定了解的讀者(筆者并不屬于此列)會(huì)看出這就是在對X做傅里葉變換——拉普拉斯創(chuàng)新性地將分析中的工具用在了概率論中。利用特征函數(shù)的工具,他證明了中心極限定理的一個(gè)初期版本。實(shí)際上僅僅使用特征函數(shù),就已經(jīng)可以對他的工作進(jìn)行改良,從而得到下面的結(jié)果:

[中心極限定理,獨(dú)立同分布的情形] 對于獨(dú)立同分布、期望μ和方差σ^2均有限的隨機(jī)變量

,記其和為Sn,在n趨于無窮大時(shí),有:



也即,Sn的標(biāo)準(zhǔn)化的分布收斂到標(biāo)準(zhǔn)正態(tài)分布。

這已經(jīng)是相當(dāng)令人震撼的一個(gè)結(jié)果了:正態(tài)分布這種“支配”的力量遠(yuǎn)遠(yuǎn)不僅是只在二項(xiàng)分布上才起作用。只要是獨(dú)立同分布的一列隨機(jī)變量,無論它的輸出值可以多么隨機(jī)、多么混亂甚至病態(tài),當(dāng)我們對它求和的時(shí)候,隨著求和項(xiàng)數(shù)的增多,一個(gè)永恒不變的秩序都會(huì)在它背后慢慢地、然而是不可避免地浮現(xiàn)出來:優(yōu)美的正態(tài)分布。

中心極限定理

然而我們今天知道的還不止于此。在拉普拉斯之后的一百多年里,一大批數(shù)學(xué)家前赴后繼地對中心極限定理做了許多的強(qiáng)化、一般化、推廣。事實(shí)上,中心極限定理中的“中心”一詞并不是在描述隨機(jī)序列的和“被正態(tài)分布這個(gè)中心所吸引”的現(xiàn)象,而是它在概率論學(xué)界中的地位——它在很長一段時(shí)間內(nèi)占據(jù)了整個(gè)概率論研究的中心。在20世紀(jì),一批優(yōu)秀的俄國數(shù)學(xué)家(包括柯爾莫哥洛夫、馬爾可夫等等,都是概率論領(lǐng)域的翹楚和奠基人)對概率論完成了嚴(yán)格的公理化,中心極限定理最強(qiáng)的版本也在這個(gè)時(shí)期得到了證明:我們并不要求

一定是獨(dú)立同分布的;它們可以服從完全不同的分布,但只要它們中的任何一項(xiàng)不對序列和起到潛在的“致命影響”(即方差過大),那么它們的和依然會(huì)依分布收斂到正態(tài)分布。

正態(tài)分布就像是一個(gè)黑洞,一雙無形的大手,所有的混亂都被它消解掉,所有的隨機(jī)現(xiàn)象都被這一個(gè)表達(dá)式牢牢抓住。這哪里還是一個(gè)普通的概率分布?中心極限定理真的已經(jīng)具有一點(diǎn)宗教色彩在里面了。上帝是否存在,我們活著的人誰也無法親眼見到,可是我們每個(gè)活著的人都能親眼看到這一只潛藏在所有隨機(jī)變量后面的上帝之手,它的名字叫中心極限定理。

通過中心極限定理,無論是前面所講的棣莫弗最早的關(guān)于拋硬幣的結(jié)果,還是高斯所得到的隨機(jī)誤差的分布,都可以得到一個(gè)統(tǒng)一而簡潔的解釋了。對于隨機(jī)誤差,它服從正態(tài)分布的根本原因是因?yàn)樗梢钥闯纱罅课⑿_動(dòng)(例如神經(jīng)系統(tǒng)、大氣系統(tǒng)、光照強(qiáng)度的擾動(dòng)等等)的疊加——拉普拉斯稱之為“元誤差”。這些微小擾動(dòng)都是接近獨(dú)立同分布的,而且即使不獨(dú)立同分布,任何一個(gè)微小擾動(dòng)也都不足以造成致命的誤差。因此根據(jù)中心極限定理,它們的疊加值服從正態(tài)分布是必然的結(jié)果。

我們再簡單講一講中心極限定理在統(tǒng)計(jì)學(xué)中的意義。這里限于筆者知識(shí)范圍所限,無法展開詳述,但事實(shí)上,正態(tài)分布在統(tǒng)計(jì)學(xué)中所占的地位可以說更甚于它在概率論中的地位。中心極限定理揭示了正態(tài)分布在自然界中普遍存在的原因,因此雖然它本身并不是統(tǒng)計(jì)學(xué)的定理,卻直接確立了正態(tài)分布在統(tǒng)計(jì)學(xué)中的地位,甚至可以說奠定了數(shù)理統(tǒng)計(jì)整門學(xué)科的理論基礎(chǔ)。

早在19世紀(jì),統(tǒng)計(jì)學(xué)家就已經(jīng)發(fā)現(xiàn)用正態(tài)分布來擬合大量隨機(jī)數(shù)據(jù)的分布常常具有良好的效果。在統(tǒng)計(jì)學(xué)發(fā)展的初期,對數(shù)據(jù)分布做正態(tài)近似這一簡單而有效的方法曾經(jīng)被非常普遍地、甚至有些近乎濫用地應(yīng)用到各種各樣的數(shù)據(jù)分析上。而在20世紀(jì)初,英國堪稱現(xiàn)代數(shù)理統(tǒng)計(jì)開創(chuàng)者的三位學(xué)者皮爾森(Pearson)、戈塞特(Gosset)和費(fèi)舍爾(Fisher)全面建立了假設(shè)檢驗(yàn)的理論——現(xiàn)代統(tǒng)計(jì)學(xué)的基石之一,從而正態(tài)分布依靠嚴(yán)格的理論支撐,真正滲透到了統(tǒng)計(jì)學(xué)的每一個(gè)角落之中。

最后,回到我們在文章開頭所講的高爾頓釘板。高爾頓本人用這個(gè)釘板來對為何許多遺傳指標(biāo)(例如身高)也同樣近似服從正態(tài)分布給出了一個(gè)解釋:釘板裝置可以模擬遺傳過程中一系列隨機(jī)因素造成的影響。我們可以想象在高爾頓釘板中間的某處水平放置一個(gè)擋板AB,將裝置分為上下兩個(gè)部分。如果這時(shí)我們放小球進(jìn)入裝置,那么AB平面上將會(huì)形成一個(gè)近似正態(tài)分布的圖形,代表父母一代的身高分布。這時(shí)如果我們在AB平面上打若干小孔,使小球從這些小孔繼續(xù)向下隨機(jī)運(yùn)動(dòng),那么最終在釘板底部所形成的圖案會(huì)是幾個(gè)小的正態(tài)分布。這本質(zhì)上是在描述一個(gè)數(shù)學(xué)事實(shí):正態(tài)分布的和仍然是正態(tài)分布。

數(shù)學(xué)是一門抽象的藝術(shù)。這句話可以從兩個(gè)角度理解:數(shù)學(xué)所做的事就是在抽象——從現(xiàn)實(shí)世界中凝練出一些高度抽象的對象,在對這些對象的研究中獲得具有普遍性的結(jié)果;但與此同時(shí),數(shù)學(xué)本身難道不也是一門藝術(shù)嗎?正態(tài)分布和中心極限定理把這句話的兩個(gè)方面給同時(shí)體現(xiàn)得淋漓盡致了。如果這篇文章能把數(shù)學(xué)的美和力量展現(xiàn)出一點(diǎn)來,就已經(jīng)完全達(dá)到目的了。


附:函數(shù)

的正規(guī)化

這個(gè)函數(shù)已經(jīng)是偶函數(shù),所以對應(yīng)的期望值是0,不需要平移。正規(guī)化要求它在實(shí)數(shù)軸上的積分和它對應(yīng)的隨機(jī)變量的方差均為1,即:

針對第一個(gè)積分,如果我們知道了

的值,那么就可以用換元積分將它計(jì)算出來。這個(gè)積分被稱作高斯積分,在許多理工科有著非常廣泛的應(yīng)用(其實(shí)其中一個(gè)原因就是它跟正態(tài)分布的聯(lián)系...)。雖然它的被積函數(shù)被證明不存在初等原函數(shù),但是可以用一個(gè)特殊的技巧求出來。我們用極坐標(biāo)計(jì)算一個(gè)重積分:

重積分可以化為累次積分,而我們發(fā)現(xiàn),這個(gè)重積分化成累次積分恰好就是高斯積分的平方!從而我們得到高斯積分的值是根號π,于是通過計(jì)算,第一個(gè)條件變?yōu)椋?/span>

而第二個(gè)條件中的積分可以用分部積分來求,其中再一次用到了高斯積分的結(jié)果:

從而就得到,方差為1的條件對應(yīng)著M、c所滿足的關(guān)系是:

聯(lián)立得到的兩個(gè)式子,就可以從中解出

,正是正態(tài)分布密度函數(shù)中對應(yīng)的系數(shù)。


參考資料:

人教版高中數(shù)學(xué)選修2-3(A版)

rickjin,《正態(tài)分布的前世今生》,http://www./數(shù)學(xué)之美/2014/06/火光搖曳正態(tài)分布的前世今生上/

E.T. Jaynes, Probability Theory: The Logic of Science, Cambridge University Press, 2003

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多