免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

02 數(shù)學(xué)基礎(chǔ) _ 概率論

 人老顛東 2023-04-21 發(fā)布于安徽

除了線性代數(shù)之外,概率論(probability theory)也是人工智能研究中必備的數(shù)學(xué)基礎(chǔ)。隨著連接主義學(xué)派的興起,概率統(tǒng)計已經(jīng)取代了數(shù)理邏輯,成為人工智能研究的主流工具。在數(shù)據(jù)爆炸式增長和計算力指數(shù)化增強的今天,概率論已經(jīng)在機器學(xué)習(xí)中扮演了核心角色。

同線性代數(shù)一樣,概率論也代表了一種看待世界的方式,其關(guān)注的焦點是無處不在的可能性。對隨機事件發(fā)生的可能性進行規(guī)范的數(shù)學(xué)描述就是概率論的公理化過程。概率的公理化結(jié)構(gòu)體現(xiàn)出的是對概率本質(zhì)的一種認識。

將同一枚硬幣拋擲 10 次,其正面朝上的次數(shù)既可能一次沒有,也可能全部都是,換算成頻率就分別對應(yīng)著 0% 和 100%。頻率本身顯然會隨機波動,但隨著重復(fù)試驗的次數(shù)不斷增加,特定事件出現(xiàn)的頻率值就會呈現(xiàn)出穩(wěn)定性,逐漸趨近于某個常數(shù)。

從事件發(fā)生的頻率認識概率的方法被稱為“頻率學(xué)派”(frequentist probability),頻率學(xué)派口中的“概率”,其實是一個可獨立重復(fù)的隨機實驗中單個結(jié)果出現(xiàn)頻率的極限。因為穩(wěn)定的頻率是統(tǒng)計規(guī)律性的體現(xiàn),因而通過大量的獨立重復(fù)試驗計算頻率,并用它來表征事件發(fā)生的可能性是一種合理的思路。

在概率的定量計算上,頻率學(xué)派依賴的基礎(chǔ)是古典概率模型。在古典概率模型中,試驗的結(jié)果只包含有限個基本事件,且每個基本事件發(fā)生的可能性相同。如此一來,假設(shè)所有基本事件的數(shù)目為 n,待觀察的隨機事件 A 中包含的基本事件數(shù)目為 k,則古典概率模型下事件概率的計算公式為圖片從這一基本公式就可以推導(dǎo)出復(fù)雜的隨機事件的概率。

前文中的概率定義針對都是單個隨機事件,可如果要刻畫兩個隨機事件之間的關(guān)系,這個定義就不夠看了。在一場足球比賽中,球隊 1:0 取勝和在 0:2 落后的情況下 3:2 翻盤的概率顯然是不一樣的。這就需要引入條件概率的概念。

條件概率(conditional probability)是根據(jù)已有信息對樣本空間進行調(diào)整后得到的新的概率分布。假定有兩個隨機事件 A 和 B,條件概率就是指事件 A 在事件 B 已經(jīng)發(fā)生的條件下發(fā)生的概率,用以下公式表示圖片上式中的 P(AB) 稱為聯(lián)合概率(joint probability),表示的是 A 和 B 兩個事件共同發(fā)生的概率。如果聯(lián)合概率等于兩個事件各自概率的乘積,即P(AB)=P(A)?P(B),說明這兩個事件的發(fā)生互不影響,即兩者相互獨立。對于相互獨立的事件,條件概率就是自身的概率,即 P(A|B)=P(A)。

基于條件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于將復(fù)雜事件的概率求解轉(zhuǎn)化為在不同情況下發(fā)生的簡單事件的概率求和,即圖片全概率公式代表了頻率學(xué)派解決概率問題的思路,即先做出一些假設(shè)(P(Bi)),再在這些假設(shè)下討論隨機事件的概率(P(A|Bi))。 對全概率公式稍作整理,就演化出了求解“逆概率”這一重要問題。所謂“逆概率”解決的是在事件結(jié)果已經(jīng)確定的條件下(P(A)),推斷各種假設(shè)發(fā)生的可能性(P(Bi|A))。由于這套理論首先由英國牧師托馬斯·貝葉斯提出,因而其通用的公式形式被稱為貝葉斯公式:圖片貝葉斯公式可以進一步抽象為貝葉斯定理(Bayes' theorem):圖片式中的 P(H) 被稱為先驗概率(prior probability),即預(yù)先設(shè)定的假設(shè)成立的概率;P(D|H) 被稱為似然概率(likelihood function),是在假設(shè)成立的前提下觀測到結(jié)果的概率;P(H|D) 被稱為后驗概率(posterior probability),即在觀測到結(jié)果的前提下假設(shè)成立的概率。

從科學(xué)研究的方法論來看,貝葉斯定理提供了一種全新的邏輯。它根據(jù)觀測結(jié)果尋找合理的假設(shè),或者說根據(jù)觀測數(shù)據(jù)尋找最佳的理論解釋,其關(guān)注的焦點在于后驗概率。概率論的貝葉斯學(xué)派(Bayesian probability)正是誕生于這種理念。

在貝葉斯學(xué)派眼中,概率描述的是隨機事件的可信程度。如果手機里的天氣預(yù)報應(yīng)用給出明天下雨的概率是 85%,這就不能從頻率的角度來解釋了,而是意味著明天下雨這個事件的可信度是 85%。

頻率學(xué)派認為假設(shè)是客觀存在且不會改變的,即存在固定的先驗分布,只是作為觀察者的我們無從知曉。因而在計算具體事件的概率時,要先確定概率分布的類型和參數(shù),以此為基礎(chǔ)進行概率推演。

相比之下,貝葉斯學(xué)派則認為固定的先驗分布是不存在的,參數(shù)本身也是隨機數(shù)。換言之,假設(shè)本身取決于觀察結(jié)果,是不確定并且可以修正的。數(shù)據(jù)的作用就是對假設(shè)做出不斷的修正,使觀察者對概率的主觀認識更加接近客觀實際。

概率論是線性代數(shù)之外,人工智能的另一個理論基礎(chǔ),多數(shù)機器學(xué)習(xí)模型采用的都是基于概率論的方法。但由于實際任務(wù)中可供使用的訓(xùn)練數(shù)據(jù)有限,因而需要對概率分布的參數(shù)進行估計,這也是機器學(xué)習(xí)的核心任務(wù)。

概率的估計有兩種方法:最大似然估計法(maximum likelihood estimation)和最大后驗概率法(maximum a posteriori estimation),兩者分別體現(xiàn)出頻率學(xué)派和貝葉斯學(xué)派對概率的理解方式。

最大似然估計法的思想是使訓(xùn)練數(shù)據(jù)出現(xiàn)的概率最大化,依此確定概率分布中的未知參數(shù),估計出的概率分布也就最符合訓(xùn)練數(shù)據(jù)的分布。最大后驗概率法的思想則是根據(jù)訓(xùn)練數(shù)據(jù)和已知的其他條件,使未知參數(shù)出現(xiàn)的可能性最大化,并選取最可能的未知參數(shù)取值作為估計值。在估計參數(shù)時,最大似然估計法只需要使用訓(xùn)練數(shù)據(jù),最大后驗概率法除了數(shù)據(jù)外還需要額外的信息,就是貝葉斯公式中的先驗概率。

從理論的角度來說,頻率學(xué)派和貝葉斯學(xué)派各有千秋,都發(fā)揮著不可替代的作用。但具體到人工智能這一應(yīng)用領(lǐng)域,基于貝葉斯定理的各種方法與人類的認知機制吻合度更高,在機器學(xué)習(xí)等領(lǐng)域中也扮演著更加重要的角色。

概率論的一個重要應(yīng)用是描述隨機變量(random variable)。根據(jù)取值空間的不同,隨機變量可以分成兩類:離散型隨機變量(discrete random variable)和連續(xù)型隨機變量(continuous random variable)。在實際應(yīng)用中,需要對隨機變量的每個可能取值的概率進行描述。

離散變量的每個可能的取值都具有大于 0 的概率,取值和概率之間一一對應(yīng)的關(guān)系就是離散型隨機變量的分布律,也叫概率質(zhì)量函數(shù)(probability mass function)。概率質(zhì)量函數(shù)在連續(xù)型隨機變量上的對應(yīng)就是概率密度函數(shù)(probability density function)。

需要說明的是,概率密度函數(shù)體現(xiàn)的并非連續(xù)型隨機變量的真實概率,而是不同取值可能性之間的相對關(guān)系。對連續(xù)型隨機變量來說,其可能取值的數(shù)目為不可列無限個,當(dāng)歸一化的概率被分配到這無限個點上時,每個點的概率都是個無窮小量,取極限的話就等于零。而概率密度函數(shù)的作用就是對這些無窮小量加以區(qū)分。雖然在x→∞ 時,1/x 和 2/x 都是無窮小量,但后者永遠是前者的 2 倍。這類相對意義而非絕對意義上的差別就可以被概率密度函數(shù)所刻畫。對概率密度函數(shù)進行積分,得到的才是連續(xù)型隨機變量的取值落在某個區(qū)間內(nèi)的概率。

定義了概率質(zhì)量函數(shù)與概率密度函數(shù)后,就可以給出一些重要分布的特性。重要的離散分布包括兩點分布、二項分布和泊松分布,重要的連續(xù)分布則包括均勻分布、指數(shù)分布和正態(tài)分布。

  • 兩點分布(Bernoulli distribution):適用于隨機試驗的結(jié)果是二進制的情形,事件發(fā)生 / 不發(fā)生的概率分別為 p/(1?p)。任何只有兩個結(jié)果的隨機試驗都可以用兩點分布描述,拋擲一次硬幣的結(jié)果就可以視為等概率的兩點分布。
  • 二項分布(Binomial distribution):將滿足參數(shù)為 p 的兩點分布的隨機試驗獨立重復(fù) n 次,事件發(fā)生的次數(shù)即滿足參數(shù)為 (n,p) 的二項分布。二項分布的表達式可以寫成 P(X=k)=Ckn?pk?(1?p)(n?k),0≤k≤n。
  • 泊松分布(Poisson distribution):放射性物質(zhì)在規(guī)定時間內(nèi)釋放出的粒子數(shù)所滿足的分布,參數(shù)為 λ 的泊松分布表達式為P(X=k)=λk?e?λ/(k!)。當(dāng)二項分布中的 n 很大且 p 很小時,其概率值可以由參數(shù)為 λ=np 的泊松分布的概率值近似。
  • 均勻分布(uniform distribution):在區(qū)間 (a, b) 上滿足均勻分布的連續(xù)型隨機變量,其概率密度函數(shù)為 1 / (b - a),這個變量落在區(qū)間 (a, b) 內(nèi)任意等長度的子區(qū)間內(nèi)的可能性是相同的。
  • 指數(shù)分布(exponential distribution):滿足參數(shù)為 θ 指數(shù)分布的隨機變量只能取正值,其概率密度函數(shù)為 e?x/θ/θ,x>0。指數(shù)分布的一個重要特征是無記憶性:即 P(X > s + t | X > s) = P(X > t)。
  • 正態(tài)分布(normal distribution):參數(shù)為正態(tài)分布的概率密度函數(shù)為
圖片
image.png

當(dāng) μ=0,σ=1 時,上式稱為標(biāo)準(zhǔn)正態(tài)分布。正態(tài)分布是最常見最重要的一種分布,自然界中的很多現(xiàn)象都近似地服從正態(tài)分布。

除了概率質(zhì)量函數(shù)/概率密度函數(shù)之外,另一類描述隨機變量的參數(shù)是其數(shù)字特征。數(shù)字特征是用于刻畫隨機變量某些特性的常數(shù),包括數(shù)學(xué)期望(expected value)、方差(variance)和協(xié)方差(covariance)。

數(shù)學(xué)期望即均值,體現(xiàn)的是隨機變量可能取值的加權(quán)平均,即根據(jù)每個取值出現(xiàn)的概率描述作為一個整體的隨機變量的規(guī)律。方差表示的則是隨機變量的取值與其數(shù)學(xué)期望的偏離程度。方差較小意味著隨機變量的取值集中在數(shù)學(xué)期望附近,方差較大則意味著隨機變量的取值比較分散。

數(shù)學(xué)期望和方差描述的都是單個隨機變量的數(shù)字特征,如果要描述兩個隨機變量之間的相互關(guān)系,就需要用到協(xié)方差和相關(guān)系數(shù)。協(xié)方差度量了兩個隨機變量之間的線性相關(guān)性,即變量 Y 能否表示成以另一個變量 X 為自變量的 aX+b 的形式。

根據(jù)協(xié)方差可以進一步求出相關(guān)系數(shù)(correlation coefficient),相關(guān)系數(shù)是一個絕對值不大于 1 的常數(shù),它等于 1 意味著兩個隨機變量滿足完全正相關(guān),等于 -1 意味著兩者滿足完全負相關(guān),等于 0 則意味著兩者不相關(guān)。需要說明的是,無論是協(xié)方差還是相關(guān)系數(shù),刻畫的都是線性相關(guān)的關(guān)系。如果隨機變量之間的關(guān)系滿足 Y=X2,這樣的非線性相關(guān)性就超出了協(xié)方差的表達能力。

今天我和你分享了人工智能必備的概率論基礎(chǔ),著重于抽象概念的解釋而非具體的數(shù)學(xué)公式,其要點如下:

  • 概率論關(guān)注的是生活中的不確定性或可能性;
  • 頻率學(xué)派認為先驗分布是固定的,模型參數(shù)要靠最大似然估計計算;
  • 貝葉斯學(xué)派認為先驗分布是隨機的,模型參數(shù)要靠后驗概率最大化計算;
  • 正態(tài)分布是最重要的一種隨機變量的分布。

在今天的機器學(xué)習(xí)中,大量任務(wù)是根據(jù)已有的數(shù)據(jù)預(yù)測可能出現(xiàn)的情況,因而貝葉斯定理得到了廣泛應(yīng)用。那么在生活中,你能想到哪些實例,是從已有的觀測結(jié)果反過來推演假設(shè)成立的呢? 歡迎發(fā)表你的觀點。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多