機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)之概率統(tǒng)計(jì)知識

520jefferson 2019-12-10

展開全文

第一時間獲取價值內(nèi)容

讀完估計(jì)需要10min

一、機(jī)器下學(xué)習(xí)為什么要使用概率

我們借助概率論來解釋分析機(jī)器學(xué)習(xí)為什么是這樣的，有什么依據(jù)，同時反過來借助概率論來推導(dǎo)出更多機(jī)器學(xué)習(xí)算法。很多人說機(jī)器學(xué)習(xí)是老中醫(yī)，星座學(xué)，最主要的原因是機(jī)器學(xué)習(xí)的很多不可解釋性，我們應(yīng)用概率知識可以解釋一部分，但還是很多值得我們?nèi)ソ忉尷斫獾臇|西，同時，什么時候機(jī)器學(xué)習(xí)更多的可解釋了，反過來，可以用那些理論也可以繼續(xù)為機(jī)器學(xué)習(xí)的，對人工智能創(chuàng)造推出更多的理論，等到那一天，也許真的能脫離更多的人工智障了。
這是因?yàn)闄C(jī)器學(xué)習(xí)通常必須處理不確定量,有時也可能需要處理隨機(jī) (非確定性的) 量。不確定性和隨機(jī)性可能來自多個方面。總結(jié)如下，

不確定性有三種可能的來源：

被建模系統(tǒng)內(nèi)在的隨機(jī)性：例如一個假想的紙牌游戲，在這個游戲中我們假設(shè)紙牌被真正混洗成了隨機(jī)順序。假如這個時候你要對這個這個游戲建模(預(yù)測抽的牌點(diǎn)數(shù)也好，預(yù)測怎么玩才會贏也罷)，雖然牌的數(shù)量和所有牌有什么是確定的，但是若我們隨機(jī)抽一張，這個牌是什么是隨機(jī)的。這個時候就要使用概率去建模了。
不完全觀測：例如一個游戲節(jié)目的參與者被要求在三個門之間選擇，并且會贏得放置在選中門后的獎品。其中兩扇門通向山羊，第三扇門通向一輛汽車。選手的每個選擇所導(dǎo)致的結(jié)果是確定的，但是站在選手的角度，結(jié)果是不確定的。在機(jī)器學(xué)習(xí)中也是這樣，很多系統(tǒng)在預(yù)測的時候，是不確定的，這個時候我們就要用一個”軟度量“即概率去描述它。
不完全建模：假設(shè)我們制作了一個機(jī)器人，它可以準(zhǔn)確地觀察周圍每一個對象的位置。在對這些對象將來的位置進(jìn)行預(yù)測時，如果機(jī)器人采用的是離散化的空間，那么離散化的方法將使得機(jī)器人無法確定對象們的精確位置：因?yàn)槊總€對象都可能處于它被觀測到的離散單元的任何一個角落。也就是說，當(dāng)不完全建模時，我們不能明確的確定結(jié)果，這個時候的不確定，就需要概率來補(bǔ)充。

這塊就是告訴我們，概率很重要，機(jī)器學(xué)習(xí)離不開它

二、頻率學(xué)派和貝葉斯學(xué)派：

簡單的理解的話：

頻率學(xué)派：研究的是事件本身，所以研究者只能反復(fù)試驗(yàn)去逼近它從而得到結(jié)果。比如：想要計(jì)算拋擲一枚硬幣時正面朝上的概率，我們需要不斷地拋擲硬幣，當(dāng)拋擲次數(shù)趨向無窮時正面朝上的頻率即為正面朝上的概率。

貝葉斯學(xué)派：研究的是觀察者對事物的看法，所以你可以用先驗(yàn)知識和收集到的信息去描述他，然后用一些證據(jù)去證明它。還是比如拋硬幣，當(dāng)小明知道一枚硬幣是均勻的，然后賦予下一次拋出結(jié)果是正面或反面都是50%的可信度（概率分布），可能是出于認(rèn)為均勻硬幣最常見這種信念，然后比如小明隨機(jī)拋了1000次，發(fā)現(xiàn)結(jié)果正是這樣，那么它就通過這些證據(jù)驗(yàn)證了自己的先驗(yàn)知識。（也有存在修改的時候，比如發(fā)現(xiàn)硬幣的材質(zhì)不一致，總之就是這么一個過程）

不是很懂？那我們繼續(xù)舉起”栗子“來：如果一個醫(yī)生診斷了病人，并說該病人患流感的幾率為40%，這就不好辦了，因?yàn)檫@意味著非常不同的事情——我們既不能讓病人有無窮多的副本，也沒有任何理由去相信病人的不同副本在具有不同的潛在條件下表現(xiàn)出相同的癥狀。若我們用概率來表示一種信任度，其中1表示非常肯定病人患有流感，而0表示非?？隙ú∪藳]有流感。這樣醫(yī)生也就變的好辦了。然后前面那種概率，直接與事件發(fā)生的頻率相聯(lián)系，被稱為頻率派概率；而后者，涉及到確定性水平，被稱為貝葉斯概率。（當(dāng)然，這知識舉例，不是說貝葉斯學(xué)派優(yōu)于概率學(xué)派）

來個比喻：概率學(xué)派像唯物主義，世間事物不會以你的意識的轉(zhuǎn)移而轉(zhuǎn)變，概率就是事物客觀的存在的現(xiàn)象。

貝葉斯學(xué)派就是我思故我在，同一個事件，對于觀察者來說，他若知道，那就是確定性事件，如果不知道，就是隨機(jī)事件，鬼知道它到底存不存在。

總的來說，兩個學(xué)派站的角度不一樣，貝葉斯概率論為人的知識（knowledge）建模來定義概率這個概念。頻率學(xué)派試圖描述的是事物本體，而貝葉斯學(xué)派試圖描述的是觀察者知識狀態(tài)在新的觀測發(fā)生后如何更新，描述的是觀察這的對事物看法。

上面就是科普一樣，我們有概率學(xué)派和貝葉斯學(xué)派，有興趣可以了解一下！

三、何為隨機(jī)變量和何又為概率分布？

隨機(jī)變量：隨機(jī)變量可以隨機(jī)地取不同值的變量。我們通常用小寫字母來表示隨機(jī)變量本身，而用帶數(shù)字下標(biāo)的小寫字母來表示隨機(jī)變量能夠取到的值。例如，都是隨機(jī)變量X可能的取值。

對于向量值變量，我們會將隨機(jī)變量寫成 X ，它的一個值為。就其本身而言，一個隨機(jī)變量只是對可能的狀態(tài)的描述；它必須伴隨著一個概率分布來指定每個狀態(tài)的可能性。

隨機(jī)變量可以是離散的或者連續(xù)的。離散隨機(jī)變量擁有有限或者可數(shù)無限多的狀態(tài)。注意這些狀態(tài)不一定非要是整數(shù);它們也可能只是一些被命名的狀態(tài)而沒有數(shù)值。連續(xù)隨機(jī)變量伴隨著實(shí)數(shù)值。注意：下面很多在知識點(diǎn)都會分離散和連續(xù)的分別講述，但其實(shí)原理類似。

當(dāng)隨機(jī)變量是離散的，我們稱是離散型隨機(jī)變量，如果是連續(xù)的，我們會說是連續(xù)型隨機(jī)變量。
舉例：比如，一次擲20個硬幣，k個硬幣正面朝上，k是隨機(jī)變量，k的取值只能是自然數(shù)0，1，2，…，20，而不能取小數(shù)3.5、無理數(shù)√20，因而k是離散型隨機(jī)變量。

公共汽車每15分鐘一班，某人在站臺等車時間x是個隨機(jī)變量，x的取值范圍是[0,15)，它是一個區(qū)間，從理論上說在這個區(qū)間內(nèi)可取任一實(shí)數(shù)3.5、√20等，因而稱這隨機(jī)變量是連續(xù)型隨機(jī)變量。

概率分布：給定某隨機(jī)變量的取值范圍，概率分布就是導(dǎo)致該隨機(jī)事件出現(xiàn)的可能性。而從機(jī)器學(xué)習(xí)的角度來說的話，概率分布就是符合隨機(jī)變量取值范圍的某個對象屬于某個類別或服從某種趨勢的可能性。

這一節(jié)很重要，重要程度相當(dāng)于學(xué)數(shù)學(xué)時的1+1=2，簡單基礎(chǔ)又及其重要。

四、條件概率，聯(lián)合概率和全概率公式：

條件概率：其記號為P(A|B)，表示在給定條件B下A事件發(fā)生的概率。

舉個“栗子”：P(第二次投硬幣是正面|第一次投硬幣是正面)：就是在“第一次投硬幣是正面”時“第二次投硬幣是正面”的概率。不過，既然舉了這個例子，那么就順帶問一下：你以為P(第二次投硬幣是正面|第一次投硬幣是正面)的結(jié)果是多少呢？1/4？錯。答案是1/2，是不是很意外？看完下面的兩種情況你就明白了。

條件概率的兩種情況：

B事件的結(jié)果不會影響到A事件的發(fā)生。如上面的例子，兩次投幣正面向上的概率不會相互干擾。所以A事件發(fā)生的概率=A事件單獨(dú)發(fā)生的概率。記為：P(A|B) =P(A)
B事件的結(jié)果會影響A事件的發(fā)生。如：若頭天下雨，則第二天下雨的可能性會增大。即：A事件在B事件之后發(fā)生的概率> A事件單獨(dú)發(fā)生的概率。記為：P(A|B)> P(A)

條件概率鏈?zhǔn)椒▌t:

任何多維隨機(jī)變量的聯(lián)合概率分布，都可以分解成只有一個變量的條件概率相乘的形式：

這個規(guī)則被稱為概率的鏈?zhǔn)椒▌t或者乘法法則。它可以直接從條件概率的定義中得到。例如，使用兩次定義可以得到

聯(lián)合概率：聯(lián)合概率為兩個事件同時發(fā)生的概率。記為：P(A and B)或直接P(AB)

然后，因?yàn)閮蓚€事件的發(fā)生會有先后，所以聯(lián)合概率可以進(jìn)一步描述為：“事件A發(fā)生的概率”和“事件A發(fā)生后，事件B發(fā)生的概率”。于是：P(A and B)= P(A)P(B|A)

結(jié)合剛才“條件概率的兩種情況”，可以得出：P(A and B) 根據(jù)不同的情況有如下兩種結(jié)果：

P(A and B) = P(A)P(B) -- A和B的結(jié)果互不影響，即：P(B|A) = P(B)
P(A and B) = P(A)P(B|A) -- 反之

全概率公式：公式表示若事件B1，B2，…，Bn構(gòu)成一個完備事件組且都有正概率，則對任意一個事件A都有公式成立。注意：Bi是兩兩互斥的，如下圖：

舉例：某地盜竊風(fēng)氣盛行，且偷竊者屢教不改。我們根據(jù)過往的案件記錄，推斷A今晚作案的概率是0.8，B今晚作案的概率是0.1，C今晚作案的概率是0.5，除此之外，還推斷出A的得手率是0.1，B的得手率是1.0，C的得手率是0.5。今晚只有一個小偷出手,那么，今晚村里有東西被偷的概率是多少？
通過閱讀上述文字，我們大概對A、B、C三人有了一個初步的印象。首先，A的腦子可能有些問題，特別喜歡偷，但是技術(shù)相當(dāng)爛。B看來是個江湖高手，一般不出手，一出手就絕不失手。C大概是追求中庸，各方面都很普通。
我們將文字描述轉(zhuǎn)換為數(shù)學(xué)語言，根據(jù)作案頻率可知

P(A)=0.8,P(B)=0.1,P(C)=0.5

將“村里有東西被偷”記為S，根據(jù)得手率可以得到

P(S|A)=0.1,P(S|B)=1.0,P(S|C)=0.5

很簡單，所求得的就是

P(S)=P(A)P(S|A)+P(B)P(S|B)+P(C)P(S|C)=0.43

祝這個村晚上好運(yùn)吧。

這三個公式是基礎(chǔ)公式，像條件概率，在深度學(xué)習(xí)中很多conditional的做法，就是條件概率嘛，然后全概率，下面的貝葉斯公式和全概率息息相關(guān)，重要的很！

未完待續(xù)！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)