用Python實現(xiàn)多層感知器神經(jīng)網(wǎng)絡

xxcc140 2021-02-22

展開全文

除非你能學習到一些東西，否則不要重復造輪子。

強大的庫已經(jīng)存在了，如：TensorFlow，PyTorch，Keras等等。我將介紹在Python中創(chuàng)建多層感知器（MLP）神經(jīng)網(wǎng)絡的基本知識。

感知器是神經(jīng)網(wǎng)絡的基本組成部分。感知器的輸入函數(shù)是權重，偏差和輸入數(shù)據(jù)的線性組合。具體來說：in_j = weight input + bias.(in_j =權重輸入+偏差)。在每個感知器上，我們都可以指定一個激活函數(shù)g。

激活函數(shù)是一種確保感知器“發(fā)射”或僅在達到一定輸入水平后才激活的數(shù)學方法。常見的非線性激活函數(shù)為S型，softmax，整流線性單位（ReLU）或簡單的tanH。

激活函數(shù)有很多選項，但是在本文中我們僅涉及Sigmoid和softmax。

圖1：感知器

對于有監(jiān)督的學習，我們稍后將輸入的數(shù)據(jù)通過一系列隱藏層轉(zhuǎn)發(fā)到輸出層。這稱為前向傳播。在輸出層，我們能夠輸出預測y。通過我們的預測y，我們可以計算誤差| y*-y | 并使誤差通過神經(jīng)網(wǎng)絡向后傳播。這稱為反向傳播。通過隨機梯度下降（SGD）過程，將更新隱藏層中每個感知器的權重和偏差。

圖2：神經(jīng)網(wǎng)絡的基本結構

現(xiàn)在我們已經(jīng)介紹了基礎知識，讓我們實現(xiàn)一個神經(jīng)網(wǎng)絡。我們的神經(jīng)網(wǎng)絡的目標是對MNIST數(shù)據(jù)庫中的手寫數(shù)字進行分類。我將使用NumPy庫進行基本矩陣計算。

在我們的問題中，MNIST數(shù)據(jù)由 [748,1] 矩陣中的8位顏色通道表示。從本質(zhì)上講，我們有一個 [748,1] 的數(shù)字矩陣，其始于[0,1，.... 255]，其中0表示白色，255表示黑色。

結果

MNIST手寫數(shù)字數(shù)據(jù)庫包含60,000個用于訓練目的的手寫示例和10,000個用于測試目的的示例。在對60,000個示例進行了30個epoch的訓練之后，我在測試數(shù)據(jù)集上運行了經(jīng)過訓練的神經(jīng)網(wǎng)絡，并達到了93.2％的準確性。甚至可以通過調(diào)整超參數(shù)來進一步優(yōu)化。

它是如何工作的？

本文分為5個部分。這些部分是：

（1）激活函數(shù) （2）權重初始化（3）偏差初始化（4）訓練算法（5）進行預測

1. 激活函數(shù)

Sigmoid是由等式1 /（1+ exp（-x））定義的激活函數(shù)，將在隱藏層感知器中使用。

Softmax是一個激活函數(shù)，當我們要將輸入分為幾類時，它通常在輸出層中使用。在我們的例子中，我們希望將一個數(shù)字分成10個bucket[0,1,2，…，9]中的一個。它計算矩陣中每個條目的概率；概率將總計為1。具有最大概率的條目將對應于其預測，即0,1，…，9。Softmax定義為exp（x）/ sum（exp（x））。

圖3：激活函數(shù)的實現(xiàn)

2. 權重初始化

對于我們的每個隱藏層，我們將需要初始化權重矩陣。有幾種不同的方法可以做到這一點，這里是4。

零初始化-初始化所有權重= 0。
隨機初始化-使用隨機數(shù)初始化權重，而不是完全隨機。我們通常使用標準正態(tài)分布（均值0和方差1）中的隨機數(shù)。
Xavier初始化-使用具有設定方差的正態(tài)分布中的隨機數(shù)初始化權重。我們將基于上一層的大小設置方差。

如上所述，進入感知器的邊緣乘以權重矩陣。關鍵的一點是，矩陣的大小取決于當前圖層的大小以及它之前的圖層。明確地，權重矩陣的大小為[currentLayerSize，previousLayerSize]。

假設我們有一個包含100個節(jié)點的隱藏層。我們的輸入層的大小為[748,1]，而我們所需的輸出層的大小為[10,1]。輸入層和第一個隱藏層之間的權重矩陣的大小為[100,748]。隱藏層之間的每個權重矩陣的大小為[100,100]。最后，最終隱藏層和輸出層之間的權重矩陣的大小為[10,100]。

出于教育目的，我們將堅持使用單個隱藏層；在最終模型中，我們將使用多層。

圖4：權重初始化實現(xiàn)

3. 偏差初始化

像權重初始化一樣，偏置矩陣的大小取決于圖層大小，尤其是當前圖層大小。偏置初始化的一種方法是將偏置設置為零。

對于我們的實現(xiàn)，我們將需要為每個隱藏層和輸出層提供一個偏差。偏置矩陣的大小為[100,1]，基于每個隱藏層100個節(jié)點，而輸出層的大小為[10,1]。

圖5：偏置初始化實現(xiàn)

4. 訓練算法

前面已經(jīng)說過，訓練是基于隨機梯度下降（SGD）的概念。在SGD中，我們一次只考慮一個訓練點。

在我們的示例中，我們將在輸出層使用softmax激活。將使用“交叉熵損失”公式來計算損失。對于SGD，我們將需要使用softmax來計算交叉熵損失的導數(shù)。也就是說，此導數(shù)減少為y -y，即預測y減去期望值y。

圖6：關于softmax激活的交叉熵損失及其導數(shù)

我們還需要編寫S型激活函數(shù)的導數(shù)。在圖7中，我定義了S型函數(shù)及其衍生函數(shù)

圖7：Sigmoid函數(shù)（上）及其導數(shù)（下）

通常，神經(jīng)網(wǎng)絡將允許用戶指定幾個“超參數(shù)”。在我們的實施中，我們將著重于允許用戶指定epoch，批處理大小，學習率和動量。還有其他優(yōu)化技術！

學習率（LR）：學習率是一個參數(shù)，用戶可以通過它指定網(wǎng)絡允許我們學習和更新其參數(shù)的速度。選擇一個好的學習率是一門藝術。如果LR太高，我們可能永遠不會收斂于良好的可接受的訓練錯誤。如果LR太低，我們可能會浪費大量的計算時間。
epoch：epoch是整個訓練集中的一個迭代。為了確保我們不會過度擬合早期樣本中的數(shù)據(jù)，我們會在每個時期之后對數(shù)據(jù)進行隨機排序。
批次大?。和ㄟ^Epoc2h的每次迭代，我們將分批訓練數(shù)據(jù)。對于批次中的每個訓練點，我們將收集梯度，并在批次完成后更新權重/偏差。
動量：這是一個參數(shù)，我們將通過收集過去的梯度的移動平均值并允許在該方向上的運動來加速學習。在大多數(shù)情況下，這將導致更快的收斂。典型值范圍從0.5到0.9。

下面，我編寫了一些通用的偽代碼來模擬反向傳播學習算法的概況。為了便于閱讀，已將諸如計算輸出和將訓練數(shù)據(jù)分成批次之類的任務作為注釋編寫。

現(xiàn)在，我們將展示偽代碼的實現(xiàn).

5. 做出預測

現(xiàn)在，我們僅缺少此實現(xiàn)的一個關鍵方面。預測算法。在編寫反向傳播算法的過程中，我們已經(jīng)完成了大部分工作。我們只需要使用相同的前向傳播代碼即可進行預測。輸出層的softmax激活函數(shù)將計算大小為[10,1]的矩陣中每個條目的概率。

我們的目標是將數(shù)字分類為0到9。因此，aj2矩陣的索引將與預測相對應。概率最大的索引將由np.argmax()選擇，并將作為我們的預測。

結論

這就對了！我們結束了。我們已經(jīng)用Python編寫了神經(jīng)網(wǎng)絡的實現(xiàn)。

但是，我們?nèi)绾芜x擇最佳參數(shù)？我們可以使用算法的一般知識來選擇有意義的超參數(shù)。我們需要選擇能概括但不能過度擬合數(shù)據(jù)的超參數(shù)。我們可以調(diào)整動量，學習率，時期數(shù)，批處理大小和隱藏節(jié)點的數(shù)量，以實現(xiàn)我們的目標。向前邁出一步，我們可以編寫更多算法來為我們做這件事！

遺傳算法是一種AI算法，可用于選擇最佳參數(shù)。遺傳算法的思想是創(chuàng)建一組具有不同參數(shù)的子代，并讓他們產(chǎn)生與參數(shù)相關的測試錯誤。我們可以對具有最佳超參數(shù)的神經(jīng)網(wǎng)絡進行繁殖和變異，以找到性能更好的參數(shù)?；ㄙM大量時間后，我們將能夠?qū)W習有關超參數(shù)情況的大量知識，并找到新的最佳超參數(shù)值。

我們還可以采取其他措施來減少測試錯誤嗎？是的，我們可以縮放輸入數(shù)據(jù)。像許多算法一樣，數(shù)量更多會對算法的結果產(chǎn)生重大影響。在我們的示例中，數(shù)字范圍為[0到255]。如果我們按比例縮放數(shù)字，使它們的范圍從[0到1]，則可以減少該偏差。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊一鍵舉報。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片