算法:線性和邏輯回歸、決策樹(shù)等 概念:正則化、優(yōu)化損失函數(shù)、偏差/方差等
汽車的油耗 y 與其重量 x 之間的關(guān)系取決于直線的斜率 w(油耗隨重量上升的幅度)和偏置項(xiàng) b(零重量時(shí)的油耗):y=w*x+b。
在訓(xùn)練期間,給定汽車的重量,算法會(huì)預(yù)測(cè)預(yù)期的油耗。它比較了預(yù)期和實(shí)際的油耗。然后,它將平方差最小化,通常通過(guò)普通最小二乘技術(shù),磨練 w 和 b 的值。
考慮汽車的阻力可以生成更精確的預(yù)測(cè)。附加變量將線延伸到平面。通過(guò)這種方式,線性回歸可以容納任意數(shù)量的變量/維度。
訓(xùn)練水平調(diào)整曲線的中心位置,垂直調(diào)整曲線的中間位置,以最大限度地減少函數(shù)輸出與數(shù)據(jù)之間的誤差。
將中心調(diào)整到右側(cè)或左側(cè)意味著殺死普通人需要或多或少的毒藥。陡峭的坡度意味著確定性:在中途點(diǎn)之前,大多數(shù)人幸存下來(lái);超過(guò)一半,「就只能說(shuō)再見(jiàn)了」(死亡的意思)。緩坡更寬容:低于曲線中部,一半以上幸存;再往上,只有不到一半的人會(huì)幸存。
在一個(gè)結(jié)果和另一個(gè)結(jié)果之間設(shè)置一個(gè)閾值,比如 0.5,曲線就變成了一個(gè)分類器。只需在模型中輸入劑量,您就會(huì)知道您應(yīng)該計(jì)劃聚會(huì)還是葬禮。
在 1960 年代后期,英國(guó)統(tǒng)計(jì)學(xué)家 David Cox 和荷蘭統(tǒng)計(jì)學(xué)家 Henri Theil 獨(dú)立工作,對(duì)具有兩種以上可能結(jié)果的情況進(jìn)行了邏輯回歸。
進(jìn)一步的工作產(chǎn)生了有序邏輯回歸,其中結(jié)果是有序值。
為了處理稀疏或高維數(shù)據(jù),邏輯回歸可以利用與線性回歸相同的正則化技術(shù)。
基本方法是向地形下降最陡的方向移動(dòng)。訣竅是校準(zhǔn)你的步幅。步幅太小,就需要很長(zhǎng)時(shí)間才能取得進(jìn)展;步幅太大,你就會(huì)跳入未知的領(lǐng)域,可能是上坡而不是下坡。
給定當(dāng)前位置,算法通過(guò)計(jì)算損失函數(shù)的梯度來(lái)估計(jì)最快下降的方向。梯度指向上坡,那么該算法就是通過(guò)減去梯度的一小部分來(lái)以相反的方向前進(jìn)。稱為學(xué)習(xí)率的分?jǐn)?shù) α 決定了再次測(cè)量梯度之前的步長(zhǎng)。
反復(fù)做這幾個(gè)步驟,希望你能到達(dá)一個(gè)山谷。恭喜!
一個(gè)神經(jīng)元可接受各種輸入(例如,代表像素或單詞的數(shù)字,或前一層的輸出),將它們與權(quán)重相乘,乘積相加,并得出由開(kāi)發(fā)人員選擇的非線性函數(shù)或激活函數(shù)的總和。期間要考慮到它是線性回歸、加上一個(gè)激活函數(shù)。
訓(xùn)練修改權(quán)重。對(duì)于每個(gè)示例輸入,網(wǎng)絡(luò)會(huì)計(jì)算一個(gè)輸出并將其與預(yù)期輸出進(jìn)行比較。反向傳播可通過(guò)梯度下降來(lái)改變權(quán)重,以減少實(shí)際輸出和預(yù)期輸出間的差異。當(dāng)有足夠多(好的)例子重復(fù)這個(gè)過(guò)程足夠多次,網(wǎng)絡(luò)就能學(xué)會(huì)執(zhí)行這個(gè)任務(wù)。
這棵樹(shù)從一個(gè)可視為包含了所有案例的生物數(shù)據(jù)庫(kù)的根節(jié)點(diǎn)出發(fā)——黑猩猩、大猩猩和紅毛猩猩,以及卷尾猴、狒狒和狨猴。根會(huì)在兩個(gè)子節(jié)點(diǎn)間提供選擇,是否表現(xiàn)出某種特定特征,導(dǎo)致兩個(gè)子節(jié)點(diǎn)包含具有和不具有該特征的示例。以此類推,這個(gè)過(guò)程中以任意數(shù)量的葉節(jié)點(diǎn)結(jié)束,每個(gè)葉節(jié)點(diǎn)都包含大部分或全部屬于一個(gè)類別。
為了成長(zhǎng),樹(shù)必須找到根決策。要做選擇,則得考慮所有的特征及其價(jià)值——后附肢、桶狀胸等——并選擇能夠最大限度提高分割純度的那個(gè)特征。「最佳純度」被定義為一個(gè)類別示例會(huì) 100% 進(jìn)入一個(gè)特定的子節(jié)點(diǎn)、而不進(jìn)入另一個(gè)節(jié)點(diǎn)。分叉很少在只做了一個(gè)決定之后就百分之百純粹、且很可能永遠(yuǎn)也達(dá)不到。隨著這個(gè)過(guò)程繼續(xù)進(jìn)行,產(chǎn)生一個(gè)又一個(gè)層次的子節(jié)點(diǎn),直至純度不會(huì)因?yàn)榭紤]更多的特征而增加多少。此時(shí),這棵樹(shù)樹(shù)已經(jīng)完全訓(xùn)練好了。
在推理時(shí),一個(gè)新的示例從上到下經(jīng)歷過(guò)決策樹(shù),完成每個(gè)級(jí)別不同決策的評(píng)估。它會(huì)得到它所在葉節(jié)點(diǎn)所包含的數(shù)據(jù)標(biāo)簽。
在訓(xùn)練期間,算法最初通過(guò)隨機(jī)選擇 k 人來(lái)指定 k 個(gè)質(zhì)心。(K 必須手動(dòng)選擇,找到一個(gè)最優(yōu)值有時(shí)非常重要。)然后它通過(guò)將每個(gè)人與最近的質(zhì)心相關(guān)聯(lián)來(lái)增長(zhǎng) k 個(gè)集群。
對(duì)于每個(gè)集群,它計(jì)算分配到該組的所有人的平均位置,并將該平均位置指定為新的質(zhì)心。每個(gè)新的質(zhì)心可能都沒(méi)有被一個(gè)人占據(jù),但那又如何呢?人們傾向于聚集在巧克力和火鍋周圍。
計(jì)算出新的質(zhì)心后,算法將個(gè)體重新分配到離他們最近的質(zhì)心。然后它計(jì)算新的質(zhì)心,調(diào)整集群,等等,直到質(zhì)心(以及它們周圍的組)不再移動(dòng)。之后,將新成員分配到正確的集群就很容易。讓他們?cè)诜块g里就位并尋找最近的質(zhì)心。
預(yù)先警告:鑒于最初的隨機(jī)質(zhì)心分配,你可能最終不會(huì)與你希望與之相處的以數(shù)據(jù)為中心的可愛(ài) AI 專家在同一組中。該算法做得很好,但不能保證找到最佳解決方案。
K-medoids 使用實(shí)際數(shù)據(jù)點(diǎn)作為質(zhì)心,而不是給定集群中的平均位置。中心點(diǎn)是可以將到集群中所有點(diǎn)的距離最小化的點(diǎn)。這種變化更容易解釋,因?yàn)橘|(zhì)心始終是數(shù)據(jù)點(diǎn)。
Fuzzy C-Means Clustering 使數(shù)據(jù)點(diǎn)能夠不同程度地參與多個(gè)集群。它根據(jù)與質(zhì)心的距離,用集群的度來(lái)代替硬簇分配。
https://read./the-batch/issue-146/