免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

吳恩達(dá):機(jī)器學(xué)習(xí)的六個(gè)核心算法

 leafcho 2022-06-06 發(fā)布于浙江

文章圖片1

最近,吳恩達(dá)在其創(chuàng)辦的人工智能周訊《The Batch》上更新了一篇博文,總結(jié)了機(jī)器學(xué)習(xí)領(lǐng)域多個(gè)基礎(chǔ)算法的歷史溯源。
文章開(kāi)頭,吳恩達(dá)回憶他的研究歷程中曾有一次抉擇:
多年前,在一次項(xiàng)目中,選擇算法時(shí),他不得不在神經(jīng)網(wǎng)絡(luò)與決策樹(shù)學(xué)習(xí)算法之間做選擇??紤]到計(jì)算預(yù)算,他最終選擇了神經(jīng)網(wǎng)絡(luò),在很長(zhǎng)的一段時(shí)間內(nèi)棄用增強(qiáng)決策樹(shù)。
這是一個(gè)錯(cuò)誤的決定,「幸好我的團(tuán)隊(duì)很快修改了我的選擇,項(xiàng)目才成功?!箙嵌鬟_(dá)談道。
他由此感嘆,不斷學(xué)習(xí)與更新基礎(chǔ)知識(shí)是十分重要的。與其他技術(shù)領(lǐng)域一樣,隨著研究人員的增加、研究成果數(shù)量的增長(zhǎng),機(jī)器學(xué)習(xí)領(lǐng)域也在不斷發(fā)展。但有些基礎(chǔ)算法與核心思想的貢獻(xiàn)是經(jīng)得起時(shí)間考驗(yàn)的:
  • 算法:線性和邏輯回歸、決策樹(shù)等
  • 概念:正則化、優(yōu)化損失函數(shù)、偏差/方差等
在吳恩達(dá)看來(lái),這些算法與概念是許多機(jī)器學(xué)習(xí)模型的核心思想,包括房?jī)r(jià)預(yù)測(cè)器、文本-圖像生成器(如DALL·E)等。
在最新的這篇文章中,吳恩達(dá)與團(tuán)隊(duì)調(diào)研了六種基礎(chǔ)算法的來(lái)源、用途、演變等,并提供了較為詳細(xì)的講解。
這六種算法分別是:線性回歸、邏輯回歸、梯度下降、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)與k均值聚類算法。
1
線性回歸:直的&窄的
線性回歸是機(jī)器學(xué)習(xí)中的一個(gè)關(guān)鍵的統(tǒng)計(jì)方法,但它并非不戰(zhàn)而勝。它由兩位杰出的數(shù)學(xué)家提出,但200 年過(guò)去了,這個(gè)問(wèn)題仍未解決。長(zhǎng)期存在的爭(zhēng)議不僅證明了該算法具有出色的實(shí)用性,還證明了它的本質(zhì)十分簡(jiǎn)單。
那么線性回歸到底是誰(shuí)的算法呢?
1805 年,法國(guó)數(shù)學(xué)家 Adrien-Marie Legendre 發(fā)表了將一條線擬合到一組點(diǎn)的方法,同時(shí)試圖預(yù)測(cè)彗星的位置(天體導(dǎo)航是當(dāng)時(shí)全球商業(yè)中最有價(jià)值的科學(xué)方向,就像今天的人工智能一樣)。

文章圖片2

圖注:Adrien-Marie Legendre 的素描畫像
四年后,24 歲的德國(guó)神童 Carl Friedrich Gauss (高斯)堅(jiān)稱他自 1795 年以來(lái)一直在使用它,但認(rèn)為它太瑣碎了,無(wú)法寫。高斯的主張促使Legendre匿名發(fā)表了一份文章,稱“一位非常著名的幾何學(xué)家毫不猶豫地采用了這種方法?!?/span>

文章圖片3

圖注:Carl Friedrich Gauss
斜率和偏差:當(dāng)結(jié)果與影響它的變量之間的關(guān)系遵循直線時(shí),線性回歸很有用。例如,汽車的油耗與其重量成線性關(guān)系。
  • 汽車的油耗 y 與其重量 x 之間的關(guān)系取決于直線的斜率 w(油耗隨重量上升的幅度)和偏置項(xiàng) b(零重量時(shí)的油耗):y=w*x+b。
  • 在訓(xùn)練期間,給定汽車的重量,算法會(huì)預(yù)測(cè)預(yù)期的油耗。它比較了預(yù)期和實(shí)際的油耗。然后,它將平方差最小化,通常通過(guò)普通最小二乘技術(shù),磨練 w 和 b 的值。
  • 考慮汽車的阻力可以生成更精確的預(yù)測(cè)。附加變量將線延伸到平面。通過(guò)這種方式,線性回歸可以容納任意數(shù)量的變量/維度。
普及的兩個(gè)步驟:該算法立即幫助航海者追蹤星星,以及幫助后來(lái)的生物學(xué)家(尤其是查爾斯·達(dá)爾文的堂兄Francis Galton)識(shí)別植物和動(dòng)物的可遺傳特征。這兩項(xiàng)深入發(fā)展釋放了線性回歸的廣泛潛力。1922 年,英國(guó)統(tǒng)計(jì)學(xué)家 Ronald Fisher 和 Karl Pearson 展示了線性回歸如何適應(yīng)相關(guān)性和分布的一般統(tǒng)計(jì)框架,使其在所有科學(xué)中都有用。而且,近一個(gè)世紀(jì)后,計(jì)算機(jī)的出現(xiàn)提供了數(shù)據(jù)和處理能力,可以更大程度地利用它。
應(yīng)對(duì)歧義:當(dāng)然,數(shù)據(jù)永遠(yuǎn)不會(huì)被完美地衡量,有些變量比其他變量更重要。這些生活事實(shí)激發(fā)了更復(fù)雜的變體。例如,帶有正則化的線性回歸(也稱為「嶺回歸」,ridge regression)鼓勵(lì)線性回歸模型不要過(guò)多地依賴于任何一個(gè)變量,或者更確切地說(shuō),均勻地依賴于最重要的變量。如果為了簡(jiǎn)單起見(jiàn),另一種形式的正則化(L1 而不是 L2)會(huì)產(chǎn)生 lasso(壓縮估計(jì)),鼓勵(lì)盡可能多的系數(shù)為零。換句話說(shuō),它學(xué)會(huì)選擇具有高預(yù)測(cè)能力的變量并忽略其余的。彈性網(wǎng)絡(luò)結(jié)合了這兩種類型的正則化。當(dāng)數(shù)據(jù)稀疏或特征看起來(lái)相關(guān)時(shí),它很有用。
在每個(gè)神經(jīng)元中:現(xiàn)在,簡(jiǎn)單的版本仍然非常有用。神經(jīng)網(wǎng)絡(luò)中最常見(jiàn)的神經(jīng)元類型是線性回歸模型,隨后是非線性激活函數(shù),使線性回歸成為深度學(xué)習(xí)的基本組成部分。
2
邏輯回歸:跟隨曲線
曾經(jīng)有一段時(shí)間,邏輯回歸只用于對(duì)一件事進(jìn)行分類:如果你喝了一瓶毒藥,你可能會(huì)被貼上的標(biāo)簽是“活著”還是“死去”呢?時(shí)代變了,今天,不僅呼叫緊急服務(wù)為這個(gè)問(wèn)題提供了更好的答案,而且邏輯回歸也成為了深度學(xué)習(xí)的核心。
毒物控制
邏輯函數(shù)可以追溯到 1830 年代,當(dāng)時(shí)比利時(shí)統(tǒng)計(jì)學(xué)家 P.F. Verhulst 發(fā)明它來(lái)描述人口動(dòng)態(tài):隨著時(shí)間的推移,指數(shù)增長(zhǎng)的初始爆炸隨著它消耗可用資源而趨于平緩,從而產(chǎn)生特征邏輯曲線。一個(gè)多世紀(jì)過(guò)去后,美國(guó)統(tǒng)計(jì)學(xué)家 E. B. Wilson 和他的學(xué)生 Jane Worcester 又設(shè)計(jì)了邏輯回歸來(lái)計(jì)算給定有害物質(zhì)有多少是致命的。

文章圖片4

圖注:P.F. Verhulst
擬合函數(shù):邏輯回歸將邏輯函數(shù)擬合到數(shù)據(jù)集,以便預(yù)測(cè)給定事件(例如,攝入士的寧)發(fā)生特定結(jié)果(例如,過(guò)早死亡)的概率。
  • 訓(xùn)練水平調(diào)整曲線的中心位置,垂直調(diào)整曲線的中間位置,以最大限度地減少函數(shù)輸出與數(shù)據(jù)之間的誤差。
  • 將中心調(diào)整到右側(cè)或左側(cè)意味著殺死普通人需要或多或少的毒藥。陡峭的坡度意味著確定性:在中途點(diǎn)之前,大多數(shù)人幸存下來(lái);超過(guò)一半,「就只能說(shuō)再見(jiàn)了」(死亡的意思)。緩坡更寬容:低于曲線中部,一半以上幸存;再往上,只有不到一半的人會(huì)幸存。
  • 在一個(gè)結(jié)果和另一個(gè)結(jié)果之間設(shè)置一個(gè)閾值,比如 0.5,曲線就變成了一個(gè)分類器。只需在模型中輸入劑量,您就會(huì)知道您應(yīng)該計(jì)劃聚會(huì)還是葬禮。
更多結(jié)果:Verhulst 的工作發(fā)現(xiàn)了二元結(jié)果的概率,忽略了進(jìn)一步的可能性,例如中毒受害者可能會(huì)進(jìn)入來(lái)世的哪一邊。他的繼任者擴(kuò)展了算法:
  • 在 1960 年代后期,英國(guó)統(tǒng)計(jì)學(xué)家 David Cox 和荷蘭統(tǒng)計(jì)學(xué)家 Henri Theil 獨(dú)立工作,對(duì)具有兩種以上可能結(jié)果的情況進(jìn)行了邏輯回歸。
  • 進(jìn)一步的工作產(chǎn)生了有序邏輯回歸,其中結(jié)果是有序值。
  • 為了處理稀疏或高維數(shù)據(jù),邏輯回歸可以利用與線性回歸相同的正則化技術(shù)。

文章圖片5

圖注:David Cox
多功能曲線:邏輯函數(shù)以相當(dāng)準(zhǔn)確的方式描述了廣泛的現(xiàn)象,因此邏輯回歸在許多情況下提供了有用的基線預(yù)測(cè)。在醫(yī)學(xué)上,它可以估計(jì)死亡率和疾病風(fēng)險(xiǎn)。在政治學(xué)中,它預(yù)測(cè)選舉的贏家和輸家。在經(jīng)濟(jì)學(xué)中,它預(yù)測(cè)商業(yè)前景。更重要的是,它在各種各樣的神經(jīng)網(wǎng)絡(luò)中驅(qū)動(dòng)一部分神經(jīng)元(其中非線性是 Sigmoid 函數(shù))。
3
梯度下降:一切都在下坡
想象一下黃昏后在山上徒步旅行,發(fā)現(xiàn)腳下什么都看不到。而且您的手機(jī)電池沒(méi)電了,因此您無(wú)法使用 GPS 應(yīng)用程序找到回家的路。您可能會(huì)通過(guò)梯度下降找到最快的路徑。小心不要從懸崖上走。
太陽(yáng)和地毯:梯度下降比通過(guò)陡峭的地形下降更有利。1847年,法國(guó)數(shù)學(xué)家Augustin-Louis Cauchy發(fā)明了近似恒星軌道的算法。60 年后,他的同胞 Jacques Hadamard 獨(dú)立開(kāi)發(fā)了它來(lái)描述薄而靈活的物體(如地毯)的變形,這可能會(huì)使膝蓋向下徒步更容易。然而,在機(jī)器學(xué)習(xí)中,它最常見(jiàn)的用途是找到學(xué)習(xí)算法損失函數(shù)的最低點(diǎn)。

文章圖片6

圖注:Augustin-Louis Cauchy
向下爬:經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)提供了一個(gè)函數(shù),該函數(shù)在給定輸入的情況下計(jì)算所需的輸出。訓(xùn)練網(wǎng)絡(luò)的一種方法是通過(guò)迭代計(jì)算實(shí)際輸出與期望輸出之間的差異,然后更改網(wǎng)絡(luò)的參數(shù)值以縮小差異,從而將輸出中的損失或誤差最小化。梯度下降縮小了差異,將計(jì)算損失的函數(shù)最小化。網(wǎng)絡(luò)的參數(shù)值相當(dāng)于地形上的一個(gè)位置,損失的是當(dāng)前高度。隨著你的下降,你可以提高網(wǎng)絡(luò)計(jì)算接近所需輸出的能力??梢?jiàn)性是有限的,因?yàn)樵诘湫偷谋O(jiān)督學(xué)習(xí)情況下,該算法僅依賴于網(wǎng)絡(luò)的參數(shù)值和損失函數(shù)的梯度或斜率——即你在山上的位置和你腳下的斜率。
  • 基本方法是向地形下降最陡的方向移動(dòng)。訣竅是校準(zhǔn)你的步幅。步幅太小,就需要很長(zhǎng)時(shí)間才能取得進(jìn)展;步幅太大,你就會(huì)跳入未知的領(lǐng)域,可能是上坡而不是下坡。
  • 給定當(dāng)前位置,算法通過(guò)計(jì)算損失函數(shù)的梯度來(lái)估計(jì)最快下降的方向。梯度指向上坡,那么該算法就是通過(guò)減去梯度的一小部分來(lái)以相反的方向前進(jìn)。稱為學(xué)習(xí)率的分?jǐn)?shù) α 決定了再次測(cè)量梯度之前的步長(zhǎng)。
  • 反復(fù)做這幾個(gè)步驟,希望你能到達(dá)一個(gè)山谷。恭喜!
卡在山谷里:太糟糕了,你的手機(jī)沒(méi)電了,因?yàn)樗惴赡軟](méi)有把你推到凸山的底部。你可能會(huì)陷入由多個(gè)山谷(局部最小值)、山峰(局部最大值)、鞍點(diǎn)(鞍點(diǎn))和高原組成的非凸面景觀中。事實(shí)上,圖像識(shí)別、文本生成和語(yǔ)音識(shí)別等任務(wù)都是非凸的,并且已經(jīng)出現(xiàn)了梯度下降的許多變體來(lái)處理這種情況。例如,該算法可能具有幫助它放大小幅上漲和下跌的動(dòng)量,從而使其更有可能到達(dá)底部。研究人員設(shè)計(jì)了如此多的變體,以至于看起來(lái)優(yōu)化器的數(shù)量與局部最小值一樣多。幸運(yùn)的是,局部最小值和全局最小值往往大致相等。
最優(yōu)優(yōu)化器:梯度下降是尋找任一函數(shù)的最小值的明確選擇。在可以直接計(jì)算精確解的情況下——例如,具有大量變量的線性回歸任務(wù)中——它可以逼近一個(gè)值,而且通常速度更快、成本更低。但它確實(shí)在復(fù)雜的非線性任務(wù)中發(fā)揮了作用。憑借梯度下降和冒險(xiǎn)精神,你可能可以及時(shí)趕出山區(qū)吃晚飯。
4
神經(jīng)網(wǎng)絡(luò):尋找函數(shù)
讓我們先把這個(gè)問(wèn)題弄清楚:大腦不是一個(gè)圖形處理單元集,如果它是的話,那它運(yùn)行的軟件要比典型的人工神經(jīng)網(wǎng)絡(luò)復(fù)雜得多。而神經(jīng)網(wǎng)絡(luò)的靈感來(lái)自大腦的結(jié)構(gòu):一層層相互連接的神經(jīng)元,每個(gè)神經(jīng)元根據(jù)其相鄰狀態(tài)來(lái)計(jì)算自己的輸出,由此產(chǎn)生的一連串活動(dòng)形成了一個(gè)想法——或識(shí)別出一張貓的照片。
從生物到人工:大腦通過(guò)神經(jīng)元之間相互作用來(lái)學(xué)習(xí)的想法可以追溯到 1873 年,但直到 1943 年,美國(guó)神經(jīng)科學(xué)家 Warren McCulloch 和 Walter Pitts 才利用簡(jiǎn)單的數(shù)學(xué)規(guī)則建立了生物神經(jīng)網(wǎng)絡(luò)模型。1958 年,美國(guó)心理學(xué)家Frank Rosenblatt開(kāi)發(fā)出感測(cè)器——這是一種在打卡機(jī)上實(shí)現(xiàn)的單層視覺(jué)網(wǎng)絡(luò),旨在為美國(guó)海軍建立一個(gè)硬件版本。

文章圖片7

圖注:Frank Rosenblatt
越大越好:Rosenblatt 的發(fā)明只能識(shí)別單線分類。之后,烏克蘭數(shù)學(xué)家 Alexey Ivakhnenko 和 Valentin Lapa 通過(guò)在任意層數(shù)中堆疊神經(jīng)元網(wǎng)絡(luò),克服了這一限制。1985 年,獨(dú)立工作的法國(guó)計(jì)算機(jī)科學(xué)家 Yann LeCun、David Parker 和美國(guó)心理學(xué)家 David Rumelhart 及其同事,描述了使用反向傳播來(lái)有效訓(xùn)練此類網(wǎng)絡(luò)。在新千年的第一個(gè)十年中,包括 Kumar Chellapilla、Dave Steinkraus 和 Rajat Raina(與吳恩達(dá)合作)在內(nèi)的研究人員通過(guò)使用圖形處理單元進(jìn)一步推動(dòng)了神經(jīng)網(wǎng)絡(luò)的發(fā)展,這使得越來(lái)越大的神經(jīng)網(wǎng)絡(luò)能從互聯(lián)網(wǎng)生成的海量數(shù)據(jù)中得到學(xué)習(xí)。
適合每項(xiàng)任務(wù):神經(jīng)網(wǎng)絡(luò)背后的原理很簡(jiǎn)單:對(duì)于任何任務(wù),都有一個(gè)可執(zhí)行它的函數(shù)。一個(gè)神經(jīng)網(wǎng)絡(luò)通過(guò)組合多個(gè)簡(jiǎn)單函數(shù)構(gòu)成可訓(xùn)練函數(shù),每個(gè)函數(shù)由單個(gè)神經(jīng)元執(zhí)行。一個(gè)神經(jīng)元的功能由稱為「權(quán)重」的可調(diào)參數(shù)決定。給定這些權(quán)重和輸入示例及其所需輸出的隨機(jī)值,就可以反復(fù)更改權(quán)重,直到可訓(xùn)練的函數(shù)能完成手頭的任務(wù)。
  • 一個(gè)神經(jīng)元可接受各種輸入(例如,代表像素或單詞的數(shù)字,或前一層的輸出),將它們與權(quán)重相乘,乘積相加,并得出由開(kāi)發(fā)人員選擇的非線性函數(shù)或激活函數(shù)的總和。期間要考慮到它是線性回歸、加上一個(gè)激活函數(shù)。
  • 訓(xùn)練修改權(quán)重。對(duì)于每個(gè)示例輸入,網(wǎng)絡(luò)會(huì)計(jì)算一個(gè)輸出并將其與預(yù)期輸出進(jìn)行比較。反向傳播可通過(guò)梯度下降來(lái)改變權(quán)重,以減少實(shí)際輸出和預(yù)期輸出間的差異。當(dāng)有足夠多(好的)例子重復(fù)這個(gè)過(guò)程足夠多次,網(wǎng)絡(luò)就能學(xué)會(huì)執(zhí)行這個(gè)任務(wù)。
黑匣子:雖然運(yùn)氣好的話,一個(gè)訓(xùn)練有素的網(wǎng)絡(luò)可以完成它的任務(wù),但最終你要閱讀一個(gè)函數(shù),往往會(huì)非常復(fù)雜——包含數(shù)千個(gè)變量和嵌套的激活函數(shù)——以至于解釋網(wǎng)絡(luò)是如何成功完成其任務(wù)也是非常困難的。此外, 一個(gè)訓(xùn)練有素的網(wǎng)絡(luò)只和它所學(xué)的數(shù)據(jù)一樣好。例如,如果數(shù)據(jù)集有偏差,那么網(wǎng)絡(luò)的輸出也會(huì)出現(xiàn)偏差。如果它只包含貓的高分辨率圖片,那它對(duì)低分辨率圖片的反應(yīng)就不得而知了。
一個(gè)常識(shí):在報(bào)道 Rosenblatt 于1958年發(fā)明的感測(cè)器時(shí),《紐約時(shí)報(bào)》開(kāi)辟了人工智能炒作的道路,報(bào)道中提到“美國(guó)海軍期望擁有一臺(tái)會(huì)走路、說(shuō)話、看、寫、自我復(fù)制和意識(shí)到自己存在的電子計(jì)算機(jī)雛形?!?雖然當(dāng)時(shí)的感測(cè)器沒(méi)有達(dá)到這個(gè)要求,但它產(chǎn)生了許多令人印象深刻的模型:用于圖像的卷積神經(jīng)網(wǎng)絡(luò);文本的循環(huán)神經(jīng)網(wǎng)絡(luò);以及用于圖像、文本、語(yǔ)音、視頻、蛋白質(zhì)結(jié)構(gòu)等的transformers。它們已經(jīng)做出了令人驚嘆的事情,像下圍棋時(shí)的表現(xiàn)超過(guò)了人類水平,在診斷X射線圖像等實(shí)際任務(wù)中也接近人類水平。然而,它們?cè)诔WR(shí)和邏輯推理方面的問(wèn)題仍然較難應(yīng)對(duì)。
5
決策樹(shù):從根到葉
亞里士多德是一個(gè)什么樣的「野獸」?這位哲學(xué)家的追隨者、第三世紀(jì)期間生活在敘利亞的 Porphyry 想出了一個(gè)合乎邏輯的方法來(lái)回答這個(gè)問(wèn)題。他將亞里士多德提出的“存在類別”從一般到具體組合起來(lái),將亞里士多德依次歸入到每個(gè)分類中:亞里士多德的存在是物質(zhì)的而不是概念或精神;他的身體是有生命的而不是無(wú)生命的;他的思想是理性的而不是非理性的。因此,他的分類是人類。中世紀(jì)的邏輯教師將這個(gè)序列繪制為垂直流程圖:一個(gè)早期的決策樹(shù)。
數(shù)字差異:快進(jìn)到 1963 年,密歇根大學(xué)社會(huì)學(xué)家John Sonquist和經(jīng)濟(jì)學(xué)家James Morgan在將調(diào)查的受訪者分組時(shí),首次在計(jì)算機(jī)中實(shí)行了決策樹(shù)。隨著自動(dòng)訓(xùn)練算法軟件的出現(xiàn),這種工作變得很普遍,如今包括 scikit-learn 等在內(nèi)的各種機(jī)器學(xué)習(xí)庫(kù)也已經(jīng)使用決策樹(shù)。這套代碼是由斯坦福大學(xué)和加州大學(xué)伯克利分校的四位統(tǒng)計(jì)學(xué)家花費(fèi)了10 年時(shí)間開(kāi)發(fā)的。到今天,從頭開(kāi)始編寫決策樹(shù)已經(jīng)成為了《機(jī)器學(xué)習(xí) 101》中的一項(xiàng)家庭作業(yè)。
空中的根:決策樹(shù)可以執(zhí)行分類或回歸。它向下生長(zhǎng),從根部到樹(shù)冠,將一個(gè)決策層次結(jié)構(gòu)的輸入示例分類為兩個(gè)(或更多)。想到德國(guó)醫(yī)學(xué)家和人類學(xué)家Johann Blumenbach的課題:大約在 1776 年,他首先將猴子與猿(撇開(kāi)人類除外)區(qū)分開(kāi)來(lái),在此之前,猴子和猿是被歸為一類的。這種分類取決于各種標(biāo)準(zhǔn),例如是否有尾巴、胸部狹窄或?qū)掗?、是直立還是蹲伏、還有智力的高低。使用經(jīng)訓(xùn)練的決策樹(shù)來(lái)為這類動(dòng)物貼上標(biāo)簽,逐一考慮每個(gè)標(biāo)準(zhǔn),最終將這兩組動(dòng)物分開(kāi)。
  • 這棵樹(shù)從一個(gè)可視為包含了所有案例的生物數(shù)據(jù)庫(kù)的根節(jié)點(diǎn)出發(fā)——黑猩猩、大猩猩和紅毛猩猩,以及卷尾猴、狒狒和狨猴。根會(huì)在兩個(gè)子節(jié)點(diǎn)間提供選擇,是否表現(xiàn)出某種特定特征,導(dǎo)致兩個(gè)子節(jié)點(diǎn)包含具有和不具有該特征的示例。以此類推,這個(gè)過(guò)程中以任意數(shù)量的葉節(jié)點(diǎn)結(jié)束,每個(gè)葉節(jié)點(diǎn)都包含大部分或全部屬于一個(gè)類別。
  • 為了成長(zhǎng),樹(shù)必須找到根決策。要做選擇,則得考慮所有的特征及其價(jià)值——后附肢、桶狀胸等——并選擇能夠最大限度提高分割純度的那個(gè)特征。「最佳純度」被定義為一個(gè)類別示例會(huì) 100% 進(jìn)入一個(gè)特定的子節(jié)點(diǎn)、而不進(jìn)入另一個(gè)節(jié)點(diǎn)。分叉很少在只做了一個(gè)決定之后就百分之百純粹、且很可能永遠(yuǎn)也達(dá)不到。隨著這個(gè)過(guò)程繼續(xù)進(jìn)行,產(chǎn)生一個(gè)又一個(gè)層次的子節(jié)點(diǎn),直至純度不會(huì)因?yàn)榭紤]更多的特征而增加多少。此時(shí),這棵樹(shù)樹(shù)已經(jīng)完全訓(xùn)練好了。
  • 在推理時(shí),一個(gè)新的示例從上到下經(jīng)歷過(guò)決策樹(shù),完成每個(gè)級(jí)別不同決策的評(píng)估。它會(huì)得到它所在葉節(jié)點(diǎn)所包含的數(shù)據(jù)標(biāo)簽。
進(jìn)入前 10 名:鑒于 Blumenbach 的結(jié)論(后來(lái)被Charles Darwin推翻),即人類與猿的區(qū)別在于寬闊的骨盆、手和緊牙的牙齒,如果我們想擴(kuò)展決策樹(shù)以不僅分類猿和猴子,而是對(duì)人類進(jìn)行分類,那會(huì)怎么樣呢?澳大利亞計(jì)算機(jī)科學(xué)家 John Ross Quinlan 在 1986 年通過(guò) ID3 實(shí)現(xiàn)了這一可能,它擴(kuò)展了決策樹(shù),以支持非二元結(jié)果。2008 年, 在IEEE國(guó)際數(shù)據(jù)挖掘會(huì)議策劃的數(shù)據(jù)挖掘十大算法名單中,一項(xiàng)命名為 C4.5 的擴(kuò)展細(xì)化算法名列前茅。在一個(gè)創(chuàng)新猖獗的世界里,這就是持久力。
扒開(kāi)樹(shù)葉:決策樹(shù)確實(shí)有一些缺點(diǎn)。它們很容易通過(guò)增加多級(jí)別層次來(lái)過(guò)度擬合數(shù)據(jù),以至于葉節(jié)點(diǎn)只包括一個(gè)例子。更糟糕的是,它們很容易出現(xiàn)蝴蝶效應(yīng):更換一個(gè)例子,長(zhǎng)出來(lái)的樹(shù)就大不相同。
走進(jìn)森林:美國(guó)統(tǒng)計(jì)學(xué)家 Leo Breiman 和新西蘭統(tǒng)計(jì)學(xué)家 Adele Cutler 將這一特征轉(zhuǎn)化為優(yōu)勢(shì),于 2001 年開(kāi)發(fā)了隨機(jī)森林(random forest)——這是一個(gè)決策樹(shù)的集合,每個(gè)決策樹(shù)會(huì)處理不同的、重疊的示例選擇,并對(duì)最終結(jié)果進(jìn)行投票。隨機(jī)森林和它的表親XGBoost不太容易過(guò)度擬合,這有助于使它們成為最受歡迎的機(jī)器學(xué)習(xí)算法之一。這就像讓亞里士多德、Porphyry、Blumenbach、Darwin、 Jane Goodall、Dian Fossey和其他 1000 位動(dòng)物學(xué)家一起在房間里,確保你的分類是最好的。
6
K均值聚類:群體思維
如果你在聚會(huì)上與其他人站得很近,那么你們很可能有一些共同點(diǎn)。這就是使用 k 均值聚類將數(shù)據(jù)點(diǎn)分組的想法。無(wú)論是通過(guò)人類機(jī)構(gòu)還是其他力量形成的群體,這個(gè)算法都會(huì)找到它們。
從爆炸到撥號(hào)音:美國(guó)物理學(xué)家 Stuart Lloyd 是貝爾實(shí)驗(yàn)室標(biāo)志性創(chuàng)新工廠和發(fā)明原子彈的曼哈頓計(jì)劃的校友,他于 1957 年首次提出 k-means 聚類,以在數(shù)字信號(hào)中分配信息,但直到 1982 年才發(fā)表這個(gè)工作:

文章圖片8

論文地址:https://cs./~roweis/csc2515-2006/readings/lloyd57.pdf
與此同時(shí),美國(guó)統(tǒng)計(jì)學(xué)家 Edward Forgy 在 1965 年描述了一種類似的方法,導(dǎo)致了它的替代名稱為「Lloyd-Forgy 算法」。
尋找中心:考慮將聚類分成志同道合的工作組。給定房間中參與者的位置和要形成的組數(shù),k-means 聚類可以將參與者分成大小大致相等的組,每個(gè)組都聚集在一個(gè)中心點(diǎn)或質(zhì)心周圍。
  • 在訓(xùn)練期間,算法最初通過(guò)隨機(jī)選擇 k 人來(lái)指定 k 個(gè)質(zhì)心。(K 必須手動(dòng)選擇,找到一個(gè)最優(yōu)值有時(shí)非常重要。)然后它通過(guò)將每個(gè)人與最近的質(zhì)心相關(guān)聯(lián)來(lái)增長(zhǎng) k 個(gè)集群。
  • 對(duì)于每個(gè)集群,它計(jì)算分配到該組的所有人的平均位置,并將該平均位置指定為新的質(zhì)心。每個(gè)新的質(zhì)心可能都沒(méi)有被一個(gè)人占據(jù),但那又如何呢?人們傾向于聚集在巧克力和火鍋周圍。
  • 計(jì)算出新的質(zhì)心后,算法將個(gè)體重新分配到離他們最近的質(zhì)心。然后它計(jì)算新的質(zhì)心,調(diào)整集群,等等,直到質(zhì)心(以及它們周圍的組)不再移動(dòng)。之后,將新成員分配到正確的集群就很容易。讓他們?cè)诜块g里就位并尋找最近的質(zhì)心。
  • 預(yù)先警告:鑒于最初的隨機(jī)質(zhì)心分配,你可能最終不會(huì)與你希望與之相處的以數(shù)據(jù)為中心的可愛(ài) AI 專家在同一組中。該算法做得很好,但不能保證找到最佳解決方案。
不同的距離:當(dāng)然,聚類對(duì)象之間的距離不需要很大。兩個(gè)向量之間的任何度量都可以。例如,k-means 聚類可以根據(jù)他們的服裝、職業(yè)或其他屬性來(lái)劃分他們,而不是根據(jù)物理距離對(duì)參加派對(duì)的人進(jìn)行分組。在線商店使用它根據(jù)客戶的喜好或行為來(lái)劃分客戶,天文學(xué)家也可以將相同類型的星星分在一組。
數(shù)據(jù)點(diǎn)的力量:這個(gè)想法產(chǎn)生了一些顯著的變化:
  • K-medoids 使用實(shí)際數(shù)據(jù)點(diǎn)作為質(zhì)心,而不是給定集群中的平均位置。中心點(diǎn)是可以將到集群中所有點(diǎn)的距離最小化的點(diǎn)。這種變化更容易解釋,因?yàn)橘|(zhì)心始終是數(shù)據(jù)點(diǎn)。
  • Fuzzy C-Means Clustering 使數(shù)據(jù)點(diǎn)能夠不同程度地參與多個(gè)集群。它根據(jù)與質(zhì)心的距離,用集群的度來(lái)代替硬簇分配。
n 維狂歡:盡管如此,原始形式的算法仍然廣泛有用——特別是因?yàn)樽鳛橐环N無(wú)監(jiān)督算法,它不需要收集昂貴的標(biāo)記數(shù)據(jù)。它的使用速度也越來(lái)越快。例如,包括 scikit-learn 在內(nèi)的機(jī)器學(xué)習(xí)庫(kù)受益于 2002 年添加的 kd-trees,這些 kd-trees 可以非常快速地劃分高維數(shù)據(jù)。
原文鏈接:

https://read./the-batch/issue-146/

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多