免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

機(jī)器學(xué)習(xí)項(xiàng)目的完整工作流程

 aaxxx 2018-09-22

現(xiàn)在機(jī)器學(xué)習(xí)應(yīng)用非常流行,了解機(jī)器學(xué)習(xí)項(xiàng)目的流程,能幫助我們更好的使用機(jī)器學(xué)習(xí)工具來(lái)處理實(shí)際問(wèn)題。

1. 理解實(shí)際問(wèn)題,抽象為機(jī)器學(xué)習(xí)能處理的數(shù)學(xué)問(wèn)題

理解實(shí)際業(yè)務(wù)場(chǎng)景問(wèn)題是機(jī)器學(xué)習(xí)的第一步,機(jī)器學(xué)習(xí)中特征工程和模型訓(xùn)練都是非常費(fèi)時(shí)的,深入理解要處理的問(wèn)題,能避免走很多彎路。理解問(wèn)題,包括明確可以獲得的數(shù)據(jù),機(jī)器學(xué)習(xí)的目標(biāo)是分類、回歸還是聚類。如果都不是的話,考慮將它們轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)問(wèn)題。參考機(jī)器學(xué)習(xí)分類能幫助從問(wèn)題提煉出一個(gè)合適的機(jī)器學(xué)習(xí)方法。

2. 獲取數(shù)據(jù)

獲取數(shù)據(jù)包括獲取原始數(shù)據(jù),以及從原始數(shù)據(jù)中經(jīng)過(guò)特征工程,從原始數(shù)據(jù)中提取訓(xùn)練、測(cè)試數(shù)據(jù)。機(jī)器學(xué)習(xí)比賽中原始數(shù)據(jù)都是直接提供的,但是實(shí)際問(wèn)題需要自己獲得原始數(shù)據(jù)?!?數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個(gè)上限”,可見(jiàn)數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用。總的來(lái)說(shuō)數(shù)據(jù)要有具有“代表性”,對(duì)于分類問(wèn)題,數(shù)據(jù)偏斜不能過(guò)于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個(gè)數(shù)量級(jí)的差距。不僅如此還要對(duì)評(píng)估數(shù)據(jù)的量級(jí),樣本數(shù)量、特征數(shù)量,估算訓(xùn)練模型對(duì)內(nèi)存的消耗。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。

3. 特征工程

特征工程是非常能體現(xiàn)一個(gè)機(jī)器學(xué)習(xí)者的功底的。特征工程包括從原始數(shù)據(jù)中特征構(gòu)建、特征提取、特征選擇,非常有講究。深入理解實(shí)際業(yè)務(wù)場(chǎng)景下的問(wèn)題,豐富的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)?zāi)軒椭覀兏玫奶幚硖卣鞴こ?。特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力,往往能夠使得算法的效果和性能得到顯著的提升,有時(shí)能使簡(jiǎn)單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時(shí)間就花在特征工程上面,是機(jī)器學(xué)習(xí)非常基礎(chǔ)而又必備的步驟。數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、篩選顯著特征、摒棄非顯著特征等等都非常重要,建議深入學(xué)習(xí)。

4. 模型訓(xùn)練、診斷、調(diào)優(yōu)

現(xiàn)在有很多的機(jī)器學(xué)習(xí)算法的工具包,例如sklearn,使用非常方便,真正考驗(yàn)水平的根據(jù)是對(duì)算法的理解調(diào)節(jié)參數(shù),使模型達(dá)到最優(yōu)。當(dāng)然,能自己實(shí)現(xiàn)算法的是最牛的。模型診斷中至關(guān)重要的是判斷過(guò)擬合、欠擬合,常見(jiàn)的方法是繪制學(xué)習(xí)曲線,交叉驗(yàn)證。通過(guò)增加訓(xùn)練的數(shù)據(jù)量、降低模型復(fù)雜度來(lái)降低過(guò)擬合的風(fēng)險(xiǎn),提高特征的數(shù)量和質(zhì)量、增加模型復(fù)雜來(lái)防止欠擬合。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷,這是一個(gè)反復(fù)迭代不斷逼近的過(guò)程,需要不斷的嘗試,進(jìn)而達(dá)到最優(yōu)的狀態(tài)。

5. 模型驗(yàn)證、誤差分析

模型驗(yàn)證和誤差分析也是機(jī)器學(xué)習(xí)中非常重要的一步,通過(guò)測(cè)試數(shù)據(jù),驗(yàn)證模型的有效性,觀察誤差樣本,分析誤差產(chǎn)生的原因,往往能使得我們找到提升算法性能的突破點(diǎn)。誤差分析主要是分析出誤差來(lái)源與數(shù)據(jù)、特征、算法。

6 . 模型融合

一般來(lái)說(shuō)實(shí)際中,成熟的機(jī)器算法也就那么些,提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程、清洗、預(yù)處理、采樣)和后端的模型融合。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見(jiàn),基本都能使得效果有一定的提升。模型融合的方法,主要包括一人一票的統(tǒng)一融合,線性融合和堆融合。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多