免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

Fregata: Spark上支持萬(wàn)億維機(jī)器學(xué)習(xí)模型

 LZS2851 2017-01-06

作者:張夏天,TalkingData首席數(shù)據(jù)科學(xué)家。12年大規(guī)模機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘經(jīng)驗(yàn),對(duì)推薦系統(tǒng)、計(jì)算廣告、大規(guī)模機(jī)器學(xué)習(xí)算法并行化、流式機(jī)器學(xué)習(xí)算法有很深的造詣;在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表論文12篇,申請(qǐng)專利9項(xiàng);前IBM CRL、騰訊、華為諾亞方舟實(shí)驗(yàn)室數(shù)據(jù)科學(xué)家;KDD2015、DSS2016國(guó)際會(huì)議主題演講;機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目Dice創(chuàng)始人。
歡迎人工智能技術(shù)投稿、約稿、給文章糾錯(cuò),請(qǐng)發(fā)送郵件至heyc@csdn.net

大規(guī)模機(jī)器學(xué)習(xí)工程上最大的挑戰(zhàn)是模型的規(guī)模。在計(jì)算廣告,推薦系統(tǒng)的場(chǎng)景下,運(yùn)用Logistic Regression算法時(shí)常需要做特征交叉。原來(lái)兩組,三組特征的數(shù)量可能并不是太大,但是通過(guò)交叉后可能會(huì)特征數(shù)會(huì)爆炸。例如,用戶特征數(shù)1萬(wàn),廣告特征數(shù)1萬(wàn),那么交叉后總特征數(shù)就是1億,如果再與幾十個(gè)廣告位特征交叉,總特征數(shù)就會(huì)達(dá)到幾十億。有些情況下,特征交叉后,總數(shù)甚至能達(dá)到上千億。特征數(shù)量的爆炸,也帶來(lái)模型規(guī)模的爆炸,這給機(jī)器學(xué)習(xí)帶來(lái)的挑戰(zhàn)比龐大的訓(xùn)練數(shù)據(jù)量更大。

通常認(rèn)為,當(dāng)模型的規(guī)模超過(guò)單節(jié)點(diǎn)的容量后,基于MapReduce計(jì)算模型的Spark, Hadoop MapReduce就無(wú)法支持了。為了解決這一問(wèn)題,Parameter Server應(yīng)運(yùn)而生,目前是大規(guī)模機(jī)器學(xué)習(xí)研究方面的前沿。目前Parameter Server還在發(fā)展的過(guò)程中,其使用,開(kāi)發(fā)門檻相較于Spark來(lái)說(shuō)都是較高的,而且在大數(shù)據(jù)平臺(tái)中再引入一套新的計(jì)算平臺(tái),對(duì)整個(gè)體系的管理,運(yùn)維都將帶來(lái)更大點(diǎn)挑戰(zhàn)。

Fregata致力于在Spark上解決大規(guī)模機(jī)器學(xué)習(xí)的問(wèn)題,F(xiàn)regata目前已經(jīng)公開(kāi)發(fā)布的版本已經(jīng)能支持億級(jí)維度的模型,而目前內(nèi)部最新版本已經(jīng)在一個(gè)月內(nèi)連續(xù)突破了10億,100億,1000億和10000億4個(gè)臺(tái)階。在模型規(guī)模提高了4個(gè)數(shù)量級(jí)的同時(shí)保持了訓(xùn)練的高效性。下面是 Fregata的Logistic Regression算法在511412394個(gè)樣本的訓(xùn)練集下的訓(xùn)練時(shí)間:

圖片描述

從上表可以看出,對(duì)于5億多樣本的訓(xùn)練集,在僅使用48個(gè)Executor的情況下,千億維度以內(nèi)的問(wèn)題,都可在500秒內(nèi)完成,而且每個(gè)Executor僅需最多2G內(nèi)存。對(duì)于萬(wàn)億維度的問(wèn)題,訓(xùn)練時(shí)間也僅需800秒多一點(diǎn),只是Executor的內(nèi)存加到了8G。Fregata最近的突破,打破了在Spark上無(wú)法支持超大規(guī)模模型的瓶頸,將進(jìn)一步降低大規(guī)模機(jī)器學(xué)習(xí)的使用門檻和成本。

Fregata 項(xiàng)目地址:https://github.com/TalkingData/Fregata

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多