免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

對話未盡研究周健工:通用AI將推動中國垂直模型應(yīng)用,訂閱制模式將更普遍

 明亮公司 2023-06-06 發(fā)布于上海

作者:羅賓

出品:明亮公司

ChatGPT在2022年底發(fā)布,開啟了通用人工智能的時代。大模型在互聯(lián)網(wǎng)和數(shù)字技術(shù)的基礎(chǔ)之上,成為一種通用技術(shù)。今年5月初,未盡研究發(fā)布了《通用AI,通用技術(shù),通向何方》報告(下稱“報告”);近日,「明亮公司」對話了未盡研究創(chuàng)始人周健工,他分享了通用AI的未來和大模型的中國之路。

報告指出,中美在AI領(lǐng)域整體的差距本來并不是很大。但自從GPT-3不再開源之后,中國在生成式人工智能和語言大模型領(lǐng)域變成了追隨者。而中國科技企業(yè)趕超美國的機會,目前并不在通用語言大模型方面,而是在通用大模型的能力邊界之外進行創(chuàng)新,如多模態(tài)的技術(shù)創(chuàng)新,以及中國比美國更大的應(yīng)用與市場空間。

報告顯示,中國目前可用于大模型訓(xùn)練的悟道語料庫,包括文本、圖文和對話數(shù)據(jù)集,最大的僅5TB,其中開源的文本部分僅為200GB。另外一個開源的中文本數(shù)據(jù)集CLUECorps為100G。相比之下,GPT-3的訓(xùn)練數(shù)據(jù)量,以英語為主,達到了45TB。中國的數(shù)據(jù)要素市場逐步形成,定制和加工語料數(shù)據(jù)的企業(yè)大量出現(xiàn)。中國的大模型和AI訓(xùn)練,需要更豐富通用的開源語料庫。以漢語為主的通用語料庫,同時獲取英語的開源和授權(quán)使用的數(shù)據(jù)集,才能建立起立足中國、匯集全人類智慧的大模型。

“人工智能正在吃掉軟件?!敝芙」け硎?,幾乎所有的互聯(lián)網(wǎng)應(yīng)用都產(chǎn)生了重新做一遍的機會。特別是移動端的未來,或許變革會比桌面端更激烈,涉及到智能手機的未來由誰定義。在智能手機中部署個性定制化的大模型是未來的一種趨勢,這就需要手機從底層芯片、操作系統(tǒng)到應(yīng)用程序的改變和創(chuàng)新。

周健工還指出,對于中國通用AI企業(yè)的商業(yè)化方向,投資機構(gòu)目前更看好將合適的場景、成熟的業(yè)務(wù)深度和豐富的數(shù)據(jù)積累和大模型結(jié)合起來的應(yīng)用領(lǐng)域。同時,提供大模型訓(xùn)練和應(yīng)用中間態(tài)服務(wù)的公司,包括數(shù)據(jù)質(zhì)量與標注、向量化數(shù)據(jù)庫、模型及計算優(yōu)化等,在中國也將有很高商業(yè)價值。

在創(chuàng)辦未盡研究之前,周健工曾擔任第一財經(jīng)CEO、福布斯中文版總編輯,還著有《橫越未知:從無限勞動力到無限計算力》。

以下系精編整理的對話節(jié)選:

Q:明亮公司

A:周健工 未盡研究創(chuàng)辦人

中國科技企業(yè)的投入集中于性價比高的創(chuàng)新階段,OpenAI的股權(quán)投資形式無法在中國復(fù)制

Q:報告提到中國企業(yè)在通用型AI大模型面臨的幾項挑戰(zhàn):算力限制、中文語料數(shù)據(jù)等等,其中一項是資金的投入與“巨頭有較大落差”,如何理解這種落差和公司商業(yè)模式、核心競爭力之間的關(guān)系?除了營利能力之外,對于中國的大公司來說,是否有其他因素限制了對于技術(shù)的投入?

A:ChatGPT從1到4所需的累計投入量是巨大的,從以往的數(shù)十億美元到今年初微軟的百億美元,當然其中一些投入是以算力交付的。OpenAI先是以非營利組織的形式而存在,而在這個階段就能長期大量投入于技術(shù),沒有任何一家中國企業(yè)可以做到。中國企業(yè)不會在一個非常不確定的、信仰級別的技術(shù)路線上有這種級別的投入。

OpenAI一邊研究ChatGPT這樣的模型,一邊尋找應(yīng)用場景,所以微軟開始投資聯(lián)手。我認為這也是微軟的一項很精明的投資。微軟CEO納德拉認定未來科技公司都會轉(zhuǎn)向人工智能的競爭,但谷歌一直以來引領(lǐng)了人工智能的變革,且凝聚了AI領(lǐng)域最好的人才。由于微軟清晰的戰(zhàn)略,它敢于投入大量資金,而且它商業(yè)中的精明體現(xiàn)在它投入的很多是算力,它可以借助OpenAI開發(fā)大模型而圍繞AI所需的高級算力重構(gòu)微軟的云服務(wù)。

年初至今,作為萬億市值的上市公司,微軟市值漲幅仍有約20-30%,說明它的投入已經(jīng)被資本市場認可,被給予高估值。GPT-4推出后,微軟將其應(yīng)用在各個產(chǎn)品線中,體現(xiàn)出微軟的思路非常清晰。從商業(yè)回報看,微軟100億美元的投入對應(yīng)了千億美元市值的擴大,回報率也足夠高。但是VC、PE們所謂的估值體系、投資邏輯、交易結(jié)構(gòu)等完全不適用于OpenAI的LP。所以第一點,從中國巨頭企業(yè)到初創(chuàng)公司,都沒辦法按照OpenAI的股權(quán)投資協(xié)議模式進行投入。

第二,如果將中國科技巨頭和美國巨頭對比,我們也在3年間跟蹤了全球研發(fā)2500強企業(yè),每年的研發(fā)支出上,谷歌、亞馬遜等美國科技巨頭靠前,中國除了華為外,其他公司雖然支出也不少,但與美國還有很大差距。

第三,除了研發(fā)支出,還有幾點是中國科技企業(yè)無法與美國相比的,美國巨頭的云做得很強大,很多都有自己的操作系統(tǒng),另外很多也做了自己的硬件系統(tǒng),做了芯片和基礎(chǔ)軟件,垂直整合程度很高。中國巨頭主要是在自己的應(yīng)用里做社交、電商、視頻等業(yè)務(wù)擴展,而圍繞技術(shù)和生態(tài)布局比較欠缺。當一波技術(shù)浪潮來的時候,其實一直在做準備的企業(yè)才能接得住。

Q:除了是否能長期大量投入、商業(yè)模式區(qū)別,中國公司相比美國受到更多政策限制,是否導(dǎo)致了中美公司發(fā)展空間不同?

A:我認為不完全是政策的原因。相反,在中國的互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代,創(chuàng)新環(huán)境是比較好的,只是前兩年開始的整頓,平臺經(jīng)濟仍然在調(diào)整適應(yīng)新常態(tài)之中。而且中國科技巨頭的崛起,既受益于當時的美元基金,還受益于國內(nèi)相對有利的保護,谷歌、Facebook當時都退出了中國市場。

Q:中國科技企業(yè)的研發(fā)投入和創(chuàng)新都是跟隨型的,這里有哪些主要原因?

A:中國還是處于應(yīng)用創(chuàng)新階段,它的特點就是性價比是最好的,因為引領(lǐng)創(chuàng)新的成本巨大,更別說其中有很多創(chuàng)新的嘗試是失敗的。對中國來說最大的好處在于它的不確定性和試錯成本都大幅降低了。GPT-2公開之后,你能大概知道它是怎么做的,成本多少,而且我們也知道1000億參數(shù)以上就會“涌現(xiàn)”出一些泛化和通用的智能,跟著做就行了。

大模型在C端有望開辟新的商業(yè)模式,尤其是訂閱制付費

Q:平臺經(jīng)濟的科技公司這兩年處于逆風狀態(tài),現(xiàn)在它們也紛紛做了自己的大模型,哪些公司更容易走出來?

A:我認為對這件事看得比較有耐心的是騰訊和字節(jié),除了已經(jīng)發(fā)布了大模型應(yīng)用的大廠之外,這兩家比較值得期待,甚至可以期待做出世界級的應(yīng)用產(chǎn)品。

Q:騰訊的價值邏輯是什么?

A:大家能想到的一些非常值得期待的應(yīng)用,都能跟騰訊的產(chǎn)品有聯(lián)系,比如未來每個人都會有一個定制的模型或機器人去為他提供服務(wù),那么微信就自帶這種場景;企業(yè)服務(wù)方面AI化的空間很大。第二,在數(shù)據(jù)量角度看,中國在開源數(shù)據(jù)上有一個短板,目前僅憑漢語的公開數(shù)據(jù),無法訓(xùn)練出GPT-3.5/4這樣的大模型。但國內(nèi)非公開、非開源的數(shù)據(jù)是不缺的,比如電商、知乎、小紅書、B站、微信公眾號、QQ生態(tài)及騰訊的一些游戲生態(tài)數(shù)據(jù),這些構(gòu)成了非常有價值的語料和多模態(tài)數(shù)據(jù)庫。第三,騰訊有自己的云,有十多億級用戶群,有應(yīng)用場景。而且騰訊非常善于做產(chǎn)品,C端對AI產(chǎn)品目前還有一定的寬容度,所以只要騰訊推出大家能接受的產(chǎn)品,并在爭議和反饋中去快速迭代,產(chǎn)品體驗就可能會越來越好。

Q:字節(jié)除了視頻,還有什么優(yōu)勢?

A:首先,它正在獲取一流人才,原阿里達摩院大模型M6帶頭人楊紅霞加入了字節(jié),她可能是中國最好的語言生成模型科學(xué)家。另外,字節(jié)有得天獨厚的產(chǎn)品閉環(huán)。它的整個產(chǎn)品都建立在算法基礎(chǔ)之上,本身就是非常先進的人工智能。字節(jié)已經(jīng)是國內(nèi)平臺公司中最大的云服務(wù)用戶,最近TikTok上開始推出抖索機器人;而現(xiàn)在很多人做多模態(tài)的文字生成圖片或文字生成視頻,就是為了放在抖音或TikTok上,字節(jié)的產(chǎn)品就是有些多模態(tài)生成式AI應(yīng)用的歸宿。相比之下,其他公司花很大成本打磨技術(shù)、產(chǎn)品,但并沒有弄清楚用在哪里能掙錢。

Q:它們需不需要單獨考慮模型的商業(yè)模式,還是只是作為入口或免費應(yīng)用?

A:我覺得這兩家公司優(yōu)先考慮的可能還是把大模型應(yīng)用有效地集成到平臺上。就像谷歌這樣的大公司一樣,雖然它有技術(shù),而且技術(shù)參數(shù)不比ChatGPT差,但它還是很慎重。而且其實有人計算過,大模型的推理和搜索結(jié)合起來的成本很高,比如當GPT-4和Bing結(jié)合起來,體現(xiàn)為為每個搜索用戶提供免費的聊天機器人功能,每個query的成本可能會是提供單一搜索功能的5-10倍,所以谷歌推出了縮小版的聊天機器人Bard。縮小版是因為它也在測試,因為不確定聊天機器人服務(wù)帶來的成本,對搜索業(yè)務(wù)會帶來多少沖擊。OpenAI已將Bing作為ChatGPT的默認搜索引擎,但Bing的流量增長最近也開始放緩了,所以微軟的搜索+聊天機器人的模式是否能顛覆現(xiàn)有搜索市場還需繼續(xù)觀望。現(xiàn)在谷歌的搜索市場份額還不能被撼動。

Q:中國的用戶對ChatGPT這樣的產(chǎn)品不一定有付費習慣,我們應(yīng)該把它理解為一個SaaS還是搜索類的免費工具?

A:B端收費提供API調(diào)用,大家都理解了。C端會跟免費搜索有不同的模式,免費搜索會面臨廣告越來越多,帶來不好的用戶體驗。現(xiàn)在ChatGPT作為與搜索并列的應(yīng)用已經(jīng)有幾個新方式出現(xiàn)了,ChatGPT對C端用戶有免費版和Plus版,API也有不少個人用戶。如果它再提供多模態(tài)功能,或者還有agent平臺的功能,能管理更復(fù)雜的任務(wù),其實它也構(gòu)成了一個SaaS訂閱模式,可以說是開辟了新的商業(yè)模式,我覺得大家也是可以接受的。所以向C端收費的模式,其實也可以做得起來。

Q:在垂直領(lǐng)域出現(xiàn)了像幻方AI這樣做大模型和算力儲備的公司,它們可能遇到的問題是什么?

A:幻方做得怎么樣,細節(jié)我們并不清楚,但是金融領(lǐng)域我們分析過一個典型的彭博的例子。彭博有很大的金融類數(shù)據(jù)量,它可以用自己的數(shù)據(jù)來訓(xùn)練獨有的模型,但彭博又做了一個通用大模型,我們稱之為一種防守反擊策略。也就是它防止別人基于GPT-4來侵入它的金融模型;同時,它的用戶進入其生態(tài),如果希望用通用的大模型,它也可以滿足這種需求。彭博現(xiàn)在還在不斷優(yōu)化。與彭博相比,幻方并沒有這么大的數(shù)據(jù)量,如果用自已的算力優(yōu)勢進行高通量的高頻交易,它會面臨監(jiān)管問題。

用大模型能做好的主要是提升投研的效率,因為知識密集型的勞動對自動化的要求很高。第二,它還可以建立一些策略,因為它可以用生成式人工智能的方法去做一些預(yù)測。但這跟彭博的大模型是有所不同的。獨有的數(shù)據(jù)量是一個關(guān)鍵問題。當然,如果幻方囤卡不少,硬做通用大模型,那是另外一回事。

手機移動端的「認知階段」,移動端的定制化大模型將催生硬件創(chuàng)新

Q:除了數(shù)據(jù)量,算力會成為挑戰(zhàn)嗎?

A:中國已經(jīng)出現(xiàn)了“百模大戰(zhàn)”,其實AI算力是很緊張的,北京市政府印發(fā)的《促進通用人工智能創(chuàng)新發(fā)展的若干措施》,第一條主要內(nèi)容就是提升算力資源統(tǒng)籌供給能力。從我們遇到的案例看,有大型國有金融機構(gòu),要為它的保險經(jīng)紀業(yè)務(wù)引入生成式人工智能,比如有場景是每個保險代理配一個虛擬機器人,以提升服務(wù)體驗和效率。他們找能夠訓(xùn)練大模型的科技公司幫助訓(xùn)練模型,但是遇到了算力瓶頸。由此,這種算力瓶頸會從基礎(chǔ)大模型延伸到應(yīng)用領(lǐng)域。

Q:算力缺口還是整體存在的。

A:大模型的訓(xùn)練包含訓(xùn)練和推理兩個部分,訓(xùn)練的部分更好解決,它不是低延時高并發(fā)的,訓(xùn)練是一個月還是兩個月完成的時間問題,不行大家還可以排隊。還有一種方式是利用分布式算力訓(xùn)練,通過東數(shù)西算等統(tǒng)籌算力方式也可以幫助解決。但如果你都訓(xùn)練和部署好了,上百個大模型開始大規(guī)模應(yīng)用,這時推理的并發(fā)又滿足不了。所以在推理階段,大家的使用量如果上來了,對算力的要求更高。中國的算力雖然整體不缺,但結(jié)構(gòu)上有問題,也就是圍繞人工智能的推理的高性能算力比重較小

Q:相比于算力、算法和數(shù)據(jù),中國公司對于具體應(yīng)用場景的理解能力和技術(shù)應(yīng)用商業(yè)化能力都更突出,但對于通用型AI來說,這種“技術(shù)+應(yīng)用”的路徑和此前移動互聯(lián)網(wǎng)時代最大的區(qū)別是什么?

A:人工智能和移動互聯(lián)網(wǎng)的發(fā)展并不能割裂來看。因為移動互聯(lián)網(wǎng)產(chǎn)生的自然語言數(shù)據(jù)、云計算模式等都是大模型訓(xùn)練的基礎(chǔ)。以智能手機來看,雖然它已經(jīng)實現(xiàn)了很多功能,但手機聯(lián)網(wǎng)加初步的感知智能,過去其實還處于感知的階段,而現(xiàn)在我們進入到認知階段,智能手機要變得真正智能,值得“再做一遍”。

Q:所以硬件整合是通用AI應(yīng)用于移動端的一個必然選項?

A:我們最近看了些資料,其中一些觀點值得探討:1)手機上所有的應(yīng)用都可能是一個垂直領(lǐng)域的大模型;2)很多人都希望自己的手機能部署一個定制化的大模型,那就需要硬件來支撐,但現(xiàn)有的硬件是不支持的,我們又需要硬件的創(chuàng)新,這包括手機從底層芯片到操作系統(tǒng)、到應(yīng)用程序的改變。所以我們說再做一遍是極有可能的。而基于AI的通用技術(shù),手機和電腦上的任務(wù),未來都可以打通應(yīng)用自動化地完成。

除了手機,在移動端還有物聯(lián)網(wǎng)將對硬件產(chǎn)生創(chuàng)新。物聯(lián)網(wǎng)是更典型的感知形式。未來分布在各地的傳感器把感知到的物理世界的信息搜集好,在云、邊、端的不同層面的大模型去調(diào)用,物聯(lián)網(wǎng)也會進入認知時代。

Q:你看到的中國公司中,哪些商業(yè)化方向大家能形成共識、哪些大家存在爭議?

A:在我接觸到的企業(yè)投資機構(gòu)那里,我感覺越往應(yīng)用層,大家共識越大。

第一,在有較多共識的創(chuàng)意、電商、企業(yè)服務(wù)、專業(yè)服務(wù)等領(lǐng)域,大家已經(jīng)比較堅定地看好和使用生成式AI。第二,投資機構(gòu)比較看重的是有好的場景、成熟的業(yè)務(wù)深度和豐富的數(shù)據(jù)積累和大模型結(jié)合起來的應(yīng)用領(lǐng)域。大家都在尋找。“上一代”人工智能公司如語音識別和圖像識別的公司有很多并沒有殺出來,主要是它們雖然看似在任何一個場景都能通用,但業(yè)務(wù)深度還不夠,所以現(xiàn)在有的公司開始聚焦,譬如醫(yī)療健康等場景中的某些環(huán)節(jié),或者在語音、視覺等領(lǐng)域用生成式人工智能加持。第三類是大模型訓(xùn)練和應(yīng)用的中間態(tài)公司,是所謂的“賣鏟子”的公司,中國還不多,但我相信未來會有這樣的公司浮出水面,它們的價值很大。其中包括數(shù)據(jù)標注、數(shù)據(jù)的向量化、模型算法的優(yōu)化等等,標注更初級一些,而數(shù)據(jù)向量化公司在美國的估值現(xiàn)在很高,因為大模型訓(xùn)練后,尤其對多模態(tài)數(shù)據(jù),向量化是必須進行的一步。

基礎(chǔ)層的大模型,國內(nèi)的幾家科技巨頭自己在做,仍然是跟著美國的幾個大模型在走,雖然現(xiàn)在很多產(chǎn)品在接近GPT-3.5的水平,但國內(nèi)進步的同時國外也在進步,差距依然存在,所以反而有些基礎(chǔ)模型,尤其是對C端的應(yīng)用,引起了不少爭議。

備注:

在人工智能領(lǐng)域,涌現(xiàn)(Emergence)指的是在計算機系統(tǒng)或人工智能模型中,通過簡單的規(guī)則或局部交互產(chǎn)生出復(fù)雜的整體行為或?qū)傩缘默F(xiàn)象。

在人工智能中,涌現(xiàn)是指在模型或系統(tǒng)中,通過對輸入數(shù)據(jù)進行處理、學(xué)習和推理等過程,產(chǎn)生出超出預(yù)期的、復(fù)雜的、新穎的行為或特征。這些行為或特征并沒有被顯式地編碼或設(shè)計,而是通過模型的內(nèi)部機制自發(fā)地涌現(xiàn)出來。

涌現(xiàn)在人工智能中可以表現(xiàn)為以下幾個方面:

高級的智能行為:通過大規(guī)模的數(shù)據(jù)訓(xùn)練和模型優(yōu)化,人工智能系統(tǒng)可以表現(xiàn)出對語言、圖像、音頻等多種輸入數(shù)據(jù)的理解和處理能力。這包括自然語言處理、圖像識別、語音識別等任務(wù),在其中涌現(xiàn)出了復(fù)雜的智能行為。

新穎的解決方案:在人工智能系統(tǒng)中,通過學(xué)習和優(yōu)化的過程,模型可以發(fā)現(xiàn)新穎的解決方案和方法,超出了傳統(tǒng)編程所能預(yù)先設(shè)定的范圍。例如,生成對抗網(wǎng)絡(luò)(GAN)可以生成逼真的圖像和音頻,這種能力是通過模型內(nèi)部的對抗訓(xùn)練過程涌現(xiàn)出來的。

自適應(yīng)和自學(xué)習:人工智能系統(tǒng)具有自適應(yīng)和自學(xué)習的能力,通過與環(huán)境的交互和反饋,系統(tǒng)可以調(diào)整自身的參數(shù)和策略,以適應(yīng)不斷變化的情況。這種自適應(yīng)和自學(xué)習的能力涌現(xiàn)出了系統(tǒng)在新任務(wù)和環(huán)境中的適應(yīng)性和智能性。

涌現(xiàn)在人工智能中是一種有益的現(xiàn)象,它展示了模型在處理復(fù)雜問題時具有的自發(fā)性、創(chuàng)造性和適應(yīng)性。通過利用涌現(xiàn)現(xiàn)象,人工智能系統(tǒng)可以更好地應(yīng)對復(fù)雜任務(wù)和現(xiàn)實世界的挑戰(zhàn)。但是對于涌現(xiàn)的科學(xué)機制還需要進一步研究。一些專家認為涌現(xiàn)也可能導(dǎo)致大模型應(yīng)用在對話中產(chǎn)生幻覺。

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多