【原】數(shù)十億美金打造！黃仁勛發(fā)布自動駕駛芯片Orin，算力達200TOPS | GTC China 2019

昵稱71360118 2020-09-01

展開全文

Orin是英偉達花費4年時間投入數(shù)十億美元打造，性能比最新一代Xavier提升7倍，算力最高可達200TOPS。

文 | 包永剛郭利榮

今年三月的英偉達 GTC（GPU Technology Conference）上，最低售價僅99美元可運行所有AI模型的Jetson Nano成為關注的焦點。今天，英偉達首席執(zhí)行官黃仁勛（Jensen Huang）在參會人數(shù)創(chuàng)新高的GTC China 2019上再次發(fā)布重磅新品——下一代SoC Orin。雷鋒網(wǎng)了解到，Orin是英偉達花費4年時間投入數(shù)十億美元打造，性能比最新一代Xavier提升7倍，算力最高可達200TOPS。

目前，英偉達已經(jīng)售出15億塊GPU，它們都有相同的架構CUDA。黃仁勛表示，通過全棧優(yōu)化，GPU可以實現(xiàn)摩爾定律的加速。

英偉達想要做的不僅是加速摩爾定律，也要推動顯示技術的創(chuàng)新。

RTX的新進展

去年，英偉達發(fā)布了RTX新一代GPU架構——Turing（圖靈），以及一系列基于圖靈架構的RTX GPU。黃仁勛表示圖靈架構為英偉達十多年來在計算機圖形領域最重要的創(chuàng)新，將光線追蹤技術引入英偉達的GPU中。發(fā)布之后，已經(jīng)有多款游戲支持RTX，并且采用RTX技術的開發(fā)者數(shù)量迅速增長。

黃仁勛今天宣布了6款支持RTX的游戲，還展示了僅由一個人使用RTX技術制作的視頻。

除此之外，英偉達還創(chuàng)造出了Max-Q設計，它將超高的GPU能效和總體系統(tǒng)優(yōu)化集于一身，可以用于輕薄的高性能筆記本電腦。

高性能的筆記本是游戲必不可少的，但隨著云計算的普及，云游戲也將越來越普及。黃仁勛在GTC China 2019上也宣，英偉達與騰訊游戲合作推出START云游戲服務，該服務已從今年初開始進入測試階段。START使游戲玩家可以隨時隨地，即使是在配置不足的設備上也能玩AAA游戲。

光線追蹤GPU是英偉達去年最重磅的發(fā)布，英偉達也正在推動這項技術更多的應用。今年，“核彈”產(chǎn)品無疑是面向下一代汽車和機器人的Orin的發(fā)布。

“核彈”產(chǎn)品——下一代的汽車和機器人技術Orin

黃仁勛在演講當中提到，該芯片由170億個晶體管組成，凝聚著英偉達團隊為期四年的努力。Orin系統(tǒng)級芯片集成了英偉達新一代GPU架構和Arm Hercules CPU內(nèi)核以及全新深度學習和計算機視覺加速器，每秒可運行200萬億次計算（200TOPS），幾乎是英偉達上一代Xavier系統(tǒng)級芯片性能的7倍。Orin計劃2022年投產(chǎn)。

Orin可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經(jīng)網(wǎng)絡，達到了ISO 26262 ASIL-D等系統(tǒng)安全標準。

作為一個軟件定義平臺，DRIVE AGX Orin能夠賦力從L2級到L5級完全自動駕駛汽車開發(fā)的兼容架構平臺，助力OEM開發(fā)大型復雜的軟件產(chǎn)品系列。由于Orin和Xavier均可通過開放的CUDA、TensorRT API及各類庫進行編程，因此開發(fā)者能夠在一次性投資后使用跨多代的產(chǎn)品。

Orin也已經(jīng)獲得了合作伙伴的支持，滴滴與英偉達一起共同推進自動駕駛和云計算領域的發(fā)展和合作。據(jù)悉，滴滴已經(jīng)選擇英偉達DRIVE作為他們的L4級的AV平臺和云計算平臺。另外，滴滴會采用英偉達的AI技術應用，用在它們的自動駕駛車輛當中，并且也支持“滴滴云”。

5年以前很多人就說：“2020年就能夠看到自動駕駛的車輛了。”如今馬上進入2020年了，但是到現(xiàn)在還沒有實現(xiàn)這個目標，技術還在向前推進，整個業(yè)界也意識到這個事情的復雜度遠比我們想像的要高。

轉移學習和聯(lián)邦學習進一步降低AI門檻

面對自動駕駛最核心的需求“安全”，英偉達開發(fā)了 “端到端平臺”，即：在數(shù)據(jù)中心中的AI。也就是說，真正技術在道路上使用之前，首先是要在數(shù)據(jù)中心進行驗證。

對于自動駕駛來說，第一步就是海量的數(shù)據(jù)收集工作。在有人駕駛的車輛上，需要安裝很多的傳感器。包括攝像頭、雷達，它們的作用就是收集大量的數(shù)據(jù)。

一般情況下，一輛車一天在外面開6小時-8小時，每周就會收集到PB級的數(shù)據(jù)。意味著有海量的信息需要進行處理、標記、存儲、訓練，從而更好的了解周圍的環(huán)境，并且識別其它的車輛、車道信息等。

其實，早前基于英偉達的DRIVE結構，汽車廠商已經(jīng)可以構建和部署具有功能安全性、并符合諸如ISO 26262等國際安全標準的自動駕駛乘用車和卡車。此外，英偉達也開發(fā)了一個開放的軟件平臺，包括駕駛的操作系統(tǒng)等。

除此之外，英偉達也開發(fā)了很多“深度神經(jīng)網(wǎng)絡”來識別各種各樣的東西。也就是遷移學習，預訓練的模型可以進行調(diào)整以適應原始的設備制造商，包括主機廠、傳感器和具體的地區(qū)要求，當然調(diào)整的自由度是有限制的。

例如：檢測路上的一些物體、路標，以及處理雷達、激光雷達。按照英偉達的說法，目前整個的這一系列軟件，現(xiàn)在都可以給業(yè)界開放使用。這些都是基于英偉達自主知識產(chǎn)權的“預訓練”模型，也是在他們的“云”上來進行訓練的。

英偉達的策略是“深度開放”，無論是乘用車還是卡車，他們都可以對這些進行定制化。也就是說，客戶可以把自己的數(shù)據(jù)放到這些模型當中，然后基于這些模型不斷的進行優(yōu)化。不過，這些都是基于TensorRT來實現(xiàn)的，這也能夠進一步加速這些自動駕駛公司研發(fā)的進程。

英偉達推出的另外一個技術，就叫“聯(lián)邦學習”。這項技術是極其重要的，它不僅僅是在汽車行業(yè)，在很多行業(yè)都能夠充分利用，尤其是那些對于數(shù)據(jù)隱私非常看重的行業(yè)，例如醫(yī)療。在醫(yī)療行業(yè)，很多的數(shù)據(jù)是不能夠跟其他人共享的。所以它可以利用我們的這項技術，基于他們的數(shù)據(jù)來創(chuàng)建各種各樣的AI模型。

“聯(lián)邦學習”最主要的功能就是能夠保證數(shù)據(jù)隱私不被侵犯。按照官方說法，無論是醫(yī)院、實驗室、汽車公司，大家都可以去開發(fā)并且訓練這些神經(jīng)網(wǎng)絡，數(shù)據(jù)還可以保存在本地。

黃仁勛舉例道，目前很多公司都在美國和中國有往來業(yè)務，數(shù)據(jù)在傳輸方面其實是有一些限制的。運用“聯(lián)邦學習”，他們就可以保證數(shù)據(jù)還存在本地，但是可以把一些訓練和處理后的結果上傳到一些全球的服務器上。所以聯(lián)邦學習其實對于公司之間的合作，包括各品牌之間的合作、各地區(qū)之間的合作是非常有用的，因為它能夠保證數(shù)據(jù)隱私不被侵犯。

更重要的是，這些工具讓汽車客戶能夠去針對他們自己的車型來定制化自己的軟件，這個是之前做不到的。

英偉達全新版本Isaac軟件開發(fā)套件（SDK），為機器人提供更新的AI感知和仿真功能。黃仁勛提到，在建立統(tǒng)一的機器人開發(fā)平臺以實現(xiàn)AI、仿真和操控功能方面，Isaac SDK邁出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine（提供應用程序框架），Isaac GEM（預先構建的深度神經(jīng)網(wǎng)絡模型、算法、庫、驅(qū)動程序和API），用于室內(nèi)物流的參考應用程序以及Isaac Sim的第一個版本（提供導航功能）。

值得注意的是，新版本引入了一項重要功能——使用Isaac Sim訓練機器人，并將所生成的軟件部署到在現(xiàn)實世界中運行的真實機器人中。這有望大大加快機器人的開發(fā)速度，從而實現(xiàn)綜合數(shù)據(jù)的訓練。

GPU替換CPU，成本僅1/10，性能提升百倍

自動駕駛、機器人是AI落地的代表應用，AI技術如今在數(shù)據(jù)分析和挖掘、高性能計算中發(fā)揮著更加重要的作用，英偉達已經(jīng)推出了面向訓練、云端、終端、自動駕駛的AI平臺。AI對于擁有大量數(shù)據(jù)的科技公司尤為重要，比如推薦系統(tǒng)，如果沒有推薦系統(tǒng)，人們無法從上萬億次網(wǎng)頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內(nèi)容。

因此，一個能夠深度理解每一個用戶，在正確時間給出正確的推薦的推薦系統(tǒng)極為關鍵。

百度AIBox推薦系統(tǒng)采用英偉達AI，100多個推薦模型被使用在百度的眾多應用中。雷鋒網(wǎng)網(wǎng))了解到，這個系統(tǒng)基于英偉達Telsa v100 GPU，利用這些TB級的數(shù)據(jù)集去創(chuàng)建一個模型、在GPU上訓練這些數(shù)據(jù)，然后把它放到GPU的內(nèi)存當中去訓練這種TB級別的數(shù)據(jù)，GPU訓練成本只有CPU的十分之一，并且支持更大規(guī)模的模型訓練。

還有線上購物，今年淘寶雙十一成交額達到了2684億元，較 2018 年的 2135 億同比增長了 25.7%，這需要強大的云計算平臺來支撐。同樣關鍵的是，雙十一5億的淘寶的用戶要從20億商品中挑選最合適的產(chǎn)品是一件非常困難的事情，如果一個用戶每一秒看1個商品，需要花費32年時間才能瀏覽完20億個商品。

阿里巴巴搭建的推薦系統(tǒng)采用了英偉達的T4 GPU，推薦系統(tǒng)的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求，CPU速度只有3 QPS，英偉達GPU則提升到了780 QPS，提升百倍。

雖然擁有自研云端AI芯片，但為了解決推薦系統(tǒng)面臨的兩大挑戰(zhàn)，阿里和百度都選擇使用英偉達的GPU構建推薦系統(tǒng)，這其中很重要的原因是系統(tǒng)的構建面臨兩大挑戰(zhàn)。一個是推薦模型及其復雜，需要處理的參數(shù)非常多，這就意味著需要非常強的計算能力，另一大挑戰(zhàn)是推薦系統(tǒng)需要進行實時計算并給出反饋。

從結果來看，使用擅長并行計算的GPU構建推薦系統(tǒng)比使用CPU構建推薦系統(tǒng)成本大幅降低或性能實現(xiàn)了百倍提升。。

當然，AI功能的實現(xiàn)并非單純來自硬件，軟件和模型的優(yōu)化也非常重要，這也是實現(xiàn)會話式AI的關鍵。

軟件優(yōu)化是實現(xiàn)會話式AI的關鍵

業(yè)界越來越意識到，即便AI芯片算力再強，不能充分使用其算力并不能實現(xiàn)很好的AI功能，因此AI芯片的有效算力正成為衡量AI芯片的關鍵指標。軟硬件結合以及軟件優(yōu)化意義重大，比如在高性能計算的應用中，要使用CUDA進行全基因組測序，或用于研究畜牧業(yè)、農(nóng)業(yè)和導致疾病的微生物。

英偉達今年6月也宣布CUDA年底前支持Arm生態(tài)系統(tǒng)，讓基于Arm的芯片可以更多地應用于超算系統(tǒng)中進行更多地深度學習計算。

根據(jù)黃仁勛給出的數(shù)據(jù)，GPU+Arm的硬件，加上CUDA以及TensorFlow的優(yōu)化，Arm進行深度學習的性能是x86處理器性能的96%。

一個更為關鍵的軟件平臺是此前推出的計算圖優(yōu)化編譯器TensorRT，去年英偉達發(fā)布了 TensorRT5，通過優(yōu)化PyTorch和TensorFlow等框架中訓練出來的AI模型，減少計算和內(nèi)潤訪問，讓模型在GPU上運行的效率大幅提升。

GTC China 2019上，黃仁勛宣布推出TensorRT 7，它支持各種類型的RNN、Transformer和CNN。TensorRT 7能夠融合水平和垂直方向的運算，可以為開發(fā)者設計的大量RNN配置自動生成代碼，逐步融合LSTM單元，甚至可跨多個時間步長今日那個融合。相比TensorRT5只支持30中變換，TensorRT 7能支持1000多種不同的計算變換和優(yōu)化。

Transformer一個典型的例子就是BERT，它有很多非常先進的自然語言理解的功能。RNN一多用于語音識別或者是將文本轉化成語音。這些模型和算法對于會話式AI非常關鍵，也正是TensorRT 7可以發(fā)揮作用的典型應用。

因為想要實現(xiàn)會話式AI，首先需要把語音轉化為文字，然后通過AI語音算法模型獲得需要的語音，并理理解其含義，再將回應合成為語音進行回復。對話式AI需要可編程性、豐富的軟件堆棧以及低GPU延遲，基于TensorRT 7這一系列復雜的在300毫秒（0.3秒）內(nèi)就能完成。

有意思的是，去年的GTC China上，黃仁勛因為現(xiàn)場觀眾沒能實時理解他的演講，他表示希望未來借助AI能夠把他的英文演講實時翻譯成中文。今年的GTC China剛開場，黃仁勛就表示他今天的演講依舊會使用英文，希望未來某一天他用英文演講，但AI可以把它翻譯成任何一種聽眾需要的語言。

看來，距離這一天的到來又近了一步。

無論是云端、終端還是高性能計算，英偉達都已經(jīng)推出了對應的硬件平臺和產(chǎn)品，軟件優(yōu)化的重要性也正在突顯，軟件定義也能大大提高AI的效率。

雷鋒網(wǎng)小結

AI的競爭正變得越來越激烈，對于AI芯片公司而言，提供更高有效算力、更易用的軟件平臺無疑是吸引用戶的關鍵，因此英偉達花費數(shù)十億美金打造了下一代SoC，算力高達200TOPS。同時也推出的新一代推理優(yōu)化軟件平臺Tensor RT，轉移學習、聯(lián)邦學習的方式，能更好地推動AI落地，這也是英偉達發(fā)布更多軟件產(chǎn)品的原因。

同時也要看到，對于任何一家想要使用AI技術保持領先的公司而言，他們愿意嘗試任何一種能夠?qū)崿F(xiàn)最好效果，總體擁有成本最低的軟硬件方案，這是英偉達能夠說服阿里和百度使用GPU構建推薦系統(tǒng)的原因。

GPU的通用性搭配上更好的軟件優(yōu)化顯然能夠繼續(xù)在AI的應用中發(fā)揮重要作用，而軟件定義硬件能夠讓硬件擁有更長的生命周期，但正如GTC China 2019開場視頻中所提到的AI的應用涉及工業(yè)、醫(yī)療、物流等等，黃仁勛也表示GPU不是要替代CPU，而是AI負載一個更好的選擇。

隨著算法的演進以及眾多AI軟硬件解決方案的推出，未來誰將主導市場仍然未知。

老黃的演講一直是一年一度 GTC CHINA 最不容錯過的精彩環(huán)節(jié)，今年的分享，他對 AI 領域的未來提出自己獨到見解與預測。AI研習社作為AI向的開發(fā)者和學生群體的聚集地，依舊對本次演講進行完整直播。錯過直播的童鞋別桑心，我們已貼心準備了回放，歡迎網(wǎng)站搜索“AI研習社” 或者掃下方二維碼免費預約查看視頻回放。

贊賞

共11人贊賞

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

【原】數(shù)十億美金打造！黃仁勛發(fā)布自動駕駛芯片Orin，算力達200TOPS | GTC China 2019

【原】數(shù)十億美金打造！黃仁勛發(fā)布自動駕駛芯片Orin，算力達200TOPS | GTC China 2019