GTC Taipei 2018黃仁勳演講

關鍵字：；；；

瀏覽次數：6102｜歡迎推文：

科技產業資訊室 (iKnow) - May 發表於 2018年6月13日

圖、 GTC Taipei 2018

AI晶片龍頭NVIDIA公司舉辦GTC 2018技術大會，於2018年5月30、31日於台北舉行。CEO黃仁勳宣稱十年前推出NVIDIA GPU運算架構CUDA，已經累計下載了800萬次，在過去五年裡增加了五倍。

黃仁勳談到摩爾定律將於2028到盡頭，現在需要擴展它的極限。傳統半導體有摩爾定律，但CUDA GPU創造了不同的定律。GPU每隔五年就達到10倍的效能成長，也針對演算法不斷的改善。傳統伺服器的龐大、耗電，通過NVIDIA的GPU有了根本性的改變。他說，在計算領域用了越多的GPU，其實就是越省錢！

從機器學習到深度學習，已衍生出無數種不同的神經網路、模型，隨著應用的增加，也越來越複雜。爲了要應付這些複雜的神經網路計算，現有的小型GPU其實很難以負擔，但如果把個別的GPU通過高效能的互聯結構結合起來，形成一個巨大的GPU，就可以創造出過去不可能達成的計算成果。於是，DXG-2 Server就是互聯了16顆GPU，形成一個龐大的GPU架構，共享統一的記憶體空間，通過最新的NVLink技術，使GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。

HGX-2超級計算機平台
HGX-2超級計算機是剛釋出的新產品，同樣可以串聯16個Tesla V100，速度達到2Peta-FLOPS，同樣，這還是第一款人工智慧和高效能運算統一的平臺HPC。換句話說HGX-2就是一個伺服器平臺，可進行科學計算或是高精度模擬，也可以進行AI訓練。這正可以解決CPU效能擴張速度變慢的問題，GPU大規模平行計算有了更好的發展空間。

DGX-2深度學習機
DGX-2 是一台專門用於人工智慧訓練和/或推理任務的桌面計算機。DGX-2 可提供 10 倍於上一代 Nvidia DGX-1 的深度學習效能，整體功耗為為 10KW，重 350 磅，售價39.9 萬美元。

機器人平臺Isaac及處理器Jetson Xavier
Isaac機器人平臺，針對製造、物流、農業和建築等機器人應用而推出，可作為終端消耗HGX-2和DGX-2的運算力。基於Isaac平臺的Jetson Xavier處理器，包括了1個Volta Tensor Core GPU、1個8核ARM64 CPU、2個NVDLA深度學習加速器、1個影像處理器、1個視覺處理器和1個視訊處理器，預定價格為1299美元。被用於現場模擬、判斷和模擬環境測試，而更多的資料則會交給雲端進行，並最終同步到所有機器人之中。 (705字；圖1)

以下內容出自GTC2018 黃仁勳演講簡報：
大幅升速的電腦運算

GPU運算從一個優異的GPU開始，但它的潛力只有在我們優化整個堆疊時才會展現--從CUDA到應用。
一個演算法領域，一次一種應用，我們創造並持續優化CUDA加速堆疊。
短短的5年內，我們將分子動力學應用加速了25倍。

10億美元的超級運算產業

超級電腦是現代科學的重要工具
過去10年，我們開發了一整套用在超級運算的函式庫，系統管理和編程工具。
針對分子建模、量子化學和力學、天氣預報、氣候研究、能源探索、物理模擬、資料科學以及人工智慧，超過550種高效能運算應用了CUDA加速。
未來，每台超級電腦都要在務實的成本與能耗的考量基礎上，加速實現百萬億次級和百億級性能。

GPU再造

未來的運算將融合模擬和機器學習方法。
電腦可以通過學習數據中的重要特徵，模擬物理定律或預測結果。
NVIDIA再造GPU、創造Tensor Core GPU - 融合了HPC和AI運算的新架構。
Tensor Core GPU具有多種精度、支持高運算量FP64、FP32 、FP16、Int8和單周期4x4矩陣乘法累加來進行深度學習。
Volta是第一款Tensor Core GPU，並採用125張Tensor TFLOPS來增強AI – 比以前的GPU快10倍。

【世上最強的GPU】

我們發明了一種突破性開關，可以將多個GPU連接並編程為單個GPU。
NVSwitch是一種新型高頻寬交換器，其協議可擴展跨16個Volta Tensor 核心GPU的單晶片內建記憶體。
程式設計師可看到具有2 PFLOPS性能的單一512GB GPU。

DGX-2 以6個月成長10倍

GPU運算是加速整體的推疊：GPU、系統設計和軟體、演算法和應用程式。
6個月前，DGX-2的加速套件比DGC-1的性能提高了10倍!

5年提升500倍

GPU運算帶領我們進入超效能的新世紀
Alex Krizhevsky 用兩個GTX 580 GPU及6天時間成功訓練 AlexNet。
而1台DGX-2僅需18分鐘就能達到相同目標！

5項速度紀錄!

我們為了AI發展的每個面向提供地表上最佳效能
最快的單晶片-每秒1,075個影像
最快的單一節點 – 每秒15,500個影像
擴充最快 – 14分鐘
最短的推論延遲 – 1.1毫秒
最快的推論速度 – 每秒6,250個影像

寒武紀大爆炸

6年前AI網絡產生數千個物種及模型
卷積神經網路(CNN)有了新架構、更深的網絡、全新的卷積層設計來驅動效能表現。
遞歸神經網路(RNN)可對長序列模式進行分類。
生成對抗網路(GAN)則是訓練兩個神經網路，一個產生內容，另一個負責判別。
強化學習用反覆試驗與獎勵讓機器人自動學習與執行行為。
複雜度更增加 – 上百層網絡及數十億個參數

Programmability
Latency
Accuracy
Size
Throughput
Energy Efficiency
Rate of Learning

PLASTER

超大規模推論非常困難 – “PLASTER” 方便記憶
可編程 – 資料中心要跑上千個網絡跟模型
延遲性 – QoS 互動回應時間
精準度 – 預知正確答案
規模 – 直接對應效能與耗能
運算量 – 資料中心是龐大的資本投資，越大的運算量等同越低的資料中中心成本
能源效率 – 資料中心的總體擁有成本(TCO)為30%

NVIDIA AI 推論

經由NVIDIA GPU訓練的網絡也將在NVIDIA GPU上執行運算。
不同應用不同的網絡架構，模型大又複雜。
為達到PLASTER，必須創造出新一大的圖形優化編譯器，這就是NVIDIA TensorRT。
每次軟體更新，我們都支援更多模型架構、提高對GPU的支援，並提升編譯器技術。

NVIDIA AI 推論

TensorRT 4 目前支援影像與語音辨識、自然語言處理及提供個人化建議。
Google 將原生TensorRT 4 整合到TensorFlow。
最受歡迎的語音辨識架構Kaldi也經過優化。
為支援PyTorch 及MXNET開發架構的ONNX提升速度。
加速Microsoft 的WinML。
NVIDIA GPU 已準備好加速AI在全球3,000萬個超大規模伺服器上的工作量。

NVIDIA GPU上的全新KUBERNETES

Kubernetes在為數眾多的超大規模資料中心伺服器中擴充並編排AI容器。
Kubernetes已能識別GPU，並能在全球的資料中心部署加速架構。

宣布推出NVIDIA HGX-2

打造HPC與AI的伺服器相當複雜，幾乎已達到系統設計的極限。
今天我們宣布推出NVIDIA GPU伺服器標準平台HGX-2。
HGX-2為DGX-2的建構組件，包含16個Volta Tensor 核心GPU、完全連接、
2 PFLOPS以及512GB的3D記憶體。
有史以來最高效能單節點電腦。

宣布推出全新NVIDIA RTX技術

NVIDIA RTX結合即時繪圖、加速光線追蹤與深度學習的各項突破性技術，首度針對高擬真圖像渲染進行加速作業。
RTX集10年研究大成於一身。
RTX是15年前自NVIDIA發明可編程即時渲染技術以來最重要的突破。

NVIDIA GEFORCE驅動渲染作業

NVIDIA以可編程即時渲染作業的發明為現代電腦繪圖帶來革命。
在過去15年各種令人驚豔的技術突破創造無數絕美影像。
但始終未達高擬真圖像的程度，且不能多元化應用。

螢幕空間環境光遮蔽技術

環境遮蔽應用在場景中未被環境光照射的區域，同時產生陰影與框架

全域照明渲染與NVIDIA RTX技術

全域照明技術可自然完美地模擬環境遮蔽

螢幕空間折射與質量深度分類

不同種類的光線穿過一個透明物體時，很難去模擬光柵

焦散與NVIDIA RTX技術

透過光線追蹤，物理特效能直接被模擬出來。
焦散是指一系列光線透過一個曲面透明物體反射與折射的匯聚，例如陽光穿透水面在泳池底部呈現的樣子。

次表面陰影運算

次表面射散是當光線穿過透明物體時，在物體間進行反射，最後從不同角度穿出物體所產生的一種光影效果。
可用來呈現皮膚、樹葉、臘、大理石與牛奶等材質。

價值兩兆美元的娛樂產業

針對每個垂直市場，我們創造了一個平台，擁有全面GPU加速堆疊、最佳化的關鍵應用，及生態系統夥伴，為市場提供解決方案。
我們很高興看到全球首屈一指的內容創作工作室採用NVIDIA RTX。

宣布CLARA醫學影像超級電腦

早期發現早期治療是對抗疾病的最佳武器。
今日既有的300萬個醫療器材，都是在運算與AI技術有所突破前所建置的。
隆重介紹NVIDIA的醫學影像平台Clara。
Clara能在資料中心甚至是雲端，透過遠端處理資料，提供最先進的影像重組、物件偵測與分割，為既有的器材提供視覺化功能。

價值7兆的醫療產業

醫療為全球最大產業之一，從偵測、診斷到藥品發展，正經歷革命性的AI技術。
Clara平台包含GPU加速堆疊、最佳化關鍵應用，並與全球醫療領導廠商建立夥伴關係。

價值兩兆的安全城市產業

數十億的攝影機監控公眾區域，來確保民眾安全、控管車流以及最佳化能源運用。
若沒有AI，我們將不可能擁有足夠的人力持續監控。
NVIDIA Metropolis 是一個GPU加速堆疊的平台，主要用於大規模視訊串流分析、關鍵應用的最佳化，及在IVA中與領導廠商建立夥伴關係。

NVIDIA DRIVE端對端平台

自駕車是運算史上最大挑戰之一
自動駕駛車用電腦是有史以來第一款高品質且即時的超級電腦
整個軟體開發過程是全新的經驗
每輛車每天收集所有感測器的PB(Petabyte)數據
GPU超級電腦用於訓練、模擬及測試AI軟體
車隊將於全球各地駕駛數百萬英里來收集數據並測試軟體

單一架構+殺手級應用+全球生態系統+價值上兆美元的市場

當來到摩爾定律末端的2028年，市場每年將需要等同於1,000萬個Volta所提供的運算效能。
Tensor核心GPU融合高效能運算與AI運算後，加速廣泛的多重精準度資料中心之工作負載。
GPU運算最佳化全面堆疊，一路從GPU、switch、系統與軟體、函數庫到應用。

DGX-2加速堆疊比DGX-1提升10倍
5年內提升500倍
5倍速度紀錄

NVIDA平台已觸及關鍵大眾，包含85萬開發者、超過550個HPC與AI應用，每個伺服器製造商、OEM、CSP，及涵蓋高效運算、AI、圖像、運輸、醫療與安全城市這六大市場的超大商機。

參考資料及演講直播：
GTC Taipei 2018 主題演講, 2018/5/30.

影片來源：Twitch

本站相關文章：
1.NVIDIA花費5年打造第一款AI機器人專用晶片
2.英偉達積極往自動駕駛晶片霸主地位前進
3. NVIDIA限制GeForce、Titan晶片跨平台銷售
4.利用深度學習 NVIDIA尋求醫療商機
5.英偉達GTC China 2017開發者大會、AI發展新趨勢

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------