︿
Top

GTC Taipei 2018黃仁勳演講

瀏覽次數:4429| 歡迎推文: facebook twitter wechat twitter twitter

科技產業資訊室 - May 發表於 2018年6月13日

圖、 GTC Taipei 2018
AI晶片龍頭NVIDIA公司舉辦GTC 2018技術大會,於2018年5月30、31日於台北舉行。CEO黃仁勳宣稱十年前推出NVIDIA GPU運算架構CUDA,已經累計下載了800萬次,在過去五年裡增加了五倍。
 
黃仁勳談到摩爾定律將於2028到盡頭,現在需要擴展它的極限。傳統半導體有摩爾定律,但CUDA GPU創造了不同的定律。GPU每隔五年就達到10倍的效能成長,也針對演算法不斷的改善。傳統伺服器的龐大、耗電,通過NVIDIA的GPU有了根本性的改變。他說,在計算領域用了越多的GPU,其實就是越省錢!
 
從機器學習到深度學習,已衍生出無數種不同的神經網路、模型,隨著應用的增加,也越來越複雜。爲了要應付這些複雜的神經網路計算,現有的小型GPU其實很難以負擔,但如果把個別的GPU通過高效能的互聯結構結合起來,形成一個巨大的GPU,就可以創造出過去不可能達成的計算成果。於是,DXG-2 Server就是互聯了16顆GPU,形成一個龐大的GPU架構,共享統一的記憶體空間,通過最新的NVLink技術,使GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。
 
HGX-2超級計算機平台
HGX-2超級計算機是剛釋出的新產品,同樣可以串聯16個Tesla V100,速度達到2Peta-FLOPS,同樣,這還是第一款人工智慧和高效能運算統一的平臺HPC。 換句話說HGX-2就是一個伺服器平臺,可進行科學計算或是高精度模擬,也可以進行AI訓練。這正可以解決CPU效能擴張速度變慢的問題,GPU大規模平行計算有了更好的發展空間。
 
DGX-2深度學習機
DGX-2 是一台專門用於人工智慧訓練和/或推理任務的桌面計算機。DGX-2 可提供 10 倍於上一代 Nvidia DGX-1 的深度學習效能,整體功耗為為 10KW,重 350 磅,售價39.9 萬美元。
 
機器人平臺Isaac及處理器Jetson Xavier
Isaac機器人平臺,針對製造、物流、農業和建築等機器人應用而推出,可作為終端消耗HGX-2和DGX-2的運算力。基於Isaac平臺的Jetson Xavier處理器,包括了1個Volta Tensor Core GPU、1個8核ARM64 CPU、2個NVDLA深度學習加速器、1個影像處理器、1個視覺處理器和1個視訊處理器,預定價格為1299美元。被用於現場模擬、判斷和模擬環境測試,而更多的資料則會交給雲端進行,並最終同步到所有機器人之中。 (705字;圖1)
 
 
以下內容出自GTC2018 黃仁勳演講簡報:
大幅升速的電腦運算
  • GPU運算從一個優異的GPU開始,但它的潛力只有在我們優化整個堆疊時才會展現--從CUDA到應用。
  • 一個演算法領域,一次一種應用,我們創造並持續優化CUDA加速堆疊。
  • 短短的5年內,我們將分子動力學應用加速了25倍。
 
10億美元的超級運算產業
  • 超級電腦是現代科學的重要工具
  • 過去10年,我們開發了一整套用在超級運算的函式庫,系統管理和編程工具。
  • 針對分子建模、量子化學和力學、天氣預報、氣候研究、能源探索、物理模擬、資料科學以及人工智慧,超過550種高效能運算應用了CUDA加速。
  • 未來,每台超級電腦都要在務實的成本與能耗的考量基礎上,加速實現百萬億次級和百億級性能。
 
GPU再造
  • 未來的運算將融合模擬和機器學習方法。
  • 電腦可以通過學習數據中的重要特徵,模擬物理定律或預測結果。
  • NVIDIA再造GPU、創造Tensor Core GPU - 融合了HPC和AI運算的新架構。
  • Tensor Core GPU具有多種精度、支持高運算量FP64、FP32 、FP16、Int8和單周期4x4矩陣乘法累加來進行深度學習。
  • Volta是第一款Tensor Core GPU,並採用125張Tensor TFLOPS來增強AI – 比以前的GPU快10倍。
 
【世上最強的GPU
  • 我們發明了一種突破性開關,可以將多個GPU連接並編程為單個GPU。
  • NVSwitch是一種新型高頻寬交換器,其協議可擴展跨16個Volta Tensor 核心GPU的單晶片內建記憶體。
  • 程式設計師可看到具有2 PFLOPS性能的單一512GB GPU。
 
DGX-2 以6個月成長10
  • GPU運算是加速整體的推疊:GPU、系統設計和軟體、演算法和應用程式。
  • 6個月前,DGX-2的加速套件比DGC-1的性能提高了10倍!
 
5年提升500
  • GPU運算帶領我們進入超效能的新世紀
  • Alex Krizhevsky 用兩個GTX 580 GPU及6天時間成功訓練 AlexNet。
  • 而1台DGX-2僅需18分鐘就能達到相同目標!
 
5項速度紀錄!
  • 我們為了AI發展的每個面向提供地表上最佳效能
  • 最快的單晶片-每秒1,075個影像
  • 最快的單一節點 – 每秒15,500個影像
  • 擴充最快 – 14分鐘
  • 最短的推論延遲 – 1.1毫秒
  • 最快的推論速度 – 每秒6,250個影像
 
寒武紀大爆炸
  • 6年前AI網絡產生數千個物種及模型
  • 卷積神經網路(CNN)有了新架構、更深的網絡、全新的卷積層設計來驅動效能表現。
  • 遞歸神經網路(RNN)可對長序列模式進行分類。
  • 生成對抗網路(GAN)則是訓練兩個神經網路,一個產生內容,另一個負責判別。
  • 強化學習用反覆試驗與獎勵讓機器人自動學習與執行行為。
  • 複雜度更增加 – 上百層網絡及數十億個參數
 
Programmability
Latency
Accuracy
Size
Throughput
Energy Efficiency
Rate of Learning
 
PLASTER
  • 超大規模推論非常困難 – “PLASTER” 方便記憶
  • 可編程 – 資料中心要跑上千個網絡跟模型
  • 延遲性 – QoS 互動回應時間
  • 精準度 – 預知正確答案
  • 規模 – 直接對應效能與耗能
  • 運算量 – 資料中心是龐大的資本投資,越大的運算量等同越低的資料中中心成本
  • 能源效率 – 資料中心的總體擁有成本(TCO)為30%
 
NVIDIA AI 推論
  • 經由NVIDIA GPU訓練的網絡也將在NVIDIA GPU上執行運算。
  • 不同應用不同的網絡架構,模型大又複雜。
  • 為達到PLASTER,必須創造出新一大的圖形優化編譯器,這就是NVIDIA TensorRT。
  • 每次軟體更新,我們都支援更多模型架構、提高對GPU的支援,並提升編譯器技術。
 
NVIDIA AI 推論
  • TensorRT 4 目前支援影像與語音辨識、自然語言處理及提供個人化建議。
  • Google 將原生TensorRT 4 整合到TensorFlow。
  • 最受歡迎的語音辨識架構Kaldi也經過優化。
  • 為支援PyTorch 及MXNET開發架構的ONNX提升速度。
  • 加速Microsoft 的WinML。
  • NVIDIA GPU 已準備好加速AI在全球3,000萬個超大規模伺服器上的工作量。
 
NVIDIA GPU上的全新KUBERNETES
  • Kubernetes在為數眾多的超大規模資料中心伺服器中擴充並編排AI容器。
  • Kubernetes已能識別GPU,並能在全球的資料中心部署加速架構。
 
宣布推出NVIDIA HGX-2
  • 打造HPC與AI的伺服器相當複雜,幾乎已達到系統設計的極限。
  • 今天我們宣布推出NVIDIA GPU伺服器標準平台HGX-2
  • HGX-2為DGX-2的建構組件,包含16個Volta Tensor 核心GPU、完全連接、
  • 2 PFLOPS以及512GB的3D記憶體。
  • 有史以來最高效能單節點電腦。
 
宣布推出全新NVIDIA RTX技術
  • NVIDIA RTX結合即時繪圖、加速光線追蹤與深度學習的各項突破性技術,首度針對高擬真圖像渲染進行加速作業。
  • RTX集10年研究大成於一身。
  • RTX是15年前自NVIDIA發明可編程即時渲染技術以來最重要的突破。
 
NVIDIA GEFORCE驅動渲染作業
  • NVIDIA以可編程即時渲染作業的發明為現代電腦繪圖帶來革命。
  • 在過去15年各種令人驚豔的技術突破創造無數絕美影像。
  • 但始終未達高擬真圖像的程度,且不能多元化應用。
 
螢幕空間環境光遮蔽技術
  • 環境遮蔽應用在場景中未被環境光照射的區域,同時產生陰影與框架
 
全域照明渲染與NVIDIA RTX技術
  • 全域照明技術可自然完美地模擬環境遮蔽
 
螢幕空間折射與質量深度分類
  • 不同種類的光線穿過一個透明物體時,很難去模擬光柵
 
焦散與NVIDIA RTX技術
  • 透過光線追蹤,物理特效能直接被模擬出來。
  • 焦散是指一系列光線透過一個曲面透明物體反射與折射的匯聚,例如陽光穿透水面在泳池底部呈現的樣子。
 
次表面陰影運算
  • 次表面射散是當光線穿過透明物體時,在物體間進行反射,最後從不同角度穿出物體所產生的一種光影效果。
  • 可用來呈現皮膚、樹葉、臘、大理石與牛奶等材質。
 
價值兩兆美元的娛樂產業
  • 針對每個垂直市場,我們創造了一個平台,擁有全面GPU加速堆疊、最佳化的關鍵應用,及生態系統夥伴,為市場提供解決方案。
  • 我們很高興看到全球首屈一指的內容創作工作室採用NVIDIA RTX。
 
宣布CLARA醫學影像超級電腦
  • 早期發現早期治療是對抗疾病的最佳武器。
  • 今日既有的300萬個醫療器材,都是在運算與AI技術有所突破前所建置的。
  • 隆重介紹NVIDIA的醫學影像平台Clara。
  • Clara能在資料中心甚至是雲端,透過遠端處理資料,提供最先進的影像重組、物件偵測與分割,為既有的器材提供視覺化功能。
 
價值7兆的醫療產業
  • 醫療為全球最大產業之一,從偵測、診斷到藥品發展,正經歷革命性的AI技術。
  • Clara平台包含GPU加速堆疊、最佳化關鍵應用,並與全球醫療領導廠商建立夥伴關係。
 
價值兩兆的安全城市產業
  • 數十億的攝影機監控公眾區域,來確保民眾安全、控管車流以及最佳化能源運用。
  • 若沒有AI,我們將不可能擁有足夠的人力持續監控。
  • NVIDIA Metropolis 是一個GPU加速堆疊的平台,主要用於大規模視訊串流分析、關鍵應用的最佳化,及在IVA中與領導廠商建立夥伴關係。
 
NVIDIA DRIVE端對端平台
  • 自駕車是運算史上最大挑戰之一
  • 自動駕駛車用電腦是有史以來第一款高品質且即時的超級電腦
  • 整個軟體開發過程是全新的經驗
  • 每輛車每天收集所有感測器的PB(Petabyte)數據
  • GPU超級電腦用於訓練、模擬及測試AI軟體
  • 車隊將於全球各地駕駛數百萬英里來收集數據並測試軟體
 
單一架構+殺手級應用+全球生態系統+價值上兆美元的市場
  • 當來到摩爾定律末端的2028年,市場每年將需要等同於1,000萬個Volta所提供的運算效能。
  • Tensor核心GPU融合高效能運算與AI運算後,加速廣泛的多重精準度資料中心之工作負載。
  • GPU運算最佳化全面堆疊,一路從GPU、switch、系統與軟體、函數庫到應用。
  • DGX-2加速堆疊比DGX-1提升10倍
  • 5年內提升500倍
  • 5倍速度紀錄
NVIDA平台已觸及關鍵大眾,包含85萬開發者、超過550個HPC與AI應用,每個伺服器製造商、OEM、CSP,及涵蓋高效運算、AI、圖像、運輸、醫療與安全城市這六大市場的超大商機。
 
 
參考資料及演講直播:
GTC Taipei 2018 主題演講, 2018/5/30.

影片來源:Twitch


本站相關文章:
1.NVIDIA花費5年打造第一款AI機器人專用晶片
2.英偉達積極往自動駕駛晶片霸主地位前進
3. NVIDIA限制GeForce、Titan晶片跨平台銷售
4.利用深度學習 NVIDIA尋求醫療商機
5.英偉達GTC China 2017開發者大會、AI發展新趨勢

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1. 科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2. 著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。