GTC Taipei 2018黃仁勳演講
科技產業資訊室 (iKnow) - May 發表於 2018年6月13日
圖、 GTC Taipei 2018
AI晶片龍頭NVIDIA公司舉辦GTC 2018技術大會,於2018年5月30、31日於台北舉行。CEO黃仁勳宣稱十年前推出NVIDIA GPU運算架構CUDA,已經累計下載了800萬次,在過去五年裡增加了五倍。
黃仁勳談到摩爾定律將於2028到盡頭,現在需要擴展它的極限。傳統半導體有摩爾定律,但CUDA GPU創造了不同的定律。GPU每隔五年就達到10倍的效能成長,也針對演算法不斷的改善。傳統伺服器的龐大、耗電,通過NVIDIA的GPU有了根本性的改變。他說,在計算領域用了越多的GPU,其實就是越省錢!
從機器學習到深度學習,已衍生出無數種不同的神經網路、模型,隨著應用的增加,也越來越複雜。爲了要應付這些複雜的神經網路計算,現有的小型GPU其實很難以負擔,但如果把個別的GPU通過高效能的互聯結構結合起來,形成一個巨大的GPU,就可以創造出過去不可能達成的計算成果。於是,DXG-2 Server就是互聯了16顆GPU,形成一個龐大的GPU架構,共享統一的記憶體空間,通過最新的NVLink技術,使GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。
HGX-2超級計算機平台
HGX-2超級計算機是剛釋出的新產品,同樣可以串聯16個Tesla V100,速度達到2Peta-FLOPS,同樣,這還是第一款人工智慧和高效能運算統一的平臺HPC。 換句話說HGX-2就是一個伺服器平臺,可進行科學計算或是高精度模擬,也可以進行AI訓練。這正可以解決CPU效能擴張速度變慢的問題,GPU大規模平行計算有了更好的發展空間。
DGX-2深度學習機
DGX-2 是一台專門用於人工智慧訓練和/或推理任務的桌面計算機。DGX-2 可提供 10 倍於上一代 Nvidia DGX-1 的深度學習效能,整體功耗為為 10KW,重 350 磅,售價39.9 萬美元。
機器人平臺Isaac及處理器Jetson Xavier
Isaac機器人平臺,針對製造、物流、農業和建築等機器人應用而推出,可作為終端消耗HGX-2和DGX-2的運算力。基於Isaac平臺的Jetson Xavier處理器,包括了1個Volta Tensor Core GPU、1個8核ARM64 CPU、2個NVDLA深度學習加速器、1個影像處理器、1個視覺處理器和1個視訊處理器,預定價格為1299美元。被用於現場模擬、判斷和模擬環境測試,而更多的資料則會交給雲端進行,並最終同步到所有機器人之中。 (705字;圖1)
以下內容出自GTC2018 黃仁勳演講簡報:
大幅升速的電腦運算
- GPU運算從一個優異的GPU開始,但它的潛力只有在我們優化整個堆疊時才會展現--從CUDA到應用。
- 一個演算法領域,一次一種應用,我們創造並持續優化CUDA加速堆疊。
- 短短的5年內,我們將分子動力學應用加速了25倍。
10億美元的超級運算產業
- 超級電腦是現代科學的重要工具
- 過去10年,我們開發了一整套用在超級運算的函式庫,系統管理和編程工具。
- 針對分子建模、量子化學和力學、天氣預報、氣候研究、能源探索、物理模擬、資料科學以及人工智慧,超過550種高效能運算應用了CUDA加速。
- 未來,每台超級電腦都要在務實的成本與能耗的考量基礎上,加速實現百萬億次級和百億級性能。
GPU再造
- 未來的運算將融合模擬和機器學習方法。
- 電腦可以通過學習數據中的重要特徵,模擬物理定律或預測結果。
- NVIDIA再造GPU、創造Tensor Core GPU - 融合了HPC和AI運算的新架構。
- Tensor Core GPU具有多種精度、支持高運算量FP64、FP32 、FP16、Int8和單周期4x4矩陣乘法累加來進行深度學習。
- Volta是第一款Tensor Core GPU,並採用125張Tensor TFLOPS來增強AI – 比以前的GPU快10倍。
【世上最強的GPU】
- 我們發明了一種突破性開關,可以將多個GPU連接並編程為單個GPU。
- NVSwitch是一種新型高頻寬交換器,其協議可擴展跨16個Volta Tensor 核心GPU的單晶片內建記憶體。
- 程式設計師可看到具有2 PFLOPS性能的單一512GB GPU。
DGX-2 以6個月成長10倍
- GPU運算是加速整體的推疊:GPU、系統設計和軟體、演算法和應用程式。
- 6個月前,DGX-2的加速套件比DGC-1的性能提高了10倍!
5年提升500倍
- GPU運算帶領我們進入超效能的新世紀
- Alex Krizhevsky 用兩個GTX 580 GPU及6天時間成功訓練 AlexNet。
- 而1台DGX-2僅需18分鐘就能達到相同目標!
5項速度紀錄!
- 我們為了AI發展的每個面向提供地表上最佳效能
- 最快的單晶片-每秒1,075個影像
- 最快的單一節點 – 每秒15,500個影像
- 擴充最快 – 14分鐘
- 最短的推論延遲 – 1.1毫秒
- 最快的推論速度 – 每秒6,250個影像
寒武紀大爆炸
- 6年前AI網絡產生數千個物種及模型
- 卷積神經網路(CNN)有了新架構、更深的網絡、全新的卷積層設計來驅動效能表現。
- 遞歸神經網路(RNN)可對長序列模式進行分類。
- 生成對抗網路(GAN)則是訓練兩個神經網路,一個產生內容,另一個負責判別。
- 強化學習用反覆試驗與獎勵讓機器人自動學習與執行行為。
- 複雜度更增加 – 上百層網絡及數十億個參數
Programmability
Latency
Accuracy
Size
Throughput
Energy Efficiency
Rate of Learning
PLASTER
- 超大規模推論非常困難 – “PLASTER” 方便記憶
- 可編程 – 資料中心要跑上千個網絡跟模型
- 延遲性 – QoS 互動回應時間
- 精準度 – 預知正確答案
- 規模 – 直接對應效能與耗能
- 運算量 – 資料中心是龐大的資本投資,越大的運算量等同越低的資料中中心成本
- 能源效率 – 資料中心的總體擁有成本(TCO)為30%
NVIDIA AI 推論
- 經由NVIDIA GPU訓練的網絡也將在NVIDIA GPU上執行運算。
- 不同應用不同的網絡架構,模型大又複雜。
- 為達到PLASTER,必須創造出新一大的圖形優化編譯器,這就是NVIDIA TensorRT。
- 每次軟體更新,我們都支援更多模型架構、提高對GPU的支援,並提升編譯器技術。
NVIDIA AI 推論
- TensorRT 4 目前支援影像與語音辨識、自然語言處理及提供個人化建議。
- Google 將原生TensorRT 4 整合到TensorFlow。
- 最受歡迎的語音辨識架構Kaldi也經過優化。
- 為支援PyTorch 及MXNET開發架構的ONNX提升速度。
- 加速Microsoft 的WinML。
- NVIDIA GPU 已準備好加速AI在全球3,000萬個超大規模伺服器上的工作量。
NVIDIA GPU上的全新KUBERNETES
- Kubernetes在為數眾多的超大規模資料中心伺服器中擴充並編排AI容器。
- Kubernetes已能識別GPU,並能在全球的資料中心部署加速架構。
宣布推出NVIDIA HGX-2
- 打造HPC與AI的伺服器相當複雜,幾乎已達到系統設計的極限。
- 今天我們宣布推出NVIDIA GPU伺服器標準平台HGX-2。
- HGX-2為DGX-2的建構組件,包含16個Volta Tensor 核心GPU、完全連接、
- 2 PFLOPS以及512GB的3D記憶體。
- 有史以來最高效能單節點電腦。
宣布推出全新NVIDIA RTX技術
- NVIDIA RTX結合即時繪圖、加速光線追蹤與深度學習的各項突破性技術,首度針對高擬真圖像渲染進行加速作業。
- RTX集10年研究大成於一身。
- RTX是15年前自NVIDIA發明可編程即時渲染技術以來最重要的突破。
NVIDIA GEFORCE驅動渲染作業
- NVIDIA以可編程即時渲染作業的發明為現代電腦繪圖帶來革命。
- 在過去15年各種令人驚豔的技術突破創造無數絕美影像。
- 但始終未達高擬真圖像的程度,且不能多元化應用。
螢幕空間環境光遮蔽技術
- 環境遮蔽應用在場景中未被環境光照射的區域,同時產生陰影與框架
全域照明渲染與NVIDIA RTX技術
螢幕空間折射與質量深度分類
焦散與NVIDIA RTX技術
- 透過光線追蹤,物理特效能直接被模擬出來。
- 焦散是指一系列光線透過一個曲面透明物體反射與折射的匯聚,例如陽光穿透水面在泳池底部呈現的樣子。
次表面陰影運算
- 次表面射散是當光線穿過透明物體時,在物體間進行反射,最後從不同角度穿出物體所產生的一種光影效果。
- 可用來呈現皮膚、樹葉、臘、大理石與牛奶等材質。
價值兩兆美元的娛樂產業
- 針對每個垂直市場,我們創造了一個平台,擁有全面GPU加速堆疊、最佳化的關鍵應用,及生態系統夥伴,為市場提供解決方案。
- 我們很高興看到全球首屈一指的內容創作工作室採用NVIDIA RTX。
宣布CLARA醫學影像超級電腦
- 早期發現早期治療是對抗疾病的最佳武器。
- 今日既有的300萬個醫療器材,都是在運算與AI技術有所突破前所建置的。
- 隆重介紹NVIDIA的醫學影像平台Clara。
- Clara能在資料中心甚至是雲端,透過遠端處理資料,提供最先進的影像重組、物件偵測與分割,為既有的器材提供視覺化功能。
價值7兆的醫療產業
- 醫療為全球最大產業之一,從偵測、診斷到藥品發展,正經歷革命性的AI技術。
- Clara平台包含GPU加速堆疊、最佳化關鍵應用,並與全球醫療領導廠商建立夥伴關係。
價值兩兆的安全城市產業
- 數十億的攝影機監控公眾區域,來確保民眾安全、控管車流以及最佳化能源運用。
- 若沒有AI,我們將不可能擁有足夠的人力持續監控。
- NVIDIA Metropolis 是一個GPU加速堆疊的平台,主要用於大規模視訊串流分析、關鍵應用的最佳化,及在IVA中與領導廠商建立夥伴關係。
NVIDIA DRIVE端對端平台
- 自駕車是運算史上最大挑戰之一
- 自動駕駛車用電腦是有史以來第一款高品質且即時的超級電腦
- 整個軟體開發過程是全新的經驗
- 每輛車每天收集所有感測器的PB(Petabyte)數據
- GPU超級電腦用於訓練、模擬及測試AI軟體
- 車隊將於全球各地駕駛數百萬英里來收集數據並測試軟體
單一架構+殺手級應用+全球生態系統+價值上兆美元的市場
- 當來到摩爾定律末端的2028年,市場每年將需要等同於1,000萬個Volta所提供的運算效能。
- Tensor核心GPU融合高效能運算與AI運算後,加速廣泛的多重精準度資料中心之工作負載。
- GPU運算最佳化全面堆疊,一路從GPU、switch、系統與軟體、函數庫到應用。
- DGX-2加速堆疊比DGX-1提升10倍
- 5年內提升500倍
- 5倍速度紀錄
NVIDA平台已觸及關鍵大眾,包含85萬開發者、超過550個HPC與AI應用,每個伺服器製造商、OEM、CSP,及涵蓋高效運算、AI、圖像、運輸、醫療與安全城市這六大市場的超大商機。
參考資料及演講直播:
GTC Taipei 2018 主題演講, 2018/5/30.
影片來源:Twitch
本站相關文章:
1.NVIDIA花費5年打造第一款AI機器人專用晶片
2.英偉達積極往自動駕駛晶片霸主地位前進
3. NVIDIA限制GeForce、Titan晶片跨平台銷售
4.利用深度學習 NVIDIA尋求醫療商機
5.英偉達GTC China 2017開發者大會、AI發展新趨勢
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。
|