盗墓笔记第二季,欢乐颂小说在线阅读,女人书籍排行榜

最強AI芯片H200？黃仁勛又在擠牙膏了

2023-11-16 10:52 | 來源:虎嗅APP | 作者:俠名 | [科技] 字號變大| 字號變小

雖然算力沒有提升，但更高速的推理就意味著大量時間和金錢成本的節約，雖然還沒有公布定價，新卡的"單美元效率"有了顯著的提升...

11 月 13 日晚，英偉達在國際超算大會上推出新一代 GPU，NVIDIA HGX H200。

只看算力 H200 和 H100 基本相同，但為了加速 AI 推理速度，我們優化了顯存和帶寬。

對這塊 GPU，黃仁勛給的學術名稱是 " 新一代 AI 計算平臺 "，專為大模型與生成式 AI 而設計，翻譯一下：

又一塊史上最強芯片

先看具體的參數升級，官方新聞稿是說相比 H100 而言性能提升了 60%-90%，具體來看則是四個方面：

1. 跑 70B Llama2，推理速度比 H100 快 90%;

2. 跑 175B GPT-3，推理速度比 H100 快 60%;

3. 顯存容量達到 141GB，是 H100 的近 1.8 倍;

4. 帶寬達到 4.8TB，是 H100 的 1.4 倍。

換句話說，雖然算力沒有提升，但更高速的推理就意味著大量時間和金錢成本的節約，雖然還沒有公布定價，新卡的 " 單美元效率 " 有了顯著的提升。

邏輯芯片應該還是臺積電的 4N 工藝，CoWoS 封裝也沒有變化，但 HBM 存儲芯片卻由原先的 HBM3 升級到了 HBM3e。

雖然當下 H200 的具體架構還沒有曝光，根據已有信息我們推測，最重要的三個部分中，

H100 拆機圖

原先的 6 顆 HBM3 芯片由 SK 海力士獨供，內存帶寬為 3.35TB/s，內存為 80GB，而全球首款搭載 HBM3e 內存的 H200，內存帶寬達到 4.8TB/s，內存達到 141GB。

141GB 內存這個數字還挺奇怪，但這也是慣例。之前的 HBM3 芯片單顆內存為 16GB，堆疊 6 顆理論上應該是 96GB，但實際只有 80GB，就是英偉達為了保證良率，保留了一部分冗余空間。

而這次的 HBM3e 單顆容量為 24GB，6 顆算下來是 144GB，等于說這次英偉達只保留了 3GB 冗余，更大程度壓榨了內存的空間，以實現性能上的突破。

這或許帶來產能爬坡速度較慢的問題。

至于供應商方面，英偉達暫時沒有公布，SK 海力士和美光今年都公布了這一技術，但美光在今年 9 月份表示，它正在努力成為英偉達的供應商，不知道 H200 有沒有選上它。

這塊最強 GPU 要到 2024 年二季度才正式發售，現在大家依然得搶 H100。

今年 8 月英偉達發布的 GH200 超級芯片，實際上是由 Grace CPU 與 H100 GPU 組合而成的。

這套組合在 NVLink 的加持下與 H200 完全兼容，也就是說原先用 H100 的數據中心既可以直接升級 H200，也可以再堆幾塊 H200 進去增加算力。

另一方面，根據此前英偉達公布的更新路徑圖，在 2024 年的四季度就將發布下一代 Blackwell 架構的 B100，性能將再次突破。

再結合我們上文提到的，相比于 H100，H200 只是在推理能力上有所提升，更接近老黃一貫以來的擠牙膏產品，真正的大招還得看明年的 B100。

問題是，英偉達為什么要出一款這樣的產品?

H200 稱不上傳奇

顯卡玩家都知道，老黃的刀法是出了名的精湛。

所謂刀工，就是你去買肉的時候說要一斤肉，老板一刀下去剛好一斤。放到顯卡這里，則是廠商通過分割性能設計出不同價位的產品，以滿足各類不同需求的消費者。

比如下圖所示的五款同一年發售的顯卡，采用相同制程和架構，但通過屏蔽不同量的流處理器以誕生性能有所差異的五款顯卡。

發售價基本呈等差數列，如果把他們變成性能差異的話，則會出現下面這張層層遞進的得分圖。

很明顯，消費者多花一分錢，就能多得到一點性能，號稱 " 每 500 元一檔，每 5% 性能一級 "。

畢竟打游戲這事，有人只玩熱血傳奇，也有人就喜歡 4K 光追 120FPS 玩《賽博朋克 2077》，不同人群的需求千差萬別，不同價位都有市場。

圖片來源：極客灣

至于這么操作有什么好處——搶占市場，節約成本。

搶占市場比較好理解，在所有價格帶和各種性能檔次上鋪滿自家產品以擠壓對手生存空間，這套做法各行各業都有，看看白酒和車企就知道了。

成本這邊，一片晶圓能夠切割出若干塊 "die"(也就是芯片封裝前的晶粒)，而這切割出來的 die 質量參差不齊，也就有了良品率的概念。

因此簡單來說，以 16xx 系顯卡為例，英偉達就會把質量最高的芯片做成性能最強的 1660Ti，差一點的做成 1660Super 和 1660，再差一點的繼續降級。

這樣就能夠保證在芯片制造過程中的損耗盡可能降低。

同時這種刀法還能用來清庫存，比如 22 年礦機市場崩盤，英偉達 30xx 系列芯片堆在倉庫里賣不動，老黃就把用在高端顯卡上的芯片放進低端顯卡系列里，降價出售。

比如說原先放在 3090 上的 ga102 核心，22 年 3 月首發價 11999 元，到了 11 月就搭載到新版的 3070Ti V2 上，價格直接打到了 3500 左右。

回到 H200 這里，H100 已經是最強的 AI 芯片了，但英偉達就是要在 B100 和 H100 之間再切出一個 H200，同樣也是上述的兩個原因。

這里需要科普一下內存帶寬的意義，一套服務器的真實計算速度(FLOPs/s)，是在 " 計算密度 x 帶寬 " 與 " 峰值計算速度 " 這兩個指標間取最小值。

而計算密度和帶寬的上限都是受到內存技術影響的。（這里劃個線，后面討論中國特供 H20 還會提到。）

通俗來說，就是如果芯片內部計算已經結束，但新的數據沒傳過來，下一次計算也就不能開始，這部分算力實際上是被浪費的。

這也是為什么我們看到一些服務器的算力(FLOPs)相對較低，但計算速度卻更高的原因。

因此對于一款高性能芯片來說，算力和帶寬應當同步提升才能使計算速度最大化。

對于 H 系列 GPU 來說，在不改架構和所用制程的情況下，可能算力上的突破已經比較困難，但在 HBM3e 的加持下，內存和內存帶寬得以繼續提升。

另一方面，相較于此前訓練大模型所強調的龐大算力，在當下 AI 應用大量落地的時代廠商開始重視推理速度。

推理速度和計算速度可以劃上約等號，即是將用戶輸入的數據，通過訓練好的大模型，再輸出給用戶有價值的信息的過程，也就是你等 ChatGPT 回復你的那段時間。

推理速度越快，回復速度越快，用戶體驗自然越好，但對于 AI 應用而言，不同難度等級的推理所需要的運算量天差地別。

打個比方，假設現在有一款和 GPT-4 同樣強大的模型，但問他附近有什么好吃的足足花一分鐘才能給出答案，但 GPT-4 只要一秒，這就是推理速度帶來的差異。

這種推理速度上的差異延伸到應用生態上，則會影響應用的廣度與深度，比如即時性要求更強的 AI 就必須擁有更高的帶寬，最典型的案例就是自動駕駛技術。

在這一邏輯下，頭部大廠自然會愿意為更高的內存買單。

而成本這一塊，英偉達就更雞賊了，咱們來看看中國特供版 GPU：H20。

深厚刀工下的產物：H20

日前有消息稱，英偉達現已開發出針對中國區的最新改良版系列芯片：HGX H20、L20 PCle 和 L2 PCle，知情人士稱，最新三款芯片是由 H100 改良而來，預計會在 16 號正式公布。

這有三款芯片，但 L20 和 L2 是基于 Intel 的第三代平臺，這里暫且不表，重點是采用 H100/H800 架構的 H20。

H20 的誕生背景這里就不再贅述，單看這名字，足足落后 H200 十倍，拜登看了直點頭。

先看參數，H20 在內存上用的還是 H100 相同的 HBM3，6 個 16G 堆疊完完整整 96GB，完全沒有任何留存部分，意味著該技術良率早已不是問題，明顯的成熟制程。

但為了規避禁令限制，計算密度(下圖中的 TPP/Die size)被大幅閹割，根據上文所述，計算速度也就是推理速度差了不止一星半點。

然后再看這張表，計算能力的核心參數 FP32 為 44TFLOPS，相較于 H100/200 并沒有下降多少。

但在張量核心(Tensor Core)的部分則是大砍特砍，BF16、TF32 都被砍到只剩一個零頭。

張量核心被砍，基本意味著這塊 GPU 當下訓練不出比 GPT-3 更高級的模型。

簡單來說就是生成比 GPT-3 更高級的大模型所必備的，專為深度學習而設計的計算核心，

張量核心被砍，同樣意味著生產這卡可以用成熟制程，品相差一點的晶粒，也就意味著更低的成本。

想想這是不是和顯卡玩法差不多?

看到這里感覺就是個全面閹割版，用國產替代不行嗎?

老黃刀法厲害就厲害在這：4.0TB 的內存帶寬比 H100 還高，卡間、服務器間帶寬 NVlink 速度 900GB/s 和 H100 持平。

也就是說，即便禁令影響不能出售高端 GPU，但中國客戶可以多買幾張堆一起，用來彌補單卡算力不足的問題，粗略算算 2.5 張 H20 可以等效于一張 A100。

NVlink 再加上 CUDA 生態，再算上成熟制程帶來的低成本優勢，即便國內廠商不得不給英偉達繳更多的 " 稅 "，H20 依舊是國內廠商最好的選擇。

還是那句話，老黃這么多年積淀下的刀功確實能給蚊子腿做手術，這一刀下來，既規避了禁令限制，又讓國內廠商繼續買他們家的產品。

英偉達又贏麻了。

《電鰻快報》

收藏舉報

聲
明

1.本站遵循行業規范，任何轉載的稿件都會明確標注作者和來源；2.本站的原創文章，請轉載時務必注明文章作者和來源，不尊重原創的行為我們將追究責任；3.作者投稿可能會經我們編輯修改或補充。

前三季度凈利潤大降天益醫療“變現”能力不足兩次募資補流

27億市值上市公司“賣身”500萬注冊資本公司有哪些異常？

定增募資5.7億元“難解渴” 亞通股份能否擺脫虧損泥潭？

“家族店”潤瑪股份IPO：實控人短短三年完美套現1.9億元

寶馬MINI“冰激凌”事件霸屏熱搜年內寶馬品牌產品召回事項達5起

控股股東股份凍結數量超八成！得潤電子兩年最大虧損超8億

鈞崴電子IPO：熔斷器“熔斷”、研發費用下降還得忍受大客戶委屈

熱門標簽

公司市場上市公司 IPO 科創板基金上市 A股

久久免费看-久久免费久久-久久免费精品-久久免费精彩视频-午夜一区二区三区-午夜一区二区免费视频

最強AI芯片H200？黃仁勛又在擠牙膏了

眾鑫股份IPO：7000萬分紅3億補流毛利率下降盈利能力遭質疑

業績再降三成 “變現能力”嚴重不足重組能否實現扭虧？

華誼兄弟“動無可動”：控股權100%凍結涉案25宗金額共2.98億元

前三季度凈利潤大降天益醫療“變現”能力不足兩次募資補流

27億市值上市公司“賣身”500萬注冊資本公司有哪些異常？

定增募資5.7億元“難解渴” 亞通股份能否擺脫虧損泥潭？

“家族店”潤瑪股份IPO：實控人短短三年完美套現1.9億元

寶馬MINI“冰激凌”事件霸屏熱搜年內寶馬品牌產品召回事項達5起

控股股東股份凍結數量超八成！得潤電子兩年最大虧損超8億

鈞崴電子IPO：熔斷器“熔斷”、研發費用下降還得忍受大客戶委屈

久久免费看-久久免费久久-久久免费精品-久久免费精彩视频-午夜一区二区三区-午夜一区二区免费视频

最強AI芯片H200？黃仁勛又在擠牙膏了

眾鑫股份IPO：7000萬分紅3億補流 毛利率下降 盈利能力遭質疑

業績再降三成 “變現能力”嚴重不足 重組能否實現扭虧？

華誼兄弟“動無可動”：控股權100%凍結 涉案25宗金額共2.98億元

前三季度凈利潤大降 天益醫療“變現”能力不足 兩次募資補流

27億市值上市公司“賣身”500萬注冊資本公司 有哪些異常？

定增募資5.7億元“難解渴” 亞通股份能否擺脫虧損泥潭？

“家族店”潤瑪股份IPO：實控人短短三年完美套現1.9億元

寶馬MINI“冰激凌”事件霸屏熱搜 年內寶馬品牌產品召回事項達5起

控股股東股份凍結數量超八成！得潤電子兩年最大虧損超8億

鈞崴電子IPO：熔斷器“熔斷”、研發費用下降還得忍受大客戶委屈

眾鑫股份IPO：7000萬分紅3億補流毛利率下降盈利能力遭質疑

業績再降三成 “變現能力”嚴重不足重組能否實現扭虧？

華誼兄弟“動無可動”：控股權100%凍結涉案25宗金額共2.98億元

前三季度凈利潤大降天益醫療“變現”能力不足兩次募資補流

27億市值上市公司“賣身”500萬注冊資本公司有哪些異常？

寶馬MINI“冰激凌”事件霸屏熱搜年內寶馬品牌產品召回事項達5起

控股股東股份凍結數量超八成！得潤電子兩年最大虧損超8億

鈞崴電子IPO：熔斷器“熔斷”、研發費用下降還得忍受大客戶委屈