昇騰950PR芯片
昇騰950PR芯片(英文名:Ascend 950PR)是華為精心規劃、將于2026年第一季度重磅推出的新一代昇騰芯片,在華為的AI芯片布局中占據重要地位,承載著華為在人工智能算力領域持續突破與創新的期望。
2025年9月18日,在上海舉辦的華為全聯接大會上,華為正式發布了三個系列的昇騰芯片,分別為950、960和970系列。其中,昇騰950PR芯片作為950系列的重要代表,計劃于2026年一季度正式上市,這一消息一經公布便引起了行業內外的廣泛關注。
推出背景 編輯本段
在人工智能飛速發展的當下,算力已成為推動AI技術進步與應用落地的核心驅動力,而芯片則是算力的基石。華為深刻認識到這一點,早在2018年便發布了昇騰系列芯片的首款產品——昇騰310芯片,開啟了在AI芯片領域的探索征程。次年,又推出了昇騰910芯片,進一步提升了算力水平。到了2025年,昇騰910C芯片隨著Atlas900超節點的大規模部署,憑借其強大的性能和廣泛的應用場景,逐漸走進大眾視野,讓外界對昇騰芯片有了更深入的了解。隨著AI技術的不斷演進,對芯片的性能要求也日益嚴苛,在此背景下,華為推出了昇騰950PR芯片,以滿足不斷增長的市場需求。
產品規格 編輯本段
昇騰950PR芯片在硬件配置上進行了全面升級,采用了先進的950核心搭配HiBL 1.0內存的組合。其中,HiBL 1.0內存容量高達128GB,帶寬達到1.6TB/s,為芯片的高效運行提供了強大的數據存儲與傳輸支持。在架構設計方面,新增了對多種低精度數據格式的支持,具體算力表現如下:
| 低精度數據格式 | 算力表現 |
|---|---|
| FP8/MXFP8/HIF8 | 1 PFLOPS |
| MXFP4 | 2 PFLOPS |
此外,該芯片重點提升了向量算力,將互聯寬帶提升了2.5倍,還支持華為自研的HBM高帶寬內存,為芯片的性能提升奠定了堅實基礎。
產品性能 編輯本段
與前一代昇騰芯片相比,昇騰950PR芯片在多個關鍵性能指標上實現了根本性的提升,具體表現如下:
(一)支持多種低數值精度數據格式
新增支持業界標準的FP8/MXFP8/MXFP4等低數值精度數據格式,算力分別達到1P和2P。這種對低精度數據格式的支持,有效提升了訓練效率和推理吞吐,能夠更快地處理大規模的數據,加速AI模型的訓練和推理過程。同時,特別支持華為自研的HiF8數據格式,在保持FP8高效性的同時,精度接近FP16,在性能和精度之間找到了更好的平衡。
(二)大幅度提升向量算力
主要通過以下三個方面實現向量算力的大幅提升:
提升向量算力占比:優化芯片內部架構,將更多的資源分配給向量計算單元,從而提高向量算力在整體算力中的占比。
采用創新的新同構設計:支持SIMD/SIMT雙編程模型。SIMD(單指令多數據流)能夠像流水線一樣高效處理“大塊”向量,適用于對大規模數據進行批量處理的場景;而SIMT(單指令多線程)則便于靈活處理“碎片化”數據,能夠更好地應對數據分布不均勻的情況。這種雙編程模型的設計,使得芯片能夠根據不同的應用場景靈活選擇合適的計算方式,大大提高了計算效率。
優化內存訪問顆粒度:將內存訪問顆粒度從512字節減少到128字節,使內存訪問更加精細。這一改進能夠更好地支持離散且不連續的內存訪問,減少了內存訪問的延遲,提高了數據讀取和寫入的速度,從而進一步提升向量算力的發揮。
(三)提升互聯帶寬
互聯帶寬相比Ascend 910C提升了2.5倍,達到2TB/s。更高的互聯帶寬意味著芯片之間以及芯片與外部設備之間的數據傳輸速度更快,能夠更好地滿足大規模分布式計算的需求,提高整個系統的并行計算能力。
(四)自研HBM內存
結合推理不同階段對于算力、內存、訪存帶寬及推薦、訓練的需求差異,華為自研了兩種HBM內存,分別是HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成了芯片昇騰950PR、950DT。這種定制化的內存設計,能夠更好地匹配不同應用場景的需求,提高芯片的性能和效率。
另外,相比昇騰910B/910C,從昇騰950開始還帶來了以下主要變化:
引入SIMD/SIMT新同構:提升了編程易用性,降低了開發難度,使得開發者能夠更加便捷地利用芯片的強大性能進行應用程序的開發。
支持更加豐富的數據格式:除了上述提到的低精度數據格式外,還支持FP32/HF32/FP16/BF16/HiF4等多種數據格式,能夠滿足不同AI應用場景對數據精度的多樣化需求。
支持更大的互聯帶寬:950系列互聯帶寬為2TB/s,970系列更是提升到4TB/s,為大規模數據中心和分布式計算提供了更強大的數據傳輸能力。
支持更大的算力:FP8算力從950系列的1 PFLOPS逐步提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS,能夠應對更加復雜的AI計算任務。
內存容量和訪問帶寬提升:內存容量逐漸加倍,而內存訪問帶寬將翻兩番,為芯片的高性能運行提供了更充足的內存支持。
應用場景 編輯本段
昇騰950PR芯片主要應用于推理Prefill階段和推薦業務場景。在推理Prefill階段,隨著輸入上下文的不斷增長,對計算并行能力的要求也越來越高。昇騰950PR芯片憑借其強大的向量算力和高互聯帶寬,能夠快速處理大規模的數據,滿足該階段對計算性能的需求。而在推薦業務場景中,需要更高的準確度和更低的時延,以提供更加個性化、實時性的推薦服務。這兩類場景對內存訪問帶寬和本地內存容量的需求相對較低,昇騰950PR芯片通過優化設計,在這些場景中具備獨特的適配優勢,能夠為用戶提供高效、穩定的性能表現。
上市信息 編輯本段
2025年9月18日,華為輪值董事長徐直軍在華為全聯接大會上正式公布了昇騰芯片的規劃,明確表示昇騰950PR將于2026年第一季度上市。這一消息的公布,讓眾多期待已久的行業用戶和開發者對昇騰950PR芯片充滿了期待,相信它將在人工智能領域掀起新的浪潮,為推動AI技術的發展和應用做出重要貢獻。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

