-
AI落地的關(guān)鍵堵點(diǎn),華為用“黑科技”打通了
-
呂棟lvdong@guancha.cn
(文/觀察者網(wǎng) 呂棟)
GPT-5的不再驚艷,讓很多人意識(shí)到傳統(tǒng)的Scaling Law(尺度定律)已經(jīng)遇到明顯瓶頸。從應(yīng)用需求的角度來(lái)講,更多企業(yè)開(kāi)始關(guān)注模型推理的性能體驗(yàn),這關(guān)乎商業(yè)落地和變現(xiàn)。
但在推理這個(gè)關(guān)鍵環(huán)節(jié),中國(guó)正遭遇瓶頸。不僅基礎(chǔ)設(shè)施投資遠(yuǎn)少于美國(guó),同時(shí)還要面對(duì)算力卡閹割、 HBM(高帶寬內(nèi)存)漲價(jià)禁運(yùn)等困境。尤其是,隨著AI應(yīng)用場(chǎng)景不斷拓展,長(zhǎng)文本處理、多輪對(duì)話(huà)以及復(fù)雜業(yè)務(wù)流程的推理需求日益增長(zhǎng),更讓中國(guó)AI推理困境凸顯。
現(xiàn)實(shí)挑戰(zhàn)下,華為重磅推出了 AI推理加速“黑科技”UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager)。這一突破性技術(shù)通過(guò)創(chuàng)新架構(gòu)設(shè)計(jì)和存儲(chǔ)優(yōu)化,突破了HBM容量限制,提升了國(guó)內(nèi)AI大模型推理性能,完善了中國(guó)AI推理生態(tài)的關(guān)鍵環(huán)節(jié)。
在英偉達(dá)因 “后門(mén)”遭遇信任危機(jī)之際,華為將UCM主動(dòng)開(kāi)放開(kāi)源,打通了框架、算力、存儲(chǔ)三層協(xié)同,推動(dòng)國(guó)產(chǎn)AI推理告別“堆卡依賴(lài)”,走向“體驗(yàn)提升-用戶(hù)增長(zhǎng)-企業(yè)加大投資-技術(shù)迭代”的正循環(huán)。這場(chǎng)圍繞“記憶”的技術(shù)突圍,或許正是中國(guó)AI行業(yè)落地的關(guān)鍵一役。
推理已成關(guān)鍵,中國(guó)瓶頸凸顯
AI技術(shù)的蓬勃發(fā)展,讓大模型訓(xùn)練成為成本中心,但真正創(chuàng)造價(jià)值的是推理過(guò)程。
數(shù)據(jù)顯示,當(dāng)前 AI推理算力需求已超過(guò)訓(xùn)練。GPT-5開(kāi)放首周API調(diào)用量超20億次/分鐘,70%的請(qǐng)求為復(fù)雜認(rèn)為推理(如代碼生成、多步規(guī)劃等),而國(guó)內(nèi)火山引擎的日均token調(diào)用量已達(dá)16.4萬(wàn)億,70%以上來(lái)自線(xiàn)上推理而非訓(xùn)練。
推理性能關(guān)乎用戶(hù)體驗(yàn)和商業(yè)可行性,已成為 AI落地的關(guān)鍵。但隨著AI行業(yè)化落地加深,推理能力也不斷面臨挑戰(zhàn), 尤其是在長(zhǎng)文本處理、多輪對(duì)話(huà)以及復(fù)雜業(yè)務(wù)流程的推理需求日益增長(zhǎng)的情況下,對(duì)推理 性能 的要求愈發(fā)嚴(yán)苛。
在此背景下,一種名為 鍵值緩存( KV Cache) 的關(guān)鍵技術(shù)誕生,它可以 優(yōu)化計(jì)算效率、減少重復(fù)運(yùn)算 , 即將已生成 token的Key(鍵:表征歷史輸入的特征)和Value(值:基于Key的特征,用于生成當(dāng)前輸出的參考信息)臨時(shí)存儲(chǔ)起來(lái),后續(xù)生成新token時(shí)直接復(fù)用,無(wú)需重新計(jì)算 ,可以顯著提升推理效率。
但 問(wèn)題是 , KV Cache需要占用GPU的顯存(如 高帶寬內(nèi)存 HBM)存儲(chǔ)歷史Key/Value向量,生成的文本越長(zhǎng),緩存的數(shù)據(jù)量越大 ,有可能導(dǎo)致 HBM和DRAM被擠爆。
中國(guó)企業(yè)不比美國(guó),一方面中國(guó)互聯(lián)網(wǎng)企業(yè)在 AI基礎(chǔ)設(shè)施上的投資只有美國(guó)的十分之一,中小企業(yè)預(yù)算少,買(mǎi)不起那么多高端的HBM,另一方面中國(guó)還面臨出口管制,無(wú)法獲得最先進(jìn)的算力卡和HBM,不可能無(wú)限制地去堆卡。
更關(guān)鍵的是,面對(duì)大模型 PB級(jí)的天量數(shù)據(jù),傳統(tǒng)推理架構(gòu)過(guò)度依賴(lài)HBM的瓶頸也日益凸顯。隨著Agentic AI(代理式人工智能)時(shí)代到來(lái),模型規(guī)?;瘮U(kuò)張、長(zhǎng)序列需求激增以及推理任務(wù)并發(fā)量增長(zhǎng),推理的KV Cache容量增長(zhǎng)已超出HBM的承載能力,頻繁的內(nèi)存溢出,導(dǎo)致推理頻繁出現(xiàn)“失憶”,需要GPU反復(fù)計(jì)算,造成卡頓遲緩。
多種難題下,國(guó)產(chǎn)大模型陷入了 “推不動(dòng)”、“推得慢”和“推得貴”的困境。
數(shù)據(jù)顯示,國(guó)外主流大模型輸出速度為 200 tokens/s區(qū)間(時(shí)延5ms),而中國(guó)普遍小于60 tokens/s(時(shí)延50-100ms),最大差距達(dá)到10倍。在上下文窗口上,海外模型普遍支持100萬(wàn)級(jí)Token(如GPT-5、Claude 3.5),而國(guó)內(nèi)頭部模型(Kimi)僅50萬(wàn),且在長(zhǎng)文本分析中,國(guó)內(nèi)模型遺漏關(guān)鍵信息的概率超50%。
這種體驗(yàn),顯然對(duì)中國(guó) AI的規(guī)?;涞夭焕? 長(zhǎng)此以往, 甚至?xí)? 形成商業(yè)的惡性循環(huán),進(jìn)一步導(dǎo)致中國(guó)企業(yè)投入降低、投資降速,在 AI的國(guó)際競(jìng)爭(zhēng)中 被國(guó)外拉開(kāi)差距 。
怎么在不大幅增加 算力基礎(chǔ)設(shè)施投入的前提下,顯著優(yōu)化推理體驗(yàn),推動(dòng) AI推理進(jìn)入商業(yè)正循環(huán) ,成為中國(guó)的當(dāng)務(wù)之急。
華為 “黑科技”,打通推理體驗(yàn)堵點(diǎn)
前面提到, “Token經(jīng)濟(jì)”時(shí)代,KV Cache與記憶數(shù)據(jù)管理是優(yōu)化推理性能、降低計(jì)算成本的核心,但HBM這種高性能內(nèi)存太貴,且不能無(wú)限制堆卡,而SSD(固態(tài)硬盤(pán))的傳輸速率太慢,似乎形成了成本、性能和效果的“不可能三角”。
- 責(zé)任編輯: 呂棟 
-
前7月全國(guó)固投同比增1.6%,房地產(chǎn)開(kāi)發(fā)投資降12%
2025-08-15 10:26 宏觀經(jīng)濟(jì) -
全球追索的恒大“二號(hào)人物”浮出水面!夏海鈞藏身美國(guó)加州爾灣
2025-08-15 10:07 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
哈根達(dá)斯與星巴克踏入同一條河流
2025-08-15 10:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
淘天集團(tuán)“更名”,與餓了么、飛豬為并行關(guān)系
2025-08-14 20:07 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
穩(wěn)定幣第一股不穩(wěn)定:Q2營(yíng)收增53%,但凈虧損4.82億美元
2025-08-14 20:06 金融觀察 -
傳復(fù)星集團(tuán)在港申請(qǐng)穩(wěn)定幣牌照,此前提交“星幣”商標(biāo)注冊(cè)
2025-08-14 20:05 金融觀察 -
同比少賣(mài)了7億元,康師傅上半年飲料業(yè)務(wù)失速
2025-08-14 19:31 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
騰訊Q2收入利潤(rùn)雙增長(zhǎng),AI立大功
2025-08-14 17:50 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
-
時(shí)隔六年再現(xiàn)!平安舉牌太保,保險(xiǎn)巨頭互買(mǎi)點(diǎn)燃行情
2025-08-14 13:10 金融觀察 -
人形機(jī)器人今年產(chǎn)量?jī)H2臺(tái),天鏈機(jī)器人IPO可能要被“勸退”
2025-08-14 09:39 科技前沿 -
-
瓜子和豌豆賣(mài)不動(dòng)了,甘源食品凈利潤(rùn)腰斬
2025-08-13 19:30 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
“中國(guó)人幾百年來(lái)都不精于消費(fèi)”,怎么理解?
2025-08-13 17:11 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
-
俄副總理:或向中國(guó)提供重型發(fā)動(dòng)機(jī) 評(píng)論 59習(xí)近平:中方在TikTok問(wèn)題上的立場(chǎng)是清楚的 評(píng)論 26美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品… 評(píng)論 102“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑” 評(píng)論 146中美高層本月頻繁互動(dòng),什么信號(hào)? 評(píng)論 91最新聞 Hot
-
特朗普“下令美軍開(kāi)火”
-
俄副總理:或向中國(guó)提供重型發(fā)動(dòng)機(jī)
-
法軍高官:中國(guó)一天一個(gè)樣,見(jiàn)都沒(méi)見(jiàn)過(guò)
-
中國(guó)駐菲律賓大使黃溪連即將離任
-
助紂為虐……美國(guó)將向以色列再賣(mài)64億美元軍火
-
他被確認(rèn)出任美國(guó)常駐聯(lián)合國(guó)代表
-
愛(ài)沙尼亞稱(chēng)“被侵犯”,俄國(guó)防部否認(rèn)
-
美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品…
-
“中方最嚴(yán)厲的公開(kāi)回應(yīng)”
-
“挑戰(zhàn)中國(guó)主導(dǎo),美國(guó)把手伸向贊比亞”
-
“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑”
-
普京罕見(jiàn)透露前線(xiàn)俄軍人數(shù)
-
加拿大饞哭了:中國(guó)又從澳方買(mǎi)了,一買(mǎi)就是9船…
-
以防長(zhǎng)威脅:胡塞,你的死期到了
-
主謀已落網(wǎng)
-
簽了!“中國(guó)發(fā)動(dòng)機(jī)替代德國(guó)產(chǎn)品”
-