-
AI落地的關(guān)鍵堵點(diǎn),華為用“黑科技”打通了
-
呂棟lvdong@guancha.cn
為什么會(huì)率先選擇金融場(chǎng)景?
華為技術(shù)專家告訴觀察者網(wǎng),金融行業(yè)大模型推理有三個(gè)核心難題。首先是 “推不動(dòng)”,無(wú)論生產(chǎn)環(huán)境的投研分析,還是輿情分析,都會(huì)涉及非常多的長(zhǎng)序列輸入,像一份投研報(bào)告可能就是上兆級(jí)別的,精準(zhǔn)營(yíng)銷需要輸入的上下文基本也是長(zhǎng)序列,容易出現(xiàn)關(guān)鍵信息丟失;其次是“推得慢”,核心是并發(fā)上不去,上去之后每token時(shí)延特別長(zhǎng);最后“推得貴”,原因是需要耗費(fèi)大量的算力,做KV Cache的重復(fù)計(jì)算。
“難題是長(zhǎng)序列推理,我們與客戶的對(duì)話時(shí)長(zhǎng)非常長(zhǎng),轉(zhuǎn)化成文字之后會(huì)形成大量歷史對(duì)話和內(nèi)容,通過(guò)KV Cache的方式會(huì)擠占我們的顯存,瓶頸就變成了顯存,因?yàn)槲覀円彺娲罅康腒V Cache,但是我們顯存有限?!敝袊?guó)銀聯(lián)相關(guān)負(fù)責(zé)人說(shuō)道。
于是,華為和中國(guó)銀聯(lián)開(kāi)展了 UCM技術(shù)聯(lián)合創(chuàng)新。一方面是將計(jì)算過(guò)的KV Cache數(shù)據(jù),從顯存分片卸載到內(nèi)存和存儲(chǔ),緩解顯存的壓力,使其能處理更長(zhǎng)序列的數(shù)據(jù);另一方面是使用注意力稀疏技術(shù),讓大模型可以區(qū)分KV Cache緩存中,有哪些數(shù)據(jù)是和這次推理相關(guān)度最高的,只要把關(guān)鍵的向量獲取出來(lái),就可以降低推理時(shí)間,提高吞吐量。
就是在這種聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中, UCM的技術(shù)價(jià)值得到了充分驗(yàn)證。
在中國(guó)銀聯(lián) “客戶之聲”業(yè)務(wù)場(chǎng)景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準(zhǔn)識(shí)別客戶高頻問(wèn)題。在“營(yíng)銷策劃”場(chǎng)景中,過(guò)去需要數(shù)分鐘才能生成一份的營(yíng)銷策劃案,現(xiàn)在縮短至10秒以內(nèi),且單臺(tái)服務(wù)器可支持超過(guò)5名營(yíng)銷人員同時(shí)在線協(xié)作。而在“辦公助手”場(chǎng)景中,對(duì)于超過(guò)17萬(wàn)Token的超長(zhǎng)會(huì)議語(yǔ)音進(jìn)行轉(zhuǎn)寫(xiě)和紀(jì)要生成,借助UCM也能輕松應(yīng)對(duì),擺脫了“推不動(dòng)”的困境。
那 UCM未來(lái)能否應(yīng)用到其他場(chǎng)景,助推AI落地千行百業(yè)?華為技術(shù)專家給出肯定答復(fù)。
“ 隨著 Agentic AI時(shí)代 到來(lái) ,信息量爆炸,體現(xiàn)在模型側(cè)是顯存不足以及推理 Token成本的問(wèn)題。 UCM方案 是去解決這一類的問(wèn)題,不是一個(gè)單點(diǎn),只是在金融行業(yè)首先應(yīng)用起來(lái),未來(lái)在各行各業(yè)一旦 AI發(fā)揮真正的價(jià)值 , 都會(huì)走向這個(gè)領(lǐng)域。 ”他對(duì)觀察者網(wǎng)說(shuō)道。
填補(bǔ)生態(tài)短板,華為再度開(kāi)源
隨著推理性能的重要性不斷提升,業(yè)界其實(shí)也都在探索 KV Cache分級(jí)緩存管理技術(shù)。比如英偉達(dá)今年5月就推出了分布式推理服務(wù)框架Dynamo,支持將KV Cache緩存從GPU內(nèi)存卸載到CPU、SSD甚至網(wǎng)絡(luò)存儲(chǔ),解決大模型顯存瓶頸,避免重復(fù)計(jì)算。
- 責(zé)任編輯: 呂棟 
-
前7月全國(guó)固投同比增1.6%,房地產(chǎn)開(kāi)發(fā)投資降12%
2025-08-15 10:26 宏觀經(jīng)濟(jì) -
全球追索的恒大“二號(hào)人物”浮出水面!夏海鈞藏身美國(guó)加州爾灣
2025-08-15 10:07 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
哈根達(dá)斯與星巴克踏入同一條河流
2025-08-15 10:02 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
淘天集團(tuán)“更名”,與餓了么、飛豬為并行關(guān)系
2025-08-14 20:07 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
穩(wěn)定幣第一股不穩(wěn)定:Q2營(yíng)收增53%,但凈虧損4.82億美元
2025-08-14 20:06 金融觀察 -
傳復(fù)星集團(tuán)在港申請(qǐng)穩(wěn)定幣牌照,此前提交“星幣”商標(biāo)注冊(cè)
2025-08-14 20:05 金融觀察 -
同比少賣了7億元,康師傅上半年飲料業(yè)務(wù)失速
2025-08-14 19:31 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
騰訊Q2收入利潤(rùn)雙增長(zhǎng),AI立大功
2025-08-14 17:50 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
-
時(shí)隔六年再現(xiàn)!平安舉牌太保,保險(xiǎn)巨頭互買點(diǎn)燃行情
2025-08-14 13:10 金融觀察 -
人形機(jī)器人今年產(chǎn)量?jī)H2臺(tái),天鏈機(jī)器人IPO可能要被“勸退”
2025-08-14 09:39 科技前沿 -
-
瓜子和豌豆賣不動(dòng)了,甘源食品凈利潤(rùn)腰斬
2025-08-13 19:30 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
“中國(guó)人幾百年來(lái)都不精于消費(fèi)”,怎么理解?
2025-08-13 17:11 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
相關(guān)推薦 -
-
新加坡總理:這個(gè)問(wèn)題,是中國(guó)紅線中的紅線 評(píng)論 9俄副總理:或向中國(guó)提供重型發(fā)動(dòng)機(jī) 評(píng)論 187習(xí)近平:中方在TikTok問(wèn)題上的立場(chǎng)是清楚的 評(píng)論 27美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品… 評(píng)論 114“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑” 評(píng)論 156最新聞 Hot
-
新加坡總理:這個(gè)問(wèn)題,是中國(guó)紅線中的紅線
-
馮德萊恩揚(yáng)言:歐盟要制裁,含中企
-
歐盟安撫歐爾班:俄羅斯問(wèn)題上收收手,5.5億歐元還是照給
-
特朗普“下令美軍開(kāi)火”
-
俄副總理:或向中國(guó)提供重型發(fā)動(dòng)機(jī)
-
法軍高官:中國(guó)一天一個(gè)樣,見(jiàn)都沒(méi)見(jiàn)過(guò)
-
中國(guó)駐菲律賓大使黃溪連即將離任
-
助紂為虐……美國(guó)將向以色列再賣64億美元軍火
-
他被確認(rèn)出任美國(guó)常駐聯(lián)合國(guó)代表
-
愛(ài)沙尼亞稱“被侵犯”,俄國(guó)防部否認(rèn)
-
美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品…
-
“中方最嚴(yán)厲的公開(kāi)回應(yīng)”
-
“挑戰(zhàn)中國(guó)主導(dǎo),美國(guó)把手伸向贊比亞”
-
“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑”
-
普京罕見(jiàn)透露前線俄軍人數(shù)
-
加拿大饞哭了:中國(guó)又從澳方買了,一買就是9船…
-