昇騰生態硬核賦能！上交大攻克超長上下文推理難題，性能大幅躍升

http://www.igotdog.com2025年11月27日 09:55教育裝備網

　　隨著大語言模型在文本分析、智能問答等場景的廣泛應用，處理1M超長文本推理時，常常面臨顯存不足、運算速度卡頓的行業痛點，嚴重限制了超長文本場景的應用。近日，上海交通大學李健教授團隊依托上海交通大學鯤鵬昇騰科教創新卓越中心的算力支持，基于vLLM-Ascend 推理框架研發出一套針對超長上下文推理的稀疏注意力 KV Cache 分層緩存管理系統。在昇騰 AI 軟硬件平臺的全方位賦能下，該項目成功破解單卡支持超長上下文推理的顯存與性能雙重難題，同時大幅提升吞吐量。

　　項目核心創新在于設計了 KV Cache 分級緩存集成機制。該機制先對推理任務進行實時分析，智能識別Top-K 重要塊并集中算力處理，從源頭提升計算效率；同時采用數據冷熱分層存儲策略，根據數據訪問頻率，將生成數據動態劃分為高頻熱數據與低頻冷數據，再針對性優化存儲位置，減少資源浪費。這一機制的落地依托昇騰CANN異構計算架構靈活的動態調度能力，能精準控制冷熱數據在顯存與主存間的流轉，大幅降低數據遷移開銷。最終，該方案實現單卡流暢處理超過1M的超長文本推理任務，系統推理吞吐量超過39%，徹底突破傳統系統在長序列處理上的顯存與性能瓶頸。

　　同時項目進行了元數據結構優化與緩存機制設計，其中數據索引與掩碼是關鍵支撐 —— 通過精簡索引結構、合并掩碼維護步驟，有效減少重復運算，使昇騰NPU算力更集中于注意力計算與文本生成等核心任務，提升硬件利用效率。相關優化已通過vLLM-Ascend推理框架靈活集成，保障了技術方案的順利落地。

　　目前，該項目源代碼已在 Gitee 社區中開源，后續將進一步推送到昇騰開源生態，合入GitHub社區vLLM-Ascend項目專區。此次技術突破，不僅為超長文本推理提供了高效解決方案，更印證了昇騰生態在AI創新中的賦能價值。未來，隨著該系統在更多行業場景的落地，昇騰將持續為AI技術研發提供算力與技術保障，推動大語言模型在長文本分析、智能辦公、數字孿生等千行百業的深度應用，加速人工智能產業化進程。

（來源：）

責任編輯：黃程程

本文鏈接：TOP↑

聲明：本網部分文章系教育裝備網轉載自其它媒體，目的在于信息傳遞，并不代表本網贊同其觀點和對其真實性負責，如有新聞稿件和圖片作品的內容、版權以及其它問題的，請聯系我們。

名企展播申請加入

行業訪談

編輯推薦

產品推薦

企業動態更多>