國產類腦脈衝大模型「瞬悉1.0」問世

今日大公中國

2025.09.09 04:12:36

字號：

小中大特大

【大公報訊】記者劉凝哲北京報道：日前，中國科學院自動化研究所李國齊、徐波團隊與國產GPU（圖形處理器）企業合作，成功研發出類腦脈衝大模型「瞬悉1.0」（SpikingBrain-1.0）。該模型基於「內生複雜性」理論構建，在國產GPU沐曦MetaX平台上完成全流程訓練與推理，顯著提升了大模型高效處理極長文本或數據序列的效率和速度。

當前，DeepSeek、ChatGPT等主流大模型均採用Transformer架構，而「瞬悉1.0」則借鑒大腦神經元內部工作機制，清晰地展示了一條不斷提升模型複雜度和性能的新型可行路徑。李國齊研究員表示，主流模型的功耗是固定的，不管是否需要大量的計算都在持續耗能。此外，它們幾乎把所有對話歷史「原封不動」地記下來，這會在處理很長的對話時變得越來越慢。

「『瞬悉1.0』基於一種新的類腦原理，可以把對話歷史進行壓縮和提煉，就像是人類記憶一樣，不需要每次都翻遍全部歷史，在超長對話場景下依然保持很快的響應速度。」李國齊說，「瞬悉1.0」採用脈衝驅動機制，只有在需要的時候才會觸發計算，所以能耗會根據實際情況動態變化，而不是一直保持在高水平。這需要專門的硬件支持，但帶來的好處是能效比大幅提升。「在同樣的超長對話中，『瞬悉1.0』能夠更快響應、更流暢交互，同時在移動端或低功耗設備上更節能。」

值得一提的是，「瞬悉1.0」在多個核心性能上實現突破。第一，極低數據量上的高效訓練，以約為主流大模型2%的預訓練數據量實現與眾多開源Transformer模型在多任務語言理解，中文多任務語言理解，常識推理能力任務上相媲美的性能。第二，推理效率的數量級提升：推理階段結合脈衝神經元事件驅動特性，在超長序列處理能力上展現出數量級的效率和速度提升。

此外，「瞬悉1.0」完成國產自主可控類腦大模型生態的構建。「瞬悉」適配了面向國產GPU集群的高效訓練和推理框架、Triton算子庫、模型並行策略以及集群通信原語，表明了構建國產自主可控的新型非Transformer大模型架構生態的可行性，並為低功耗的類腦大模型運行提供有力支撐。

國產類腦脈衝大模型「瞬悉1.0」問世

評論

相關推薦