國產類腦脈衝大模型 「瞬悉1.0」問世
【大公報訊】記者劉凝哲北京報道:日前,中國科學院自動化研究所李國齊、徐波團隊與國產GPU(圖形處理器)企業合作,成功研發出類腦脈衝大模型「瞬悉1.0」(SpikingBrain-1.0)。該模型基於「內生複雜性」理論構建,在國產GPU沐曦MetaX平台上完成全流程訓練與推理,顯著提升了大模型高效處理極長文本或數據序列的效率和速度。
當前,DeepSeek、ChatGPT等主流大模型均採用Transformer架構,而「瞬悉1.0」則借鑒大腦神經元內部工作機制,清晰地展示了一條不斷提升模型複雜度和性能的新型可行路徑。李國齊研究員表示,主流模型的功耗是固定的,不管是否需要大量的計算都在持續耗能。此外,它們幾乎把所有對話歷史「原封不動」地記下來,這會在處理很長的對話時變得越來越慢。
「『瞬悉1.0』基於一種新的類腦原理,可以把對話歷史進行壓縮和提煉,就像是人類記憶一樣,不需要每次都翻遍全部歷史,在超長對話場景下依然保持很快的響應速度。」李國齊說,「瞬悉1.0」採用脈衝驅動機制,只有在需要的時候才會觸發計算,所以能耗會根據實際情況動態變化,而不是一直保持在高水平。這需要專門的硬件支持,但帶來的好處是能效比大幅提升。「在同樣的超長對話中,『瞬悉1.0』能夠更快響應、更流暢交互,同時在移動端或低功耗設備上更節能。」
值得一提的是,「瞬悉1.0」在多個核心性能上實現突破。第一,極低數據量上的高效訓練,以約為主流大模型2%的預訓練數據量實現與眾多開源Transformer模型在多任務語言理解,中文多任務語言理解,常識推理能力任務上相媲美的性能。第二,推理效率的數量級提升:推理階段結合脈衝神經元事件驅動特性,在超長序列處理能力上展現出數量級的效率和速度提升。
此外,「瞬悉1.0」完成國產自主可控類腦大模型生態的構建。「瞬悉」適配了面向國產GPU集群的高效訓練和推理框架、Triton算子庫、模型並行策略以及集群通信原語,表明了構建國產自主可控的新型非Transformer大模型架構生態的可行性,並為低功耗的類腦大模型運行提供有力支撐。

字號:

評論