分类:国内
【环球时报报道 记者 陈子帅】近日,中国科学院自动化研究所科研团队与相关单位合作,成功研发出首款类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该款大模型实现了全流程国产化,标志着我国在类脑计算与大模型融合创新方面取得重要突破。该科研团队核心成员、中国科学院自动化研究所研究员李国齐在接受《环球时报》记者采访时表示,大模型还将持续“进化”,后续还会发布瞬悉2.0、瞬悉3.0,有望为突破现有普通大模型的技术瓶颈带来新思路,为中国引领下一代人工智能的发展方向提供基础积累。
【上海都市印象App/综合快讯报道】
与主流架构不同,记忆方式与人脑更贴近
【上海都市印象App/综合快讯报道】
什么是类脑脉冲大模型?李国齐告诉《环球时报》记者,类脑脉冲大模型是指借鉴大脑结构和启发而设计的一类大模型构造范式,它与当前主流大模型架构(Transformer架构)不同,主要有三点区别。一是类脑大模型提供一条新的启发式技术路线,期望借鉴大脑的结构和功能启发模型的架构设计。二是类脑大模型期望体现人脑的超低功耗特性,希望借鉴0/1的脉冲信号来传递信息,结合类脑芯片等硬件的事件驱动特性可以具有显著的低功耗、低时延等优势。三是类脑大模型的记忆方式与人脑记忆方式更贴近。“普通大模型往往把所有对话历史都‘逐字逐句’地保留下来,每次回答都要重新处理一遍完整历史,这样做导致处理信息增多时出现存储和计算瓶颈。而类脑脉冲模型会像人类记忆一样,把历史信息进行压缩和提炼,保留关键信息,不需要反复翻遍全部记录。这些差异带来的直接好处是,在超长对话或超长文本输入场景下,类脑脉冲模型依然能保持快速响应。”
【上海都市印象App/综合快讯报道】
研究团队将这款大模型命名为“瞬悉”,有何含义?“字面上是瞬间知悉,这体现了类脑脉冲大模型的核心特性。整体谐音‘瞬息’,寓意在瞬息万变的时代中把握智能本质。”李国齐说,命名并非仅仅强调计算速度快,而是蕴含着更深层的技术理念。
一方面,“瞬”字体现了效率革命和技术路线。瞬悉1.0在推理阶段实现了数量级的效率提升,在400万Token(Token是大模型处理文本的基本单位)长度下加速超过百倍。“这种‘瞬时’的处理能力源于受大脑启发的脉冲神经元机制。在大脑中,单个神经脉冲的产生和传递都在瞬间内完成。”
另一方面,“悉”字体现了理解深度和技术特点。李国齐介绍说,“悉”为全面理解、洞察,体现了模型对信息的深度感知能力。与传统大模型不同,“瞬悉”采用“基于内生复杂性”的架构,参考学习大脑神经元内部复杂工作机制,通过脉冲神经元的内生动力学实现更智能的信息处理。“尽管技术高深莫测,却具有善解人意的人性化特质。”
一次推理中,能够完整阅读上千万字文档
《环球时报》记者了解到,现有的普通大模型存储和计算复杂度高,同时在功能和可解释性上存在着一些难以逾越的瓶颈。类脑脉冲大模型能够弥补这一短板。
李国齐告诉记者,类脑脉冲大模型一方面能以低成本实现对现有普通大模型在各种常规任务上的替代,在超长序列处理等场景中具有显著优势;另一方面,类脑脉冲大模型提供了一条借鉴神经元内生复杂动态发展大模型的新技术路线,“这有望为突破现有普通大模型的技术瓶颈带来新思路,为中国引领下一代人工智能的发展方向提供基础积累。”
李国齐解释说,类脑脉冲大模型的高效超长序列处理能力,适合一些科学研究场景和日常应用场景。例如,在高能粒子物理实验中,需要从极长时间的事件流中发现极其罕见的粒子信号,需要在超长数据流(每秒钟产生约108个数据,单数据大小约2.5MB)中持续追踪,避免因上下文切割错过异常事件。在法律或医学文档分析中,常常需处理极其冗长且结构复杂的法律条文、合同文本、判例库/病例库(百万至千万字)等,“具备超长序列能力的模型能够在一次推理中完整地‘阅读’整个法律/医学文档体系,避免关键条款的适用条件、跨条文的约束关系的语义丢失。”
“全球都在发力,国内取得阶段性进展”
为何要研究类脑脉冲大模型?李国齐告诉记者,人工智能进入大模型时代已将近3年,普通的大模型在Scaling law(尺度定律)驱动下,通过增加网络规模、算力资源和数据量提升模型智能水平的方式目前遇到了难以突破的瓶颈,而“人脑是目前唯一已知的通用智能系统,很多人工智能、神经科学领域的科学家们都坚信,人类需要借鉴大脑的结构和功能来实现新的突破”。
然而,如何找到一个合适的切入点,从概念、算法、模型、硬件等方面带来系统性范式变革,为现有的人工智能系统带来新思想、新启发,是一个巨大的挑战。李国齐说,“目前国际上主要还在解决低功耗脉冲通信限制下的中小规模模型的性能问题,我们本次发布的类脑脉冲大模型,不仅在规模上远超现有的类脑脉冲模型,同时提出了新的技术路线。”
据《环球时报》记者了解,李国齐团队在类脑计算领域已经深耕超过十年,解决了领域内的一些重大基础性问题,包括解决深度类脑脉冲神经网络的可训练问题、端侧任务中脉冲神经网络与传统人工神经网络之间的性能差距问题等。本次发布的类脑脉冲大模型正是长期积累的系统化成果,基于已有的内生复杂大模型构建思想来启发大模型设计,结合在类脑脉冲模型、算法与系统协同优化方面的全栈能力,完成了从机制原理、工程实现,到大规模化验证的闭环。
在国际上,许多研究团队也在探索相关领域。据专家介绍,欧美在“类脑计算”“神经形态芯片”和“脉冲神经网络”等方向都有持续研究。欧美的企业、知名大学和研究机构,近两年在Nature和Science等期刊上都有不少相关论著。与此同时,国内顶尖高校如清华大学、北京大学、浙江大学等都在做类脑智能方向的研究。
“目前大规模类脑大模型的训练和应用仍处于前沿探索阶段,各方也都在思考类脑研究和大模型如何结合。可以说,全球都在发力,而我们这次能够在国产算力集群上实现类脑脉冲大模型的规模化落地,说明国内在算法和算力结合方面取得了阶段性进展。”李国齐说。
向全球共享资源和成果
值得关注的是,该科研团队正式开源了70亿参数版本大模型,同时开放了760亿参数版本大模型的测试网址。开源70亿参数模型,意味着学术界、产业界的研究人员都可以直接下载使用或基于它做二次开发,这有助于加速生态建设和技术创新。开放760亿参数模型的测试接口,则展示了中国在大规模模型训练和部署上的技术能力,也为国际同行提供了一个对标和交流的平台。李国齐说,“这不仅代表我们的技术水平达到了国际前沿,也体现出我们愿意与全球共享资源和成果,推动类脑智能和大模型技术的共同发展。”
据研究团队透露,类脑大模型还将有后续的2.0、3.0版本。李国齐告诉《环球时报》记者,人脑是一个超低功耗的通用智能系统,它包含数量巨大的神经元和突触连接,但功耗只有20瓦左右。“因此我们坚信借鉴人脑的信息处理机制、借鉴人脑神经元和神经环路的功能和结构、借鉴人脑的记忆机制去构建新一代大模型的基础模型和架构是非常有潜力的研究方向。”
当前,瞬悉1.0只是初步确立了大模型线性注意力机制和树突计算之间具有某种联系,“那么沿着这个方向,我们相信可以找到一条融合神经元丰富动力学特性,构建具有生物合理性和计算高效性的神经网络新路径,即基于内生复杂性构建通用智能模型,探索脑科学与AI基础模型架构之间的桥梁。”
李国齐说,接下来他们将继续推动脑科学导向的类脑脉冲大模型的研究,同时推进类脑大模型在超长序列上的应用,如DNA序列分析、高能粒子物理实验、复杂多智能体模拟、分子动力学轨迹等超长序列科学任务场景建模。