Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

像生物网络一样「生长」,具备「结构可塑性」的自组织神经网络来了

生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。

然而,人工神经网络主要被设计为静态的、完全连接的结构,在面对不断变化的环境和新的输入时可能非常脆弱。尽管研究人员对在线学习元学习进行了大量研究,但目前最先进的神经网络系统仍然使用离线学习,因为这与反向传播结合使用时更加简单。

那么,人工神经网络是否也能拥有类似于高度可塑性的性质?

来自哥本哈根信息技术大学的研究团队提出了一种自组织神经网络 ——LNDP,能够以活动和奖励依赖的方式实现突触和结构的可塑性。

图片

  • 论文链接:https://arxiv.org/pdf/2406.09787

  • 项目链接:https://github.com/erwanplantec/LNDP

研究简介

2023 年,Najarro 等人提出了神经发育程序(NDP)模型。但 NDP 在时间上限制在环境前期阶段。因此,哥本哈根信息技术大学的研究团队通过扩展 NDP 框架来解决这一限制。

具体而言,研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制 ——LNDP(Lifelong Neural Developmental programs)。该机制通过执行局部计算来实现,依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。LNDP 使得人工神经网络具备可塑性,并桥接了间接发育编码(indirect developmental encoding)和元学习的可塑性规则。

LNDP 由一组参数化组件组成,旨在定义神经和突触动态,并使人工神经网络具有结构可塑性(即突触可以动态添加或移除)。

图片

受生物自发性活动(spontaneous activity,SA)的启发,研究团队进一步扩展了系统,引入了一种可实现预经验(pre-experience)发展的机制,用感觉神经元的简单可学习随机过程建模 SA,这使得一些组件可以复用。

研究团队基于 Graph Transformer 层(Dwivedi and Bresson, 2021)提出了一种 LNDP 实例,并在一组强化学习任务中使用协方差矩阵自适应进化策略(CMA-ES)优化了 LNDP。

图片

具体来说,该研究采用了三个经典控制任务(Cartpole、Acrobot、Pendulum)以及一个具有非平稳动态的搜集任务(Foraging),这些任务需要智能体具备生命周期适应性。

总的来说,研究团队展示了从随机连接(或空)神经网络开始, LNDP 以活动和经验依赖的方式,自组织地形成了功能性网络,以有效解决控制性任务。

该研究还表明,在需要快速适应或具有非平稳动态、需要持续适应的环境中,结构可塑性能够改善结果。此外,该研究还展示了基于预环境自发性活动驱动的发展阶段在网络自组织形成功能单元方面的有效性。

实验结果

研究团队在所有任务上测试了 SP 模型(具有结构可塑性的模型)和非 SP 模型(无结构可塑性的模型)之间的差异,结果如下图 2 所示。

图片

在具有非平稳动态的搜集任务(Foraging)上,研究团队发现 SP 模型始终比非 SP 模型达到更高的平均适应度,并且两者达到相似的最大适应度。这表明 SP 在非平稳情况下具有更好的适应性。

图片

在 CartPole 环境中,对于没有 SA 的模型来说,在最开始就达到良好性能特别困难,而具有 SA 的模型在最初就显示出解决任务的固有技能。这展示出模型在非奖励依赖和自组织的方式下实现目标功能网络的能力。

图片

图片

更多研究细节,请参考原论文。

产业LNDP自组织神经网络
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

生物神经网络技术

生物神经网络(Biological Neural Networks)一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

随机过程技术

在概率论概念中,随机过程是随机变量的集合。若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。实际应用中,样本函数的一般定义在时间域或者空间域。随机过程的实例如股票和汇率的波动、语音信号、视频信号、体温的变化,反对法随机运动如布朗运动、随机徘徊等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

进化策略技术

进化策略(Evolutionary Strategies,ES)是由德国的I. Rechenberg和HP. Schwefel于1963年提出的。ES作为一种求解参数优化问题的方法,模仿生物进化原理,假设不论基因发生何种变化,产生的结果(性状)总遵循零均值、某一方差的高斯分布。

推荐文章
暂无评论
暂无评论~