内置氧梯度忆阻器助力强化学习实现更快更稳训练

科学 2026-04-09 忆阻器, 强化学习, 类脑计算, 氧梯度, 硬件智能 2 次浏览

在一项近日发表在《自然通讯》上的研究中，中国与香港的研究团队设计出一种全新的忆阻器结构，通过在器件内部构建稳定的氧浓度梯度，实现缓慢而平滑的电导变化，从而让强化学习（RL）算法在硬件层面获得更快、更稳定的学习能力。

强化学习被视为实现人工智能持续学习的关键路径之一，其核心思想是模仿生物体如何在时间维度上逐步积累经验并进行适应。生物大脑依靠离子梯度在细胞膜上产生缓慢、定向的信号调制，从而实现对过往活动的“记忆”。在硬件中复现这一机制，是类脑计算的重要目标。

忆阻器因能够模拟突触的可塑性行为，一直被认为是类脑硬件的有力候选。然而，现有大多数忆阻器在电导变化上存在突发性和不可预测性，电导往往会突然跳变，使得实现长期、稳定的学习变得困难。

本次研究团队的思路，是构建一种具有稳定、时间相关内部状态的忆阻器，使其在电刺激下呈现出类似生物系统的渐进式变化。这些内部状态正是实现持续学习所需的物理基础。南京邮电大学的合著者凌海峰在接受 Tech Xplore 采访时，对这一挑战进行了详细说明。

凌指出，传统忆阻器中离子构型往往会突然改变，通常表现为导电细丝的快速形成或断裂，从而引发随机开关和电导跃迁。为克服这一问题，团队从生物系统中汲取灵感，尝试在硬件中重建类似活细胞利用离子梯度实现缓慢状态演化的机制。

生物系统如何做到

在生物细胞中，膜两侧的离子梯度建立起静息电位，并精确控制离子的流动方向和速率。这样的梯度带来缓慢且有方向性的状态变化，使神经元能够在较长时间尺度上保留对过去活动的“内部记忆”。

要在忆阻器中复制这种由梯度调控的稳定性并不容易。多数基于氧化物的器件缺乏能够引导离子运动的内部结构，离子在电场作用下往往随机迁移和重新分布。研究人员曾尝试人为引入梯度，但在反复电操作后，这些梯度常常被逐渐破坏。

凌解释说，在许多器件中，梯度并不稳定，持续的电刺激会不断重塑内部结构，导致离子重新分布，最终削弱甚至抹去原有梯度。这使得在硬件层面实现类似生物学习中那种稳定、由梯度主导的动态过程长期以来难以达成。

梯度是如何构建的

为在硬件中实现可控的梯度调控动态，团队设计了一种多层堆栈结构的忆阻器。器件由氧化铟锡（ITO）、锌卟啉（ZnTPP）、原子层沉积氧化铝（ALD-AlOₓ）以及铝（Al）构成，其中夹在电极与氧化铝层之间的 ZnTPP 分子层是关键所在。

这层极薄的 ZnTPP 同时承担了两个核心功能：

在制备过程中，ZnTPP 为氧化铝的原子层沉积提供化学活性位点，使界面区域富含氧，从而在氧化物层内部自然形成一个内在的氧浓度梯度；
在器件工作时，ZnTPP 参与与氧离子的可逆配位反应，调控氧离子的迁移行为，形成稳定的界面电场，防止原本建立的梯度在反复操作中被侵蚀。

凌用一个形象的比喻来说明梯度的作用：没有梯度时，离子运动就像球在平坦地面上滚动，方向难以约束；而有了梯度，系统更像一个倾斜的地形，离子运动会被引导到更可预测的方向。

得益于这种结构设计，器件在电刺激后电导会缓慢、连续地演化，其松弛时间超过 100 秒，远远长于典型二阶忆阻器常见的纳秒级衰减时间。这种时间尺度上的延长和演化过程的平滑性，使器件非常适合承担需要在较长时间范围内进行的持续学习任务。

从器件到学习算法

实验表明，该忆阻器可以实现 98.1% 的电导调制范围，并支持 40 个不同的伪非易失性（PNV）电导状态。这些状态是指在刺激结束后，器件会在一段有限时间内停留在相对稳定、彼此可区分的电导水平上。

这些 PNV 状态通过团队提出的一种脉冲控制方案获得，即单极尖峰电压依赖性可塑性（U-SVDP）。该方案通过施加不同幅度的脉冲对，精确平衡沿内在氧梯度方向的离子漂移与扩散，从而在多个稳定状态之间实现可控切换。

凌表示，这种器件并非只是被动地呈现松弛行为，而是通过梯度引导的离子动力学与 U-SVDP 调制，主动生成一系列受生物启发的内部状态时间序列。这一序列可以看作是一条适合非平稳环境中持续学习的“动态学习率轨迹”。

在应用层面，研究团队将这 40 个 PNV 状态映射到 Q 学习强化学习算法中的学习率参数。具体做法是利用相邻状态之间的相对电导变化来计算对应的学习率。结果显示，在静态路径规划任务中，这种基于忆阻器内部状态的自适应学习率方案，相比传统固定或简单调节策略，训练迭代次数减少了 68.75%。

在复杂度逐步提升的动态环境中，迭代次数的减少幅度为 35.65%。相较静态任务，提升幅度较小，也反映出当前器件在应对高度变化环境时仍存在一定局限。

凌指出，虽然忆阻器已经能够提供物理层面的自适应学习率，但其时间动态目前仍然相对固定，未来仍需在可调时间常数等方面进一步优化。

未来方向

接下来，团队计划从单器件验证扩展到更大规模的类脑系统。

凌表示，一个重要方向是将这类忆阻器集成到交叉阵列结构中，使强化学习的计算过程可以直接在硬件中利用器件的内在动态特性，而不是仅作为传统数字电路的外围存储元件。

从更长远的角度看，研究团队希望探索这些器件在具身智能系统中的潜在作用，即让智能行为源自物理实体、环境以及学习算法三者之间的紧密耦合。

凌解释说，通过将具备物理自适应能力的忆阻器嵌入更大规模的类脑平台，有望构建出一种新型硬件系统，其中学习过程不再完全由软件算法决定，而是部分由器件本身的物理特性所塑造。

发表评论

登录后才可评论。去登录