赶上最新的AI论文

你能以爆炸性的速度和低功耗进行深度学习、图形搜索和条件优化吗?基于大脑的计算机的定量能力。

调查

三个要点
✔️ 在神经形态计算领域首次使用英特尔Loihi进行大规模的定量评估,这是一台用于Spiking Neural Networks(SNN)的专用计算机,比ANN更接近生物神经系统。
✔️ 发现与具有类似大脑特征的网络高度兼容,如递归结构、时间信息、随机性和稀疏性。
✔️ 证明用SNN解决图形搜索、条件优化、稀疏建模等问题,在计算时间和能量方面都有 "数量级的提升"。

Advancing Neuromorphic Computing With Loihi: A Survey of Results and Outlook
written by Mike Davies, Andreas Wild, Garrick Orchard, Yulia Sandamirskaya
Gabriel A. Fonseca GuerraPrasad JoshiPhilipp PlankSumedh R. Risbud
(Submitted on May 2021)
Comments: Published in: Proceedings of the IEEE ( Volume: 109, Issue: 5 )

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

作者的序言

由于本文介绍的论文是基于大脑和神经形态计算领域的一篇重要论文,对大多数读者来说是陌生的,因此在进入正文之前,所获得的一些结果值得一提。

请阅读以下要点,至少记住一个重要的指标,即能量延迟产品(EDP),它是计算产生结果的时间(延迟)与计算中消耗的能量的乘积。

与在传统计算机(如CPU或GPU)上运行同等算法相比,在 "英特尔Loihi "上的结果是

  • 顺序MNIST推断中的EDP与LSTM等效算法。提高了37倍!这是对我们的信任。
  • LASSO回归中,最多只有5位数的延迟改善6位数的能耗改善,即11位数的EDP改善(!!!)。
  • 图的遍历中,EDP从三个到七个数量级的改进!
  • SLAM中,以几乎相同的速度。功率效率提高了100倍!
  • 约束满足问题中,至少在变量范围4-400的EDP3个数量级的改进!

虽然该技术与主流的ANN不同,但不难看出,这些指标是值得了解的。

介绍。

深度人工神经网络以大脑的信息处理原理为基础,为许多问题领域的机器学习带来了突破性进展。

神经形态计算在此基础上更进一步,创造出专门的、适应直接受生物神经系统的形态和功能启发的计算模型的计算机,从而以低功率和实时的方式进行智能信息处理。神经系统的特点包括:记忆和计算的一体化,低精度和随机计算,神经元的输入和输出数量巨大,异步行为,利用称为尖峰的二进制信号的时域信息进行分布式通信,以及持续学习。这些特点使计算机架构的"尖峰神经网络(SNN)"特定模型成为当今几乎所有计算机所使用的冯-诺依曼模型的直接挑战

到目前为止,与现代CPU和GPU相比,能够证明定量计算价值的结果很少,但随着英特尔开发的神经形态研究处理器Loihi的推出,情况发生了变化。

本文广泛回顾了在Loihi上进行深度学习时直接利用SNNs特征的新方法(如图搜索、随机条件优化和稀疏建模)的结果。虽然在前馈网络中的好处(如果有的话)是微不足道的,但具有递归结构、使用准确的时间信息、随机性和稀疏性等特征的类脑网络可以以比传统最先进的方法低几个数量级的延迟和能量进行计算。研究发现,。

什么是SNN?

本文要求以SNN模型的知识为前提,但由于这还不是普遍的知识,作者在此做了简单介绍。虽然有许多变化,从复杂的神经科学倾向的模型到硬件实现友好的模型,但作者将专注于漏电整合和火灾(LIF)模型,这是一个简单的神经元模型,在神经形态计算领域很常见。首先,SNN和ANN之间最主要的对应关系如下表所示(在前馈情况下)。

  SNN ANN
神经元的模型 突发性神经元(有内部状态),例如LIF。 激活功能(无内部状态),例如:ReLU
I/O和层间通信 0或1(尖峰)+时间轴上的时间或频率信息 高精度的信息,没有时间限制

虽然SNN最大的特点是它有一个时间维度,而且神经元的输出被限制在0或1(尖峰),但当SNN长时间运行时,出现的统计模型可以被看作是一个一般的人工神经网络(ANN)。下一节表示一个离散时间LIF模型的方程实例。

其中$l$:层数,$i$:层中神经元数量,$t$:时间步长。

下划线部分1.代表输入。在这个方程中,输入来自全耦合层,与ANN的全耦合层的矩阵-向量乘积相同,但$O_j^{l-1,t}$是上一层LIF神经元输出的只有0和1的向量,往往有一个元素是稀疏的,所以乘法是不必要的,而零元素通过省略0元素部分的计算,可以实现速度的提高。除了全连接层之外,它还可以用来替代卷积层和更多生物突触模型的输出。计算的稀疏性影响了Loihi的架构。

下划线部分2.代表膜电位$u$的衰减(泄漏)(从上一个时间步骤继承的内部状态)。前一个时间步骤的膜电位乘以衰减因子$/beta[0:1]$。

下划线的3.是重置术语。如果在前一个时间步骤中有一个尖峰输出(见下文),膜电位被设置为零。

下划线部分4.是尖峰输出决定。如果膜电位$u$超过阈值$v_{th}$,神经元输出1(尖峰)(称为发射)。否则,它输出0。

这就是LIF模型的基本行为。在最近的SNN研究中,$beta$和$v_{th}$已经成为可训练的参数,复位方法也从过去的 "硬复位",即毫无疑问地将膜电位设置为零,改为 "软复位",即从膜电位中减去$v_{th}$,但一般的然而,一般的操作是相同的。

接下来,显示了在时间方向延伸的尖峰序列如何代表信息的编码方法(尖峰编码)。两个典型的类别是。

  • 速率编码... 如果尖峰发射的频率较高,则表示数值较大。
  • 时间性编码... (如早期和大型)的值,以尖峰发射时间计算。

使用某些算法转换数字数据(如像素)和尖峰序列。

Loihi系统和软件

Loihi提示。

Loihi由没有时钟的异步电路组成,有131072个离散时间LIF神经元(即专门用于计算LIF模型的电路),分为128个核心。每个核心有128 kB的内存用于存储突触权重,20 kB的内存用于存储神经元连接。尖峰作为32位地址信息进行交换,即关于它们被发送到哪个突触神经元的信息。此外,微代码可以从几个可塑性规则中选择,以改变突触权重(即它可以用一种以上的方式学习)。它还有一个嵌入式X86处理器,用于在正常数据和尖峰之间进行转换。

Loihi的架构与普通的冯-诺依曼处理器(CPU和GPU)和机器学习加速器(如谷歌TPU)的不同之处在于,它被优化为稀疏、非批量(批量大小为1)的计算。Loihi内核上的内存访问是总是在靠近核心的地方进行,也是零散的和不连续的。(作者注:GPU和机器学习加速器通过整齐地排列数据并使内存访问有规律或矢量化来加快处理速度。)

罗伊希系统

为了将Loihi连接到传统计算机,需要在神经形态芯片内的异步通信协议和标准的同步协议(如主机CPU的协议)之间架设一座桥梁。由于在Loihi芯片内集成这一接口对于一个小团队来说是一项艰巨的任务,因此这一桥接是在FPGA(一种允许逐位编程的电路芯片)中完成的。

罗伊希软件

由于Loihi是一个跨越神经形态内核、嵌入式x86处理器、FPGA I/O接口和主机CPU的异构融合系统,因此需要一个独特的软件框架:我们开发了一个名为NxSDK的软件工具,该工具用于Loihi编程的API、编译器和调试工具。它还允许运行时监控和与第三方框架的整合,如Tensorflow和PyTorch。

深度SNNs的训练方法和定量评估。

深度学习是SNN研究的一个自然起点。鉴于将误差反向传播方法应用于可微分ANNs的方法取得了巨大的成功,假设同样的方法可以成功应用于SNNs也不是没有道理的。然而,像Loihi这样的SNN芯片并不是为了加速MobileNet或ResNet等标准深度学习模型的计算而设计的;ANN是通过定期对高度矢量化的数据进行求和运算来实现其加速的,而SNN则是在空间上和时间,并具有稀疏计算的特点;因为Loihi具有支持稀疏计算的开销,每个单独的计算比ANN的机器学习加速器的积和运算消耗更多的功率。用尖峰运算来逼近乘积之和,增加了计算次数,这就显得格外缓慢,并且消耗更多的能量。换句话说,在寻找一个有效的SNN模型时,模仿(当然也可以忽略)ANN并不是一个好主意。

深度学习启发的深度SNN训练方法主要有两类。一种是在线方法,即在神经形态硬件上使用突触可塑性来训练模型;另一种是离线方法,即在CPU或GPU上创建训练好的模型,然后部署在神经形态硬件上。离线方法包括转换方法直接学习方法,前者将学到的ANN转化为几乎等价的SNN,后者则进行误差反向传播。误差反向传播法需要一些巧妙的方法。

深層SNNのトレーニング手法

洛伊希和传统计算机在转化方式上的定量比较。

转换方法的细节

ANN到SNN的转换可以通过将训练好的ANN的权重映射到具有相同结构的SNN来实现,在传统的图像识别任务中,如CIFAR和ImageNet,已经实现了几乎无损的转换。(作者注:他们中的大多数都是基于将所有权重除以该层中最大激活函数的输出值的方法。另外,激活函数基本上仅限于ReLU)。在ANN到SNN的转换中,通常将ANN的连续值的激活表示为SNN中的尖峰频率:ANN在一系列密集的操作中处理单一的、静态的输入向量,如图像帧,而SNN在多个时间步长或迭代中以一系列稀疏的操作处理它。这种计算的时间性 "展开 "可能是SNNs的一个有用的特征。这是因为分类精度和推理延迟之间的权衡可以动态地调整。然而,当使用速率编码时,需要两倍的时间步骤来提高一个信号的精度,需要指数级的编码时间。Loihi有几个可用的框架。

转换前常规计算机上的ANN VS.在Loihi上转换后的SNN

图中的点表示在传统计算机上运行ANN的时间(纵轴)/能源消耗(横轴)是在Loihi上运行SNN的多少倍。虚线是盈亏平衡线,它显示了具有较小的能量延迟产品(EDP)的优势。(作者注:没有人想要一台慢的计算机,不管它的能耗有多小,所以如果它在EDP中不能击败传统计算机,就不能说它有优势,因为在EDP中可以同时考虑延迟和能量)。 红色标记是转换方法中的比较。任务包括关键词发现,用MobileNet进行CIFAR图像识别,为相似性搜索生成嵌入物,用Modified U-Net对ISBI单元进行分割。对于几乎所有这些任务,能源效率都得到了显著提高(最高可达100倍)。就延迟而言,对于小的工作负载,它与参考硬件相当,但对于大的DNN工作负载,它明显比参考硬件慢。

由于工作负荷较大,在Loihi上运行时,延迟情况越来越差,主要有两个原因。

  • 随着层数的增加,最大精度所需的时间步长也会增加。
  • 大型网络需要分布在多个芯片上,芯片间的通信很拥挤

在许多情况下,在Loihi中有效的任务的批量大小为1,表明它们适合于以低延迟响应新数据的实时任务。然而,低延迟并不一定意味着高吞吐量。矢量化和流水线架构可以通过一次处理许多样本来实现高吞吐量,即使延迟时间很长(即使响应时间很长,一旦开始出现结果,每个周期都会产生大量的结果)。图中的箭头显示了由于批处理而在CPU和GPU上的性能改进。

使用直接学习方法对Loihi和传统计算机进行定量比较。

转换方法的细节

直接学习法使用误差反向传播直接优化SNN的参数,其中SNN被表述为具有二进制输入的等效ANN,ANN的非线性为不连续的尖峰生成函数,膜电位阈值下的时间动态为自循环连接。误差反向传播可以通过以下方式实现由于直接学习方法是以尖峰时间编码(Temporal coding)的出现为指导,它优化了延迟和能源效率,当使用信息在输入尖峰之间的相对时间上被编码的输入时,如基于事件的传感器产生的数据,它就特别有意义。这一点特别值得关注。即使对于更一般的任务,时间编码也能比速率编码更有效地传播信息,从而使尖峰计数、延迟和能源消耗更小。

它对小型网络非常有效,但学习大型网络就变得很困难。由于学习成为一个时间信用分配问题,我们将SNN视为RNN,并应用Backpropagation Through Time(BPTT):SNN的一个时间步骤对应于RNN的一个执行,因此与训练相同规模的前馈ANN相比,学习时间和内存占用明显增加。与相同规模的前馈ANN相比,训练时间和内存占用明显增加。此外,通过用代理梯度近似,避免了阈值函数的非差异性,但随着网络规模的增加,误差也会累积。

传统计算机上的ANNVS.直接学习关于Loihi的SNN

Loihi评估了用三种不同的误差反向传播方法训练的SNN工作负载,即SLAYER、STDB和BPTT。(图中重申)

动态视觉传感器(DVS,作者注:也叫事件相机)与SLAYER学习。一个系统,其中每个像素独立检测亮度的变化。同一类别的版本也可从索尼公司获得)。IBM在2014年发布的神经形态芯片TrueNorth上的手势分类任务的结果显示,EDP比在TrueNorth上的执行有50倍的提高。多模态处理在尖峰领域更容易,因此还进行了结合表面肌电和视觉数据的触觉字符识别和手势分类;STDB被用于机器人导航任务,Loihi的速度和边缘GPU一样快,但功耗更低;以及BPTT被用来训练一个递归的长短记忆SNN(LSN),其能力与传统的LSTM相当。首先将LSNN应用于Sequential MNIST,比较了LSTM在批处理量为1的GPU上/在大批处理量的GPU上和LSNN在Loihi上的表现,在Loihi上EDP分别提高了6×104x/37x。在BPTT上训练的一大批具有互连网络的LSNN也解决了来自bAbI问答数据集的关系推断问题。这消耗了2320个Loihi核心,使其成为最大的深度网络,显示出对传统架构的优势。

在这些不同规模的工作负载上,直接学习方法的表现始终比传统计算要好几个数量级。

使用在线方法对Loihi和传统计算机进行定量比较。

到目前为止,我们已经看到了在CPU和GPU上进行学习的离线方法,但从流数据中进行在线学习也是可取的。然而,错误反向传播,特别是BPTT,在时间、计算和内存方面的实现是很昂贵的。为了利用神经形态硬件的误差反向传播,已经提出了面向神经形态实施的简化算法。其中有几个正在为Loihi开发。作为第一步,单层在线学习的 "德尔塔规则 "已经在Loihi上得到证明。这进一步包括代理在线误差学习(SOEL)和规定误差敏感度方法(PES),通过用SOEL学习DVS手势识别网络的最后一层,可以在线学习新的手势;当PES学习规则用于控制机器人手臂时,它可以实现CPU对EDP,性能大约高出100倍

具有SNN的吸引者网络可以解决LASSO。

与标准的人工神经元不同,突发性神经元具有时间性行为。这使得SNN成为高维和高度非线性的动态系统。大脑进行的计算是神经元之间集体互动的结果,被描述为突发现象,就像溪流中的漩涡。这与ANN的精确、全面和按顺序制定的运行模式有根本的不同。通过反馈、适应和与环境的互动,尽管个体行为具有不确定性和非决定性,但大脑神经元作为一个群体演化为某种理想的行为。换句话说,在SNNs的情况下,所研究的计算范围要比ANNs广泛得多,而且是以集体动力学(作者注:复杂系统科学的一个分支为基础

吸引器动力学是集体动力学的最简单形式,并产生有用和非琐碎的计算。开发基于吸引子的SNN算法的一个重要策略是证明该网络满足向特定的定义明确的均衡状态的收敛保证,即所谓的Lyapunov条件。网络的平衡状态可以用数学上的封闭形式来描述,如接下来描述的局部竞争算法(LCA),但即使不是这种情况,如接下来描述的动态神经场(DNF),也是如此。也许有可能设计出一种网络是直观的行为。

LASSO的局部竞争算法

最简单的吸引子网络就是一个例子。Hopfield网络(作者注:可用于联想记忆)是具有许多神经元的对称权重矩阵,具有全对全的耦合。这样一个网络的动力学满足李亚普诺夫条件,并收敛到一个对应于能量函数最小值的固定值(作者注:例如在联想记忆中,它收敛到与输入最近的学习模式)。

LCA也是进行有用和非琐碎计算的最简单的网络之一:在LCA中,输入信号被注入具有抑制性往复连接的神经元中。前馈输入和递归抑制之间的平衡引发了网络内部的竞争,随着时间的推移,系统会收敛到最能解释输入的主动特征集。如果根据LCA设定网络的参数,网络的平衡状态将完全对应于LASSO回归问题的解;LASSO回归被广泛用于统计学中,是一种减少过拟合和识别稀疏特征集(稀疏建模)的技术。

Loihi的软件框架NxSDK为卷积LCA网络提供了一个编译器,通过利用权重共享和支持由数百万个特征神经元组成的网络,有效地利用了片上存储器。(图)比较了LCA在Loihi上的执行和FISTA(一种典型的传统算法)在CPU上的执行。两种算法通过解决相同的LASSO问题对输入图像进行稀疏编码,并表明由LASSO目标函数衡量的解决方案的质量是相同的:Loihi LCA的目标值通常在最佳值的1%左右饱和,并为评估设置了收敛阈值。这是一个近似的解决方案,但对许多应用来说是足够的。

上图显示,对于大约10^5美元的未知数(区域III),即可以在单芯片Loihi上运行的最大的LCA问题规模,可以观察到在延迟方面有多达五个数量级的优势,在功耗方面有多达六个数量级。在区域四中,尺寸接近现实世界中多芯片配置的典型应用。尽管由于芯片间的通信拥堵,这个区域的扩展性有所恶化,但它仍然明显优于区域I-III中CPU的趋势。

LCA是一个最好的例子,说明具有稀疏激活的细粒度并行算法如何通过利用神经形态架构的匹配特性来实现数量级的收益。高度矢量化的数据通路在传统的架构中无法利用这种算法的特性,因为对位级数据依赖的分叉施加了很大的惩罚。

用于物体跟踪的动态神经场。

DNF为使用吸引子网络实现状态、关系、行为和记忆提供了模块化的算法。例如,某些网络具有全对全的连接性,如赢家通吃网络,其中受刺激最强烈的状态持续活跃,并抑制其他受刺激较少的状态的表达。这是一个类似于工作记忆的结构。神经科学研究表明,DNF是许多需要工作记忆的认知过程的模型。

DNF已被用作自主系统和认知机器人的编程框架,但其高计算成本阻碍了其在现实世界有用任务中的应用。成本的原因和LCA一样,是高递归连接和稀疏的活动。

在Loihi中,实现了一个两层的二维DNF网络来追踪DVS事件相机所看到的移动物体,在64x64的神经网格上实时处理240x180的输入时,可以可靠地追踪物体,精确度为3.5像素。这可用于视觉测距、SLAM预处理、将注意力集中在复杂场景中的物体上,或视觉追踪导航目标。

SNN的时域计算可以解决最近的邻居和图形搜索。

深度学习的直接学习方法的结果表明,优化SNN的时空尖峰模式可以提高效率和速度,而类似于ANN的基于梯度的方法则不能,一个巨大的空间可以准确地利用尖峰时间关系,特别是动态状态、延迟耦合、塑性和概率,这需要在更大的范围内进行探索。

近年来,人们提出了许多手工制作的SNN算法,利用基于尖峰的时间信息处理解决定义明确的计算问题。其中包括计算基元,如排序、最大、最小和中值操作、各种图算法、NP完全/困难问题(约束满足、布尔可满足性、动态编程、二次无约束二项式优化)和一个新的图灵完全计算框架。当在神经形态硬件上实现时,通过利用细粒度的并行性和基于事件的计算,这些预计将提高速度和效率。

然而,由于硬件的不成熟,对这些提议的算法在实际机器上的评估很少,而且是最基本的演示,没有报告延迟或能量测量。现在可以对这些基于尖峰的算法的性能进行评估。严格的特征分析和与传统解决方案相比较的案例研究,正在证实它们迄今为止有望带来数量级的好处。

最近的搜索

在SNN时域计算中,近似近邻搜索问题的实现被作为一个高效和可扩展的应用程序在 "Pohoiki Springs "上运行,该系统有768个Loihi芯片。在这个实现中,搜索查询模式被直接编码为分布在所有Loihi芯片上的单个尖峰波阵的相对时间。在这个实现中,通过计算查询与分布在系统核心的所有数据点的余弦相似度,可以快速识别最接近的匹配。

对于规范化的数据点和查询向量,余弦相似度对应于内积。这种内积操作可以由积分发射的神经元进行,作为多个查询尖峰到达的过渡性操作。每个数据点都被映射到单个神经元的输入权重上,并为每个维度的数据点分配一个8位的突触权重。当一个特定的广播输入查询被赋予不同时间的平行尖峰时,对应于足够接近的数据点的神经元会产生对应于输入查询和数据点的内积的输出匹配尖峰。较早的输出尖峰代表较强的匹配。因此,随后的排序任务被简化为只需观察尖峰产生的顺序:如果只需要k个最近的邻居匹配,网络可以在观察到k个输出尖峰后立即停止。

高度矢量化的架构,如GPU和机器学习加速器,可以使用丰富的乘积总和运算符有效地计算成批向量之间的内积运算,但在按顺序进行top-k排序运算时,它们的效率就变得非常低。另一方面,SNN中的实现只等待最早的尖峰的到来,不消耗任何增量能量或时间,所以top-k排序操作几乎是免费进行的。此外,与传统的近似近邻实现方式不同,只需通过物理方式添加神经元,就能以$O(1)$的复杂度添加数据点

Loihi的实现使用主成分和独立成分分析(PCA/ICA)进行降维,以适应任意的输入数据类型,同时保持数据的维度不变。PCA/ICA也同时将查询投射到适合有效编码尖峰的稀疏表示中。由于查询的路由和突触记忆资源都随着维度的增加而线性扩展,因此必须在通过时空尖峰计算内积的准确性和系统中可存储的数据点数量之间做出权衡。

在一些标准数据集上,Loihi k-NN的实现与其他最先进的近似近邻算法进行了评估,每个数据集有960个维度和100万个数据点。评估指标是延迟、吞吐量、功率、构建时间和新数据点的插入时间。虽然发现了在个别指标上优于Loihi k-NN的算法,但Loihi k-NN在所有指标上都有很高的表现:与CPU上的同等粗暴内积实现相比,EDP上的表现要好685倍

图形搜索

时域尖峰计算也可以应用于寻路。它的灵感来自于人类海马体在寻路过程中观察到的尖峰波阵。尽管已经提出了其他使用波阵的算法,如经典的Dijkstra方法,但由于其并行性、时域计算、稀疏尖峰活动和局部突触可塑性,SNN中的表述有望获得更高的性能 Loihi有一个简化版的Ponulak and一个简化版的Hopfield算法被实施,其中突触可塑性被二进制化。相反,小的(6位)正边权重是通过突触延迟来增强的。

在Loihi上进行图形探索,首先需要对图形进行分区,并将其映射到多芯片Loihi系统的物理核心上。对于100万个节点的图来说,主机CPU的这一编译过程需要几个小时,因此适用于单一静态图的迭代探索。源节点是由主机CPU通过发送相应神经元的尖峰来选择的。然后通过刺激目的节点(神经元)启动搜索。在尖峰传播过程中,每次波前尖峰首先到达一个中间神经元时,尖峰连接的权重被减少到零,使连接朝向相反的方向。当搜索完成后,主机CPU读取网络的状态,并通过跟踪具有非零权重的路径发现最短路径。

对搜索阶段的理论分析表明,对于大图来说,渐进的搜索时间尺度是$O(/sqrt{E})$。其中$E$是图中边的数量。即使是优化的最先进的Dijkstra方法,对于$E$来说,最多也只是线性扩展。

为了确定Loihi上图形遍历实现的实际性能,对Watts-Strogatz小世界图中随机选择的节点之间的1651次遍历进行了评估。图中的节点数从100-100万不等,每个节点的边数从10-290不等。之所以选择这样的图,是因为它们在现实世界中作为社会、电力、语义和物流网络非常丰富,易于合成,并强调神经形态和传统实现的通信和排序功能。 Loihi上的波前搜索时间是用Dijkstra方法计算的,其整数边是有约束的。将成本优化的Dial算法的搜索时间与该算法的CPU实现的搜索时间进行了比较。搜索时间结果显示如下,作为边的总数$E$的函数。

CPU的实现显示了理论上预期的对$E$的近乎线性依赖;在Loihi上的实现显示了理论上预期的对小图的亚线性特征,但对大图的近乎线性依赖。这可能是由于芯片间的通信拥堵主导了搜索时间。然而,除了最小的图形,所有的图形,Loihi比CPU快100多倍。

随机的条件优化

尖峰时域计算也可用于解决NP-完全类的约束满足问题(CSP);CSP涉及为一组变量$X$寻找满足约束$C$的可接受值。 CSP是组合NP-完全的原因是,随着变量数量的增加,可能解决方案的组成呈指数增长这是由于它们会爆炸的事实。

目前最先进的CSP算法是系统方法或随机贪婪方法。完整解决方案的系统策略在最坏情况下有指数级的复杂性。相比之下,随机搜索策略不能保证找到一个解决方案,但有很好的可扩展性。它也可以通过设计一个对不满足约束条件进行惩罚的成本函数来应用于更普遍的约束优化问题;SNN的实现采取了这种带有成本函数的策略,也使用了一个由能量函数支配的随机SNN来解决CSP。

$E = S^{T}(t) \cdot W \cdot S(t) = \sum_i \left( S_i \cdot \sum_j W_{ij} \cdot S_j \right) \dots ( 1)$

在(1)中,$S$是某一时刻的尖峰向量,$W$是突触权重矩阵。SNN的设置使$W$编码$C$,CSP变量$X$的不同值在一个单次编码的赢家通吃网络中表示。随机SNN的精细计时动态有助于摆脱局部最小值,并能比玻尔兹曼机更有效地找到全局最小值,尽管它们从相同的分布中采样。

为了使这样的SNN CSP求解器具有实用性,SNN不仅要访问能量最小的状态,还要能够检测到它已经被访问过;Loihi中实现的求解器可以在网络中以分布式的、基于事件的方式计算成本函数,并且只有在低于设定阈值的解决方案出现时才与主机CPU通信。只有当发现低于设定阈值的解决方案时,它才与主机CPU进行通信。

使用NP-complete Latin square问题对解算器的性能进行了演示和评估。上图(a)说明了求解器的工作原理:由于赢家通吃网络的随机动态,一些神经元比其他神经元更早发射,并抑制其他活动与他们状态不一致的冲突神经元。这个过程迭代地修剪搜索空间,因此,只有那些彼此不冲突的神经元(最终对应于问题的解决方案)保持活跃。

作为比较的常规解算器,使用了COIN-OR项目中的Coin or Branch and Cut(CBC)。它使用一个类似于SNN求解器的不完全能量最小化器,是性能最好的开源CSP求解器。对解题时间和能源消耗进行了比较。

如图(b)-(d)所示,Loihi求解器比CPU参考值明显更快、更节能,在4到400个变量的大范围内,EDP至少提高了三个数量级

尽管Loihi求解器和其他启发式求解器一样,不能保证解决方案的存在,也不能总是找到所有的解决方案,但在实践中,即使是迄今为止在神经形态系统中实现的最大的CSP也能找到最佳解决方案,而不会耗尽Loihi芯片的资源。此外,逐步寻找解决方案的能力使其对时间受限的应用特别有吸引力。放宽成本函数的评估阈值提供了一个延迟和准确性之间的折衷机制。

这些结果表明,随机尖峰的时间动态如何扩展了SNNs支持的计算空间,产生了令人惊讶的快速和高效的结果。该领域仍处于起步阶段,目前正在考虑通过更深入地了解噪声的作用以及将其应用于其他具有挑战性的计算问题来进一步提高性能。

申请。

除了基准算法之外,许多有前途的应用也在Loihi进行了展示。

基于事件的传感

基于事件的传感技术作为神经形态计算的姊妹技术正在迅速发展。在视觉传感器的情况下,亮度的变化是逐个像素检测的,当变化的幅度超过阈值时就会产生异步事件。基于事件的传感具有很大的特性,如自适应性、低功耗、低延迟和高动态范围,但它与传统的基于帧的计算机视觉完全不同,因此需要新的处理算法和架构来应用于现实世界的应用。像Loihi这样的架构可以通过处理基于事件的尖峰数据来保持其优良特性。数字识别、视觉和触觉的融合、视觉和肌电信息的融合,以及手势的在线学习都已得到证明。预计未来的挑战是电力成本和随着传感器分辨率的提高,传感器和处理器之间的带宽增加而导致的时间分辨率降低,目前正在研究解决方案。

气味识别和学习

事实证明,神经形态技术是解决与气味传感相关的独特技术挑战的良好匹配。目前的气味传感器是不可靠的,需要经常重新校准。这种模式中固有的高水平噪声和元素相互隐藏的遮挡问题,使边缘计算的处理变得困难。此外,全球气味的多样性和自然变化性需要在现场进行在线学习和微调。

生物气味感知的神经科学是相对成熟的,可以对算法的发现有所帮助。事实上,最近的神经科学建模已经被进一步抽象到可以在Loihi中实现的水平。该算法是利用SNN的独特特征开发的,这些特征是ANN所不具备的,如前一章和第二章所述。即使只给了一个由10种不同的化学品组成的训练样本,该算法也能成功地对从同一数据集中提取的测试样本和添加噪音的样本进行分类。比涉及自动编码器的传统算法好40%以上。此外,当训练更多的气味时,SNN算法并没有降低其对之前训练的气味类别的分类准确性,而自动编码器则发生了灾难性的遗忘。

(作者注:这意味着在一个非常小的样本中观察到了学习和对灾难性遗忘的抵抗。这是一个老式ANN难以实现的特性)。

机器人的闭环控制。

闭环控制也将是神经形态计算的一个令人兴奋的领域。这是因为事件驱动处理与闭环控制的时间特性和低延时要求相吻合。有几种运动控制的方法已经在洛伊希身上得到证明。处理速度越快,收敛到目标值的速度也越快。

PID控制在SNN中实现,积分(I)项可以在线适应,以减少与状态有关的扰动 6-DOF机械臂的控制由Loihi执行,结果是比CPU和GPU实现的功率效率和延迟分别提高了4.6倍和43.2倍。几乎没有变化,在GPU上慢了42%。其他实现方式包括无人机控制和昆虫类机器人控制。

同步自我定位估计和映射(SLAM)。

SLAM是机器人技术中的一项重要任务,需要

  1. 融合传感器信息以保持代理人(如机器人)的绝对位置,从机载传感器信息中进行路径整合和状态估计。
  2. 创建地图,存储环境中感兴趣物体的位置。

由于在状态估计中存在误差,在绘图过程中检测和减少误差是一个重要问题。这个问题被表述为一个优化问题,在大环境下会变得计算成本过高。

一种SNN的实现方法使用DNF进行路径整合,并使用基于尖峰的递归贝叶斯估计进行机器人头部方向的估计;其在Loihi上的实现达到了类似的精度,而消耗的功率比CPU低100倍

其他。

实现了学习新模式的联想记忆、噪声环境下的无线电频率波形适应算法和热扩散方程的事件驱动随机行走求解器。包括那些没有公布结果的,已经研究了一些语音识别的应用,包括安全和故障监测的异常检测、粒子对撞机轨迹分类、使用肌电信息和直接神经探测的脑机接口,以及低功率的关键词发现。

未来的前景。

深度网络

从转化方法的结果来看,转化为深度SNN的ANN获得了能效方面的优势,但却遭受了较长的延迟,特别是对于跨越多个芯片的大规模问题。尖峰数量的急剧增加使得速率编码转换的SNN对于面向稀疏性的神经形态架构没有吸引力,因此有必要采取转换以外的方法。直接学习方法显示出明显的延迟改进,但不适合训练大型网络;混合方法,遵循从ANN到SNN的转换阶段,然后在SNN中重新训练,有望解决这个问题。实践证明,与转换方法相比,混合方法可以将推理时间减少10倍。目前也在考虑使用对数时间尺度的时间编码,这与转换高度兼容。网络压缩是另一个重要的方向,它为具有高度内存和计算集成的架构节省了宝贵的能量、时间和内存资源。这包括离线方法中的维度压缩技术和利用剪枝所产生的稀疏性的机会。诸如深度重构这样的方法,在保持稀疏性稳定的同时,不断将不太重要的突触回收到任务最需要的地方,适合于记忆受限的在线学习方法。

在线学习

在线单层误差反向传播近似算法,如SOEL和PES,提供了有价值的例子,在Loihi的约束下工作。在未来,更通用的算法可以近似于BPTT,而不需要在时间上向后传播信息的因果反转要求,并成功地扩大在线学习的规模。然而,这些在线方法面临着硬件效率和收敛方面的挑战,因为它们倾向于在样本基础上而不是在批量基础上处理训练数据,而且网络权重更新也不稀疏。对于那些误差反向传播近似算法来说,需要大量的样本也是一个挑战。

实现有监督的实时在线学习是整个人工智能领域的一个关键挑战,在深度学习中仍远未实现。参照自然界,但也从洛伊希的例子来看,预计重点将更多地放在网络的模块化和浅层学习算法上,形成不同神经元群和分布式语义表征之间的关联。

与传感器整合

简单地增加传感器和计算元件之间的通信带宽以适应更高的传感器分辨率会导致功耗增加和更差的时间分辨率。神经形态芯片从根本上与传统计算的遗留问题不相容,后者是同步传输高密度数据。因此,传感器本身需要重新配置为基于事件的范式。此外,需要进行充分的稀疏编码,而不是传输来自传感器的原始数据。

例如,LASSO由于其计算重量被认为不适合传感器集成,但在SNN LCA的形式下,它几乎是无成本的(它显示了对传统技术的非凡改进,最大延迟为五个数量级,能源消耗为六个数量级)。其他模仿自然界的非线性转化,如耳蜗和视网膜的转化,预计将产生更大的收益。

传感器和神经形态芯片的三维垂直整合也可以极大地改善两者之间接口的功率和延时。

机器人技术

几十年来,工程师和科幻小说家们已经预见到了机器人可以与人类一起自主灵活地运作,并在现实世界中进行导航和互动。尽管在各个领域都有重大发展,但这样的机器人今天仍然遥不可及。这种未来机器人的智能控制需要在经典控制理论和人工智能之间进行困难的整合,前者依赖于准确的环境模型,后者则将这种环境模型建立在感知的基础上。即使对最先进的机器人来说,与动态的、往往是不可预测的现实世界环境进行互动仍然很困难,但人类却能毫不费力地做到这一点。生物大脑的进化正是为了解决此类任务,并被认为是神经形态技术最有前途的应用领域。

DNN可以实现计算机视觉的最高性能,使其成为构建机器人视觉系统的首选。即使像现在这样,延迟和功耗也可以通过在神经形态芯片上的实施来降低。然而,新的适应性算法对于满足现实世界的可变性和不可预测性的需求将是至关重要的。这种算法将适应神经形态硬件的特点,最终将通过算法和硬件的共同开发来实现。

健全的机器人系统还需要整合多种感官模式,如视觉、听觉和触觉。峰值可以提供一种统一的语言,可以编码对任务重要的跨模态的时间和空间信息。DNF的动态性质也可以提供另一个统一的基本要素,它可以在吸引子网络中创造记忆状态,弥合多种感觉的不同时间尺度。具有递归和反馈连接的DNF可以对感觉处理提供自上而下的注意控制,从而使计算资源集中在与任务最相关的方面,而忽略了噪音和遮挡。

事实上,用于三种不同感官的SNN DNF已经成功地集成到Loihi中,以控制人形机器人与环境的互动。虽然这一结果离大脑的实现还很远,但它表明,通过使用尖峰和吸引器网络等常用工具箱组成异构模块,已经可以建立相对复杂的应用。

规划、优化和推理(推理)。

计划和推理(在本节中,推理,用证据推理)可以说是自然智能系统最复杂和难以捉摸的能力。深度学习的最新发展在亚符号推理和学习方面取得了重大进展,但在高阶符号和类比推理任务方面没有取得同样的进展。矢量符号架构(VSA,作者注:也被称为超维计算)是一种在高维空间中代表丰富知识的新方法。通过将深度网络与本调查中描述的优化和搜索算法相连接,VSA可以提供一条实现快速、高效和可扩展的下一代人工智能能力的途径。有能力。

作为迈向可扩展VSA框架的第一步,在Loihi中实现了基于尖峰的拓扑联想记忆网络TRAM,其中VSA的效率和可扩展性受到具有全对全耦合的联想记忆的限制。相比之下,TPAM通过引入网络连接和激活的稀疏性来提高可扩展性。

编程模型

随着Loihi所带来的可喜成果和可能性,神经形态领域所面临的一个最紧迫的问题是,编程模型和框架是一个零散的、不可配置的混杂物。已发表的SNN发展框架可分为三类。第一个是深度学习的监督学习框架,第二个是SNN模拟器,为传统架构提供低级编程API,第三个是神经形态硬件的低级框架。虽然这一领域的探索水平不断提高,令人鼓舞,但仍然没有一个框架能够提供一个统一的编程抽象,涵盖这一领域研究的各种算法。将需要这样一个框架来进一步促进异质模块的整合。

经济可行性

在神经形态架构中,内存和计算的紧密结合既是一种好处,也是一种祸害。目前半导体行业的经济性对冯-诺依曼架构进行了高度优化。每位(非嵌入式常规)DRAM的成本比逻辑流程中最密集的存储器的每一位的成本要便宜100倍。对于需要大内存的工作负载,传统架构通过在廉价的内存和昂贵的逻辑之间分割物理实现来实现最佳成本。神经形态架构必须在两个过程中做出选择,这取决于内存和计算的整合,而Loihi超过一半的逻辑电路,因此没有选择,只能选择昂贵的逻辑过程。

由于这个原因,神经形态技术不可避免地被定位在大型工作负载的高端利基。为了扩大这一利基市场,首先必须为较小规模的问题增加价值。这意味着首先出现的商业应用可能是边缘和传感器节点以及机器人系统。

从长远来看,将需要制造技术的创新来降低神经形态架构的成本。这可能是由密集和廉价集成的新存储器带来的,例如电阻/磁性/相变存储器元件的横条。然而,真正的模拟记忆(作者注:按照目前的记忆标准,可以记住非常多的数值的记忆。预计它将导致每个元素的存储密度显著增加,并在内存元素运行的模拟域中实现大规模的并行操作)。),出现了一个特殊的问题,即需要保持其密度和成本优势,同时不把周围的许多建筑元素推到模拟领域。

如果在低能量、高速、CMOS集成的存储器密度方面没有突破,即使解决了架构、算法和软件方面的挑战,成本也会限制它们向小型实施目标以外的主流设备的推广。

摘要

本调查中描述的许多延迟和能源消耗基准结果都绘制在图中。这种统一的观点显示了明显的趋势。

  • 与速率编码的前馈网络不兼容,Loihi的性能在大型网络中会显著下降。
  • 在尖峰计时具有计算意义的情况下,使用误差反向传播的网络或由算法组装的网络可以取得显著的收益。
  • Loihi上表现最好的工作负载都是高递归网络

其他评估轴,如批量处理期间的吞吐量或可实现的最高精度,不太受Loihi的青睐。然而,很明显,对于相当多的工作负载,它可以提供以系数或数字而不是百分比来衡量的优势

虽然这是一篇冗长的文章,但我认为它让人们感受到了神经形态计算的巨大潜力。谈到基于新原理的计算机,所有的注意力都集中在量子上,但这种低功耗、低延迟的计算机应该是在现实生活中运行下一代人工智能所不可或缺的。这种计算技术的发展也有望增加我们对人脑的智能、情感和意识的了解。

 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们