斯坦福大学首次实现光学反向传播里程碑
使用光而不是电的处理器有望成为实现人工智能的一种更快、更节能的方式。到目前为止,它们只被用于运行已经训练过的模型,但新的研究首次证明了在光学芯片上训练人工智能的能力。
随着AI模型变得越来越大,人们越来越担心它们消耗的能量,这既是由于不断膨胀的成本,也是由于对环境的潜在影响。这激发了人们对可以减少AI能源费用的新方法的兴趣,其中光子处理器成为主要候选者。 这些芯片用光子代替传统处理器中的电子,并使用波导、滤波器和光探测器等光学元件来创建可以执行计算任务的电路。它们在运行AI方面特别有前途,因为它们在执行矩阵乘法方面非常高效,这是所有深度学习模型核心的关键计算。总部位于波士顿的Lightmatter和位于马萨诸塞州剑桥的Lightelligence等公司已经在努力将光子AI芯片商业化。 不过,到目前为止,这些设备仅用于推理,即已经训练过的AI模型对新数据做出预测。这是因为这些芯片一直在努力实现用于训练神经网络的关键算法——反向传播。但在《科学》杂志的一篇新论文中,斯坦福大学的一个团队描述了首次在光子芯片上实施训练方法。 “我们的实验首次证明了原位反向传播可以训练光子神经网络来解决任务,这为训练神经网络提供了一种新的节能途径,”Sunil Pai说,他在斯坦福大学领导了这项研究,目前在加州的PsiQuantum工作,该公司正在制造光子量子计算机。 反向传播包括反复将训练示例输入神经网络,并要求其对数据进行预测。每次,算法都会测量预测的偏差,然后通过网络将误差信号反馈回来。这用于调整神经元之间的连接强度或权重,以提高预测性能。这个过程重复多次,直到网络能够解决它所设置的任何任务。 不过,这种方法很难在光子处理器上实施,麻省理工学院的博士后助理Charles Roques-Carmes说,因为与标准芯片相比,这些设备只能执行有限的操作。因此,计算光子神经网络的权重通常依赖于在传统计算机上进行片外处理器的复杂物理模拟。 但在2018年,《科学》新论文的一些作者提出了一种算法,理论上可以有效地在芯片上执行这一关键步骤。该方案包括将训练数据编码为光信号,使其通过光子神经网络,然后计算输出的误差。然后,该错误信号通过网络反向发送,并对原始输入信号进行光学干扰,其结果告诉您需要如何调整网络连接以改进预测。然而,该方案依赖于通过芯片向前和向后发送光信号,并能够测量通过单个芯片组件的光的强度,这在现有设计中是不可能的。 目前,Pai和他的同事已经构建了一种定制的光子芯片,可以成功地实现这种算法。它使用了一种被称为“光子网格”的常见设计,其特点是一组可编程光学元件,控制光信号如何在芯片上分裂。通过使光束相互混合和干涉,芯片能够进行矩阵乘法运算,从而实现光子神经网络。 不过,新芯片的与众不同之处在于,它的两端都有光源和光探测器,允许信号在网络中向前和向后传递。它还在网络中的每个节点上都有小的“抽头”,可以吸走少量的光信号,将其重定向到测量光强度的红外相机。这些变化共同使得实现光学反向传播算法成为可能。研究人员表明,他们可以训练一个简单的神经网络,根据点的位置在图上标记点,准确率高达98%,与传统方法相当。 Pai说,在这种方法变得实用之前,还有很多工作要做。光学抽头和相机对于实验装置来说很好,但需要用商业芯片中的集成光电探测器来取代。Pai表示,他们需要使用相对较高的光功率才能获得良好的性能,这表明在精度和能耗之间需要权衡。 Roques Carmes说,同样重要的是要认识到斯坦福大学研究人员的系统实际上是一种混合设计。计算成本高昂的矩阵乘法是以光学方式进行的,但被称为非线性激活函数的更简单的计算是以数字方式在芯片外进行的,非线性激活函数决定了每个神经元的输出。目前,这些技术的数字实现成本低廉,光学实现复杂,但Roques Carmes表示,其他研究人员也在这个问题上取得了进展。 Roques Carmes说:“这项研究是在光子芯片上实现有用的机器学习算法的重要一步。将其与目前正在开发的高效片上非线性运算相结合,这可能为人工智能中的全光子片上计算开辟道路。” 相关链接:https://doi.org/10.1126/science.ade8450 分享到:
|