矩阵计算系统真 厉害 |
上海光机所在高精度、大规模光电并行矩阵计算系统方面取得进展
近期,中国科学院上海光学精密机械研究所光芯片集成研发中心、信息光学实验室团队与暨南大学合作,提出了一种基于衍射分束器件实现高精度、大规模光电并行矩阵计算加速器的新型架构—光学多成像投影架构(Optical Multi-Imaging-casting architecture,OMica)。这种新型架构可以实现光学矩阵卷积、矢量矩阵积以及矩阵乘法等真正意义上的并行计算,有望在面向专用目的的大规模矩阵并行计算加速方面取得应用。
现如今人类社会已经进入以人工智能、物联网等为代表的大数据时代,对信息处理与计算的需求急剧增长。为了有效解决当前的算力困境,亟需寻找具有持续算力增长空间的新型计算范式与架构。目前,如何解决算力困境已形成了三条基本路线,分别是More-Moore、More-than-Moore和Beyond CMOS。其中,光学以其高并行、高能效比、高速度和无电磁干扰等优点成为一种具有革命性的Beyond CMOS路线,其在构建面向专用目的的大规模矩阵并行计算系统方面有天然优势。 目前主流的光电计算架构可以大致分为平面集成式和自由空间互连式两类。其中,平面集成式光电计算只能实现一维矢量-矩阵乘法,且受限于光子单元器件的集成度难以实现算力拓展,而自由空间互连式光电计算天然具备调控数以百万像素的能力而有望实现更高算力。研究人员创造性地利用高质量分束元件—达曼光栅,成功构建了可以实现大规模、高精度的光学矩阵计算架构,并在此基础上实现了计算精度约为8bits的10*10、20*20大小的矩阵卷积[1]。在此基础上,研究人员进一步研究了时、空间序列编码方式以实现负数和复数运算,并基于空间序列编码方法实现了光学卷积神经网络的推理任务。研究人员进一步优化了182*224分束比的达曼光栅,初步验证了大规模光学矩阵卷积。此外,基于该计算架构,研究人员提出了一种可实现多通道矢量矩阵积,即矩阵乘法的光学实现架构,并成功演示了8×4和4×8矩阵乘法的并行计算加速[2]。 这种OMica架构计算加速器可以在白光照明条件下工作,有望实现对真实自然场景光学图像的直接处理,从而突破至少在输入端的光-电-光转换瓶颈。同时,该架构可以通过平板波导光学系统进一步集成并有望在图像数据处理、机器视觉、目标识别等场景中专用目的计算加速方面得到实际应用。 该研究得到中国科学院、上海市科委、上海精密光学制造与测试服务平台等项目的资助。 原文链接:1. https://opg.optica.org/prj/fulltext.cfm?uri=prj-11-2-299&id=525720 2. https://opg.optica.org/ol/abstract.cfm?doi=10.1364/OL.487676 分享到:
|