logo好方法网

一种基于强化学习的光纤耦合方法

技术摘要:
本发明提供了一种基于强化学习的光纤耦合方法,利用的系统包括倾斜镜、图像采集模块、光功率计、强化学习控制模块。该方法将图像采集模块采集到的图像作为强化学习框架的状态s,将光功率计的功率作为强化学习框架的奖赏r,强化学习控制模块作为智能体,输出控制倾斜镜  全部
背景技术:
自由空间光通信(Free  Space  Optical  Communication)作为一种新兴的通信技 术,由于其高带宽,高保密性,无频段许可等优点成为研究热点。随着光纤技术的不断发展, 光纤技术及器件越来越多的被应用到激光通信系统中,极大的提高了激光通信端机的性能 和灵活度。将空间光耦合到单模光纤中对于后续光处理,如进行放大、滤波等,具有重要的 意义。由于一般激光通信工作距离较远,通信光束远场分布可视为平面波,理想情况下远场 接收光束经透镜汇聚在焦平面上形成一个艾里斑,远场光斑与单模光纤(Single  mode  Fiber,SMF)的模场中心匹配,达到最高的耦合效率。在实际外场通信中,如果接收端平台抖 动或光束由于大气湍流等因素发生抖动,会造成远场光斑与光纤模场的失配,导致光纤耦 合效率降低,影响通信质量。所以激光通信端机通常需要在精跟踪系统后部署光纤耦合子 系统,实现耦合效率的最大化。由于外部扰动是随机的,所以光纤耦合系统一般采用无模型 优化算法,传统采用的无模型算法是随机并行梯度下降算法,然而其存在速度慢以及不稳 定的缺点,强化学习作为近年来优秀的无模型控制算法,近年来在诸多控制领域获得成功, 通过和环境交互,获得最佳的动作输出得到最大的奖励值。
技术实现要素:
本发明要解决的技术问题是提供一种基于强化学习的光纤耦合方法,以解决现有 光纤耦合收敛速度慢的问题。 为解决上述技术问题,本发明采用如下技术方案:一种基于强化学习的光纤耦合 方法,包括如下步骤: 步骤1、图像采集模块用于采集光斑图像作为强化学习框架的状态s; 步骤2、将光功率计的功率作为强化学习框架的奖赏r; 步骤3、强化学习控制模块作为智能体,输出控制倾斜镜的控制量为动作a; 步骤4、将图像采集模块采集的图像作为状态s送入强化学习的神经网络,通过学 习,强化学习控制模块控制输出的动作a使得作用于倾斜镜让光功率值r达到最大。 所述的步骤4具体包括以下步骤: 1)构建并训练DDPG框架,根据采集到的图像中作为初始状态,并根据greedy策略 选取一个动作,作用于倾斜镜并获得当前的奖励值r,将数据存入经验池进行网络更新; 2)判断本次ep搜的是否结束,若未结束,则返回再次输出动作并更新状态,若是, 则判断网络是否收敛,收敛则进行步骤3),否则跳到步骤1)重新选择状态学习; 3)获取训练过程中的最优模型,并将最优模型的Actor网络作为最终输入决策控 制器。 本发明与现有技术相比具有如下优点: 3 CN 111610598 A 说 明 书 2/2 页 (1)本发明通过图像采集模块采集图像作为状态,经过强化学习学习过后,在使用 时根据图像状态可以实时迭代到最大的奖励值(光功率),相比传统的光纤耦合方法收敛速 度更快。 (2)本发明的优点还有,通过直接从真实环境采集数据训练的连接方式,从而使得 强化学习的训练可以直接在真实场景下完成,避免采集数据、训练模型的麻烦,和部署的适 应性问题。 附图说明 图1是本发明一种基于强化学习的光纤耦合方法的原理图; 图2是本发明一种基于强化学习的光纤耦合方法的流程图。
分享到:
收藏