logo好方法网

一种基于多智能体架构强化学习的资源分配及卸载决策方法


技术摘要:
本发明涉及一种基于多智能体架构强化学习的资源分配及卸载决策方法,属于移动通信技术领域。该方法在考虑激励约束、能量约束、以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立最大化系统总用户QoE的随机优化模型,并转化为MDP问题。其次,该  全部
背景技术:
随着网络服务的发展,大量的计算密集型应用如移动购物、人脸识别以及增强现 实等获得了大量的关注,这些先进的应用需要低时延。同时,由于物理大小的限制,当前的 物联网设备如可穿戴设备的计算资源及电池容量有限,从而不能很好的支持先进应用运 行。因此,其不能为用户提供满意的QoE。为了解决这个问题,当前已有大量研究卸载全部或 者部分任务到资源丰富的云中心。然而,云服务器部署的位置通常距离用户端很远,这不可 避免的会造成较大的端到端时延。 为了解决上述问题,雾计算作为更贴近于终端用户的微云在网络边缘为物联网设 备提供计算服务,其不仅可以减轻由于IoT设备大量增加带来的影响,还可以降低到云的流 量,并进一步降低IoT设备应用的卸载时。同时,每个雾节点可以作为一个控制器来控制计 算和无线资源,从而联合优化这些资源,最终带来计算资源及无线资源利用率的提升。然 而,由于雾节点的资源是有限的,因此,本文考虑采用云雾混合架构,使得IoT用户可以将计 算密集的任务卸载到近距离的雾节点或者资源丰富的云处理中心以满足用户的QoE。D2D底 层通信可以进一步降低通信时延,一方面由于网络运营商可以得到所有用户的信任,另一 方面通过D2D通信可以减轻蜂窝网络的负担,因此可以通过将D2D技术和MEC技术联合使得 用户之间可以在保证真实性的前提下直接共享计算资源和无线资源。然而,由于D2D底层通 信可能带来更严重的同信道干扰,因此这需要合理的资源分配进行干扰协调。
技术实现要素:
有鉴于此,本发明的目的在于提供一种基于多智能体架构强化学习的资源分配及 卸载决策方法。应用该方法能够在考虑激励约束、能量约束、以及网络资源约束,联合优化 无线资源分配、计算资源分配以及卸载决策,最大化系统总用户QoE。 为达到上述目的,本发明提供如下技术方案: 一种基于多智能体架构强化学习的资源分配及卸载决策方法,在设备到设备通信 D2D辅助的云雾混合架构下,考虑激励约束、能量约束和网络资源约束,联合优化无线资源 分配、计算资源分配以及卸载决策,最大化系统总用户QoE;然后,基于行动者-评判家算法 提出一种集中式训练、分布式执行机制; 在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸 载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源 分配及任务卸载; 所述D2D辅助的云雾混合架构包含三层: 用户层,由多个支持D2D技术的IoT设备组成,IoT设备通过无线接入链路发送服务 4 CN 111586696 A 说 明 书 2/8 页 请求给相应的雾节点,并根据雾节点的决策采取相应的行为; 雾节点层,由多个部署在小区边缘的雾节点组成; 云层,作为集中式架构为用户提供丰富的资源及强大的计算能力。 可选的,所述激励约束为只有当用户贡献更多资源给其他用户时,用户才能享受 更多其他用户贡献的资源; 所述能量约束为避免用户过度牺牲自己来帮助他人; 所述网络资源为通信资源和计算资源。 可选的,所述系统总用户QoE为通过计算卸载节省的长期平均通信成本。 可选的,所述全局信息为信道状态、用户设备上产生的任务特征和权重信息。 可选的,所述资源分配为功率分配、信道分配以及雾节点计算频率。 可选的,所述通信成本表示执行一个任务需要的能耗和时延的加权和。 可选的,所述信道状态为智能体服务的IoT设备到连接到雾节点的其他IoT设备的 信道状态以及IoT设备到雾节点的信道状态。 可选的,所述能耗为传输能耗与计算能耗,所述时延为传输时延与计算时延。 可选的,根据所述全局信息进行资源分配和卸载任务,在每个离散的时隙上,最大 化系统总用户QoE,具体步骤如下: 初始化各参数以及系统状态; 在每个调度时隙开始时,收集当前时隙的状态,即全局信息; 根据下式选取近似最优的资源分配动作和卸载决策: 其中A为:行动空间,即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频 率; 其中γ为:折扣因子,所述Qπ(st 1,at 1)为:下一时隙的行为值函数; 其中rt为:时隙t时的即时回报函数,表示为: 其中 为用户Kn,m的QoE; 给定资源分配和卸载决策,判断当前所述的资源分配和任务卸载策略是否满足所 述的激励约束、能量约束以及通信资源和计算资源约束; 如果不满足,则重复上述选择最优行为的步骤;如果当前资源分配和任务卸载策 略满足约束条件,则将资源分配和任务卸载策略通知给每个智能体; 经过数次迭代,判断是否满足收敛条件; 如果不满足收敛条件,则观察下一时隙状态st 1,重复上述步骤; 按照资源分配和任务卸载策略,分配给每个用户无线资源和信道,以及将任务卸 载到D2D设备、卸载到雾节点或者云端; 等待下一个调度时隙。 本发明的有益效果在于:本发明在每个离散资源调度时隙上,系统根据所述全局 信息,联合优化无线资源分配、计算资源分配以及卸载决策,实现系统总用户QoE的最大化, 5 CN 111586696 A 说 明 书 3/8 页 有效地提升用户QoE,并降低了时延及能耗。 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并 且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和 获得。 附图说明 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优 选的详细描述,其中: 图1为D2D辅助的云雾混合网络架构图; 图2为资源分配及卸载决策算法流程图。
分享到:
收藏