基于深度强化学习的多用户无线信道资源分配优化方法_CN202311813162.2_CN117793803A

摘要：: 本发明提供一种基于深度强化学习的多用户无线信道资源分配优化方法，在为用户分配信道资源时，考虑了用户交互的体验以及体验的时效性，提高了整个用户群体的体验质量；在模拟场景方面，考虑了存在多用户交互的实际的动态场景，同时更加注重多个用户之间交互的时效性；考虑到巨大的系统状态空间和未知的系统动态等系统不确定性因素，提出了一种求解马尔可夫过程（MDP）最优控制策略的DRL方法，利用DRL中的神经网络解决传统RL面临巨大状态空间所面临的窘境；采用了PPO算法，针对要解决的实际问题，对其内部网络结构进行改进和适当的参数调整，保证了交互的时效性和用户整体的体验质量，即奖励值优于其他方案。

主视图

日期	最新法律状态	描述
2024-04-16	实质审查的生效	实质审查的生效 IPC(主分类):H04W28/16 专利申请号:2023118131622 申请日:20231226
2024-03-29	公开	公开

查看PDF文档下载PDF文档