[1]费正顺,王焰平,龚海波,等.一种改进的近端策略优化算法[J].浙江科技学院学报,2023,(01):23-29.
FEI Zhengshun,WANG Yanping,GONG Haibo,et al.On an improved algorithm of proximal policy optimization[J].,2023,(01):23-29.
点击复制
《浙江科技学院学报》[ISSN:2097-5236/CN:33-1431/Z]
- 卷:
-
- 期数:
-
2023年01期
- 页码:
-
23-29
- 栏目:
-
- 出版日期:
-
2023-03-06
文章信息/Info
- Title:
-
On an improved algorithm of proximal policy optimization
- 文章编号:
-
1671-8798(2023)01-0023-07
- 作者:
-
费正顺; 王焰平; 龚海波; 项新建; 郭峻豪
-
浙江科技学院 自动化与电气工程学院,杭州 310023
- Author(s):
-
FEI Zhengshun; WANG Yanping; GONG Haibo; XIANG Xinjian; GUO Junhao
-
School of Automation and Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China
-
- 关键词:
-
强化学习; 近端策略优化; 泛化优势估计; 多线程
- 分类号:
-
TP183
- 文献标志码:
-
A
- 摘要:
-
近端策略优化(proximal policy optimization,PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation,GAE)对优势函数进行描述;然后采用类似异步优势演员评论家(asynchronous actor-critic,A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。
更新日期/Last Update: