[1]费正顺,王焰平,龚海波,等.一种改进的近端策略优化算法[J].浙江科技学院学报,2023,(01):23-29.
 FEI Zhengshun,WANG Yanping,GONG Haibo,et al.On an improved algorithm of proximal policy optimization[J].,2023,(01):23-29.
点击复制

一种改进的近端策略优化算法(/HTML)
分享到:

《浙江科技学院学报》[ISSN:2097-5236/CN:33-1431/Z]

卷:
期数:
2023年01期
页码:
23-29
栏目:
出版日期:
2023-03-06

文章信息/Info

Title:
On an improved algorithm of proximal policy optimization
文章编号:
1671-8798(2023)01-0023-07
作者:
费正顺王焰平龚海波项新建郭峻豪
浙江科技学院 自动化与电气工程学院,杭州 310023
Author(s):
FEI Zhengshun WANG Yanping GONG Haibo XIANG Xinjian GUO Junhao
School of Automation and Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China
关键词:
强化学习近端策略优化泛化优势估计多线程
分类号:
TP183
文献标志码:
A
摘要:
近端策略优化(proximal policy optimization,PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation,GAE)对优势函数进行描述;然后采用类似异步优势演员评论家(asynchronous actor-critic,A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。
更新日期/Last Update: