«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

[1]费正顺,王焰平,龚海波,等.一种改进的近端策略优化算法[J].浙江科技学院学报,2023,(01):23-29.
　FEI Zhengshun,WANG Yanping,GONG Haibo,et al.On an improved algorithm of proximal policy optimization[J].,2023,(01):23-29.
点击复制

一种改进的近端策略优化算法(/HTML)

分享到：

《浙江科技学院学报》[ISSN:2097-5236/CN:33-1431/Z]

卷:
期数:: 2023年01期

页码:: 23-29

栏目:

出版日期:: 2023-03-06

文章信息/Info

Title:: On an improved algorithm of proximal policy optimization

文章编号:: 1671-8798(2023)01-0023-07

作者:: 费正顺; 王焰平; 龚海波; 项新建; 郭峻豪; 浙江科技学院自动化与电气工程学院,杭州 310023

Author(s):: FEI Zhengshun; WANG Yanping; GONG Haibo; XIANG Xinjian; GUO Junhao; School of Automation and Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China

关键词:: 强化学习; 近端策略优化; 泛化优势估计; 多线程

分类号:: TP183

文献标志码:: A

摘要:: 近端策略优化(proximal policy optimization,PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation,GAE)对优势函数进行描述;然后采用类似异步优势演员评论家(asynchronous actor-critic,A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。

更新日期/Last Update: