A Stochastic Trust-Region Framework for Policy Optimization

Journal Home
Volume 43 - 2025
- Vol. 43, Issue 3 pp.515-770
- Vol. 43, Issue 2 pp.257-514
- Vol. 43, Issue 1 pp.1-256
Volume 42 - 2024
- Vol. 42, Issue 6 pp.1427-1776
- Vol. 42, Issue 5 pp.1197-1426
- Vol. 42, Issue 4 pp.911-1196
- Vol. 42, Issue 3 pp.617-910
- Vol. 42, Issue 2 pp.313-616
- Vol. 42, Issue 1 pp.1-312
Volume 41 - 2023
- Vol. 41, Issue 6 pp.1017-1324
- Vol. 41, Issue 5 pp.797-1016
- Vol. 41, Issue 4 pp.551-796
- Vol. 41, Issue 3 pp.345-550
- Vol. 41, Issue 2 pp.173-344
- Vol. 41, Issue 1 pp.1-172
Volume 40 - 2022
- Vol. 40, Issue 6 pp.835-1030
- Vol. 40, Issue 5 pp.667-834
- Vol. 40, Issue 4 pp.499-666
- Vol. 40, Issue 3 pp.335-498
- Vol. 40, Issue 2 pp.147-334
- Vol. 40, Issue 1 pp.1-146
Volume 39 - 2021
- Vol. 39, Issue 6 pp.801-922
- Vol. 39, Issue 5 pp.655-800
- Vol. 39, Issue 4 pp.493-654
- Vol. 39, Issue 3 pp.311-492
- Vol. 39, Issue 2 pp.159-310
- Vol. 39, Issue 1 pp.1-158
Volume 38 - 2020
- Vol. 38, Issue 6 pp.827-984
- Vol. 38, Issue 5 pp.683-826
- Vol. 38, Issue 4 pp.547-682
- Vol. 38, Issue 3 pp.395-546
- Vol. 38, Issue 2 pp.239-394
- Vol. 38, Issue 1 pp.1-238
Volume 37 - 2019
- Vol. 37, Issue 6 pp.739-936
- Vol. 37, Issue 5 pp.579-738
- Vol. 37, Issue 4 pp.437-578
- Vol. 37, Issue 3 pp.297-436
- Vol. 37, Issue 2 pp.151-296
- Vol. 37, Issue 1 pp.1-150
Volume 36 - 2018
- Vol. 36, Issue 6 pp.761-902
- Vol. 36, Issue 5 pp.627-760
- Vol. 36, Issue 4 pp.469-626
- Vol. 36, Issue 3 pp.331-468
- Vol. 36, Issue 2 pp.159-330
- Vol. 36, Issue 1 pp.1-158
Volume 35 - 2017
- Vol. 35, Issue 6 pp.693-838
- Vol. 35, Issue 5 pp.547-692
- Vol. 35, Issue 4 pp.381-546
- Vol. 35, Issue 3 pp.245-380
- Vol. 35, Issue 2 pp.121-244
- Vol. 35, Issue 1 pp.1-120
Volume 34 - 2016
- Vol. 34, Issue 6 pp.573-738
- Vol. 34, Issue 5 pp.451-572
- Vol. 34, Issue 4 pp.339-450
- Vol. 34, Issue 3 pp.223-338
- Vol. 34, Issue 2 pp.113-222
- Vol. 34, Issue 1 pp.1-112
Volume 33 - 2015
- Vol. 33, Issue 6 pp.557-684
- Vol. 33, Issue 5 pp.443-556
- Vol. 33, Issue 4 pp.341-442
- Vol. 33, Issue 3 pp.227-340
- Vol. 33, Issue 2 pp.113-226
- Vol. 33, Issue 1 pp.1-112
Volume 32 - 2014
- Vol. 32, Issue 6 pp.601-720
- Vol. 32, Issue 5 pp.491-600
- Vol. 32, Issue 4 pp.371-490
- Vol. 32, Issue 3 pp.215-370
- Vol. 32, Issue 2 pp.107-214
- Vol. 32, Issue 1 pp.1-106
Volume 31 - 2013
- Vol. 31, Issue 6 pp.549-662
- Vol. 31, Issue 5 pp.439-548
- Vol. 31, Issue 4 pp.335-438
- Vol. 31, Issue 3 pp.221-334
- Vol. 31, Issue 2 pp.107-220
- Vol. 31, Issue 1 pp.1-106
Volume 30 - 2012
- Vol. 30, Issue 6 pp.565-683
- Vol. 30, Issue 5 pp.449-564
- Vol. 30, Issue 4 pp.337-448
- Vol. 30, Issue 3 pp.223-336
- Vol. 30, Issue 2 pp.101-222
- Vol. 30, Issue 1 pp.1-100
Volume 29 - 2011
- Vol. 29, Issue 6 pp.605-719
- Vol. 29, Issue 5 pp.491-604
- Vol. 29, Issue 4 pp.367-490
- Vol. 29, Issue 3 pp.243-366
- Vol. 29, Issue 2 pp.131-242
- Vol. 29, Issue 1 pp.1-130
Volume 28 - 2010
- Vol. 28, Issue 6 pp.725-912
- Vol. 28, Issue 5 pp.569-724
- Vol. 28, Issue 4 pp.429-568
- Vol. 28, Issue 3 pp.289-428
- Vol. 28, Issue 2 pp.149-288
- Vol. 28, Issue 1 pp.1-148
Volume 27 - 2009
- Vol. 27, Issue 6 pp.677-836
- Vol. 27, Issue 5 pp.561-676
- Vol. 27, Issue 4 pp.425-560
- Vol. 27, Issue 2-3 pp.115-424
- Vol. 27, Issue 1 pp.1-114
Volume 26 - 2008
- Vol. 26, Issue 6 pp.767-892
- Vol. 26, Issue 5 pp.633-766
- Vol. 26, Issue 4 pp.471-632
- Vol. 26, Issue 3 pp.259-470
- Vol. 26, Issue 2 pp.123-258
- Vol. 26, Issue 1 pp.1-122
Volume 25 - 2007
- Vol. 25, Issue 6 pp.631-747
- Vol. 25, Issue 5 pp.497-630
- Vol. 25, Issue 4 pp.385-496
- Vol. 25, Issue 3 pp.243-384
- Vol. 25, Issue 2 pp.113-242
- Vol. 25, Issue 1 pp.1-112
Volume 24 - 2006
- Vol. 24, Issue 6 pp.675-790
- Vol. 24, Issue 5 pp.561-674
- Vol. 24, Issue 4 pp.451-560
- Vol. 24, Issue 3 pp.225-450
- Vol. 24, Issue 2 pp.113-224
- Vol. 24, Issue 1 pp.1-112
Volume 23 - 2005
- Vol. 23, Issue 6 pp.561-672
- Vol. 23, Issue 5 pp.449-560
- Vol. 23, Issue 4 pp.337-448
- Vol. 23, Issue 3 pp.225-336
- Vol. 23, Issue 2 pp.113-224
- Vol. 23, Issue 1 pp.1-112
Volume 22 - 2004
- Vol. 22, Issue 6 pp.777-920
- Vol. 22, Issue 5 pp.633-776
- Vol. 22, Issue 4 pp.489-632
- Vol. 22, Issue 3 pp.341-488
- Vol. 22, Issue 2 pp.145-340
- Vol. 22, Issue 1 pp.1-144
Volume 21 - 2003
- Vol. 21, Issue 6 pp.689-832
- Vol. 21, Issue 5 pp.545-688
- Vol. 21, Issue 4 pp.401-544
- Vol. 21, Issue 3 pp.257-400
- Vol. 21, Issue 2 pp.113-256
- Vol. 21, Issue 1 pp.1-112
Volume 20 - 2002
- Vol. 20, Issue 6 pp.561-672
- Vol. 20, Issue 5 pp.449-560
- Vol. 20, Issue 4 pp.337-448
- Vol. 20, Issue 3 pp.225-336
- Vol. 20, Issue 2 pp.113-224
- Vol. 20, Issue 1 pp.1-112
Volume 19 - 2001
- Vol. 19, Issue 6 pp.561-672
- Vol. 19, Issue 5 pp.449-560
- Vol. 19, Issue 4 pp.337-448
- Vol. 19, Issue 3 pp.225-336
- Vol. 19, Issue 2 pp.113-224
- Vol. 19, Issue 1 pp.1-112
Volume 18 - 2000
- Vol. 18, Issue 6 pp.561-672
- Vol. 18, Issue 5 pp.449-560
- Vol. 18, Issue 4 pp.337-448
- Vol. 18, Issue 3 pp.225-336
- Vol. 18, Issue 2 pp.113-224
- Vol. 18, Issue 1 pp.1-112
Volume 17 - 1999
- Vol. 17, Issue 6 pp.561-672
- Vol. 17, Issue 5 pp.449-560
- Vol. 17, Issue 4 pp.337-448
- Vol. 17, Issue 3 pp.225-336
- Vol. 17, Issue 2 pp.113-224
- Vol. 17, Issue 1 pp.1-112
Volume 16 - 1998
- Vol. 16, Issue 6 pp.481-576
- Vol. 16, Issue 5 pp.385-480
- Vol. 16, Issue 4 pp.289-384
- Vol. 16, Issue 3 pp.193-288
- Vol. 16, Issue 2 pp.97-192
- Vol. 16, Issue 1 pp.1-96
Volume 15 - 1997
- Vol. 15, Issue 4 pp.289-384
- Vol. 15, Issue 3 pp.193-288
- Vol. 15, Issue 2 pp.97-192
- Vol. 15, Issue 1 pp.1-96
Volume 14 - 1996
- Vol. 14, Issue 4 pp.291-386
- Vol. 14, Issue 3 pp.195-290
- Vol. 14, Issue 2 pp.99-194
- Vol. 14, Issue 1 pp.1-98
Volume 13 - 1995
- Vol. 13, Issue 4 pp.291-386
- Vol. 13, Issue 3 pp.193-290
- Vol. 13, Issue 2 pp.95-192
- Vol. 13, Issue 1 pp.1-94
Volume 12 - 1994
- Vol. 12, Issue 4 pp.291-386
- Vol. 12, Issue 3 pp.195-290
- Vol. 12, Issue 2 pp.98-194
- Vol. 12, Issue 1 pp.1-97
Volume 11 - 1993
- Vol. 11, Issue 4 pp.289-384
- Vol. 11, Issue 3 pp.193-288
- Vol. 11, Issue 2 pp.99-192
- Vol. 11, Issue 1 pp.1-98
Volume 10 - 1992
- Vol. 10, Issue 4 pp.291-387
- Vol. 10, Issue 3 pp.193-289
- Vol. 10, Issue 2 pp.97-193
- Vol. 10, Issue 1 pp.1-97
Volume 9 - 1991
- Vol. 9, Issue 4 pp.291-387
- Vol. 9, Issue 3 pp.193-289
- Vol. 9, Issue 2 pp.97-193
- Vol. 9, Issue 1 pp.1-96
Volume 8 - 1990
- Vol. 8, Issue 4 pp.289-385
- Vol. 8, Issue 3 pp.195-288
- Vol. 8, Issue 2 pp.99-194
- Vol. 8, Issue 1 pp.1-98
Volume 7 - 1989
- Vol. 7, Issue 4 pp.321-417
- Vol. 7, Issue 3 pp.227-320
- Vol. 7, Issue 2 pp.98-225
- Vol. 7, Issue 1 pp.1-96
Volume 6 - 1988
- Vol. 6, Issue 4 pp.293-382
- Vol. 6, Issue 3 pp.193-292
- Vol. 6, Issue 2 pp.97-192
- Vol. 6, Issue 1 pp.1-97
Volume 5 - 1987
- Vol. 5, Issue 4 pp.287-382
- Vol. 5, Issue 3 pp.191-286
- Vol. 5, Issue 2 pp.95-190
- Vol. 5, Issue 1 pp.1-94
Volume 4 - 1986
- Vol. 4, Issue 4 pp.289-382
- Vol. 4, Issue 3 pp.191-288
- Vol. 4, Issue 2 pp.97-191
- Vol. 4, Issue 1 pp.1-96
Volume 3 - 1985
- Vol. 3, Issue 4 pp.289-384
- Vol. 3, Issue 3 pp.193-288
- Vol. 3, Issue 2 pp.97-192
- Vol. 3, Issue 1 pp.1-96
Volume 2 - 1984
- Vol. 2, Issue 4 pp.287-381
- Vol. 2, Issue 3 pp.189-286
- Vol. 2, Issue 2 pp.93-188
- Vol. 2, Issue 1 pp.1-92
Volume 1 - 1983
- Vol. 1, Issue 4 pp.303-383
- Vol. 1, Issue 3 pp.195-302
- Vol. 1, Issue 2 pp.99-194
- Vol. 1, Issue 1 pp.1-98

Volume 40, Issue 6

Mingming Zhao, Yongfeng Li & Zaiwen Wen

DOI: 10.4208/jcm.2104-m2021-0007

J. Comp. Math., 40 (2022), pp. 1004-1030.

Published online: 2022-08

Preview Full PDF 3059 295642

Cited by

google scholar semantic scholar

Export citation

Abstract

In this paper, we study a few challenging theoretical and numerical issues on the well known trust region policy optimization for deep reinforcement learning. The goal is to find a policy that maximizes the total expected reward when the agent acts according to the policy. The trust region subproblem is constructed with a surrogate function coherent to the total expected reward and a general distance constraint around the latest policy. We solve the subproblem using a reconditioned stochastic gradient method with a line search scheme to ensure that each step promotes the model function and stays in the trust region. To overcome the bias caused by sampling to the function estimations under the random settings, we add the empirical standard deviation of the total expected reward to the predicted increase in a ratio in order to update the trust region radius and decide whether the trial point is accepted. Moreover, for a Gaussian policy which is commonly used for continuous action space, the maximization with respect to the mean and covariance is performed separately to control the entropy loss. Our theoretical analysis shows that the deterministic version of the proposed algorithm tends to generate a monotonic improvement of the total expected reward and the global convergence is guaranteed under moderate assumptions. Comparisons with the state-of-the-art methods demonstrate the effectiveness and robustness of our method over robotic controls and game playings from OpenAI Gym.

Keywords

Deep reinforcement learning, Stochastic trust region method, Policy optimization, Global convergence, Entropy control.

AMS Subject Headings

49L20, 90C15, 90C26, 90C40, 93E20

Email address

mmz102@pku.edu.cn (Mingming Zhao)

yongfengli@pku.edu.cn (Yongfeng Li)

wenzw@pku.edu.cn (Zaiwen Wen)

BibTex
RIS
TXT

@Article{JCM-40-1004, author = {Zhao , MingmingLi , Yongfeng and Wen , Zaiwen}, title = {A Stochastic Trust-Region Framework for Policy Optimization}, journal = {Journal of Computational Mathematics}, year = {2022}, volume = {40}, number = {6}, pages = {1004--1030}, abstract = {

}, issn = {1991-7139}, doi = {https://doi.org/10.4208/jcm.2104-m2021-0007}, url = {http://global-sci.org/intro/article_detail/jcm/20845.html} }

TY - JOUR T1 - A Stochastic Trust-Region Framework for Policy Optimization AU - Zhao , Mingming AU - Li , Yongfeng AU - Wen , Zaiwen JO - Journal of Computational Mathematics VL - 6 SP - 1004 EP - 1030 PY - 2022 DA - 2022/08 SN - 40 DO - http://doi.org/10.4208/jcm.2104-m2021-0007 UR - https://global-sci.org/intro/article_detail/jcm/20845.html KW - Deep reinforcement learning, Stochastic trust region method, Policy optimization, Global convergence, Entropy control. AB -

Zhao , MingmingLi , Yongfeng and Wen , Zaiwen. (2022). A Stochastic Trust-Region Framework for Policy Optimization. Journal of Computational Mathematics. 40 (6). 1004-1030. doi:10.4208/jcm.2104-m2021-0007

Copy to clipboard

BibteX RIS TXT

The citation has been copied to your clipboard

- LOGIN -

- E-mail verification -

- REGISTER -