◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

news/2024/11/8 17:15:14 标签: 强化学习, 论文整理, 笔记

文章目录

  • A 证明
    • Section 3 的证明
      • 引理 3.1 证明
      • 命题 3.2 的证明
    • A.2 Section 5 的证明
      • 命题 A.1
      • 推论 A.1.1
      • 引理 A.1 因果熵的策略梯度公式

A 证明

Section 3 的证明

引理 3.1 证明

在这里插入图片描述

Proof of Lemma 3.1.
首先,我们证明 H ˉ \bar H Hˉ 是严格凹的。
ρ \rho ρ ρ ′ \rho^\prime ρ 为占用度量,假设 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ[0,1]
对于 所有 s s s a a a,由对数和不等式 [6] 可知:
  ~  
− ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log ⁡ λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) ∑ a ′ ( λ ρ ( s , a ′ ) + ( 1 − λ ) ρ ′ ( s , a ′ ) )            ( 19 ) = − ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log ⁡ λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) + ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ )            ( 20 ) ≥ − λ ρ ( s , a ) log ⁡ λ ρ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) − ( 1 − λ ) ρ ′ ( s , a ) log ⁡ ( 1 − λ ) ( ρ ′ ( s , a ) ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ )            ( 21 )       ? ? ? = λ ( − ρ ( s , a ) log ⁡ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) ) + ( 1 − λ ) ( − ρ ′ ( s , a ) log ⁡ ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) )            ( 22 ) \begin{aligned}&-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\sum_{a^\prime}\Big(\lambda \rho(s,a^\prime)+(1-\lambda)\rho^\prime(s,a^\prime)\Big)}~~~~~~~~~~(19)\\ &=-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)+(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(20)\\ &\geq-\lambda \rho(s,a)\log \frac{\lambda \rho(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)}-(1-\lambda)\rho^\prime(s,a)\log\frac{(1-\lambda)(\rho^\prime(s,a)}{(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(21)~~~~~\textcolor{blue}{???}\\ &=\lambda \Big(-\rho(s,a)\log \frac{\rho(s,a)}{\sum_{a^\prime} \rho(s,a^\prime)}\Big)+(1-\lambda)\Big(-\rho^\prime(s,a)\log\frac{\rho^\prime(s,a)}{\sum_{a^\prime} \rho^\prime(s,a^\prime) }\Big)~~~~~~~~~~(22)\\\end{aligned} (λρ(s,a)+(1λ)ρ(s,a))loga(λρ(s,a)+(1λ)ρ(s,a))λρ(s,a)+(1λ)(ρ(s,a)          (19)=(λρ(s,a)+(1λ)ρ(s,a))logλaρ(s,a)+(1λ)aρ(s,a)λρ(s,a)+(1λ)(ρ(s,a)          (20)λρ(s,a)logλaρ(s,a)λρ(s,a)(1λ)ρ(s,a)log(1λ)aρ(s,a)(1λ)(ρ(s,a)          (21)     ???=λ(ρ(s,a)logaρ(s,a)ρ(s,a))+(1λ)(ρ(s,a)logaρ(s,a)ρ(s,a))          (22)
  ~  
当且仅当 π ρ ≜ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) = ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) ≜ π ρ ′ π_ρ\triangleq \frac{ρ(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}=\frac{ρ^\prime(s,a)}{\sum_{a^\prime}\rho^\prime(s,a^\prime)}\triangleq π_{ρ^\prime} πρaρ(s,a)ρ(s,a)=aρ(s,a)ρ(s,a)πρ 时等号成立。
对所有 s s s a a a 求和表明 H ˉ ( λ ρ + ( 1 − λ ) ρ ′ ) ≥ λ H ˉ ( ρ ) + ( 1 − λ ) H ˉ ( ρ ′ ) \bar H(λ\rho+ (1-λ)\rho') \geq λ\bar H(\rho) + (1-λ) \bar H(\rho') Hˉ(λρ+(1λ)ρ)λHˉ(ρ)+(1λ)Hˉ(ρ) 当且仅当 π ρ = π ρ ′ π_\rho = π_{ρ^\prime} πρ=πρ 时相等。
应用命题 3.1 表明等式实际上当且仅当 ρ = ρ ′ \rho = ρ' ρ=ρ 成立,因此 H ˉ \bar H Hˉ 是严格凹的。

在这里插入图片描述
在这里插入图片描述

现在,我们来验证最后两个陈述,它们也遵循命题 3.1 和 占用度量的定义。首先,
  ~  
H ( π ) = E [ − log ⁡ π ( a ∣ s ) ]            ( 23 ) = − ∑ s , a ρ π ( s , a ) log ⁡ π ( a ∣ s )            ( 24 ) = − ∑ s , a ρ π ( s , a ) log ⁡ ρ π ( s , a ) ∑ a ′ ρ π ( s , a ′ )            ( 25 ) = H ˉ ( ρ π )            ( 26 ) \begin{aligned}H(\pi)&={\mathbb E}[-\log \pi(a|s)]~~~~~~~~~~(23)\\ &=-\textcolor{blue}{\sum\limits_{s,a}\rho_\pi(s,a)}\log \pi(a|s)~~~~~~~~~~(24)\\ &=-\sum_{s,a}\rho_\pi(s,a)\log\frac{\rho_\pi(s,a)}{\sum_{a^\prime}\rho_\pi(s,a^\prime)}~~~~~~~~~~(25)\\ &=\bar H(\rho_\pi)~~~~~~~~~~(26)\\ \end{aligned} H(π)=E[logπ(as)]          (23)=s,aρπ(s,a)logπ(as)          (24)=s,aρπ(s,a)logaρπ(s,a)ρπ(s,a)          (25)=Hˉ(ρπ)          (26)
  ~  
其次
  ~  
H ˉ ( ρ ) = − ∑ s , a ρ ( s , a ) log ⁡ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ )            ( 27 ) = − ∑ s , a ρ π ρ ( s , a ) log ⁡ π ρ ( a ∣ s )            ( 28 ) = E π ρ [ − log ⁡ π ρ ( a ∣ s ) ]            ( 29 ) = H ( π ρ )                                ( 30 ) \begin{aligned}\bar H(\rho)&=-\sum_{s,a}\rho(s,a)\log\frac{\rho(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}~~~~~~~~~~(27)\\ &=-\sum_{s,a}\rho_{\pi_\rho}(s,a)\log \pi_\rho(a|s)~~~~~~~~~~(28)\\ &={\mathbb E}_{\pi_\rho}[-\log \pi_\rho(a|s)]~~~~~~~~~~(29)\\ &=H(\pi_\rho)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(30)\end{aligned} Hˉ(ρ)=s,aρ(s,a)logaρ(s,a)ρ(s,a)          (27)=s,aρπρ(s,a)logπρ(as)          (28)=Eπρ[logπρ(as)]          (29)=H(πρ)                              (30)

命题 3.2 的证明

在这里插入图片描述

Proof of Proposition 3.2. This proof relies on properties of saddle points. For a reference, we refer the reader to Hiriart-Urruty and Lemaréchal [10, section VII.4].
命题 3.2 的证明。这个证明依赖于鞍点的性质。
作为参考,我们请读者参阅 Hiriart-Urruty 和 lemarsamchal [10,第 7 .4 节 ]。
  ~  
c ~ ∈ IRL ψ ( π E ) ,     π ~ ∈ RL ( c ~ ) = RL ∘ IRL ψ ( π E ) \widetilde c\in\text{IRL}_\psi(\pi_E),~~~\widetilde \pi\in\text{RL}(\widetilde c)=\text{RL}\circ\text{IRL}_\psi(\pi_E) c IRLψ(πE),   π RL(c )=RLIRLψ(πE)

π A ∈ arg ⁡ min ⁡ π − H ( π ) + ψ ∗ ( ρ π − ρ π E )            ( 31 ) = arg ⁡ min ⁡ π max ⁡ c − H ( π ) − ψ ( c ) + ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a )            ( 32 ) \begin{aligned}\pi_A&\in \underset{\pi}{\arg\min}-H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(31)\\ &=\underset{\pi}{\arg\min}\max_c-H(\pi)-\psi(c)+\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)~~~~~~~~~~(32)\end{aligned} πAπargminH(π)+ψ(ρπρπE)          (31)=πargmincmaxH(π)ψ(c)+s,a(ρπ(s,a)ρπE(s,a))c(s,a)          (32)
  ~  
我们想证明 π A = π ~ π_A =\widetilde \pi πA=π
为此,设 ρ A \rho_A ρA π A π_A πA 的占用度量 ,设 ρ ~ \widetilde \rho ρ π ~ \widetilde \pi π 的占用度量,定义 L ˉ : D × R S × A → R \bar L:{\cal D}×{\mathbb R}^{\cal S\times A}→{\mathbb R} Lˉ:D×RS×AR 为:
  ~  
L ˉ ( ρ , c ) = − H ˉ ( ρ ) − ψ ( c ) + ∑ s , a ρ ( s , a ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) c ( s , a )            ( 33 ) \bar L(\rho, c)=-\bar H(\rho)-\psi(c)+\sum\limits_{s,a}\rho(s,a)c(s,a)-\sum\limits_{s,a}\rho_{\pi_E}(s,a)c(s,a)~~~~~~~~~~(33) Lˉ(ρ,c)=Hˉ(ρ)ψ(c)+s,aρ(s,a)c(s,a)s,aρπE(s,a)c(s,a)          (33)
  ~  
根据命题 3.1,以下关系成立:
  ~  
ρ A ∈ arg ⁡ min ⁡ ρ   ∈   D max ⁡ c L ˉ ( ρ , c )            ( 34 ) \rho_A\in \underset{\rho~\in~{\cal D}}{\arg\min}\max\limits_c\bar L(\rho,c)~~~~~~~~~~(34) ρAρ  DargmincmaxLˉ(ρ,c)          (34)
  ~  
c ~ ∈ arg ⁡ min ⁡ c max ⁡ ρ   ∈   D L ˉ ( ρ , c )            ( 35 ) \widetilde c\in\underset{c}{\arg\min}\max\limits_{\rho~\in~{\cal D}}\bar L(\rho,c)~~~~~~~~~~(35) c cargminρ  DmaxLˉ(ρ,c)          (35)
  ~  
ρ ~ ∈ arg ⁡ min ⁡ ρ   ∈   D L ˉ ( ρ , c ~ )            ( 36 ) \widetilde \rho\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho,\widetilde c)~~~~~~~~~~(36) ρ ρ  DargminLˉ(ρ,c )          (36)
  ~  
现在 D \cal D D 是紧致compact 且凸的, R S × A {\mathbb R}^{\cal S\times A} RS×A 是凸的;
更进一步,由于 − H ˉ - \bar H Hˉ ψ ψ ψ 的凸性,我们还得到 L ˉ ( ⋅ , c ) \bar L(·, c) Lˉ(⋅,c) 对所有 c c c 都是凸的, L ˉ ( ρ , ⋅ ) \bar L(\rho, ·) Lˉ(ρ,⋅) 对所有 ρ \rho ρ 都是凹的。
因此,我们可以利用极大极小对偶性 [16]:
  ~  
min ⁡ ρ   ∈   D max ⁡ c   ∈   C L ˉ ( ρ , c ) = max ⁡ c   ∈   C min ⁡ ρ   ∈   D L ˉ ( ρ , c )            ( 37 ) \textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\max\limits_{c~\in~{\cal C}}\bar L(\rho, c)=\max\limits_{c~\in~{\cal C}}\textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\bar L(\rho, c)~~~~~~~~~~(37) ρ  Dminc  CmaxLˉ(ρ,c)=c  Cmaxρ  DminLˉ(ρ,c)          (37)
  ~  
因此,从式(34)和(35), ( ρ A , c ~ ) (\rho_A, \widetilde c) (ρA,c ) L ˉ \bar L Lˉ 的鞍点,这意味着
  ~  
ρ A ∈ arg ⁡ min ⁡ ρ   ∈   D L ˉ ( ρ , c ~ )            ( 38 ) \rho_A\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho, \widetilde c)~~~~~~~~~~(38) ρAρ  DargminLˉ(ρ,c )          (38)
  ~  
因为 L ˉ ( ⋅ , c ) \bar L(·,c) Lˉ(⋅,c) 对于所有 c c c 都是严格凸的(引理 3.1),式(36)和(38)意味着 ρ A = ρ ~ \rho_A =\widetilde \rho ρA=ρ
由于占用度量对应的策略是唯一的(命题 3.1),我们得到 π A = π ~ \pi_A =\widetilde \pi πA=π

A.2 Section 5 的证明

在第 5 节的 Eq.(13) 中,我们描述了一个 cost 正则器 ψ GA \psi_\text{GA} ψGA,引出最小化占用度量之间的 Jensen-Shannon 散度的模仿学习算法 (15) 。
为了证明我们选择 ψ GA ψ_\text{GA} ψGA 的合理性,我们展示了如何将某些替代损失函数surrogate loss functions ϕ \phi ϕ(用于从占用度量 ρ π \rho_\pi ρπ ρ π E \rho_{\pi_E} ρπE 中得出的状态-动作对的二元分类)转换为 cost function 正则化器 ψ ψ ψ,其中 ψ ∗ ( ρ π , ρ π E ) \psi^*(ρ_π, \rho_{\pi_E}) ψ(ρπ,ρπE) ϕ \phi ϕ 的风险的期望 R ϕ ( ρ π , ρ π E ) R_\phi(ρ_π, \rho_{\pi_E}) Rϕ(ρπ,ρπE) 的最小值。
  ~  
R ϕ ( π , π E ) = ∑ s , a min ⁡ γ   ∈   R ρ π ( s , a ) ϕ ( γ ) + ρ π E ( s , a ) ϕ ( − γ )            ( 39 ) R_\phi(\pi,\pi_E)=\sum\limits_{s,a}\min\limits_{\gamma ~\in~ {\mathbb R}}\rho_\pi(s,a)\phi(\gamma)+\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(39) Rϕ(π,πE)=s,aγ  Rminρπ(s,a)ϕ(γ)+ρπE(s,a)ϕ(γ)          (39)
  ~  
具体来说,我们将把自己限制在严格递减的凸损失函数中。
Nguyen 等[19]证明了风险的 R ϕ R_\phi Rϕ 的最小值 与 f f f-散度之间的对应关系,其中 Jensen - Shannon 散度是一个特例。
因此,我们下面的构造可以生成任何模仿学习算法,只要 f f f-散度是由严格递减的凸代理 ϕ \phi ϕ 引起的,就可以最小化占用度量之间的 f f f-散度。

命题 A.1

Proposition A.1.
假设 ϕ : R → R \phi:{\mathbb R}→{\mathbb R} ϕ:RR 为严格递减凸函数。
T T T − ϕ -\phi ϕ 的值域,定义 g ϕ : R → R ‾ g_\phi: {\mathbb R}→\overline {\mathbb R} gϕ:RR ψ ϕ : R S × A → R ‾ ψ_\phi: {\mathbb R}^{\cal S\times A}→\overline {\mathbb R} ψϕ:RS×AR 为:
  ~  
g ϕ ( x ) = { − x + ϕ ( − ϕ − 1 ( − x ) ) if   x ∈ T + ∞ otherwise            ( 40 ) g_\phi(x)=\begin{cases}-x+\phi(-\phi^{-1}(-x))&\text{if}~~x\in T\\ +\infty &\text{otherwise}\end{cases}~~~~~~~~~~(40) gϕ(x)={x+ϕ(ϕ1(x))+if  xTotherwise          (40)
  ~  
ψ ϕ ( c ) = { ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) ) if   c ( s , a ) ∈ T  for all  s , a + ∞ otherwise \psi_\phi(c)=\begin{cases}\sum\limits_{s,a}\rho_{\pi_E}(s,a)\textcolor{blue}{g_\phi}(c(s,a))&\text{if}~~c(s,a)\in T~\text{for all} ~s,a\\ +\infty&\text{otherwise}\end{cases} ψϕ(c)= s,aρπE(s,a)gϕ(c(s,a))+if  c(s,a)T for all s,aotherwise
  ~  
那么, ψ ϕ ψ_\phi ψϕ 是 closed,proper,convex凸的,且 RL ∘ IRL ψ ϕ ( π E ) = arg ⁡ min ⁡ π − H ( π ) − R ϕ ( ρ π , ρ π E ) \text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E}) RLIRLψϕ(πE)=argminπH(π)Rϕ(ρπ,ρπE)

在这里插入图片描述

在这里插入图片描述
〔 proper 函数:必不为 − ∞ -\infty ,且存在有限值 〕

在这里插入图片描述

来自链接

证明:
为了验证第一个论断,只需检查 g ϕ ( x ) = − x + ϕ ( − ϕ − 1 ( − x ) ) g_\phi(x) =-x+\phi(-\phi^{-1}(-x)) gϕ(x)=x+ϕ(ϕ1(x)) 是 closed、proper 和 凸的就足够了。
凸性来源于 x ↦ ϕ ( − ϕ − 1 ( − x ) ) x\mapsto \phi(-\phi^{-1}(-x)) xϕ(ϕ1(x)) 是凸的事实,因为它是一个凹函数后面跟着一个非递增 凸函数。
此外,因为 T T T 是非空的,所以 g ϕ g_\phi gϕ 是 proper。
为了证明 g ϕ g_\phi gϕ 是 closed,注意因为 ϕ \phi ϕ 是严格递减且凸的,所以 ϕ \phi ϕ 的范围要么是 R \mathbb R R 的全部,要么是对于某些 b ∈ R b\in {\mathbb R} bR的一个开区间 ( b , ∞ ) (b, \infty) (b,)
如果 ϕ \phi ϕ 的范围是 R \mathbb R R,那么 g ϕ g_\phi gϕ 在任何地方都是有限的,因此是 closed。
另一方面,如果 ϕ \phi ϕ 的范围是 ( b , ∞ ) (b, \infty) (b,),那么当 x → ∞ x→\textcolor{blue}{\infty} x ϕ ( x ) → b \phi(x)→\textcolor{blue}{b} ϕ(x)b,且当 x → − ∞ x→\textcolor{blue}{-\infty} x ϕ ( x ) → ∞ \phi(x)→\infty ϕ(x)
因此,当 x → b x→b xb 时, ϕ − 1 ( − x ) → ∞ \phi^{-1}(-x)→\infty ϕ1(x),且 ϕ ( − ϕ − 1 ( − x ) ) → ∞ \phi (-\phi^{-1}(-x))→\infty ϕ(ϕ1(x)),这意味着 当 x → b x→b xb,有 g ϕ ( x ) → ∞ g_\phi(x)→\infty gϕ(x),这意味着 g ϕ g_\phi gϕ 是 closed。

现在证明第二个论断。
根据命题 3.2, 我们只需确认 − R ϕ ( ρ π , ρ π E ) = ϕ ϕ ∗ ( ρ π , ρ π E ) -R_\phi(\rho_\pi,\rho_{\pi_E})=\phi_\phi^*(\rho_\pi,\rho_{\pi_E}) Rϕ(ρπ,ρπE)=ϕϕ(ρπ,ρπE)

命题 3.2      RL ∘ IRL ψ ( π E ) = arg ⁡ min ⁡ π ∈ Π − H ( π ) + ψ ∗ ( ρ π − ρ π E )            ( 4 ) ~~~~~\text{RL}\circ\text{IRL}_\psi(\pi_E)=\arg\min_{\pi\in \Pi} -H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(4)      RLIRLψ(πE)=argminπΠH(π)+ψ(ρπρπE)          (4)
  ~  
论断 2:       RL ∘ IRL ψ ϕ ( π E ) = arg ⁡ min ⁡ π − H ( π ) − R ϕ ( ρ π , ρ π E ) ~~~~~~\text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E})       RLIRLψϕ(πE)=argminπH(π)Rϕ(ρπ,ρπE)

ψ ϕ ∗ ( ρ π − ρ π E ) = max ⁡ c   ∈   C ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) )            ( 41 )       式  ( 31 ) ( 32 ) ( 40 ) = ∑ s , a max ⁡ c   ∈   T ( ρ π ( s , a ) − ρ π E ( s , a ) ) c − ρ π E ( s , a ) [ − c + ϕ ( − ϕ − 1 ( − c ) ) ]            ( 42 )       式  ( 40 ) = ∑ s , a max ⁡ c   ∈   T ρ π ( s , a ) c − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( − c ) )            ( 43 )       合并,求和抵消 = ∑ s , a max ⁡ γ   ∈   R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( ϕ ( γ ) ) )            ( 44 )       令  c = − ϕ ( γ ) = ∑ s , a max ⁡ γ   ∈   R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − γ )            ( 45 ) = − R ϕ ( ρ π , ρ π E )            ( 46 )        式  ( 39 ) \begin{aligned}\psi_\phi^*(\rho_\pi-\rho_{\pi_E})&=\max\limits_{c~\in~{\cal C}}\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)-\sum_{s,a}\rho_{\pi_E}(s,a)g_\phi(c(s,a))~~~~~~~~~~(41)~~~~~\textcolor{blue}{式~(31)(32)(40)}\\ &=\sum_{s,a}\max\limits_{c~\in~\textcolor{blue}{T}}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c-\rho_{\pi_E}(s,a)\Big[-c+\phi(-\phi^{-1}(-c))\Big]~~~~~~~~~~(42)~~~~~\textcolor{blue}{式~(40)}\\ &=\sum_{s,a}\max_{c~\in~T}\rho_\pi(s,a)c-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(-c))~~~~~~~~~~(43)~~~~~\textcolor{blue}{合并,求和抵消}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(\phi(\gamma)))~~~~~~~~~~(44)~~~~~\textcolor{blue}{令~c=-\phi(\gamma)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(45)\\ &=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(46)~~~~~~\textcolor{blue}{式~(39)}\end{aligned} ψϕ(ρπρπE)=c  Cmaxs,a(ρπ(s,a)ρπE(s,a))c(s,a)s,aρπE(s,a)gϕ(c(s,a))          (41)      (31)(32)(40)=s,ac  Tmax(ρπ(s,a)ρπE(s,a))cρπE(s,a)[c+ϕ(ϕ1(c))]          (42)      (40)=s,ac  Tmaxρπ(s,a)cρπE(s,a)ϕ(ϕ1(c))          (43)     合并,求和抵消=s,aγ  Rmaxρπ(s,a)(ϕ(γ))ρπE(s,a)ϕ(ϕ1(ϕ(γ)))          (44)      c=ϕ(γ)=s,aγ  Rmaxρπ(s,a)(ϕ(γ))ρπE(s,a)ϕ(γ)          (45)=Rϕ(ρπ,ρπE)          (46)       (39)
  ~  
我们做了变量 c → − ϕ ( γ ) c→-\phi(γ) cϕ(γ) 的变换,因为 T T T − ϕ - \phi ϕ 的取值范围。

展示了如何构造一个 cost function 正则器 ψ ϕ ψ_\phi ψϕ,作为推论,我们得到了一个逻辑损失的 cost function 正则器,其最优风险期望是 Jensen-Shannon 散度,up to 一个常数。

推论 A.1.1

Corollary A.1.1. The cost regularizer (13)
  ~  
ϕ GA ( c ) ≜ { E π E [ g ( c ( s , a ) ) ] if   c < 0 + ∞ otherwise \phi_\text{GA}(c)\triangleq\begin{cases}{\mathbb E}_{\pi_E}[g(c(s,a))]&\text{if}~~c<0\\ +\infty&\text{otherwise}\end{cases} ϕGA(c){EπE[g(c(s,a))]+if  c<0otherwise
  ~  
其中
g ( x ) = { − x − log ⁡ ( 1 − e x ) if   x < 0 + ∞ otherwise g(x)=\begin{cases}-x-\log(1-e^x)&\text{if}~~x<0\\ +\infty&\text{otherwise}\end{cases} g(x)={xlog(1ex)+if  x<0otherwise
  ~  
满足
  ~  
ψ GA ∗ ( ρ π − ρ π E ) = max ⁡ D   ∈   ( 0 , 1 ) S × A E π [ log ⁡ ( D ( s , a ) ) ] + E π E [ log ⁡ ( 1 − D ( s , a ) ) ]            ( 47 ) \psi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})=\max\limits_{D~\in~(0,1)^{\cal S\times A}}{\mathbb E}_\pi[\log(D(s,a))]+{\mathbb E}_{\pi_E}[\log(1-D(s,a))]~~~~~~~~~~(47) ψGA(ρπρπE)=D  (0,1)S×AmaxEπ[log(D(s,a))]+EπE[log(1D(s,a))]          (47)

证明:
使用逻辑损失 ϕ ( x ) = log ⁡ ( 1 + e − x ) \phi(x) = \log(1 + e^{−x}) ϕ(x)=log(1+ex),我们看到 Eq.(40) 简化为声明的 ψ GA ψ_\text{GA} ψGA
应用命题 A.1,我们得到
  ~  
ϕ GA ∗ ( ρ π − ρ π E ) = − R ϕ ( ρ π , ρ π E )            ( 48 )        式  ( 46 ) = ∑ s , a max ⁡ γ   ∈   R ρ π ( s , a ) log ⁡ ( 1 1 + e − γ ) + ρ π E ( s , a ) log ⁡ ( 1 1 + e γ )            ( 49 )        式  ( 45 ) , 代入  ϕ = ∑ s , a max ⁡ γ   ∈   R ρ π ( s , a ) log ⁡ ( 1 1 + e − γ ) + ρ π E ( s , a ) log ⁡ ( 1 − 1 1 + e − γ )            ( 50 ) = ∑ s , a max ⁡ γ   ∈   R ρ π ( s , a ) log ⁡ ( σ ( γ ) ) + ρ π E ( s , a ) log ⁡ ( 1 − σ ( γ ) )            ( 51 )        其中  σ ( x ) = 1 1 + e − x  是 sigmoid 函数,且  σ   ∈   ( 0 , 1 ) = ∑ s , a max ⁡ d   ∈   ( 0 , 1 ) ρ π ( s , a ) log ⁡ d + ρ π E ( s , a ) log ⁡ ( 1 − d )            ( 52 )        令  d = σ ( γ ) = max ⁡ D   ∈   ( 0 , 1 ) S × A ∑ s , a ρ π ( s , a ) log ⁡ ( D ( s , a ) ) + ρ π E ( s , a ) log ⁡ ( 1 − D ( s , a ) )            ( 53 )        D ( s , a )  替换  d \begin{aligned}\phi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})&=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(48)~~~~~~\textcolor{blue}{式~(46)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\frac{1}{1 + e^\gamma}\Big)~~~~~~~~~~(49)~~~~~~\textcolor{blue}{式~(45),代入 ~\phi}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\textcolor{blue}{1-\frac{1}{1 + e^{−\gamma}}}\Big)~~~~~~~~~~(50)\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\sigma(\gamma)\Big)+\rho_{\pi_E}(s,a)\log\Big(1-\sigma(\gamma)\Big)~~~~~~~~~~(51)~~~~~~\textcolor{blue}{其中~\sigma(x)=\frac{1}{1+e^{-x}}~是~ \text{sigmoid}~函数,且~\sigma~\in~(0,1)}\\ &=\sum_{s,a}\max_{d~\in~(0,1)}\rho_\pi(s,a) \log d+\rho_{\pi_E}(s,a)\log (1-d) ~~~~~~~~~~(52)~~~~~~\textcolor{blue}{令~d=\sigma(\gamma)}\\ &=\max_{D~\in~(0,1)^{\cal S\times A}}\sum_{s,a}\rho_\pi(s,a) \log (D(s,a))+\rho_{\pi_E}(s,a)\log (1-D(s,a)) ~~~~~~~~~~(53)~~~~~~\textcolor{blue}{D(s,a)~替换~d}\end{aligned} ϕGA(ρπρπE)=Rϕ(ρπ,ρπE)          (48)       (46)=s,aγ  Rmaxρπ(s,a)log(1+eγ1)+ρπE(s,a)log(1+eγ1)          (49)       (45),代入 ϕ=s,aγ  Rmaxρπ(s,a)log(1+eγ1)+ρπE(s,a)log(11+eγ1)          (50)=s,aγ  Rmaxρπ(s,a)log(σ(γ))+ρπE(s,a)log(1σ(γ))          (51)      其中 σ(x)=1+ex1  sigmoid 函数,且 σ  (0,1)=s,ad  (0,1)maxρπ(s,a)logd+ρπE(s,a)log(1d)          (52)       d=σ(γ)=D  (0,1)S×Amaxs,aρπ(s,a)log(D(s,a))+ρπE(s,a)log(1D(s,a))          (53)      D(s,a) 替换 d
  ~  
这就是我们想要的表达式。

We conclude with a policy gradient formula for causal entropy.
我们得出因果熵的策略梯度公式。

引理 A.1 因果熵的策略梯度公式

Lemma A.1 因果熵梯度:
  ~  
∇ θ E π θ [ − log ⁡ π θ ( a ∣ s ) ] = E π θ [ ∇ θ log ⁡ π θ ( a ∣ s ) Q log ( s , a ) ]            ( 54 ) \nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]={\mathbb E}_{\pi_\theta}[\nabla_\theta\log \pi_\theta(a|s)Q_\text{log}(s,a)]~~~~~~~~~~(54) θEπθ[logπθ(as)]=Eπθ[θlogπθ(as)Qlog(s,a)]          (54)
  ~  
其中    Q log ( s ˉ , a ˉ ) = E π θ [ − log ⁡ π θ ( a ∣ s ) ∣ s 0 = s ˉ , a 0 = a ˉ ] ~~Q_\text{log}(\bar s, \bar a)={\mathbb E}_{\pi_\theta}[-\log \pi_\theta(a|s)| s_0=\bar s, a_0=\bar a ]   Qlog(sˉ,aˉ)=Eπθ[logπθ(as)s0=sˉ,a0=aˉ]

证明: 对于占用度量 ρ ( s , a ) ρ(s, a) ρ(s,a),定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=aρ(s,a)。则
  ~  
∇ θ E π θ [ − log ⁡ π θ ( a ∣ s ) ] = − ∇ θ ∑ s , a ρ π θ ( s , a ) log ⁡ π θ ( a ∣ s )        期望展开 = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log ⁡ π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) ∇ θ log ⁡ π θ ( a ∣ s )        乘积的求导 + 补充推导 ① = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log ⁡ π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a ∇ θ π θ ( a ∣ s )        补充推导 ②       后一项中    ∑ a ∇ θ π θ ( a ∣ s ) = ∇ θ ∑ a π θ ( a ∣ s ) = ∇ θ 1 = 0 = ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) ( − log ⁡ π θ ( a ∣ s ) ) \begin{aligned}\nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]&=-\nabla_\theta \sum_{s,a}\rho_{\pi_\theta}(s,a)\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{期望展开}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{乘积的求导+补充推导 ~①}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \nabla_\theta \pi_\theta(a|s)~~~~~~\textcolor{blue}{ 补充推导 ~②}\\ &~~~~~\textcolor{blue}{后一项中~~~\sum_a \nabla_\theta \pi_\theta(a|s)=\nabla_\theta \sum_a \pi_\theta(a|s)=\nabla_\theta 1=0}\\ &=\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))(-\log \pi_\theta(a|s) )\end{aligned} θEπθ[logπθ(as)]=θs,aρπθ(s,a)logπθ(as)      期望展开=s,a(θρπθ(s,a))logπθ(as)sρπθ(s)aπθ(as)θlogπθ(as)      乘积的求导+补充推导 =s,a(θρπθ(s,a))logπθ(as)sρπθ(s)aθπθ(as)      补充推导      后一项中   aθπθ(as)=θaπθ(as)=θ1=0=s,a(θρπθ(s,a))(logπθ(as))
  ~  
它是 具有固定 cost function c log ( s , a ) ≜ − log ⁡ π θ ( a ∣ s ) c_\text{log}(s, a) \triangleq -\log \pi_\theta(a|s) clog(s,a)logπθ(as) 的 RL 的策略梯度。
所得公式由 c log c_\text{log} clog 的标准策略梯度公式给出

补充推导 ①:
由 定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=aρ(s,a)

π θ ( a ∣ s ) = ρ π θ ( s , a ) ∑ a ′ ρ π θ ( s , a ′ ) = ρ π θ ( s , a ) ρ π θ ( s ) \pi_\theta(a|s)=\frac{\rho_{\pi_\theta}(s,a)}{\sum_{a^\prime}\rho_{\pi_\theta}(s,a^\prime)}=\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)} πθ(as)=aρπθ(s,a)ρπθ(s,a)=ρπθ(s)ρπθ(s,a)

  • ∑ s , a ρ π θ ( s , a ) = ∑ s , a ρ π θ ( s ) π θ ( a ∣ s ) = ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) \sum\limits_{s,a}\rho_{\pi_\theta}(s,a)=\sum\limits_{s,a}\rho_{\pi_\theta}(s)\pi_\theta(a|s)=\sum\limits_s\rho_{\pi_\theta}(s)\sum\limits_a\pi_\theta(a|s) s,aρπθ(s,a)=s,aρπθ(s)πθ(as)=sρπθ(s)aπθ(as)

  • ∑ a π θ ( a ∣ s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ρ π θ ( s ) ρ π θ ( s ) = 1 \sum\limits_a\pi_\theta(a|s)=\sum\limits_a\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac{\sum\limits_a\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac {\rho_{\pi_\theta}(s)}{\rho_{\pi_\theta}(s)}=1 aπθ(as)=aρπθ(s)ρπθ(s,a)=ρπθ(s)aρπθ(s,a)=ρπθ(s)ρπθ(s)=1

补充推导 ②:
π θ ( a ∣ s ) ∇ θ log ⁡ π θ ( a ∣ s ) = π θ ( a ∣ s ) ⋅ 1 π θ ( a ∣ s ) ∇ θ π θ ( a ∣ s ) = ∇ θ π θ ( a ∣ s ) \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)=\pi_\theta(a|s)·\frac{1}{\pi_\theta(a|s)}\nabla_\theta\pi_\theta(a|s)=\nabla_\theta\pi_\theta(a|s) πθ(as)θlogπθ(as)=πθ(as)πθ(as)1θπθ(as)=θπθ(as)


http://www.niftyadmin.cn/n/5744192.html

相关文章

阿里云多端低代码开发平台魔笔使用测评

文章目录 前言一、魔笔是什么&#xff1f;二、测评1.基本组件布局2.前端逻辑3.事件绑定 总结 前言 最近对于低代码平台挺感兴趣的&#xff0c;了解到很多云服务&#xff0c;国内有很多的这种平台&#xff0c;最近阿里云推出了他们的多端低代码开发平台魔笔&#xff0c;目前还在…

qt QTextCursor详解

1、概述 QTextCursor是Qt框架中用于在QTextDocument或QTextEdit中编辑和导航文本的类。它提供了对文本选择和编辑操作的低级控制&#xff0c;允许插入、删除、修改文本以及改变文本的格式。QTextCursor可以看作是一个在文本中移动的插入点或选择区域&#xff0c;通过它可以执行…

uniapp实现H5和微信小程序获取当前位置(腾讯地图)

之前的一个老项目&#xff0c;使用 uniapp 的 uni.getLocation 发现H5端定位不准确&#xff0c;比如余杭区会定位到临平区&#xff0c;根据官方文档初步判断是项目的uniapp的版本太低。 我选择的方式不是区更新uniapp的版本&#xff0c;是直接使用高德地图的api获取定位。 1.首…

【深度学习】论文笔记:空间变换网络(Spatial Transformer Networks)

博主简介&#xff1a;努力学习的22级计算机科学与技术本科生一枚&#x1f338;博主主页&#xff1a; Yaoyao2024往期回顾&#xff1a; 【机器学习】有监督学习由浅入深讲解分类算法Fisher算法讲解每日一言&#x1f33c;: 今天不想跑&#xff0c;所以才去跑&#xff0c;这才是长…

RK3568 关于python依赖Miniconda3虚拟环境自启动

有关如何安装Miniconda3可以查看博客:RK3568 安装Miniconda3_miniconda3 aarch64 linux-CSDN博客 然后目前有个需求是需要开机自启动python脚本,但是需要依赖于虚拟环境,也就是说一起来就要打开虚拟环境并运行python脚本,一旦没有虚拟环境,python脚本就无法运行 解决办法…

Go语言的常用内置函数

文章目录 一、Strings包字符串处理包定义Strings包的基本用法Strconv包中常用函数 二、Time包三、Math包math包概述使用math包 四、随机数包&#xff08;rand&#xff09; 一、Strings包 字符串处理包定义 Strings包简介&#xff1a; 一般编程语言包含的字符串处理库功能区别…

使用Python简单实现客户端界面

服务端实现 import threading import timeimport wx from socket import socket, AF_INET, SOCK_STREAMclass LServer(wx.Frame):def __init__(self):wx.Frame.__init__(self, None, id1002, titleL服务器端界面, poswx.DefaultPosition, size(400, 450))# 窗口中添加面板pl …

mysql常见的一些配置项

MySQL 有许多配置选项&#xff0c;可以用来调整其行为以满足特定的需求。以下是一些常见的配置选项&#xff0c;除了大小写敏感之外&#xff0c;这些配置选项也经常被调整&#xff1a; 1. 字符集和排序规则 character_set_server: 设置服务器的默认字符集。collation_server:…