상세 컨텐츠

본문 제목

[6주차 / 문성빈 / 논문리뷰] Generative Adversarial Imitation Learning

방학 세션/CV

by Brian Moon 2023. 2. 21. 23:06

본문

<aside> 💡 논문링크

Generative Adversarial Imitation Learning

</aside>

1. Introduction

 Reinforcement Learning(강화학습)에는 여러가지 알고리즘 존재하는데, 이 글에서는 그 중 Behavioral Cloning(BC)이라는 알고리즘을 이용하는 Generative Adversarial Imitation Learning(GAIL)에 대해 설명하려고 합니다.

 먼저 Behavioral Cloning이 무엇인지에 대해서 간단히 얘기해보겠습니다. 일반적으로 강화학습은 Agent가 Environment에서 직접 시행착오를 진행시키며 Reward를 최대화하는 방향으로 Action을 학습합니다. 하지만 이러한 일반적인 강화학습과는 다르게 모방학습이라는 기법이 존재합니다. 이는 사람이 직접 Environment에서 진행시킨 데이터를 이용해 이러한 Expert의 행동을 모방하도록 학습하는 알고리즘입니다. 여기서 사람의 데이터는 State, Action, Reward로 구성되어 있습니다.

 State는 문제, Action은 정답과 같은 느낌으로 대응되므로, Agent 입장에서 BC의 Learning Process는 General Regression Problem과 비슷하게 작동합니다. 그렇지만, learner가 어떻게 행동해야하는지에 대해 직접적으로 알려주지 않으므로 Cost function을 통해 간접적으로 학습하기 때문에 학습이 느릴 수 있습니다. 이에 GAN을 이용하여 policy를 직접적으로 학습하여 해결하는 것이 GAIL이라는 모델입니다.

2. Background

2.1 Inverse Reinforcement Learning

 IRL은 행동의 의도를 학습하는 특징이 있습니다. Expert’s policy가 주어졌을 때 IRL을 사용하여 설명할 수 있습니다. GAIL에서는 maximum casual entropy IRL을 사용하고, 이에 해가 있다고 가정합니다. 그 식은 아래와 같습니다.

$$ \underset { c\in { C } }{\mathbf{maximize} }(\min_{\pi\in\Pi}-H( \pi )+ { \mathbb{E_{\pi}}[ c(s,a)] })- { \mathbb{E_{\pi_E}}}[c(s,a)] $$

 이는 expert의 policy에는 낮은 값을 부여하고, 다른 policy에는 높은 값을 부여하는 cost function을 구하고, 이러한 cost function을 RL의 과정에서 제일 cost가 낮은 policy를 구하는 반복과정을 의미합니다.

$$ \mathbf{RL}(c)=\underset{\pi\in\Pi}{\mathbf{argmin}}-H(\pi)+{ \mathbb{E} }_{ \pi }[ c(s,a) ] $$

 결국 위의 식에서 cost를 최소화하는 동시에 높은 entropy를 갖는 최적의 policy를 찾는다는 것을 알 수 있습니다.

하지만 이러한 IRL의 방식은 두 가지의 큰 문제점을 가지고 있습니다.

  1. Indirect한 문제로 구하고자 하는건 policy지만 cost를 거쳐서 구한다.
  2. Expensive한 문제로 알고리즘 내부의 RL Loop이 존재해 이는 매우 비효율적이다.

3. Characterizing The Induced Optimal Policy

 IRL은 expert policy가 다른 모든 policy들보다 낮은 cost가 발생하도록 하는 cost function을 찾아야하는 과정이랑 같습니다.

$$ IRL_{\psi} = arg\max_{c \in \mathbb{R}^{S \times A}} -\psi(c) + \big( \min_{\pi \in \Pi} -H(\pi) + \mathbb{E}{\pi}[c(s,a)] \big) - \mathbb{E}{\pi_E}[c(s,a)],\\ \text{where } \psi \text{ is a cost regularizer}. $$

 우리가 여기서 주목하는 것은 RL(c)의 결과로 얻어지는 policy입니다.

$$ RL \circ IRL_\psi (\pi_E) = arg\min_{\pi \in \Pi} -H(\pi) + \psi^* (\rho_\pi - \rho_{\pi_E}) $$

 결국은 ψ∗에 의한 occupancy measure간의 차이가 최대한 작게끔 하는 것입니다. 만약 ψ가 constant function이라면 이러한 문제는 cost가 inequality constraint에 대한 변수가 2개인 최적화 문제로 정의할 수 있는 것입니다.

$$ \min_{\rho \in \mathcal{D}} -H(\rho) \text{ subject to } \rho(s, a) = \rho_E(s,a) \: \forall s \in \mathcal{S}, a \in \mathcal{A}. $$

 최종적으로 정리해보자면 IRL은 occupancy measure가 expert의 것과 일치하는 policy를 얻어내는 과정이라고 볼 수 있는 것입니다.

4. Generative Adversarial Imitation Learning

 Cost regularizer를 다음과 같이 정의할 수 있고, conjugate function은 Jensen-Shannon divergence의 정의로부터 정리됩니다.

이러한 regularizer는 cost function이 expert sate-action에 대해 낮은 cost를 예측하면 penalty를 적게 주고, 반대의 상황에서는 큰 penalty를 발생시킵니다.

 최종적으로 objective function을 정의하자면 아래와 같습니다.

$$ \min_\pi \psi^∗_{GA} (\rho_\pi - \rho_{\pi_E}) - \lambda H(\pi) = D_{JS} (\rho_\pi, \rho_{\pi_E}) - \lambda H(\pi),\\ \text{which finds a policy whose occupacy measure minimizes Jensen-Shannon divergence to the expert's.} $$

 결국 conjugate function의 정의식으로부터 RL-IRL문제를 GAN Training Problem으로 대체할 수 있는 것이며, cost function의 update step마다 비용 없이 IRL, RL을 동시에 학습할 수 있는 것입니다. 또한, NN을 사용하기 때문에 gradient descent만으로 학습이 가능합니다.

5. Conclusion

 GAIL은 GAN이라는 Genrative model을 사용하여 IRL의 단점을 해결한 모델로, 강화학습이라는 분야에서 크게 기여한 논문으로 의의가 있는 논문입니다. 수학적으로 매우 복잡하다는 생각이 들지만, 여러 번 정리해보면서 익힐 필요성이 충분해보입니다.

 

참고문헌

[정리] Generative Adversarial Imitation Learning

Generative Adversarial Imitation Learning

Generative Adversarial Imitation Learning

</aside>

 

관련글 더보기

댓글 영역