기 호 설 명
Introduction
1) Embedding for multiagent: 현재 군집의 상태를 표현하기 위해 각 개체의 상태 벡터를 모두 연결(concatenate)하는 경우 군집의 규모가 커질수록 탐색할 공간 또한 지수적으로 증가하여 적절한 해를 찾는데 막대한 자원이 들어가거나 아예 해를 찾지 못하게 되는 차원의 저주(curse of dimensionality) 문제가 발생한다. 이를 해결하기 위한 방법으로 군집 객체에 대한 상태를 표현하는 임베딩(embedding) 기법들이 개발되었으며, 단순 평균값, 임베딩된 벡터의 평균값[11], 어텐션(attention)으로 가중을 준 임베딩[14] 등 다양한 방법이 존재한다.
2) Transfer learning[15]: 확장성 문제를 해결하기 위한 다른 접근법으로 개체수에 상관없이 유사한 행동 패턴을 보이기도 한다는 점 혹은 단순한 임무의 조합으로 복잡한 임무의 구성이 가능하다는 점에 착안하여, 작은 규모의 환경 혹은 난이도가 낮은 임무에 대해 학습한 후 점진적으로 개체수를 늘리거나 문제의 복잡도를 높이는 방식을 사용할 수 있다. 전 단계에서 학습한 내용을 다음 단계로 전달하기 때문에 이러한 접근법을 전이 학습(transfer learning) 혹은 커리큘럼 학습(curriculum learning)이라고 한다.
3) Decentralized acting policy with centralized training: 개별 네트워크처럼 학습하여 개체 간의 상호작용이 전혀 고려되지 않거나(Independent Q-Learning, IQL), 모든 개체들의 상태 및 행동을 한꺼번에 고려한 통합 네트워크를 학습하여 군집 측면에서 개체의 행동이 결정될 수 있지만 차원의 저주문제를 지니게 되는 (Counterfactual Multi-Agent policy gradient, COMA)의 극단적인 두 방식을 적절히 혼용하여 개별 네트워크는 분산화하여 각자 정책(policy)대로 행동하고, 통합 네트워크에서 이를 취합하여 학습하도록 함으로써 학습 성능과 효율을 확보할 수 있도록 하는 방식으로 QMIX[16], VDN[17], MADDPG[4] 등의 알고리즘이 개발되었다.
Backgrounds
2.1 Swarm Markov Decision Process
2.2 Q-learning with QMIX[16]
2.3 Transfer learning[15]
Methodologies
3.1 QMIX-TL: QMIX with transfer learning
Experiments
4.1 Problem descriptions
4.2 Experiment setups
Table 1.
Table 2.
Global states, st | |
---|---|
Absolute positions: agent | Px,i, Py,i |
Absolute positions: target | Px,k, Py,k |
Actions: agent | ax,i, ay,i |
Actions: target | ax,k, ay,k |
HPs: agent | hpi |
HPs: target | hpk |
4.3 Experiment results
Table 3.
구분 | 학습시간 계산 | 실소요시간 |
---|---|---|
TL | tTL = Tsmall × tsmall + Tlarge × tlarge | 367 hrs |
DL | tDL = (Tsmall + Tlarge) + × tlarge | 532 hrs |