서 론
현대 해전에서 잠수함은 비대칭 전력의 핵심으로서 그 전략적 중요성이 날로 증대되고 있다. 수중이라는 제한된 환경 속에서 복잡한 임무를 수행하는 잠수함에게 생존성은 모든 임무의 성공을 위한 필수 전제조건이다. 특히, 발전하는 탐지 기술과 지능화된 유도 시스템을 갖춘 적 어뢰는 잠수함의 생존에 가장 직접적이고 심각한 위협으로 작용한다. 이러한 위협에 효과적으로 대응하기 위한 전술 수립은 어뢰의 접근 패턴, 수중 음향 환경, 자함의 기만기 성능 등 수많은 변수를 고려해야 하는 고차원적인 의사결정 문제이다.
고차원적인 문제에 강화학습을 적용하는 것은 스스로 최적의 전략을 찾아낼 수 있다는 점에서 강력한 잠재력을 가진다. 하지만 복잡한 시뮬레이션 환경에 일반적인 강화학습 훈련 방식을 그대로 적용할 경우, 학습의 효율성 저하 및 최종 정책의 성능 불안정성이라는 새로운 과제에 직면하게 된다[1-3]. 에이전트가 방대한 탐색 공간 속에서 의미 있는 전략을 발견하기까지 많은 시간이 소요될 뿐만 아니라, 전체적인 상황을 고려하지 못하는 근시안적이거나[4] 특정 상황에만 과적합된[5] 정책에 수렴할 위험이 존재하기 때문이다.
본 연구는 앞서 제기된 강화학습의 비효율적인 탐색 문제와 근시안적인 정책 수렴의 한계를 극복하고 더 강건하며 일반화 성능이 뛰어난 전술 정책을 학습시키기 위한 핵심 전략으로 ‘커리큘럼 학습’을 채택한다. 커리큘럼 학습은 인간의 학습 방식에서 영감을 얻은 훈련 방법론으로, 쉬운 문제부터 어려운 문제 순으로 학습 단계를 점진적으로 구성함으로써 에이전트가 더 효율적으로 문제 공간을 탐색하고, 더 높은 일반화 성능을 갖춘 정책을 안정적으로 학습하도록 돕는다. 이는 복잡한 과업일수록 체계적인 학습 과정의 설계가 중요함을 시사한다. 하지만 커리큘럼 학습의 성패는 ‘어떻게 데이터의 난이도를 정의할 것인가’와 ‘어떤 순서와 속도로 학습을 진행할 것인가’라는 커리큘럼 설계 문제에 전적으로 의존한다는 한계가 있다[6].
이에 본 논문은 커리큘럼 학습을 잠수함 전술 훈련에 체계적으로 적용하기 위한 실용적인 설계 프레임워크를 제안한다. 제안하는 프레임워크는 크게 두 가지 핵심요소로 구성된다. 첫째, 시뮬레이션에서 얻은 데이터를 바탕으로 전술의 난이도를 객관적으로 정량화한다. 실제 운용 교범을 기반으로 한 대규모 시뮬레이션의 ‘평균 피격률’이라는 명확한 성능 지표를 사용함으로써 난이도 척도의 실용성과 신뢰도를 높인다. 둘째, 정량화된 난이도를 기반으로 최적의 학습 스케줄을 도출한다. 이렇게 분류된 난이도를 바탕으로 학습 단계를 이산적인 그룹으로 분류하고, 하이퍼 파라미터 최적화를 통해 이 그룹들을 어떤 순서와 시간으로 학습할 때 가장 효과적인지를 탐색하여 최적의 커리큘럼 스케줄을 도출한다.
본 논문의 구성은 다음과 같다. 2장에서는 관련 연구를 검토하고, 3장에서는 제안하는 방법론을 상세히 설명한다. 4장에서는 실험 설계와 그 결과를 분석하며, 마지막 5장에서 결론을 맺는다.
관련 연구
본 장에서는 제안하는 ‘정량적 난이도 기반의 최적화된 커리큘럼 학습 프레임워크’의 이론적, 실용적 기반이 되는 핵심적인 선행 연구들을 검토한다. 먼저 복잡한 전술 의사결정 문제에 대한 강화학습의 적용 사례를 시작으로, 커리큘럼 학습의 원리와 다양한 설계 방법론을 검토한다. 이를 통해 기존 연구의 흐름 속에서 본 연구가 제안하는 프레임워크를 설명하고자 한다.
2.1 전술 의사결정 문제와 강화학습
강화학습은 에이전트가 환경과의 직접적인 상호작용을 통해 얻는 보상을 최대화하는 방향으로 스스로 행동 정책을 학습하는 패러다임이다. 잠수함 어뢰 대응과 같은 전술적 의사결정은 정해진 규칙이나 교범만으로는 모든 교전 상황에 최적으로 대응하기 어려운 복잡성과 동적인 특성을 가진다. 이러한 문제에 강화학습을 적용하는 것은, 에이전트가 시뮬레이션 환경 내에서 수많은 시행착오를 통해 데이터로부터 직접 최적의 전략을 찾아낼 수 있다는 점에서 강력한 잠재력을 가진다. 특히 심층 신경망과 결합된 심층 강화학습은 바둑과 같이 인간의 직관을 뛰어넘는 전략이 필요한 분야에서, 기존의 기보(교범)에 없던 창의적인 수를 발견하며 초인적인 성능을 입증한 바 있다[7]. 이는 강화학습이 복잡한 전술 문제 해결을 위한 새로운 가능성을 열었음을 시사하며, 본 연구에서 강화학습을 기본 학습 방법론으로 채택한 배경이 된다.
2.2 커리큘럼 학습의 원리와 효과
강화학습의 높은 잠재력에도 불구하고, 복잡한 문제에 이를 직접 적용할 때 발생하는 학습의 비효율성은 주요한 난관 중 하나이다[8]. 이 문제를 해결하기 위한 효과적인 전략으로 커리큘럼 학습이 제안되었다[9]. 커리큘럼 학습은 인간이 쉬운 개념부터 어려운 개념 순으로 학습할 때 더 효과적이라는 교육학적 원리에서 착안한 훈련 방법론으로, 학습 초기에 의도적으로 쉬운 예제들을 먼저 제시하고 점진적으로 어려운 예제를 학습시킨다. 이러한 점진적인 접근법은 에이전트가 학습 초기에 안정적으로 기초 정책을 형성하도록 돕고, 결과적으로 더 빠른 수렴 속도와 우수한 일반화 성능을 유도하는 효과가 여러 연구를 통해 입증되었다[10].
2.3 기존 커리큘럼 방법론과 본 연구의 차별점
커리큘럼 학습의 성공은 난이도 정의와 학습 순서 설계에 크게 의존한다. 기존 연구들은 주로 연구자의 직관에 의존하는 수동적 방식과, 학습 과정에서 커리큘럼이 동적으로 변하는 완전 자동화 방식으로 나뉜다[4]. 수동 방식은 설계자의 주관이 개입되어 재현성이 떨어지는 한계가 있으며[9], 완전 자동화 방식은 객관성을 확보할 수 있지만 알고리즘이 복잡하고 안전이 중요한 국방 분야에 적용하기에는 통제 가능성이 떨어진다는 우려가 있다[8].
본 연구는 이러한 기존 접근법들의 한계를 보완하고자, 인간의 전문 지식과 데이터 기반의 객관성을 결합하는 실용적인 프레임워크를 제안한다. 제안하는 방법론은 실제 운용 교범을 바탕으로 시뮬레이션을 수행하고, 그 결과인 피격률을 통해 난이도를 객관적으로 정량화한다. 이는 모델의 예측 손실과 같은 추상적인 지표를 사용하는 방식과 차별화된다[11]. 더 나아가, 단 하나의 고정된 스케줄을 임의로 사용하는 대신 그리드 서치를 통해 다수의 후보 스케줄을 체계적으로 평가하여 최적의 학습 경로를 도출한다. 이러한 접근법은 기존 연구들에서 그 효과가 논의된 바 있는, 난이도 기반의 예제 선별[12]과 다양한 고정 스케줄 탐색의 장점을 결합했다는 점에서 의의를 가진다.
전술난이도 정량화 기반 커리큘럼 강화학습
3.1 프레임워크 개요
본 프레임워크는 크게 두 부분으로 구성된다. 첫 번째는 에이전트 훈련에 앞서, 사전에 전술 난이도를 정량화하여 최적의 커리큘럼 설계를 준비하는 단계이다. 두 번째는 이렇게 설계된 커리큘럼을 이용하여 실제로 에이전트를 훈련시키는 학습 단계이다.
첫 번째 단계인 전술 난이도 정량화에서는, 시뮬레이션을 통해 얻은 경험적 데이터를 바탕으로 각 시나리오의 난이도를 객관적인 수치로 변환하고, 이를 바탕으로 데이터 셋을 여러 난이도 그룹으로 분류한다. 두 번째 단계인 최적 커리큘럼 스케줄 탐색에서는, 분류된 난이도 그룹들을 어떤 순서로 학습할지를 결정하는 다수의 후보 스케줄을 생성하고, 그리드 서치를 통해 최종 성능을 극대화하는 최적의 스케줄을 선정한다. 이 전체 과정은 Fig. 1에 도식화되어 있다.
3.2 데이터 기반 전술 난이도 정량화
3.2.1 시나리오 정의 및 데이터 생성
먼저, 에이전트가 학습하고 평가받을 교전 상황의 전체 공간을 정의한다. 본 연구에서는 어뢰가 서로 다른 방위에서 동시에 접근하는 상황을 가정하였다. 각 고유 시나리오는 진북을 기준으로 한 두 개의 고유한 어뢰 초기 생성 방위각 조합으로 정의된다. Table 1에 명시된 바와 같이, 첫 번째 어뢰의 방위각은 0°부터 359°까지 1°간격으로 설정 가능하며, 두 번째 어뢰의 방위각은 첫 번째 어뢰의 방위각을 제외한 나머지 359개의 방위각 중 하나로 설정된다. 이에 따라 총 129,240개(360×359)개의 고유한 교전 시나리오를 생성하였다. 이때 두 어뢰는 모두 자함을 기준으로 동일한 초기 생성 거리에 위치한다.
이후, 사전에 정의된 기본 전술 교범을 수행하는 베이스라인 에이전트를 사용하여 생성된 모든 시나리오에 대한 시뮬레이션을 실행하고, 각 시나리오 별 ‘피격’ 또는 ‘생존’ 결과를 담은 대규모 데이터 셋을 구축하였다. Fig. 2는 이렇게 구축된 전체 시나리오 공간에 대한 피격 여부의 분포를 시각적으로 보여준다. 그림의 가로축과 세로축은 각각 어뢰의 생성 방위를 나타내며, 특정 방위 조합에서 피격(검은색)이 발생하는 패턴을 한눈에 파악할 수 있다.
3.2.2 난이도 척도 계산 및 분류
수집된 129,240개의 시나리오의 방대한 피격/생존 결과 데이터를 바탕으로, 전술 난이도를 정량화한다. Fig. 2에서 전체 시나리오 공간을 일정한 크기의 작은 구간들로 나눈다. Fig. 3은 전체 시나리오 공간을 격자 형태로 구간화(Binning)하고, 각 격자 셀에 해당 구간에 포함된 모든 시나리오의 평균 피격률을 계산하여 채워 넣는 과정을 보여준다. 이러한 구간화는, 미세한 방위 차이를 가진 인접 시나리오들(예: [9°, 60°]와 [10°, 61°])을 동일한 난이도 그룹으로 묶어줌으로써, 에이전트가 특정 단일 위협이 아닌 국소적 영역에 대한 일반화된 대응 전술을 학습하도록 유도한다. 이를 통해 학습된 정책은 입력 값의 미세한 변화에 민감하게 반응하지 않는 강건성을 확보하게 된다.
이렇게 계산된 구간별 평균 피격률 값들은, 학습에 용이하도록 3개의 이산적인 난이도 그룹으로 최종 분류한다. 분류결과, Table 2에서 볼 수 있듯 MID 난이도 피격률의 범위가 LOW나 HIGH에 비해 상대적으로 넓게 나타난다. 이는 데이터 셋의 피격률 분포가 양극단에 집중되어 있고, 전술적 대응의 성공 여부가 갈리는 중간 난이도의 시나리오가 더 넓은 피격률 스펙트럼에 걸쳐 분포하기 때문이다. 분류 기준이 되는 임계값은 각 난이도 그룹에 속한 데이터의 수가 최대한 균등하게 분포되도록 설정하여, 특정 난이도에 학습 데이터가 편향되는 것을 방지하고자 하였다. 본 연구에서 채택한 균등 분할 방식은 특성 난이도에 대한 과적합을 방지하고 모든 난이도를 균형있게 학습하기 위한 안정적인 선택이다. Fig. 4는 이 분류 결과를 시각화한 난이도 히트맵이다. 피격률 임계값을 기준으로, 각 구간이 LOW, MID, HIGH 중 어느 그룹에 속하는지 명확하게 보여준다. 각 구간의 구체적인 분류 기준과 최종 데이터 분포는 Table 2에 요약되어 있다.
3.3 최적 커리큘럼 스케줄 탐색
분류된 난이도 그룹들을 어떤 순서와 시간 간격으로 훈련에 도입할지 결정하는 커리큘럼 스케줄은, 전체 훈련 과정의 핵심적인 하이퍼 파라미터이다. 본 단계에서는 이 최적의 스케줄을 찾기 위해 체계적인 하이퍼 파라미터 최적화 과정을 수행한다.
3.3.1 후보 스케줄 공간 정의
최적화할 하이퍼 파라미터의 탐색 공간을 정의한다. 커리큘럼 스케줄이란, 훈련 이터레이션을 기준으로 학습에 사용될 데이터의 난이도를 어떻게 점진적으로 높여나가는지에 대한 계획이다. 본 연구에서는 난이도를 LOW, MID, HIGH로 정의하고, [LOW] → [LOW+MID] → [LOW+MID+HIGH] 순서로 학습 데이터 셋을 확장하는 방식으로 총 15가지 후보 커리큘럼 스케줄을 탐색 공간으로 정의하였다.
3.3.2 그리드 서치를 이용한 최적화
정의된 하이퍼 파라미터 탐색 공간 내에서 최적의 조합을 찾기 위한 방법으로 그리드 서치[13]를 사용하였다. 그리드 서치는 후보가 되는 모든 조합에 대해 독립적으로 모델을 훈련하고 성능을 평가하여, 가장 우수한 조합을 선택하는 체계적인 탐색 기법이다. 본 연구에서는 15개의 각 후보 스케줄에 따라 에이전트를 훈련시킨 후, 기만효과도를 평가 기준으로 삼아 각 스케줄의 성능을 측정하였다. 이 과정을 통해, 가장 높은 최종 기만효과도를 기록한 스케줄을 최종 커리큘럼으로 채택한다.
모의실험(simulation experiment)
4.1 실험 설계
4.1.1 시뮬레이션 환경
본 연구의 실험은 6자유도(6-dof) 운동 모델 기반으로 구축한 시뮬레이션 환경에서 수행되었다. 잠수함, 어뢰, 기만기 등 모든 수중 운동체는 6자유도 운동 방정식을 통해 각 축에 대한 선운동과 각운동이 모두 반영된 동특성을 가지며, PID 제어기를 통해 목표 속도와 자세를 정밀하게 추종하도록 설계되었다. 또한, 계절별 해수 특성 데이터(CARS 2009)[14]와 전 세계 해저 지형 및 수심 데이터(ETOPO)[15]를 바탕으로 음선 추적 알고리즘을 구현하여, 현실적인 수중 음파 탐지 환경을 모의하였다. 에피소드 종료 조건으로는 어뢰와 잠수함의 거리가 50 m 이내일 경우 ‘피격’으로 판정되거나, 어뢰의 수명이 다하여 회피에 성공하는 경우 종료된다. 본 시뮬레이션에 사용된 잠수함과 어뢰의 주요 제원은 Table 3과 같다.
4.1.2 강화학습 에이전트
강화학습 에이전트의 상태, 행동, 보상은 다음과 같이 정의한다. 에이전트가 매 순간 의사결정을 위해 관측하는 상태 정보는 자함, 어뢰, 그리고 기만기의 정보로 구성된다. 상태 정보에는 자함의 현재 속력, 방위, 심도와 같은 동역학적 정보와, 탐지된 각 어뢰 및 발사된 기만기의 상대 방위와 거리 정보가 포함된다. Fig. 5는 상태 정보에 포함되는 이러한 정보들의 구성을 시각적으로 보여준다. 11차원의 상태 벡터로 각기 다른 물리적 단위와 범위를 가지므로, 학습의 안정성을 위해 일관된 범위([-1, 1])로 정규화한 후 모델의 입력으로 사용된다.
이 상태 정보를 바탕으로 에이전트는 하나의 완성된 전술 계획을 행동으로 결정한다. 에이전트의 행동은 자함 회피 기동과 기만기 발사 계획의 조합으로 이루어지며, Fig. 6에 나타난 바와 같이 목표 회피 방위, 심도, 속도와 2발의 자항식기만기 발사관의 값으로 미리 정의된 범위내의 이산 행동으로 구성된다. 행동의 범위는 Table 4와 같이 정의하였다.
Table 4.
Action range
| 행동 | 범위 |
|---|---|
| 자함 방위 | 1° ∼ 360° (5° 간격) |
| 자함 심도 | 10 m ∼ 200 m (5 m 간격) |
| 자함 속도 | 15 knot ∼ 18.5 knot (0.5 knot 간격) |
| 자항식기만기 발사관 | 1 ∼ 12 (1 간격) |
에이전트의 학습을 유도하는 보상함수는, 매 스텝마다 계산되는 보상과 에피소드 종료 시점에 주어지는 최종 보상으로 구성한다. 매 스텝 t에서의 보상 r1는 에이전트가 어뢰로부터 안전거리를 확보하도록 유도하며, 다음 식 (1)과 같이 계산된다.
식 (1)에서 R t 1 와 R t 2 는 시점 t에서의 자함과 어뢰 각각의 상대 거리를, R0는 어뢰의 초기 생성 거리를 의미한다. 따라서 이 보상함수는 에이전트가 가장 가까운 어뢰와의 상대적 거리를 최대로 유지하도록 한다. 만약 에피소드 진행 중 피격당할 경우, 큰 음의 패널티 −2500 값을 최종적으로 부여한다. 이 값은 누적된 모든 양의 보상을 상쇄하고도 남을 만큼 크기 때문에 에이전트가 생존을 최우선 목표로 학습하도록 유도한다.
4.1.3 훈련 알고리즘
에이전트의 정책을 학습시키기 위해, 정책 경사(Policy Gradient)[16] 계열의 알고리즘 중 현재 가장 널리 사용되며 우수한 성능을 보이는 Proximal Policy Optimization(PPO)[17]을 채택하였다. PPO의 핵심적인 특징은, 학습 과정에서 정책이 한 번에 과도하게 변경되어 학습이 불안정해지는 것을 방지하는 것이다.
이는 새로운 정책과 이전 정책의 비율을 특정 범위내로 제한하는 클리핑(Clipping)을 통해 달성된다. 또한, 정책의 업데이트 크기를 신뢰할 수 있는 범위 내로 유지시켜, 학습 과정을 안정시키고 수렴 성능을 향상시킨다. 따라서 복잡한 전술을 학습하며 발생할 수 있는 급격한 성능 저하의 위험을 줄이고, 꾸준한 성능 향상을 기대할 수 있어 연구 목표에 적합한 알고리즘이라 할 수 있다.
4.1.4 평가 방법
학습이 완료된 각 에이전트의 최종 성능은 일관된 기준인 기만효과도로 평가한다. 기만효과도는 0도에서 360도 범위 내에서 10도 간격의 어뢰 방위 조합으로 구성된 총 630개의 케이스에 대한 평균 회피 성공률로 계산된다. 성능을 검증하기 위해 사용되는 두 가지 모델은 다음과 같다. 첫 번째 모델은 도출된 최적의 커리큘럼 스케줄로 훈련된 제안 모델이다. 두 번째 모델은 커리큘럼 러닝을 적용한 모델과 성능을 비교하기 위해 학습 커리큘럼을 적용하지 않고, 0도에서 360도 범위의 방위각에서 어뢰를 무작위로 생성하여 학습시킨 모델이다.
비교 모델을 다음과 같이 선정한 이유는 무작위 학습은 커리큘럼을 적용하지 않은 가장 표준적인 강화학습 방식으로, 제안하는 커리큘럼의 효과를 검증하기 위한 기준선이 되며 학습 순서를 제외한 모든 실험 조건을 동일하게 설정했기 때문에, 성능 차이의 원인이 커리큘럼 적용 여부에 있음을 명확하게 보여준다.
4.2 실험 결과
4.2.1 커리큘럼 스케줄 탐색 결과
모델 성능 비교에 앞서, 3.3절에서 정의한 15개의 후보 스케줄 중 최적의 스케줄을 결정하기 위한 그리드 서치를 수행하였다. 주요 이터레이션 분기점(5, 10, 20, 25, 50, 75)을 기준으로 구성된 각 후보 스케줄에 대해 에이전트를 100 이터레이션 동안 훈련시키고, 정의한 기만효과도를 기준으로 최종 성능을 측정하였다.탐색 결과는 Fig. 7과 같다.
5 이터레이션까지 LOW 난이도를 학습하고, 25 이터레이션까지 MID 난이도를 추가로, 그 이후 이터레이션에서는 HIGH까지 모두 학습시키는 5_25 스케줄이 가장 우수한 성능을 보였다. 따라서, 이후의 모든 실험에서는 이 5_25 스케줄을 제안 모델의 최종 커리큘럼으로 채택하여 사용하였다.
4.2.2 학습 성능 분석
제안 모델(커리큘럼)과 비교 모델(무작위)이 최종적으로 어떤 정책을 학습하게 되는지 그 원인을 파악하기 위해 먼저 훈련 과정의 평균 성공률 변화를 분석하였다. Fig. 8에서 볼 수 있듯, 두 모델은 훈련 중반까지 유사한 성공률 증가 패턴을 보인다. 하지만 훈련 후반부에는 오히려 비교 모델의 평균 성공률이 제안 모델을 근소하게 앞서는 현상이 관찰된다. 단순히 학습 곡선만 보면 두 모델이 성능이 비슷하거나 비교 모델이 우수하다고 판단할 수 있지만, 이는 학습 과정의 질적 차이를 간과한 것이다. 비교 모델은 학습 초기부터 모든 난이도의 시나리오를 무작위로 접하며, 그중 성공하기 쉬운 단순한 시나리오에 과적합되어 근시안적인 정책을 빠르게 학습한다. 이 때문에 훈련 환경 내에서는 높은 성공률을 보이는 지역 최적해에 빠졌음을 시사한다. 반면, 제안 모델은 커리큘럼을 통해 점진적으로 복잡한 상황을 마주하며 이러한 근시안적인 정책의 한계를 극복하고, 단기적인 성공률을 일부 희생하더라도 더 어려운 문제 공간을 탐색하며, 더 다양한 상황에 대처할 수 있는 강건한 정책을 학습하는 것으로 분석된다.
4.2.3 추론 성능 분석
앞선 탐색 과정에서 최적의 하이퍼 파라미터로 선정된 5_25 스케줄을 적용하여, 제안 모델을 초기 상태로부터 다시 학습하였다. 최종적으로 학습된 제안 모델(커리큘럼)과 비교 모델(무작위)의 추론 성능을 평가하였다. Table 5와 나타난 바와 같이, 제안 모델은 97.94 %의 최종 기만효과도를 기록하여, 비교 모델의 94.44 % 대비 3.5 %p 높은 평균 성능을 달성하였다.
Table 5.
Inference performance results
| 모델 | 기만효과도 | 성능안정성(IQR) |
|---|---|---|
| 제안 모델(커리큘럼) | 97.94 % | 2.86 %p |
| 비교 모델(무작위) | 94.44 % | 5.71 %p |
또한, 정책의 강건성을 정량적으로 분석하기 위해 사분위 범위(IQR) 값을 비교한 결과, 제안 모델의 IQR 값은 2.86 %p으로 비교 모델의 5.71 p% 보다 약 2배 낮게 나타났다. 이는 제안 모델이 더 안정적인 정책을 학습했음을 시사한다.
이러한 정량적 분석 결과는 어뢰의 생성 방위에 따른 기만효과도를 시각화한 Fig. 9를 통해 명확하게 확인할 수 있다. 제안 모델(빨간색 선)은 몇몇 예외적인 구간을 제외한 거의 모든 방위각에서 비교 모델(검은색 선)보다 더 높은 성능을 보이거나 동등한 수준의 기만효과도를 기록했다. 주목할 점은, 비교 모델이 특정 측 후방 방위각(150°, 210°)에서 성능 저하를 보이는 전술적 사각을 드러낸다는 것이다. 이는 무작위 학습 방식이 특정 위협 패턴에만 편향된 정책을 학습했음을 의미한다.
반면, 제안 모델은 전방위에 걸쳐 안정적인 성능을 유지하며 이러한 취약점이 보이지 않는다. 이는 제안하는 커리큘럼 방식이 특정 위협에만 편중된 정책이 아니라, 전반적인 위협 대응 능력을 끌어올린, 더 강건한 정책을 학습시켰음을 의미한다. 결론적으로, 이 방위별 성능 분석은 제안 모델의 3.5 %p 성능 우위가 몇몇 특정 상황에서의 성공에 기인한 것이 아니라, 대부분의 교전 상황에서 더 안정적이고 우수한 대응 능력을 갖추게 된 결과임을 증명한다.
결 론
본 연구에서는 복잡한 수중 교전 환경에서 강화학습 에이전트의 전술 학습 능력을 향상시키기 위한 새로운 커리큘럼 설계 프레임워크를 제안하고 그 효용성을 검증하였다. 기존의 무작위 학습 방식이 가진 비효율성을 개선하고자, 인간의 전문 지식인 기본 전술 교범과 대규모 시뮬레이션에서 얻은 경험적 데이터를 결합하여 전술 시나리오의 난이도를 객관적으로 정량화하였다. 이후 그리드 서치를 통해, 분류된 난이도 그룹들을 학습시키기 위한 최적의 커리큘럼 스케줄을 탐색하는 체계적인 훈련 방법론을 제시하였다.
실험을 통해, 제안하는 프레임워크로 학습한 에이전트가 무작위 순서로 학습한 비교 모델 대비 최종 기만효과도에서 향상된 성능을 보임을 확인하였다. 특히, 훈련 과정에서는 비교 모델이 더 높은 평균 보상을 기록했음에도 최종 평가에서 제안 모델의 성능이 더 우수하게 나타나는 특성을 발견하였다. 이는 제안된 커리큘럼이, 에이전트가 단기적 보상만을 추구하는 근시안적 정책의 한계를 극복하고, 더 강건한 정책을 학습하도록 유도한 결과로 분석되었다.
본 연구는 국방 분야와 같이 신뢰도가 중요한 복잡한 시뮬레이션 환경에서, 재현 가능하고 실용적인 AI 훈련 방법론을 제시했다는 점에서 의의를 가진다. 향후 연구에서는 다음과 같은 확장을 고려할 수 있다. 첫째, 현재의 균등 분할 방식을 넘어, 난이도별 데이터 분포 자체를 커리큘럼의 중요 변수로 간주하여 최적의 학습 데이터 비율을 탐색하는 연구를 수행할 수 있다. 둘째, 그리드 서치의 계산 비용 한계를 극복하기 위해 베이지안 최적화(Bayesian Optimization)와 같은 효율적인 탐색 기법을 도입하여 더 복잡하고 넓은 탐색 공간에서도 최적의 스케줄을 발견하는 방법론을 모색할 필요가 있다. 셋째, 강화학습 훈련의 확률적 특성을 고려하여 최적으로 나타난 5_25 스케줄의 강건성을 확보하기 위해, 다양한 무작위 시드에서 반복적인 실험을 수행하여 결과의 통계적 유의성을 검증하는 연구가 요구됩니다. 이러한 연구들을 바탕으로 에이전트의 실시간 학습 상태를 반영하여 커리큘럼을 동적으로 조절하는 적응형 커리큘럼 학습(Adaptive Curriculum Learning)으로 본 프레임워크를 확장하는 연구를 수행할 수 있을 것으로 기대된다.







