서 론
기본 네트워크 및 SE 채널방향 집중 모듈
2.1 레즈넷18 형태의 기본 네트워크
2.2 Squeeze-and-Excitation(SE) 모듈
다양한 형태의 모듈에 대한 ablation 실험
3.1 MSTAR SAR 표적영상 데이터 셋
3.2 다양한 형태의 채널방향 집중 모듈 구조
3.3 MSTAR 학습영상 25 % 이용 ablation 실험
① 먼저 채널방향 집중 모듈을 적용하지 않았을 경우, 기본 네트워크인 레즈넷18로부터 레지듀얼 모듈을 추가하는 방식으로 네트워크의 깊이를 증가시키면, 26층인 레즈넷26에서 최고의 성능인 90.17 %이 산출되어 기본 네트워크의 성능인 85.74 % 보다 약 4.5 % 향상된다. 그러나 더 깊은 네트워크에 대해서는 성능이 오히려 떨어지는데, 이는 네트워크에서 학습할 수 있는 매개변수의 수가 증가해도 학습영상의 수량은 제한적이므로 과적합이 발생하여 일반화(generalization) 성능이 크게 떨어졌기 때문이다. 이는 네트워크의 깊이를 늘려도 제한적인 각도 다양성 조건과 같이 학습영상의 개수가 부족한 상황에서는 식별성능을 향상시키는데 한계가 있음을 의미한다.
② 다음으로 레즈넷18 기본 네트워크에 앞서 언급한 채널방향 집중 모듈을 추가한다. 먼저 SE 모듈을 삽입한 경우, 기본 네트워크의 식별성능보다 8.5 % 향상된 94.30 %의 식별성능을 얻었다. 이는 네트워크의 깊이를 늘린 결과보다 우수한 결과로서, SE 모듈로 인해 제한적으로 주어진 학습영상의 특징을 보다 효율적으로 학습하여 일반화 성능이 개선된 것을 알 수 있다. 뿐만 아니라, SE 모듈 또한 이미 광학영상 연구에서 다양한 구조에 대한 실험 수행의 결과로 도출되었으므로, 성능향상의 효과가 다방면으로 입증되었다고 볼 수 있다.
③ 그 외 Fig. 4에서 제시된 다양한 채널방향 집중 모듈 구조에 대해서는 모두 기본 네트워크의 식별성능을 상회하지만, 향상의 정도가 각기 다르게 나타난다. 먼저 type A의 경우 네트워크 크기 및 학습시간이 크게 증가한 것뿐만 아니라 식별성능 또한 SE 모듈 사용 대비 약 5 % 감소한다. 전역평균풀링을 합성곱으로 대체함에 따라 채널정보와 특징맵의 공간(spatial)정보가 뒤섞이게 되어 채널정보의 표현 정확도가 떨어졌음을 알 수 있다. type B는 채널 중요도를 모델링하는 시그모이드에 적응성을 부여함으로써 성능이 소폭(0.25 %) 증가하였다. type C의 경우 이전연구 결과[19,20]와는 달리 SAR 표적식별 문제에서는 공간정보 강화 모듈이 채널방향 집중 모듈에 의해 향상된 식별성능을 열화시킴을 확인할 수 있다. 따라서 SAR 표적영상 식별에 적합한 공간정보 강화 모듈 구조를 고안하거나, 채널방향 집중 모듈과 공간정보 강화 모듈의 작용이 보다 독립적으로 수행되도록 조치할 필요가 있다. type D의 경우 매개변수의 개수 및 네트워크 학습시간이 증가한 것에 비해서는 소폭(약 0.2 %)이지만 세분화된 채널정보 압축과정에 의해 성능이 향상된 것을 알 수 있으며 type E의 경우, 매개변수화 시그모이드와는 달리 PReLU가 ReLU보다 3.5 % 가량 더 성능이 낮다. 즉 압축된 채널정보의 음수 값은 ReLU에 의해 0으로 만드는 것이, PReLU에 의해 작은 음수 값으로 만드는 것보다 더 성능이 좋다는 것을 확인할 수 있다.
④ type A~E들을 서로 조합하여 나타나는 성능 변화의 공통점은, SE 모듈에 비해 성능이 저하되는 공간정보 강화 모듈을 조합하면 성능이 향상되지 않고 오히려 더 열화하거나 변화가 없게 된다. 그러나 앞서 SE 공간정보 강화 모듈 대비 성능이 향상된 type B 및 D를 조합한 결과(type BD), 성능향상의 정도가 강화되어 SE 모듈 대비 1.1 % 향상된 95.41 %의 식별성능이 산출된다.
⑤ 추가적으로 type F의 경우, 네트워크 구조의 큰 변화 없이 stage 4에만 드롭아웃을 추가하였음에도 type BD보다 0.3 % 가량 더 높고 SE 모듈 대비 약 1.4 % 상승한 95.74 %의 식별성능이 산출되었다.
Table 2.
여러 각도 다양성 제한 조건하의 표적식별 적용
4.1 여러 각도 다양성 제한 조건에 대한 네트워크 별 식별성능 비교
– 100 % : 233/233/232/256/299/299/299/299/299/299
– 50 % : 117/117/116/128/150/150/150/150/150/150
– 25 % : 58/58/58/64/75/75/75/75/75/75
– 10 % : 23/23/23/26/30/30/30/30/30/30
– 25 %, 1~3회 : 5.21°/5.12°, 5.23°/4.56°, 5.18°/4.81°
– 10 %, 1~3회 : 12.83°/12.65°, 12.83°/13.05°, 12.84°/11.82°
Table 3.
4.2 채널방향 집중 모듈에 의한 식별성능 개선확인
4.2.1 공간(spatial)방향의 확인
4.2.2 채널(channel)방향의 확인
4.3 다른 연구사례와의 성능 비교
① 일부 연구사례(− 표시)에서는 학습영상 이용비율이 10 %인 경우에 대해 식별성능을 산출하지 않았다.
② 25 % 산출결과에서 ∗표시가 된 수치는 해당 문헌에서 학습영상 이용비율 20 % 및 30 %에 대해 산출한 결과를 평균한 값이다. 20 % 및 30 %에 대해 J. H. Cho 등[7]은 각각 91.08 %, 92.95 %를 산출하였고, Q. Yu 등[8]은 각각 92.2 %, 95.4 %를 산출하였으며, Z. Lin 등[9]은 각각 73.5 %, 94.97 %를 산출하였다.
③ Q. Yu 등[8]과 Z. Lin 등[9]의 연구에서는 학습영상 이용비율에 따른 식별성능을 수치(%)로 명시하지 않아 문헌의 그래프로부터 추정된 값을 기재하였다.
④ 본 논문에서 제시된 방법을 학습영상 이용비율 10 % 및 25 %인 경우에 적용한 경우, 최고성능 대신 Table 3에 나타냈던 평균값을 기재하였다.
⑤ 인용된 타 연구사례에서는 모두 본 논문과 같이 표준 운용조건(SOC)에서의 MSTAR SAR 표적영상 데이터 셋을 사용하였다. 다만 학습영상 이용비율이 50 % 이하인 경우, 수량이 동일하더라도 실제로 학습에 활용된 영상의 세부내역은 달라질 수 있다. 앞선 실험에서 25 % 및 10 %의 경우에 대해 학습영상을 세 가지로 임의 선정한 것과 연관된다.
Table 4.
결 론
① MSTAR SAR 표적영상 데이터 셋 외에도 다른 해상도를 갖거나 다른 표적군에 대한 표적영상 데이터 셋에 적용하여, 본 논문에서 제시된 기법의 일반성을 추가 입증할 필요가 있다.
② 채널방향 집중 모듈의 장점을 유지하면서 보다 적은 학습시간을 요하는 효율적인 모듈의 구조연구 및 높은 식별성능이 입증된 멀티뷰 특징 도입연구 등으로 보다 각도 다양성이 제한된 조건에서 SAR 표적영상에 대한 식별성능을 개선해나갈 계획이다.
③ 또한 앞서 채널방향 집중 모듈의 네트워크 성능 개선 양상을 직관적으로 확인한 것처럼 본 논문에 서 제시된 모듈이 확장 운용조건(Extended Operating Condition, EOC)에서는 어떻게 식별성능에 변화를 주는지를 확인하는 것도 가치 있는 연구의 방향이 될 것이다.