J. KIMS Technol Search

CLOSE


J. KIMS Technol > Volume 25(5); 2022 > Article
어텐션 적용 YOLOv4 기반 SAR 영상 표적 탐지 및 인식

Abstract

Target Detection in synthetic aperture radar(SAR) image is critical for military and national defense. In this paper, we propose YOLOv4-Attention architecture which adds attention modules to YOLOv4 backbone architecture to complement the feature extraction ability for SAR target detection with high accuracy. For training and testing our framework, we present new SAR embedding datasets based on MSTAR SAR public datasets which are about poor environments for target detection such as various clutter, crowded objects, various object size, close to buildings, and weakness of signal-to-clutter ratio. Experiments show that our Attention YOLOv4 architecture outperforms original YOLOv4 architecture in SAR image target detection tasks in poor environments for target detection.

서 론

SAR 영상은 날씨 조건 및 시간에 영향을 거의 받지않고 원하는 지역(또는 영역)에 대한 영상을 획득하는 것이 가능하여 감시 및 정찰을 위한 용도로 많이 활용되고 있다[1,2]. SAR 영상에 대해 표적 탐지를 수행하면 EO(Electro-Optical) 영상 장비를 통해 획득한 영상에 대해 수행하는 것보다 높은 일관성을 유지하면서 탐지 결과를 얻을 수 있다. 이러한 특성으로 SAR 영상을 통한 표적 탐지는 국방 분야에서 높은 중요성을 가진다.
기존 SAR 영상 표적 탐지 알고리즘은 표적에 해당하는 화소의 값이 주변 클러터(clutter) 영역에 비해 높다는 전제를 기반으로 관측값(화소값)에 대한 통계 분포를 이용한 CFAR(Constant False Alarm Rate) 기반 표적 탐지 방법이 주류를 이루었다. 해당 기법은 나무, 고층 빌딩 등의 높은 관측값을 가지는 클러터가 존재하는 고(高)클러터 환경일 경우, 클러터 영역의 관측값 통계 분포를 정확히 예측하기 어렵기 때문에, 탐지 성능이 떨어진다. 이와 같은 한계를 극복하기 위해 본 논문에서는 딥러닝 기반 객체 검출 알고리즘인 YOLOv4[14]를 적용하여 SAR 표적 영상을 탐지하는 방법을 제안한다. SAR 위성 장비를 통해 촬영한 영상의 경우 색, 대비, 외부 구조 등 EO 영상에서 주로 나타나는 시각적 정보가 충분하지 않다. 이로 인해 EO 영상 표적 탐지에 최적화되어있는 YOLOv4[14] 알고리즘을 SAR 영상 표적 탐지에 단순 적용하여 높은 탐지 성능을 도출하는 데 한계가 있다. 이를 극복하기 위해 본 논문에서는, 특징 지도(Feature maps)의 각 요소가 전체 탐지 성능에 미치는 영향의 정도를 학습할 수 있는 중요도를 학습하는 어텐션(Attention)[7,10] 기능을 YOLOv4[14] 구조의 백본 네트워크에 추가하여 확장하였다. 제안한 어텐션 알고리즘은 총 3종류로서, 채널/위치 어텐션 직렬 연결 알고리즘[7], 채널/위치 병렬 연결 알고리즘[7], 그리고 좌표 어텐션 알고리즘[10]이다. 제안하는 SAR 표적 탐지 알고리즘을 검증하기 위해, MSTAR Public SAR 데이터 셋[15]을 기반으로 열악한 표적 탐지 환경에 해당하는 MSTAR SAR 합성 데이터 셋을 제작하여 표적 탐지를 위한 학습 및 테스트를 실시하였다. 해당 데이터 셋을 생성하기 위해 고려하는 열악한 표적 탐지 상황이란 아래 네 가지에 해당한다.
  • 다양한 크기의 표적 : 표적 탐지 수행 시에 서로 다른 크기를 가진 표적이 SAR 영상 내에 존재하는 경우를 의미한다. MSTAR Public SAR 표적 대비 0.6배에서 1.5배의 다양한 크기로 표적의 크기를 변경하여 데이터 셋을 구성한다. 이는 표적을 서로 다른 GSD(Ground Sample Distance)에서 획득한 영상의 경우로 볼 수 있으며, 이러한 조건에서도 표적 탐지를 수행할 수 있는지 검증한다.

  • 다양한 표적 밀집 상황 : 여러 종류의 SAR 표적들이 좁은 간격으로 밀집해 있는 경우를 의미한다. 각 표적의 간격은 평균적으로 표적의 크기보다 작으며 서로 다른 표적의 영역이 겹치지 않으면서 최대한 가까이 존재하는 밀집 상황도 존재한다.

  • 고(高)클러터 환경 : 본 논문에서 사용한 표적 탐지 데이터 셋은 기존 SAR 표적 탐지 알고리즘에서 사용하는 해상, 평야 등의 고른 클러터 환경과는 달리 도심지 고층 빌딩, 숲 등이 존재하는 고(高)클러터 환경에서 획득된 SAR 영상을 기본으로 한다.

  • 건물과 표적 밀착 상황 : 도심지 고(高)클러터 환경에 해당하는 SAR 영상의 경우 표적과 표적 사이의 간격뿐만 아니라 표적과 고(高)클러터 영역에 해당하는 건물과의 간격도 작게 설정한다. 이 경우 건물에 해당하는 영역에 대해서 쉽게 오탐지(False Positive)가 발생할 수 있다.

본 논문에서는 상기 네 가지 요소를 고려하여 MSTAR SAR 합성 데이터 셋을 제작하였고, 이를 이용하여 제안 SAR 표적 탐지 알고리즘의 학습 및 테스트를 수행하였다. 이에 추가로, 표적 탐지 난이도가 더욱 높은 상황에서 제안 기법의 성능을 비교하기 위해 표적의 신호 세기가 미약한 상황에 대한 표적 탐지 성능 비교 실험을 진행하였다. 상술한 요소를 고려하여 생성한 MSTAR SAR 합성 테스트 데이터 셋에 대하여, 표적에 해당하는 신호의 SCR(Signal-to-Clutter Ratio)을 감소하여 ‘표적 신호 미약 테스트 데이터 셋’을 제작하였고 알고리즘별 표적 탐지 성능을 비교하였다. 본 논문의 2장에서는 제안 표적 탐지 알고리즘과 관련한 선행 연구에 대해서 기술하였다. 3장에서는 본 논문에서 제안하는 SAR 표적 탐지 알고리즘의 네트워크 구조를 상세히 나타내었다. 4장에서는 제안 알고리즘을 검증하기 위해 제작한 SAR 표적 탐지 합성 데이터 셋에 대한 설명과 생성 방법을 기술하였다. 5장에서는 기존 기법 및 제안 알고리즘의 표적 탐지 성능 결과 비교를 나타내었다. 6장에서는 결론과 함께 본 연구의 추가 개선 방안을 기술하였다.

관련 연구

2.1 딥러닝 기반 표적 탐지 알고리즘

주어진 영상에서 표적 탐지를 수행하는 알고리즘에 대한 연구는 활발히 이루어지고 있으며 최초로 제안된 CNN 기반 딥러닝 기법인 R-CNN[3] 이후로 여러 기법들[1,4,5,6]이 제안되었고 높은 탐지 성능을 보였다. Faster R-CNN[4]은 Selective Search 방법으로 여러 영역을 추출한 뒤 각 영역에 대해서 표적의 유무와 종류를 예측하는 R-CNN[3] 기법과는 달리, 예측한 영역 내에 표적이 존재하는 확률을 예측한 후 예측한 영역에 표적이 있는 경우 해당 표적의 종류를 예측하는 두 단계로 구성된다. 앵커(Anchor)의 개념을 새로 도입하여 표적이 존재한다고 판단되는 영역을 앵커를 이용하여 나타낸 뒤 앵커 영역을 조절하는 방식으로 학습을 진행한다. 표적 탐지를 실시간으로 수행하기 위해 제안된 YOLO[5]는 표적이 있는 영역 예측 및 표적의 종류 예측을 동시에 수행함으로써 이전 기법들 대비 빠른 처리 속도를 보인다. 전체 입력 영상을 49개의 영역으로 분할한 뒤, 각 영역에서 앵커를 생성하여 각 영역에 대해 표적이 존재할 확률 및 표적의 종류를 예측하는 방식으로 탐지를 수행한다. 해당 기법은 각 입력 영상을 49개의 영역으로 균등하게 분할하기 때문에, 영상 내에 작은 표적이 존재할 경우 해당 표적의 탐지 성능이 낮다는 단점이 존재한다. 이를 해결하기 위해 SSD[6]에서는 입력 영상을 다양한 그리드 크기로 분할하여 탐지를 수행함으로써, 여러 크기를 가지는 표적을 탐지하는 데에 강인함을 보였다. 해당 방법에서 제안한 멀티 그리드 서치 기법은 이후에 발표된 표적 탐지 알고리즘에서 지속적으로 적용되고 있다. 본 논문의 베이스라인으로 사용하는 YOLOv4[14]에서는 멀티 그리드에 적용하는 그리드를 8×8, 16×16, 32×32 크기로 다양하게 설정하여 1,344개의 그리드를 사용하였고, 각 그리드마다 3개의 표적 탐지 앵커를 생성하여 표적의 위치에 대한 예측을 실시한다. YOLOv4에는 표적 탐지 성능을 개선하기 위해 딥러닝의 정확도를 향상하는 여러 기법을 추가로 적용되었다. 해당 기법들은 크게 추론 시간에 영향을 주지 않고 학습 전략을 개선하는 Bag Of Freebies와 추론 시간이 약간 증가하지만, 탐지 성능이 대폭 향상되는 Bag Of Special 의 두 종류로 구분된다. Bag Of Freebies로는 CIoU loss, CmBN, Mosaic data augmentation 등의 기법이 적용되었으며, Bag of Special로는 Mish activation, CSP connection, SPP, SAM, PAN 등의 구조가 활용되었다. 이 결과, YOLOv4는 YOLOv3 대비 유사한 속도로 약 10 %p 개선된 MS COCO 데이터 셋 표적 탐지 성능을 보였다.

2.2 어텐션 알고리즘

CNN 기반 영상 분류 알고리즘에서는 다양한 상황에 대한 성능을 개선하기 위해 특징 지도 추출 능력을 향상시키는 어텐션 알고리즘에 대한 연구가 활발히 이루어져 왔다[7,8,9,10]. 특징 지도의 채널 및 위치에 따라서 중요도를 부여하여 전체 특징 지도 중 의미 있는 영역을 강조하는 CBAM[7]은 향상된 영상 분류 성능을 보고하였다. 해당 기법에서는 특징 지도의 여러 채널에 대해 중요도를 적용하는 채널 어텐션(Channel Attention)과 각 화소 위치에 대해 중요도를 적용하는 위치 어텐션(Spatial Attention)이 직렬로 구성된 구조로 되어 있다. 영상 초해상화(Image Super Resolution) 분야에서는 채널 어텐션을 적용하여 성능이 개선된 RCAN[8]이 제안되었다. 영상 안개 제거(Image Dehazing) 분야에서는 CBAM[7] 구조를 개선하여 낮은 주파수를 가지는 영역에 대한 특징 정보를 통과시키고, 높은 주파수를 가지는 영역에 대해 집중적으로 어텐션을 적용하는 FFA-Net(Feature Fusion Attention Network)[9]이 제안되어 성능을 개선하였다. Coordinate Attention[10] 모델에서는 기존 CBAM[7] 모델에서 채널 어텐션을 적용하기 위해서 특징 지도의 해상도를 1×1 크기로 풀링(pooling)을 적용하는 부분을 보완하여 1×H 및 W×1 크기로 각각 수직 및 수평 성분에 대한 정보를 보존하면서 채널 어텐션을 적용하는 기법을 제안하였다. 해당 기법은 모델의 복잡도를 크게 향상시키지 않으면서 채널 어텐션 시에 발생하는 공간 정보의 손실을 해결할 수 있다. 이는 YOLOv4[14] 모델 학습 시에 서로 다른 각도로 존재하는 표적에 대해서 방향 정보를 유지한 채로 학습을 효과적으로 수행해야 하는 본 연구의 목적과 일치하기 때문에 해당 기법 적용 시 성능 향상을 기대해 볼 수 있다. 어텐션 기법 연구는 CNN 구조에서 특징 추출시 의미 있는 영역에서 정보를 추출하여 CNN 구조의 표현 능력을 증대시켰다는 공통점이 있다.

Attention YOLOv4 기반 표적 탐지 알고리즘

3.1 기존 YOLOv4[14] 네트워크 구조

본 논문에서 제안하는 SAR 영상 표적 탐지 프레임워크는 YOLOv4[14]를 기본 구조로 한다. YOLOv4[14]는 SAR 영상을 입력 받아서 특징 정보를 추출하는 백본(backbone) 네트워크, 다양한 해상도의 백본 네트워크 출력을 입력 받아서 특징 지도 정보를 가공하는 넥(neck) 네트워크, 최종적으로 표적에 해당하는 영역의 바운딩 박스(bounding box), 표적의 종류(class) 및 신뢰도 점수(confidence score)를 출력하여 탐지를 수행하는 헤드(head) 네트워크의 세 가지의 요소로 구성된다.

3.1.1 백본 네트워크

YOLOv4[14]에서는 영상의 특징을 추출하는 백본 네트워크의 구조로 CSPDarknet53을 사용한다. 해당 구조는 Fig. 1과 같이 총 5단계의 블록으로 구성되어 있으며, 각 블록은 이전 단계의 특징 지도가 합성곱 계층과 8개의 잔차 블록(residual block)을 통과하는 구조로 이루어져 있다. Fig. 1에는 2단계에서 생성된 128개의 채널을 가지는 특징 지도를 입력받아서 256개의 채널을 가지는 특징 지도를 생성하는 3단계 과정에 대해서 나타내었다. 해당 과정에서 분홍색에 해당하는 상자는 3×3 합성곱 계층을 통해 생성된 특징 지도이고 흰색에 해당하는 상자는 1×1 합성곱 계층을 통해 생성된 특징 지도이다. 입력 특징 지도는 첫 번째 3×3 합성곱 계층 연산 시, 스트라이드 2를 적용하여 높이와 너비가 각각 절반으로 감소하고 채널 수는 두 배로 증가한다. 해당 과정을 단계마다 거쳐 백본 네트워크는 최종적으로 1024, 512, 256의 채널을 가지는 특징 지도를 생성하고 이는 각각 neck의 단계 1, 2, 3의 입력으로 사용한다. YOLOv4[14]의 백본 네트워크는 단계마다 Cross Stage Partial(CSP) connection을 적용하여 첫 번째 3×3 합성곱 계층을 통과한 특징 지도에 별도로 3×3 합성곱 계층을 적용하여 최종 출력 직전에 해당하는 특징 지도와 채널 방향으로 연결(concatenation)하는 일종의 잔차 연결(residual connection) 기법을 사용하였다.
Fig. 1.
YOLOv4[14] backbone architecture
kimst-25-5-443f1.jpg

3.1.2 넥 네트워크

YOLOv4[14]의 넥 네트워크에서는 Fig. 2와 같이 백본 네트워크에서 생성된 3개의 서로 다른 채널 수와 해상도를 가진 특징 지도를 입력받아서 3개의 세부 단계를 통해 3개의 특징 지도를 생성한다. 1,024 채널의 특징 지도를 다루는 단계 1에서는 위치 피라미드 풀링(Spatial Pyramid Pooling, SPP)이 적용되었다. 해당 기법은 합성곱 연산을 통해 생성된 특징 지도를 각각 5, 9, 13의 커널(kernel) 크기로 최대치 풀링(max pooling)을 적용하여 특징 지도의 수용 영역(receptive field)을 다양하게 확보하는 기법이다. 넥 네트워크의 단계 n의 출력은 단계 n+1의 중간 입력으로 사용되어 특징 지도 정보를 전달하는 경로 통합 네트워크(Path Aggregation Network, PANet) 기법을 적용하였다.
Fig. 2.
YOLOv4[14] neck architecture
kimst-25-5-443f2.jpg

3.1.3 헤드 네트워크

YOLOv4[14]의 헤드 네트워크에서는 넥 네트워크에서 생성된 512, 256, 128 채널의 특징 지도를 통해 표적이 존재할 것으로 예상되는 바운딩 박스의 정보를 출력한다. 각 단계는 Fig. 3과 같이 1×1 합성곱 계층과 3×3 합성곱 계층이 번갈아서 연산을 수행하는 구조로 이루어져 있으며, 각 단계에서 합성곱 계층 연산을 통해 생성되는 중간 출력 특징 지도를 다음 단계의 중간 입력으로 활용하였다.
Fig. 3.
YOLOv4[14] head architecture
kimst-25-5-443f3.jpg
헤드 네트워크의 최종 출력은 입력 영상 대비 각각 1/8, 1/16, 1/32로 축소된 크기의 18채널 특징 지도이며, 각 특징 지도의 값은 입력 영상의 전체 영역을 각각의 비율로 분할한 영역을 나타낸다. 18개 채널은 3×6으로 재조정되며 여기에서 3은 특징 지도의 각 위치마다 3개의 바운딩 박스를 생성하는 것을 의미하고 6은 생성된 바운딩 박스의 중심부 (x,y) 좌표와 바운딩 박스의 높이 및 너비, 테두리 박스 내에 물체가 위치할 가능성 점수(confidence score) 및 물체 존재 시 class 정보를 나타내는 6개의 값을 의미한다.
본 논문에서는 기존 YOLOv4[14] 구조만을 단순 활용하기보다는 어텐션 기능을 사용하여 SAR 표적 탐지를 수행하는 YOLOv4[14]의 확장 알고리즘을 제안하기 위해, 입력 영상의 특징 정보 추출에 해당하는 백본 네트워크 구조를 개선한다. SAR 영상은 EO 영상과 색, 밝기, 대비 등의 시각적 정보가 부족하고 전체적인 신호 특성이 EO 영상과 달라 표적의 특징 도메인에서 정보를 정교하게 추출해야 하므로 검출 난이도가 상승한다. 이를 해결하기 위해 백본 네트워크에 어텐션 알고리즘을 적용하였다.

3.2 어텐션 모듈을 적용한 YOLOv4[14] 백본 네트워크 구조의 확장

YOLOv4가 높은 표적 탐지 성능을 보이기 위해서는 백본 네트워크가 입력 영상으로부터 충분한 특징 정보를 추출해야 한다. EO 영상 데이터 셋의 경우, 영상 내에 풍부한 시각 정보를 포함하고 있으므로 기존 백본 네트워크의 구조로 충분한 식별 정보가 포함된 특징 지도를 생성하여 표적 탐지에 활용할 수 있다. 그러나 SAR 영상 데이터 셋의 경우 제한된 시각 정보로 이루어져 있어서 영상으로부터 충분한 특징 정보를 추출하기 어렵다. 표적의 위치를 특정(Localization)하고 동시에 종류를 구분(Classification)해야 하는 표적 탐지 상황에서, 정교하지 못한 특징 지도를 생성하면 높은 표적 탐지 성능을 도출하는 데 한계가 존재한다. 이에 SAR 표적 탐지 성능을 개선하기 위해서 YOLOv4[14]의 백본 네트워크에 어텐션 모듈을 Fig. 4와 같이 구성하여 SAR 영상으로부터 특징 정보를 효과적으로 추출할 수 있도록 하였다. YOLOv4[14]의 백본 네트워크는 5개의 층으로 구성되어 있으며 각 층을 통해 생성된 특징 지도가 어텐션 모듈을 통과하여 어텐션이 적용된 특징 지도를 생성한다. 어텐션이 적용된 특징 지도는 다음 층으로 입력된다. 각 층 사이에 배치되는 하나의 어텐션 모듈은 동일한 4개의 어텐션 블록이 직렬로 배치되어 있으며, 어텐션 블록을 통과한 특징 지도가 1개의 합성곱 계층을 통과한 후 잔차 연결(residual connection)을 통해 입력 이미지와 element-wise summation을 실시하여 최종 특징 맵을 생성한다. 어텐션 모듈은 특징 지도를 구성하는 각 요소의 중요도를 [0, 1]의 구간을 가지는 값으로 표현한 뒤 기존 특징 지도에 곱하는 방식으로 동작한다. 본 논문에서는 기존 YOLOv4[14] 백본 네트워크에 세 종류의 어텐션 모듈을 결합해서 만든 세 가지 형태의 네트워크에 대해 학습 및 추론을 통한 성능 비교를 실시하였다. 본 논문에서 제시한 어텐션 적용 모듈은 YOLOv4에 기존에 적용되는 어텐션 모듈과는 크게 두 가지 측면에서 구분된다. 첫 번째로, YOLOv4 모델에서는 SAM(Spatial Attention Module)의 변형된 형태인 point-wise attention 모듈을 채택하기는 하지만, 해당 모듈은 YOLOv4의 세 가지 주요 구조 중 넥(neck) 네트워크에만 적용되어 있다. 넥 네트워크는 백본 네트워크로부터 생성되는 세 개의 특징 지도를 입력받아 각 특징 지도 사이에 정보를 교환 및 가공하는 역할을 수행한다. 따라서 넥 네트워크의 출력으로 생성되는 특징 지도는 백본 네트워크가 출력을 얼마나 정교하게 생성했는가에 높은 의존도를 가진다. 이러한 분석을 바탕으로 본 논문에서는, 기존 YOLOv4가 한정된 시각 정보를 가진 SAR 데이터 셋에 대해 높은 표적 탐지 성능을 달성하기 위해서는 입력 영상에서부터 직접 특징 정보를 추출하는 전반부 구조인 백본 네트워크가 개선되어야 한다는 점을 제시하였다. 두 번째로, 기존 YOLOv4의 SAM 구조는 [H, W, C] 크기의 입력 특징 지도와 동일한 크기의 어텐션 특징 지도를 생성하여 채널 및 위치별 중요도를 한 번에 계산하는데, 이는 성능 대비 상대적으로 높은 계산 복잡도를 가지기 때문에 비효율적이다. 반면에, 본 논문에서는 채널 및 위치별 요소를 분리하여 중요도를 적용하는 아래 세 가지 어텐션 구조를 적용하여 상대적으로 낮은 계산 복잡도 증가만으로 높은 표적 탐지 성능을 발휘할 수 있도록 하였다.
Fig. 4.
YOLOv4 attention backbone
kimst-25-5-443f4.jpg

3.2.1 Cascade Channel-Spatial Connection

Cascade Channel-Spatial Connection(CC) 어텐션 블록의 구조 및 이를 구성하는 각 요소는 Fig. 5에 나타나 있으며 FFA-Net[9]에서 제안된 어텐션 모듈을 기반으로 구성된다. 어텐션 블록에 입력되는 특징 지도는 3×3 합성곱 계층과 ReLU(Rectified Linear Unit) 활성함수 계층으로 구성된 1차 잔차 합성곱(residual convolution) 연산을 통해 균일한 영역 및 낮은 주파수 영역에 대한 연산을 수행한다.
Fig. 5.
Cascade Connection(CC) Attention Block
kimst-25-5-443f5.jpg
이를 통해 생성된 특징 지도는 한 개의 3×3 합성곱 계층을 통과한 뒤, 채널 어텐션 모듈(Channel Attention Module)과 위치 어텐션 모듈(Spatial Attention Module)을 거치며 채널 및 위치별 중요도가 적용된다. CC 어텐션 블록은 채널 어텐션 모듈과 위치 어텐션 모듈의 배치를 직렬로 설정하여 채널 어텐션 모듈을 통해 채널별 중요도를 우선적으로 적용하고, 그 이후에 위치 어텐션 모듈을 통해 위치별 중요도를 적용하는 방식으로 특징 지도의 전체 요소에 대해 중요도를 적용한다. 채널 어텐션 모듈은 입력 특징 지도의 모든 화소 위치에 1×1×C의 크기를 가지는 채널 어텐션 특징 지도(Channel Attention feature map)를 채널 방향으로 곱하는 방식(Channel-wise multiplication)으로 채널 어텐션을 적용한다. 채널 어텐션 특징 지도는 H×W×C 크기를 갖는 입력 이미지에 평균값 풀링(average pooling)을 적용하여 1×1×C로 채널의 수를 유지하면서 크기를 줄인다. 그 후 합성곱 계층 – ReLU 활성화 함수 계층 – 합성곱 계층으로 구성된 연산을 실시해서 채널 크기를 C에서 C/r(reduction ratio, r)로 줄이고 다시 C로 늘이는 과정을 거친다. 위치 어텐션 모듈은 입력 특징 지도의 각 채널에 대해서 H×W×1의 크기를 가지는 위치 어텐션 특징 지도(Spatial Attention featrue map)를 화소 방향으로 곱하는 방식(Element-wise multiplication)을 사용하여 위치 어텐션을 적용한다. 위치 어텐션 특징 지도는 입력 특징 지도를 3×3 합성곱 계층에 통과시켜 해상도를 유지한 채 채널을 C/r로 줄인 후 ReLU 활성화 함수 계층을 통과하고 다시 3×3 합성곱 계층으로 특징 지도의 채널을 1로 줄여서 H×W×1의 크기를 가지도록 생성된다. 본 논문에서는 채널 어텐션 및 위치 어텐션 적용 시에 채널 수가 줄어드는 비율인 reduction ratio를 8로 설정하였다.

3.2.2 Parallel Channel-Spatial Connection

Parallel Connection(PC) 어텐션 블록은 Cascade Connection 어텐션 블록과 달리 1차 잔차 합성곱 연산과 3×3 합성곱 계층을 통과한 특징 지도에 채널 어텐션 모듈과 위치 어텐션 모듈을 각각 적용한다. 채널 어텐션은 평균값 풀링을 통해 각 채널 별로 H×W 크기의 영역의 값에 대해 평균을 취한 값을 계산하고 해당 값을 가진 1×1 크기의 특징 지도를 생성한다. 이로 인해 동일한 위치에 존재하는 화소에 대해서 채널 별로 다른 값이 곱해지게 되며 이는 위치 어텐션 적용 시에 각 채널에 대해서 동일한 위치에 있는 특징 지도 요소에 대해 동일한 값을 중요도로 곱해야 하는 과정에 영향을 미친다. 이 영향이 전체 학습 방향을 크게 방해하지는 않으나 SAR 영상이 EO 영상에 비해 시각적 정보가 부족하고 표적과 클러터 영역이 상대적으로 유사한 신호 특성을 가지기 때문에 특징 지도가 각 영역을 효과적으로 구분하여 성공적으로 표적을 탐지하는 성능을 저하시킬 수 있다. 이러한 이유로 채널 어텐션과 위치 어텐션 모듈을 이용하여 입력 특징 지도에 중요도를 적용할 때 서로 영향을 주지 않으면서 각각 연산되는 PC 어텐션 블록 구조를 제안하여 기존 FFA-Net과 유사한 구조를 띠는 CC 어텐션 블록 구조와 성능을 비교하고자 한다. PC 어텐션 블록은 채널 어텐션 블록과 위치 어텐션 블록의 배치 방법을 제외하고 CC 어텐션 블록과 동일하게 구성된다. 두 어텐션 모듈을 통해 생성된 두 개의 H×W×C 특징 지도를 채널 방향으로 연결하여 H×W×2C의 크기를 갖는 특징 지도를 생성한 뒤에 1×1 합성곱 계층을 통과시켜서 채널 수가 C인 특징 지도를 최종적으로 생성하는 방식을 적용하였다. 해당 방식을 통해 1×1 합성곱 계층의 파라미터는 각 위치 별로 두 종류의 어텐션 모듈을 통해 생성된 특징 지도 요소의 값을 이용하여 표적과 클러터 영역이 효과적으로 구분될 수 있도록 학습된다.

3.2.3 Coordinate Attention[10]

좌표 어텐션(Coordinate Attention)[10] 기법은 채널 어텐션과 위치 어텐션을 별도로 진행하는 어텐션 기법과는 달리 효율적으로 채널 어텐션 및 위치 어텐션을 동시에 적용하여 어텐션이 적용된 특징 지도를 구하는 기법이다. 입력 특징 지도에 중요도로 곱해지는 어텐션 특징 지도는 두 가지이며 각각은 H×1×C와 1×W×C 의 텐서 크기를 갖는다. 전자는 각 채널 별 중요도와 세로 성분에 해당하는 중요도가 [0, 1]의 값으로 연산된 H×C 크기의 특징 지도를 의미하며, 후자는 각 채널 별 중요도와 가로 성분에 해당하는 중요도 정보를 담고 있는 W×C 크기의 특징 지도이다. 두 특징 지도를 각각 모든 가로 성분과 세로 성분에 대해서 동시에 곱함으로써 입력 특징 지도에 가로, 세로 성분 및 채널 방향의 성분을 모두 고려하여 어텐션을 적용한다.
Fig. 6.
Parallel Connection(PC) Attention Block
kimst-25-5-443f6.jpg
좌표 어텐션 기법은 Fig. 7과 같이 H×W×C의 입력 특징 지도를 높이 방향과 너비 방향으로 각각 평균값 풀링을 적용해서 H×1×C와 1×W×C의 크기를 가지는 특징 지도를 생성한다. 기존 채널 어텐션이 풀링을 적용해서 1×1×C 크기의 특징 지도를 생성하는 것과 달리, 해당 방법으로 평균값 풀링을 적용하면 각각의 특징 지도는 세로 성분과 가로 성분에 대한 정보가 유지된 채로 존재할 수 있다. 각 성분이 유지된 특징 지도는 1×1 합성곱 계층을 통과하여 C/r 채널의 특징 지도를 생성하고 배치 정규화(Batch Normalization)와 ReLU(Rectified Linear Unit)를 적용한 뒤 다시 1×1 합성곱 계층을 통과시켜서 C의 채널 개수를 갖는 두 개의 특징 지도를 생성한다. 각각의 특징 지도에 sigmoid 함수를 적용하여 [0, 1] 범위의 값을 갖도록 조정한 뒤 입력 특징 지도에 곱해서 중요도를 적용한다.
Fig. 7.
Coordinate Attention[10] Block
kimst-25-5-443f7.jpg

MSTAR SAR embedding datasets

4.1 MSTAR Public Datasets[15]

본 논문에서는 제안한 SAR 표적 탐지 알고리즘을 학습 및 테스트하기 위한 데이터 셋으로 MSTAR SAR 합성 데이터 셋(Embedding datsets)을 사용하였으며, 해당 데이터 셋을 구성하기 위해 MSTAR SAR Public Datasets[15]를 이용하였다. MSTAR Public Datasets[15]는 클러터 데이터 셋(MSTAR Public Clutter Datasets)과 표적 데이터 셋(MSTAR Public Target Datasets)으로 구성되어 있으며 Table 1Table 2에 각 데이터 셋에 대한 상세한 정보를 나타내었다. 클러터 데이터 셋은 Fig. 8과 같이 서로 다른 위치에서 촬영한 89장의 SAR 영상으로 구성되어 있다. 클러터 데이터 셋을 구성하는 각 SAR 영상에는 도심지 건물, 나무 등 다양한 종류의 고(高)클러터 영역이 존재한다. 각 영상의 세로 크기는 1,784 화소로 고정되어 있고 가로 크기는 1,472, 1,474, 1,476, 1,478 화소 중 하나의 값을 가진다. Depression angle은 15°로 고정되어 있고, 해상도(Range resolution)는 0.3 m, 화소 간격(Pixel Spacing)은 0.2 m이다. 표적 데이터 셋은 Fig. 9와 같이 10개의 서로 다른 차량 표적과 주변 클러터 영역을 포함한 영상 패치 형태로 존재하며 패치의 중앙에 각 클래스에 해당하는 표적이 위치한다. 각 패치의 크기는 128×128부터 192×193까지 다양하게 존재한다. Depression angle은 15°와 17°로 각 클래스에 대해서 두 종류로 존재한다. 각 Depression angle에 대한 표적 종류별 패치의 개수를 Table 3에 나타내었다. 전체 패치 중 Depression angle 15°에 해당하는 패치의 개수는 3,203개, 17°에 해당하는 패치의 개수는 3,671개로 총 6,874개의 패치가 존재한다. 모든 패치는 클러터 데이터 셋과 동일하게 해상도는 0.3 m이고, 화소 간격은 0.2 m이다. 본 연구에서는 표적 데이터 셋의 각 패치에서 표적에 해당하는 부분을 추출하여 89장의 서로 다른 클러터 데이터 셋에 합성(embedding)하는 방식으로 MSTAR SAR 합성 데이터 셋을 구성하였다.
Fig. 8.
MSTAR public clutter datasets
kimst-25-5-443f8.jpg
Fig. 9.
MSTAR public target datasets
kimst-25-5-443f9.jpg
Table 1.
The detail specifications of MSTAR public clutter datasets
Parameters Value
Depression angle (°) 15
Height of image (pixels) 1784
Width of image (pixels) 1472 ~ 1478
Mode Strip map
The number of scenes 87
Range resolution (m) 0.3
Range Pixel Spacing (m) 0.2
Table 2.
The detail specifications of MSTAR public target datasets
Parameters Value
Depression angle (°) 15, 17
Height of image (pixels) 128 ~ 193
Width of image (pixels) 128 ~ 192
Coverage Full aspect coverage
The number of classes 10
Range resolution (m) 0.3
Range pixel spacing (m) 0.2
Table 3.
The number of patches per target class for each depression angle
Target Types # patches (D.A 15º) # patches (D.A 17º)
2S1 274 299
BMP2 587 698
BRDM2 274 298
BTR60 195 256
BTR70 196 233
D7 274 299
T62 273 299
T72 582 691
ZIL131 274 299
ZSU234 274 299

4.2 Target Embedding

클러터 데이터 셋의 각 SAR 영상에 표적을 합성하기 위해서 두 가지 요소를 고려하였다. 첫 번째는 표적과 클러터의 신호의 비율이 유지되어야 하고, 두 번째는 표적 합성 후에 왜곡과 경계가 없어서 시각적으로 자연스러워야 한다.

4.2.1 클러터 신호 비율 조정

표적을 클러터에 자연스럽게 합성하기 위해서는 표적 신호와 클러터 신호의 비를 유지해야 한다. 이를 위해 식 (1)과 같이 mean-shift를 통해 각 신호의 평균을 맞추었다.
(1)
targetcmbodding=targetcmean+smean
식 (1)에서 targetembedding은 클러터 영역에 합성하기 위해 세기가 조절된 표적의 신호에 해당하고 target 은기존 표적의 신호에 해당한다. cmean은 패치 내에서 표적의 주위에 존재하는 클러터의 평균에 해당하고 Smean 은 합성할 클러터 영역의 주변 화소값 평균에 해당한다.

4.2.2 표적 합성을 위한 마스크 생성

MSTAR SAR 합성 데이터 셋 제작 시, 클러터 데이터 셋에 표적을 합성하기 위해 표적 데이터 셋에서 표적 영역에 해당하는 부분을 정확히 추출하여야 한다. 표적 데이터 셋의 클러터 영역이 함께 합성될 경우 해당 부분까지 표적으로 인식해서 학습을 진행하기 때문에 표적 탐지 성능에 대한 신뢰도가 떨어질 수 있다. 이를 해결하기 위해 표적 데이터 셋의 각 패치에 대해 표적 영역에서 1, 표적 외의 영역에서 0의 값을 가지는 마스크를 수작업을 통해 생성하였다. 마스크를 생성하는 방법으로는 포토샵의 개체 선택 툴을 이용하였다. 해당 툴을 이용해서 마스크를 생성하면 Fig. 10과 같이 화소 문턱값(pixel value threshold)을 이용해서 마스크를 생성하는 것보다 높은 정확도를 가지고 표적 영역에 해당하는 마스크를 생성할 수 있다.
Fig. 10.
Mask generation results(Left : The patch of SAR target, Middle : The generated mask using pixel threshold value, Right : The generated mask using Photoshop object selection tool(proposed))
kimst-25-5-443f10.jpg
마스크 생성 시 고려해야 하는 중요한 요소는 표적 영역과 클러터 영역의 경계에 해당하는 부분이다. 경계를 0 또는 1의 값을 가지는 이진 마스크(binary mask)로 설정한 이후 합성 시 Fig. 11의 좌측 그림과 같이 부자연스러운 테두리가 형성된다. 이는 표적과 클러터 간 뚜렷한 구분이 되기 때문에 표적 탐지 알고리즘 학습 시에 해당 부분을 이용해서 학습을 진행할 가능성이 높으며, 이로 인해 학습 난이도가 잦아져 신뢰도 있는 학습 결과를 얻지 못한다. 이를 해결하기 위해 본 연구에서는 경계 영역에 대해서 선형적으로 변하는 [0, 1] 구간의 연속적인 값을 설정하였다.
Fig. 11.
Target embedding results(Left : Binary mask, Right : Linearly decreasing mask(proposed))
kimst-25-5-443f11.jpg
MSTAR public 표적 데이터 셋[15]Fig. 12에서 볼 수 있듯이 표적 영역과 클러터 영역의 구분이 어려운 패치가 있는 경우에는 적절한 마스크를 생성하지 못하기 때문에 해당 패치는 마스크를 적용하지 않도록 하였다. 이를 고려하여 전체 표적 데이터 셋 중에서 마스크를 생성한 클래스 별 패치의 수는 Table 4에 나타내었다. 전체 표적 데이터 셋 중 표적 영역과 클러터 영역을 구분하기 어려운 패치의 개수는 112개이며 해당 패치를 제외하고 생성한 마스크 개수는 Depression angle 15° 표적 데이터에 대해 3,159개, 17°에 대해 3,603개로서, 총 6,762개의 마스크를 생성하였다.
Fig. 12.
Target dataset patch with no distinct target and clutter regions
kimst-25-5-443f12.jpg
Table 4.
The number of generated masks per target class
Target Types # masks (D.A 15º) # masks (D.A 17º)
2S1 274 296
BMP2 587 692
BRDM2 273 295
BTR60 189 253
BTR70 196 233
D7 274 292
T62 273 294
T72 581 676
ZIL131 272 292
ZSU234 240 280

4.2.3 표적 합성 방법

본 연구에서 효과적으로 클러터 데이터 셋에 표적 데이터 셋을 합성하여 유효한 데이터 셋을 만들기 위해서 두 가지의 요소를 고려하였다. 첫 번째로 고려한 요소는 표적 합성 위치이다. Fig. 13에서 나타나는 것과 같이 표적 합성이 가능한 위치는 고(高)클러터 영역과 그림자 영역을 제외한 평지 영역에 해당하는 부분으로 제한하였다. 고(高)클러터 영역은 정상적인 상황에서 표적이 존재하지 않는다고 보고 일반적인 상황에서 학습을 실시할 수 있도록 하기 위함이다. 고(高)클러터 영역은 값의 분포가 균일하지 않기 때문에 표적 합성 시 표적 신호와 클러터 신호의 비를 유지하기 위한 mean-shift를 적용하면 표적 신호의 값이 일정하지 않고 크게 변할 가능성이 있다. 그림자 영역의 경우 마찬가지로 표적 합성 시 표적의 신호가 그림자 영역에 신호 세기에 영향을 받아 감소하기 때문에 일관적인 탐지 성능을 기대하기 어렵다. 두 번째로 고려한 요소는 각 표적에 따른 스케일 값 적용이다. 본 논문에서 제시한 열악한 환경의 정의 중 첫 번째에 해당하는 다양한 크기의 표적 상황을 위해서 서로 다른 종류의 표적에 대해 다른 스케일 값 적용을 하였다. 스케일 값은 [0.6, 1.5] 구간의 값을 적용하였고 적용한 표적 종류별 스케일 값은 Table 5에 나타내었다. 스케일 값이 1.6 이상일 경우 표적이 자연스럽지 않고 0.6 미만일 경우 소실되는 정보가 많아지므로 해당 구간의 값을 사용하였다. 표적의 크기를 조절하는 함수는 bicubic interpolation을 사용하였다. 클러터 데이터 셋의 SAR 영상에 표적을 합성할 때 하나의 영상에 임의의 값을 가진 방위(azimuth) 방향 및 Depression angle을 가진 표적을 합성하였다.
Table 5.
Scale factor per target class
Target Types Scale factor
2S1 1.0
BMP2 0.6
BRDM2 1.1
BTR60 0.9
BTR70 0.7
D7 1.2
T62 1.3
T72 0.8
ZIL131 1.4
ZSU234 1.5

4.2.4 표적 신호 미약 시나리오 테스트 데이터 셋

본 논문은 열악한 탐지 상황을 고려하여 SAR 표적 탐지 알고리즘을 학습 및 테스트하기 위해 네 가지 요소를 고려하여 MSTAR SAR 합성 데이터 셋을 구성하였다. 이에 추가로, 표적 탐지 난이도가 더 높은 테스트 데이터 셋을 제작하여 탐지 성능을 비교하고자 표적 신호 미약 상황에 해당하는 테스트 데이터 셋을 구성하였다. 표적 신호 미약 상황이란 식 (2)에 해당하는 표적 신호 대 클러터 신호의 비(Signal to Clutter Ratio, SCR)가 일정 값 이하인 상황으로서, 클러터 대비 표적의 신호 세기가 정상보다 낮은 상황을 의미한다.
(2)
SCR=10log10(mean(signal2)mean(clutter2))
여기서 mean (•)은 평균값을 의미하고, signal 은 표적 영역의 신호 세기를 의미하며, cutter 는 클러터 영역의 신호 세기를 의미한다. MSTAR 표적 데이터 셋의 일반적 SCR은 약 18 dB이다. 본 논문에서는 SCR 의 값을 기존 18 dB에서 각각 10, 7.5, 5 dB로 조절한 데이터 셋을 생성하여 표적 탐지 테스트를 수행하였다. 각 목표 SCR 값은 식 (3)을 이용하여 조정한다.
(3)
targetSCR=10log10(mean(α signal2)mean(clutter2))
위 식에서 계수 α는 식 (4)를 이용하여 구한다.
(4)
α=mean(signal2)mean(clutter2)10targetSCR10
SAR 영상의 SCR 값이 작을수록 표적과 클러터 영역을 구분하기 어렵기 때문에 표적 탐지의 난이도가 증가하는 열악한 실험조건이다. SCR이 조절된 표적 데이터 예시는 Fig. 14와 같다. 표적 신호 미약 데이터 셋 생성시 원래의 표적의 신호의 값을 감소시키지만, 표적의 그림자 영역에 해당하는 화소 값도 줄일 경우 그림자 영역이 부자연스럽게 어두워지는 문제가 발생한다. 본 논문에서는 이를 고려하여 SCR 조절 시에 그림자를 제외하고 표적에 해당하는 영역에 대해서만 신호 세기 조절을 수행하였다. 이를 위해 표적에 대한 마스크 생성 시에 표적 합성을 위한 ‘표적과 그림자 영역을 포함한 마스크’ 및 SCR 조절을 위한 ‘표적 영역에 대한 마스크’를 각각 생성하였다. 각 마스크에 대한 예시 이미지는 Fig. 15에 나타내었다.
Fig. 14.
SAR targets per SCR value
kimst-25-5-443f14.jpg
Fig. 15.
Mask generation results for week signal scenario(Left : SAR target, Middle : Mask of target + shadow, Right : Mask of shadow only)
kimst-25-5-443f15.jpg

4.3 Training/Test datasets

상기 제안한 표적 합성 방법을 적용하여 클러터 데이터 셋에 표적을 합성하였고, 총 2,975개의 MSTAR SAR 합성 데이터 셋을 생성하였다. 전체 데이터 셋은 89 종류의 서로 다른 장면에서 촬영한 클러터 데이터 셋을 기반으로 생성하였다. 학습 시에 사용한 클러터 장면과 동일한 장면을 테스트 시에 사용하지 않도록 전체 클러터 중 15 종류의 장면에서 촬영한 클러터를 테스트 셋으로 별도로 분류하였다.

4.3.1 Training datasets

본 논문에서 학습에 사용한 학습 데이터 셋은 전체 89 종류의 클러터 데이터 셋 중 테스트에 활용한 15개의 클러터 데이터 셋을 제외한 총 74개의 클러터 데이터 셋에 표적을 합성하여 생성한 합성 데이터 셋을 기반으로 구성하였다. 전체 SAR 영상 영역에서 512×512 크기에 해당하는 윈도우를 200 화소 간격씩 이동하며 크롭핑(cropping)을 수행하여, Fig. 16과 같이 학습 패치를 생성하였다. 생성한 총 패치의 개수는 50,671개이며, 한 장의 패치에 평균적으로 합성된 표적의 개수는 약 14.08개이다. 하나의 패치 내에 존재하는 각 표적의 SCR 값은 18, 10, 7.5, 5 dB의 네 값 중 임의의 값으로 설정하였다. 다양한 SCR 값을 갖는 표적에 대해 학습을 수행함으로써 표적 신호 미약 상황에서 높은 표적 탐지 성능을 도출할 수 있도록 학습 데이터 셋을 구성하였다.
Fig. 16.
MSTAR SAR embedding training datasets (Dynamic range restriction)
kimst-25-5-443f16.jpg

4.3.2 Test datasets

SAR 표적 탐지 알고리즘의 성능을 검증하기 위한 테스트 데이터 셋은 Fig. 17과 같이 전체 MSTAR SAR 클러터 데이터 셋 중 15 종류의 클러터 데이터 셋에 다양한 SCR 값을 갖는 SAR 표적을 합성해서 105장의 합성 데이터 셋을 사용하였다. 테스트 데이터 셋 한 장의 영상에 평균적으로 합성 적용된 SAR 표적의 개수는 약 107.62개이다. Fig. 18Fig. 17에 해당하는 테스트 영상에 대해 표적의 SCR 값을 기존 18 dB에서 5 dB로 감소하여 생성한 표적 신호 미약 테스트 영상 예시이다.
Fig. 17.
MSTAR SAR embedding test datasets (HB06226_0000.png, SCR 18 dB, Dynamic range restriction)
kimst-25-5-443f17.jpg
Fig. 18.
MSTAR SAR embedding test datasets (HB06226_0000.png, SCR 5 dB, Dynamic range restriction)
kimst-25-5-443f18.jpg

실험 결과

5.1 Training/Test Parameters

본 논문에서 제안한 YOLOv4 어텐션 SAR 표적 탐지 알고리즘을 학습하기 위한 학습 및 테스트 변수는 다음과 같다. 각 알고리즘에 대해서 유사한 파라미터를 사용하는 조건을 적용하였다.
  • 학습 반복 횟수(Training step) : 1,400,000

  • 학습에 사용한 배치(서브 배치) 크기 : 64(4)

  • Learning rate : 0.001(1,250,000 step 후 0.0002)

  • Adam optimizer(beta1 : 0.9, beta2 : 0.999)

  • 신뢰도 문턱값(confidence threshold) : 0.6

  • NMS(Non Maximum Suppression) threshold : 0.6

YOLOv4를 학습할 때에는 사전 학습된 모델을 사용하지 않고, 스크래치 레벨부터(random weight values) 학습을 적용하였다. EO 영상은 SAR 영상과 도메인 차이가 크기 때문에 EO 영상으로 학습된 모델을 SAR 영상으로 재학습하는 것은 성능 개선의 효과를 기대하기 어렵다. 테스트 시에 출력되는 바운딩 박스의 신뢰도 점수가 신뢰도 문턱값을 초과하는 경우 최종값으로 출력되며, 출력되는 바운딩 박스 중 제일 큰 신뢰도 점수를 가진 바운딩 박스와 각각의 다른 바운딩 박스들과의 IoU 값이 NMS를 초과할 경우에는 최종 출력에서 제외된다. 제안 알고리즘에서 학습을 위해 사용한 손실 함수는 다음과 같다.
  • Localization loss : 각 바운딩 박스의 위치 좌표에 대한 Binary Cross Entropy loss 및 가로 세로 길이에 대한 MSE loss

  • Classification loss : 표적의 종류(Class)에 대한 Binary Cross Entropy loss

  • Confidence loss : 탐지 결과의 신뢰도 점수(Confidence score)에 대한 Binary Entropy loss

학습 및 테스트를 진행하기 위해 사용한 GPU는 NVIDIA A100이며, 학습환경은 Pytorch를 사용하였다.

5.2 표적 탐지 알고리즘 성능 비교

5.2.1 YOLOv4 기반 알고리즘별 표적 탐지 성능 비교

본 논문에서 제안한 백본 어텐션 적용 YOLOv4 기반 표적 탐지 알고리즘의 성능을 기존 YOLOv4와 비교하기 위하여 제안 테스트 데이터 셋에 대하여 딥러닝 기반 표적 탐지 성능 지표로 가장 대표적으로 활용되는 mAP(mean Average Precision) 수치를 비교하였다. mAP는 각 표적 종류별 정밀도-재현율 곡선(Precision-Recall Curve)의 면적에 해당하는 AP를 구한 후 이에 대해 평균을 낸 수치이다. mAP 적용 시, IoU 문턱값은 0.5로 설정하였다. 이와 함께, 각 YOLOv4 기반 구조의 파라미터 및 추론 시간을 비교하여 Table 6에 나타내었다. 표적 종류에 따른 AP 값을 Fig. 19에 나타내었으며, 위로부터 순서대로 YOLOv4[14], YOLOv4 with CC Attention Blocks, YOLOv4 with PC Attention Blocks, YOLOv4 with Coordinate Attention Blocks의 성능 결과를 나타낸다.
Fig. 19.
Results on SAR object detection(SCR 18 dB)
kimst-25-5-443f19.jpg
Table 6.
Results on SAR object detection
Methods mAP(%) The # of parameters Time (s)
YOLOv4 98.87 63.9M 0.1125
YOLOv4 with CC Atten. Blocks 99.35 95.8M 0.1904
YOLOv4 with PC Atten. Blocks 99.58 120.9M 0.2530
YOLOv4 with Coord. Atten. Blocks 99.49 92.3M 0.1906
테스트 데이터 셋을 이용한 각 기법의 mAP 성능 비교 결과, YOLOv4 with PC Attention Blocks 모델이 99.58 %로 가장 높은 mAP 성능 결과를 도출하였고 YOLOv4 with Coordinate Attention Blocks 모델이 mAP 99.49 %로 두 번째로 높은 성능을 보였다. 이는 기존 YOLOv4 모델에 비해 각각 0.71 %p, 0.62 %p 높은 성능 수치이다. Fig. 19는 각 기법에 대한 클래스별 AP 수치를 그래프로 나타낸 결과이다.

5.2.2 표적 신호 미약 상황에서의 YOLOv4 기반 알고리즘별 표적 탐지 성능 비교

YOLOv4[14] 기반 각 SAR 표적 탐지 알고리즘의 표적 신호 미약 시나리오에 따른 성능을 비교하여 Table 7에 나타내었다. SCR 18 dB인 상황에서와 마찬가지로 YOLOv4 with PC Attention Blocks 모델이 모든 SCR 값에 대해서 가장 높은 표적 탐지 성능을 보였으며 10 dB, 7.5 dB, 5 dB에 대해 각각 99.56 %, 99.49 %, 99.46 %의 mAP 결과를 도출하였다. 이는 기존 YOLOv4 모델에 비해 각각 0.86 %p, 0.95 %p, 1.29 %p 향상된 결과이다. 테스트 데이터 셋의 SCR 값이 감소할수록 기존 YOLOv4 모델과의 표적 탐지 성능 차이의 폭이 증가하는 경향을 보였다. 이는 열악한 표적 탐지 환경일수록 제안 모델이 기존 기법 대비 더욱 효과적으로 표적 탐지를 수행한다는 것으로 해석될 수 있다. 두 번째로 높은 성능을 보이는 구조는 YOLOv4 with Coordinate Attention Blocks 모델로 기존 YOLOv4 모델 대비 각 SCR 값에서 0.83 %, 0.91 %p, 1.11 %p 향상된 성능을 보였다. Fig. 2022는 각각 SCR 10, 7.5, 5 dB에 해당하는 테스트 데이터 셋에서의 각 기법에 대한 클래스별 AP 수치를 그래프로 나타낸 결과이다.
Fig. 20.
Results on SAR object detection(SCR 10 dB)
kimst-25-5-443f20.jpg
Fig. 21.
Results on SAR object detection(SCR 7.5 dB)
kimst-25-5-443f21.jpg
Fig. 22.
Results on SAR object detection(SCR 5 dB)
kimst-25-5-443f22.jpg
Table 7.
Results on SAR object detection per SCR value
Methods SCR
10 dB
SCR
7.5 dB
SCR
5 dB
YOLOv4 98.70 98.54 98.17
YOLOv4 with CC Atten. Blocks 99.36 99.32 99.10
YOLOv4 with PC Atten. Blocks 99.56 99.49 99.46
YOLOv4 with Coord. Atten. Blocks 99.53 99.45 99.28
Fig. 23에 SCR 5dB인 상황에서 각 표적 탐지 알고리즘의 탐지 결과 및 정답 영상을 나타내었다. 해당 그림은 MSTAR SAR 합성 테스트 데이터 셋 중 ‘HB06252_0005.png’ 영상의 표적 탐지 결과 일부를 나타낸 것이다. YOLOv4[14] 알고리즘의 경우 빨간색 박스로 표시한 것과 같이 실제 BDRM2에 해당하는 표적을 탐지하지 못하거나, 주황색 박스로 표시한 BMP2 표적에 대해서 BMP2 및 T72로 이중 탐지가 발생하는 것을 확인할 수 있다. 반면 백본 네트워크에 어텐션을 적용한 세 가지 기법에 대한 표적 탐지 결과에서는 해당 데이터 셋에서 표적을 탐지하지 못하거나 잘못 분류하는 사례가 발생하지 않음을 확인할 수 있다.
Fig. 23.
Visualization results on SAR object detection(HB06252_0005.png) (SCR : 5 dB) (a) YOLOv4, (b) YOLOv4 with CC Attention Block, (c) YOLOv4 with PC Attention Block, (d) YOLOv4 with Coordinate Attention Blocks, (e) Ground Truth
kimst-25-5-443f23.jpg

결 론

본 논문에서는 여러 열악한 표적 탐지 상황에서도 높은 수준의 표적 탐지 성능을 가지는 딥러닝 기반 표적 탐지 알고리즘을 제안하였으며, 이를 위해 기존 광학 영상에서 표적 탐지로 사용하는 YOLOv4[14] 알고리즘에 어텐션 모듈을 추가하여 표적 탐지 성능을 검증하였다. 이를 위해 다양한 클러터 환경에 대해서 열악한 상황에 해당하는 데이터 셋을 제안하는 표적합성 방법을 통해서 구성하였다. 해당 데이터 셋을 이용하여 제안 표적 탐지 알고리즘이 기존의 CFAR 기반 표적 탐지 알고리즘[11,12] 및 딥러닝 기반 알고리즘보다 높은 표적 탐지 결과를 도출함을 보였으며, 특히 표적 신호 미약 상황에서의 경우에도 표적 탐지 성능에서의 높은 이득(gain)을 가짐을 보였다. 본 논문의 결과를 통해 YOLOv4[14] 백본 네트워크의 고도화로 SAR 영상의 표적 탐지 성능을 향상할 수 있음을 보였으며, 추후 연구를 위해 제시하는 연구 방향 및 보완 사항은 다음과 같다.
  • ① 트랜스포머(Transformer) 기반 백본 네트워크 : 현재 활발히 연구되고 있는 주제인 자기-어텐션(self- attention) 기법을 활용한 트랜스포머 구조를 백본 네트워크에 적용하여 동일한 열악한 표적 탐지 상황에서 성능이 향상될 수 있음을 보인다. 다만, 트랜스포머 구조를 백본 네트워크에 추가하면 본 논문에서 채택한 어텐션 모듈보다 계산 복잡도가 상당히 증가하기 때문에, 추론 속도와 성능을 모두 고려하는 측면에서 해당 구조에 대한 효과적인 활용 방안을 모색하고자 한다.

  • 손실 함수를 위한 탐지 바운딩 박스 보완 : 현재 학습 및 테스트에 사용되는 탐지 바운딩 박스는 꼭짓점의 위치 및 길이 정보만 포함하고 있으므로 다양한 방위방향을 가지는 표적의 정확한 위치를 나타내기 어렵다. 이를 해결하기 위해 바운딩 박스에 각도 정보를 포함해서 표적의 방위방향에 따라서 더욱 정밀하게 표적의 위치를 나타낼 수 있도록 보완한다면 손실함수 계산 및 IoU 계산 측면에서 높은 신뢰도를 확보할 수 있다.

감사의글

본 연구는 국방과학연구소의 연구비 지원으로 수행되었습니다.

References

[1]. J. Oh, et al, "PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image Generation with a Pose Estimator and an Auxiliary Classifier," Remote Sensing, Vol. 13(13):2021.
crossref
[2]. J. Oh, et al, "SPAM-Net: A CNN-based SAR Target Recognition Network with Pose Angle Marginalization Learning," IEEE Transactions on Circuits and Systems for Video Technology(TCSVT), Vol. 32, pp. 701–714, 2021.
crossref
[3]. R. Girshick, et al, Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). pp. 580–587, 2014.

[4]. S. Ren, et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Proceedings of the Neural Information Processing Systems(NIPS),. 2015.

[5]. J. Redmon, et al, You Only Look Once: Unified, Real-Time Object Detection, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). pp. 779–788, 2016.

[6]. W. Liu, et al, SSD: Single Shot MultiBox Detector, Proceedings of the European Conference on Computer Vision(ECCV). pp. 21–37, 2016.

[7]. S. Woo, et al, CBAM: Convolutional Block Attention Module, Proceedings of the European Conference on Computer Vision(ECCV). pp. 3–19, 2018.

[8]. Y. Zhang, et al, Image Super-Resolution Using Very Deep Residual Channel Attention Networks, Proceedings of the European Conference on Computer Vision(ECCV). pp. 286–301, 2018.

[9]. X. Qin, et al, "FFA-Net: Feature Fusion Attention Network foe Single Image Dehazing," Proceedings of AAAI Conference on Artificial Intelligence, Vol. 34(07):pp. 11908–11915, 2020.

[10]. Q. Hou, et al, Coordinate Attention for Efficient Mobile Network Design, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). pp. 13713–13722, 2021.

[11]. Y. Cui, et al, CFAR Ship Detection in SAR Images based on Lognormal Mixture Models, 2011 3rd International Asia-Pacific Conference on Synthetic Aperture Radar(APSAR). pp. 1–3, 2011.

[12]. Y. Cui, et al, "On Semiparametric Clutter Estimation for Ship Detection in Synthetic Aperture Radar Images," in IEEE Transactions on Geoscience and Remote Sensing, Vol. 51(5):pp. 3170–3180, 2013.
crossref
[13]. M. Ester, et al, "A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise," kdd., Vol. 96(34):pp. 226–231, 1996.

[14]. A. Bochkovskiy, et al, YOLOv4: Optimal Speed and Accuracy of Object Detection, arXiv:2004.10934, April,. 2020.

[15]. Sandia National Laboratory. MSTAR Overview, Last Modified Jan 07, 2021, Accessed May 09, 2022,. https://www.sdms.afrl.af.mil/index.php?collection=mstar.



ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
FOR CONTRIBUTORS
Editorial Office
160 Bugyuseong-daero 488beon-gil, Yuseong-gu, Daejeon 34060, Korea
Tel: +82-42-823-4603    Fax: +82-42-823-4605    E-mail: kimst@kimst.or.kr                

Copyright © 2022 by The Korea Institute of Military Science and Technology.

Developed in M2PI

Close layer
prev next