Grad-CAM 기반의 설명가능한 인공지능을 사용한 합성 이미지 개선 방법

Improving Confidence in Synthetic Infrared Image Refinement using Grad-CAM-based Explainable AI Techniques

Article information

J. KIMS Technol. 2024;27(6):665-676
Publication date (electronic) : 2024 December 5
doi : https://doi.org/10.9766/KIMST.2024.27.6.665
1)Mechanical Engineering Research Institute, KAIST, Korea
2)Department of Aerospace Engineering, KAIST, Korea
김태호1), 김강산2), 방효충2),
1)한국과학기술원 기계기술연구소
2)한국과학기술원 항공우주공학과
*Corresponding author, E-mail: hcbang@kaist.ac.kr
Received 2024 July 10; Revised 2024 September 2; Accepted 2024 September 13.

Trans Abstract

Infrared imaging is a powerful non-destructive and non-invasive technique to detect infrared radiations and capture valuable insights inaccessible through the visible spectrum. It has been widely used in the military for reconnaissance, hazard detection, night vision, guidance systems, and countermeasures. There is a huge potential for machine learning models to improve trivial infrared imaging tasks in military applications. One major roadblock is the scarcity and control over infrared imaging datasets related to military applications. One possible solution is to use synthetic infrared images to train machine learning networks. However, synthetic IR images present a domain gap and produce weak learning models that do not generalize well. We investigate adversarial networks and Explainable AI(XAI) techniques to refine synthetic infrared imaging data, enhance their realism, and synthesize refiner networks with XAI. We use a U-Net-based refiner network to refine synthetic infrared data and a PatchGAN discriminator to distinguish between the refined and real IR images. Grad-CAM XAI technique is used for network synthesis. We also analyzed the frequency domain patterns and power spectra of real and synthetic infrared images to find key attributes to distinguish real from synthetic. We tested our refined images on the realism benchmarks using frequency domain analysis.

1. Introduction

적외선 이미징은 보안, 의학, 자동차, 항공우주, 화학, 전기 및 기계 산업 등의 다분야에 적용되고 있으며, 탐지, 장애물 투과, 비파괴 검사, 시각화 및 공간 해상도 개선, 다중 모드 영상 등에 사용된다[1-4]. 이러한 분야에서는 실제 적외선 이미지 외에도 기계학습을 위한 훈련용 데이터세트, 시뮬레이션, 시험, 데이터 증강, 다중 모드 융합 및 분석 등을 위한 합성 적외선 이미지 수요가 존재한다. 합성 영상 기술은 컴퓨터 비전, 그래픽, 멀티미디어 산업을 포함한 다양한 분야에서 강력한 도구로 부상했다[1,2,5]. 그러나 생성된 이미지 품질과 사실성은 수요자인 인간의 기준에 미치지 못하는 경우가 많으며, 이를 해결하기 위한 효과적인 합성 이미지 생성 및 개선 기술에 대한 수요가 증가하고 있다.

합성 적외선 이미지 수요에 대응하여 MuSES[6], Vega Prime[7], OKTAL-SE[8] 같은 상용 시뮬레이터 소프트웨어가 사용되고 있다. 최근에는 레이 트레이싱 및 안티앨리어싱 같은 텍스처 개선 기술의 도입으로 시뮬레이션의 사실성이 향상되고 있다. 그러나 시뮬레이터를 사용한 합성 이미지 생성은 두 가지 근본적인 문제가 존재한다. 첫째, 장면(scene)의 모든 구성요소를 모델링 하기 위해선 막대한 연산량이 요구된다. 둘째, 무한한 해상도로 이미지 내의 모든 구성요소를 가시화할 수 없다. 적외선 이미지 시뮬레이터는 첫 번째 문제를 개별적인 모델링과 재질을 구현하는 대신 배경요소를 반복되는 텍스쳐로 대체하여 해결한다. 그러나 두 번째 문제는 해상도의 증가에 따른 막대한 컴퓨팅 자원이 없이는 극복할 수 없다. 이러한 문제를 해결하기 위해, 설명 가능한 AI(eXplainable AI, XAI)와 적대적 신경 생성망(Generative Adversarial Networks, GAN)을 결합한 방법이 시도되었으며, 인간이 해석 및 제어 할 수 있는 이미지 합성 방법을 구현하는데 있어 긍정적인 결과를 보여주었다.

2014년 Goodfellow 등이 소개한 GAN은 두 신경망이 적대적인 경쟁을 통해 학습하는 프레임워크를 통해 이미지 합성 분야에 혁명을 일으켰다[9]. 생성 네트워크는 판별 네트워크의 판별과정을 통과할 수 있는 합성 이미지를 생성하도록 훈련되며, 판별 네트워크는 실제 이미지와 생성된 이미지를 구별할 수 있도록 훈련된다. GAN은 적대적 훈련 과정을 통해 다양한 분야와 스타일을 가진 이미지를 생성할 수 있음이 입증되었다. 그러나 CycleGAN을 사용한 생성 모델 기반 합성 적외선 이미지의 텍스처 개선 연구에서는, GAN 개선 네트워크가 원본 이미지가 가진 구조와 맥락을 왜곡할 수 있음이 단점으로 지적되었다[10]. 신경망에 기반한 다른 이미지 개선 접근법으로는 Neural style transfer가 있다. 해당 접근법을 이용하여 실제 적외선 이미지의 스타일을 합성 데이터에 전이하는 데 있어 계산 효율성이 높지만, 이미지 개선 과정에서 원본 이미지의 구조가 훼손될 수 있다는 단점이 있다[11].

GAN 외에도, 이미지 분석과 네트워크 합성에 도움이 될 수 있는 또 다른 학습 기반 기술은 설명 가능한 AI(XAI)가 있다. XAI는 해석이 제한되는 인공 지능(AI) 모델의 의사 결정 과정을 인간이 접근하고 이해할 수 있도록 하는 설명가능성을 제공하는 접근법이다. 이미지 개선 모델에 XAI를 통합할 경우, 현실적인 통찰력을 얻을 수 있다. 이러한 이해는 더욱 강인하고 신뢰할 수 있는 모델의 개발을 도울 뿐만 아니라 이미지 생성 과정에서 네트워크에 대한 세부조정을 가능하게 할 수 있다. 본 연구에서 사용한 XAI 접근법은 Grad-CAM 기반 XAI로, 분류기 및 판별기 네트워크 조사에 성공적으로 사용되었으며, 합성 적외선 이미지 개선과정에도 사용될 수 있다[12]. XAI 모델의 해석 가능성과 GAN의 생성 능력을 활용함으로써, 인간의 시각 기준에서 사실적인 이미지를 생성하는데서 그치지 않고 이미지의 사실성과 품질에 기여하는 요소에 대한 분석이 가능한 기술을 개발할 수 있다.

본 연구에서는 적대적 네트워크를 사용하여 합성 이미지를 개선하는 방법론을 연구하였으며, 개선 과정에서 입력 이미지의 원본 구조 보존을 주요 고려요소로 설정했다. 이미지의 개선을 위한 네트워크로는 Encoder-Decoder 구성의 수정된 U-Net 아키텍처를 사용했다. U-Net 아키텍처는 Encoder에서 Decoder로의 정보 흐름을 유지하기 위한 스킵 연결을 사용하여 아키텍처의 병목 현상으로 인한 이미지 정보 훼손을 방지할 수 있다. 판별 네트워크로는 PatchGAN의 판별기를 사용하여 개선-판별 네트워크를 적대적으로 훈련한다[13]. Grad-CAM 기반 XAI 기법은 판별기를 분석하고 학습 과정을 미세 조정하기 위해 사용된다. 본 연구는 이를 통해 생성형 모델에 해석 가능성 개념을 도입하고자 하며, 이를 통해 합성 이미지 개선과 다양한 분야에서의 응용을 촉진하는 데 기여하고자 한다. 이 작업의 주요 기여는 다음과 같이 요약할 수 있다:

  • 단일 채널 중적외선 데이터셋에 더 적합하게 원래 U-Net 아키텍처를 수정했다.

  • 전투 시나리오에서 적외선 데이터 개선을 위해 적대적 네트워크 사용을 조사하였다. 이는 본 연구의 조사범위 내에서는 최초로 시도된 접근법이다.

  • 합성, 개선된, 실제 적외선 이미지의 주파수 및 전력 스펙트럼을 분석하여 이미지 개선의 품질을 평가할 수 있는 Human-in-loop 평가 방법을 고안했다.

  • 설명 가능한 인공지능(XAI) 모델을 사용하여 제시된 네트워크를 설명하고, 개선된 적외선 이미지와 합성 적외선 이미지간의 차이를 설명한다.

2장은 본 연구에서 사용된 이미지 개선방법론을 다루며, 3장은 적용된 설명 가능한 AI 방법론에 대해 설명한다. 4장에서는 시뮬레이션 결과 및 토의사항을 제시한다.

2. Image Refinement

적대적 신경 생성망(GAN) 은 무작위 잡음 벡터 (z)에서 생성 이미지(y)로의 매핑과정(R : z → y)을 학습한다[9]. 반면, 본 연구에서는 Isola. et al.[13]의 접근법을 참고하여 합성 이미지(x)와 무작위 잡음 벡터(z)에서 개선된 이미지(y)로의 매핑과정(R : {x,z} → y)를 학습하는 적대적 네트워크를 사용하였다. 개선기(R)은 적대적으로 훈련된 판별기(D)가 실제 이미지와 구분할 수 없는 출력을 생성할 수 있도록 훈련된다.

2.1 U-Net Refiner

최신 Image to image 변환 기법들은 고해상도 RGB 이미지를 생성할 수 있으나, 생성과정에서 원본 입력 이미지의 주요 특성구조가 유실될 수 있다. 많은 선행연구에서 사용된 Encoder-Decoder 이미지 변환 아키텍처의 주된 문제점은 입력 이미지와 생성 이미지 간의 특성 및 구조 결합이 느슨하다는 것이다. 본 연구의 주요 과제는 입력된 합성 적외선 이미지를 개선하여 유사한 관측시점의 원본 적외선 이미지와 같은 통계적 분포를 가지도록 개선함과 동시에 입력 이미지의 구조를 보존하는 것이다. Encoder에서 Decoder로 입력 정보를 직접 전달하는 Skip connection은 Encoder-Decoder 아키텍쳐의 병목 문제를 해결함과 동시에 입력 이미지의 구조 정보 손상을 방지할 수 있다. 본 연구에서는 Skip connection을 갖춘 원본 U-Net 프레임워크[13]를 중적외선 이미지 처리에 적합하도록 수정한 네트워크를 사용한다.

수정된 네트워크 구조는 네트워크의 깊이와 Skip connection을 변경하는 데 중점을 두었다. Grad-CAM 기반의 XAI 접근 방식을 적용하여, 이미지 개선에 대한 XAI의 설명 방식을 토대로 원본 U-Net 아키텍처를 수정하였다. 본 연구의 목표는 PatchGAN 판별기의 XAI 설명이 개선된 이미지의 최대 면적을 포괄하여, 해당 이미지가 실제인지 합성된 것인지 판별할 수 있도록 개선기 네트워크의 밀도를 최적화하는 것이다. U-Net 네트워크의 최종 아키텍처를 Fig. 2에 나타내었다. 수정된 네트워크는 RGB 대신 단일 채널 이미지를 처리하고 상대적으로 낮은 깊이를 가진다. 해당 네트워크는 개선기로 활용되며, 후술할 판별기와 함께 적대적으로 훈련된다. 다음은 U-Net 개선기의 주요 특징이다:

Fig. 2.

Block diagram of proposed image refinement

Fig. 1.

U-Net Architecture: Encoder-decoder network architecture with skip connections to retain input features

  • U-Net 네트워크는 Skip connection을 추가한 Encoder-Decoder 구조를 사용하여 입력 이미지와 개선된 출력 이미지간 정보의 전달을 허용하고 입력 이미지의 구조를 보호한다.

  • U-Net 프레임워크의 Skip connection은 Encoder로의 Gradient(기울기) 흐름을 개선한다.

  • U-Net 아키텍처는 입력-출력 이미지 간의 픽셀 수준에서의 대응 관계를 유지한다.

2.2 Markovian Discriminator

본 연구에서는 이미지의 고주파 선명도를 높이기 위해 Markovian PatchGAN 판별기를 사용하였다[13]. PatchGAN 판별기는 이미지의 Local patch 내의 구조에 주의하여 판별을 실시한다. 이 과정에서 patch 스케일의 구조에는 패널티가 가해지고, 이미지의 고주파 성분을 정제할 수 있다. 본 연구에서는 저주파 성분 개선을 위해 적합한 손실함수를 선택하였다. 판별기는 모든 patch에 대한 결과값을 종합하고, 평균값을 산출하여 최종적인 판별 출력값을 제공한다. Patch GAN의 patch 크기는 네트워크의 훈련 속도 조절을 위한 파라미터로 사용될 수 있다. patch 크기가 작을수록 매개변수가 줄어들어 네트워크의 훈련 속도는 빨라진다. 이 판별기는 이미지를 Markov random field로 효과적으로 모델링하며, 서로 다른 patch는 독립적인 것으로 가정한다.

2.3 Loss Function

L2 distance와 같은 널리 사용되는 손실함수는 GAN 에서 고품질 이미지를 생성할 수 있지만, 생성된 이미 지의 통계적 분포는 실제 이미지와 상이할 수 있다. 본 연구에서는 생성기가 판별기를 속일 뿐만 아니라 개선된 출력과 실제 출력 간의 픽셀 거리를 줄이는 역할을 동시에 수행하도록 설계한 Isola. et al.[13]과 유사한 접근법을 사용한다. 본 연구의 개선기 손실 함수는 다음과 같다.

(1) L=arg minR maxDLAN+λLLl

LAN은 유사한 접근법에서 공통적으로 사용되는 적대적 네트워크 관련 손실 항이고, LL1은 손실함수에 추가된 픽셀 거리 항이다[13]. 손실 함수에서의 LAN 항은 다음과 같이 표현될 수 있다.

(2) LAN(R,D)=Ex,y[logD(x,y)]+Ex,z[log(1D(x,R(x,z)))

수식의 R은 개선기를 나타내며, 손실을 최대화하는 적대적 판별기(D)에 대응하여 목적값을 최소화한다. 입력 이미지와 입력 잡음 벡터는 각각 x와 z로 표현된다. 개선 네트워크에 의해 개선된 출력 이미지는 y 로 표현된다. 또한, 정규화된 픽셀 거리 항은 다음과 같이 나타낼 수 있다.

(3) LL1(R)=Ex,y,z[yR(x,z)1]

정규화 항은 네트워크의 출력값을 실제 데이터에 더 가깝게 만들 뿐 아니라 출력 이미지가 지나치게 흐려지는 것을 방지하는데 사용된다.

3. Network Explanation

많은 분야에서 AI 기술을 적용하여 고성능의 결과물을 획득할 수 있었지만, 내재된 복잡성으로 현대의 AI 시스템은 직관적인 방식으로 결정에 대한 설명을 제시하는 것이 불가능하여 실용적으로 적용하기에는 한계가 있다[15]. Van Lent et al.[16]에 의해 처음 개발된 XAI는 학문적인 분야 및 실용적인 분야 연구자들에 의해 다양하게 적용되어 왔다[17,18]. 여기서 설명 가능성이라는 단어는 모델의 블랙박스(Black-Box) 행동을 설명하려고 시도하는 모델의 기능적 지식을 의미한다[19]. 특히, 딥러닝 모델의 경우 모델이 학습한 특징이 매우 추상적이고 인간이 이해하기 불가능한 경우가 많기 때문에, 모델의 출력을 해석 가능한 형태로 변환하는 것이 중요하다.

이미지 개선 네트워크 내부의 의사결정 과정을 설명하기 위해서는 설명가능한 네트워크 개념의 도입이 필요하다. 네트워크의 내부 작동을 이해하는 효과적인 접근 방식 중 하나는 특정한 출력 또는 예측에 관련된 입력 이미지의 영역을 강조하는 중요도 맵(saliency maps)이다. 본 연구에서는 설명가능한 네트워크를 위한 중요도 맵 생성 방식으로 Gradient-weighted Class Activation Mapping(Grad-CAM)을 사용하였다[12]. Grad-CAM은 최종 Convolution layer의 활성화에 대한 대상 기울기를 활용하여 입력 이미지에서 판별기의 결정과정에 핵심적으로 기여하는 영역을 강조하는 중요도 맵을 생성한다. 이를 통해 신경망이 특정한 판단을 내리기 위해 입력 이미지에서 가장 집중적으로 주목하는 지점을 사람이 이해할 수 있는 형태의 히트맵으로 변환할 수 있다. Grad-CAM은 네트워크의 마지막 Convolution layer에서 기울기를 분석하여 특정한 클래스에 대한 각 feature map의 중요도를 해석한다. Grad-CAM과 유사한 방법론으로는 부분적으로 개선된 버전인 Grad-CAM++가 있다[14].

Fig. 3.

PatchGAN Discriminator generates predictions for different patches of the input images

4. Results and Discussions

본 연구에서 적대적 네트워크의 학습 및 검증, 개선된 합성 적외선 이미지에 대한 분석을 위해 사용한 이미지 데이터셋은 다음과 같다.

  • 구글지도 및 이에 대응되는 위성촬영 이미지.

  • DSIAC SENSIAC ATR 데이터셋: 미 국방 시스템 정보 분석 센터(DSIAC) 야시센서부서(NVESD)에서 자동 표적 인식(ATR) 개발을 위해 제공하는 다양한 전장 시나리오와 군용 차량 유형에 대한 실제 적외선 이미지.

  • OKTAL-SE 데이터셋: SENSIAC ATR 데이터셋의 전장시나리오 파라미터를 반영, OKTAL-SE 시뮬레이터로 생성된 OKTAL-SE 합성 적외선 이미지로서 목표물로부터의 거리, 목표물의 유형, 날씨 조건(흐림, 맑음, 비), 계절(여름, 가을 등), 하루 중 시간, 목표물의 시야각 등을 제어할 수 있다. 따라서, OKTAL-SE 데이터는 DSIAC SENSIAC ATR 데이터셋과 약결합 되어있다(단, 픽셀 대 픽셀로 정확히 일치하지는 않다).

  • 실제 야외 촬영 데이터셋: 드론(DJI Matice 300 ATK) 탑재 MWIR 카메라로 촬영한 야외환경 적외선 이미지(Table 1).

4.1 Training Approaches

본 연구는 다양한 데이터셋과 학습 접근법에 대한 이미지 개선 네트워크 간 내부 결정과정의 일반성을 찾기 위해 다음과 같은 학습 접근법을 사용했다(입력 데이터 → 출력 데이터).

  • 접근법 A(지도 → 위성 이미지): 구글 지도에서 스크랩한 지도-위성 이미지 세트. 각 지도와 위성 이미지는 픽셀 단위에서 대응되며, 네트워크는 입력된 지도 이미지를 요구되는 출력(위성 이미지)와 비교하며 출력 이미지를 개선하도록 학습됨.

  • 접근법 B(OKTAL → SENSIAC): OKTAL 데이터셋(합성 적외선 이미지) 입력을 통해 생성된 출력을 SENSIAC 데이터셋과 비교. OKTAL 데이터셋은 SENSIAC 데이터셋의 시나리오(촬영환경)를 반영하여 제작되었으나, 이미지 간의 픽셀 단위 대응은 없음.

  • 접근법 C(합성 이미지 patch가 포함된 SENSIAC → SENSIAC): OKTAL 데이터셋의 이미지 patch를 포함하도록 편집된 SENSIAC 이미지를 입력하여, 생성된 출력결과를 SENSIAC 이미지(실제 적외선 이미지)와 비교. 두 데이터셋은 부분적으로 픽셀 단위 대응됨.

  • 접근법 D(부분적으로 낮은 양자화 수준을 적용한 SENSIAC → SENSIAC): SENSAC 이미지에서 일부 patch의 양자화 수준을 원본(256)보다 낮은 수준(16)으로 감소시킨 이미지를 입력으로, 원본 SENSIAC 이미지를 비교대상으로 사용. 두 데이터셋은 픽셀 단위로 대응됨.

  • 접근법 E(낮은 양자화 수준을 적용한 실제 적외선 이미지 → 실제 적외선 이미지): 실제 적외선(SENSIAC 및 야외촬영 데이터셋) 이미지의 양자화 수준을 감소시킨 이미지(256 → 16)를 입력으로, 원본 실제 적외선 이미지를 비교 대상으로 사용. 두 데이터셋은 픽셀 단위로 대응됨.

각 접근법에서 사용한 데이터셋의 샘플 이미지는 Fig. 4와 같다.

Fig. 4.

Samples for dataset used for training refinement networks using approaches A to E

4.2 Evaluation Criterion

본 연구에서는 네트워크가 생성한 이미지를 평가하는데 인간이 개입하는 방법(Human-in-loop)을 사용한다. 그러나 시각적으로 볼 때 사실적인 이미지라도 기저영역의 통계적 분포가 실제 이미지와 달라 학습에 적합하지 않은 데이터일 수 있다. 본 연구에서는 기저 영역에서의 통계적 이미지 특성을 시각화하여 합성 및 개선된 이미지 데이터의 전반적인 경향성을 파악하는 Human-in-loop 방법을 채택하였다. 합성 및 실제 적외선 데이터셋 분석을 기반으로, 이미지의 주파수 스펙트럼과 파워 스펙트럼을 분석함으로써 합성 및 실제 적외선 이미지를 구별하기 위한 단서를 찾을 수 있다. 네트워크가 출력한 개선된 이미지 데이터의 주파수 영역 분석을 통해 파악한 합성 이미지와 실제 이미지 간의 주요 차이는 Fig. 5와 같다.

Fig. 5.

Frequency and power analysis of synthetic (top) and real (bottom) infrared images. (a) Synthetic or real image, (b) FFTs for infrared images, (c) mean of the FFT along the vertical axis, and (d) power spectra of infrared images

  • 실제 적외선 이미지의 공간 주파수 스펙트럼(Fig. 5(c))은 픽셀 값의 균일한 분포로 인해 가로-세로 축 영역 대부분에서 대칭적이다. 합성 이미지의 스펙트럼은 이러한 대칭성이 거의 관찰되지 않는다.

  • 합성 이미지의 주파수 스펙트럼(Fig. 5(b))은 픽셀 데이터의 제한된 양자화 수준 때문에 반점과 같은 반복 패턴이 형성된다.

  • 합성 적외선 이미지의 파워 스펙트럼(Fig. 5(d))은 주파수 전 영역에 걸쳐 급격한 변화를 보인다. 반면 실제 적외선 이미지의 파워 스펙트럼의 변화율은 상대적으로 안정되어있으며, 낮은 주파수에서 높은 크기에서 높은 주파수로 이동할수록 감소하는 경향을 보인다.

  • 본 연구에서 활용한 데이터셋의 실제 적외선 이미지 파워 스펙트럼은 저주파수 범위에서 고주파수 범위까지 선형적인 특성을 보이는데, 이러한 선형성을 정량화하기 위해 피어슨 상관계수(PPMCC 또는 PCC)를 사용하였다. 계수의 범위는 −1∼1이며, 파워 스펙트럼이 선형 관계를 보일 때 PPMCC의 절대값은 1에 가까워진다.

  • 추가로, 개선된 이미지가 고급 분류 네트워크에 일반화될 수 있는지 확인하였다. ResNet-50 분류 네트워크에 XAI 기법을 적용하여 군용 차량 카테고리에 대한 클래스 활성화 맵(CAMs)을 생성하였다. CAM을 사용하여 개선된 이미지의 영역을 강조하고, XAI를 통해 타겟 분류에 대한 신뢰도 점수를 생성하였다. 본 신뢰도 점수를 통해 실제 적외선 이미지와 비교하여 개선 정도를 평가하였다.

4.3 Refinement Results

이미지 품질개선 네트워크의 성능을 분석하기 위해 물리 기반 시뮬레이터(Oktal-SE)로 생성된 합성 이미지 데이터셋을 사용하여 실험한 결과는 Fig. 8과 같다. Fig. 8의 상단 행은 입력된 합성 이미지 및 해당 이미지의 주파수, 파워 스펙트럼을 나타내며, 4.2절에서 설명한 합성 이미지의 주요 특징인 반복적인 패턴, 파워스펙트럼의 급격한 변화율을 관찰할 수 있다.

Fig. 8.

Refinement of synthetic infrared image by Approach A. The refined (bottom left) infrared image is much more detailed than the synthetic image (top left). (a) infrared images, (b) FFTs for images in the first column, and (c) power spectra of images in the first column

Fig. 8의 하단 행은 개선 네트워크의 출력 이미지에 대한 분석 결과를 나타낸다. 입력-개선 이미지간의 주파수 스펙트럼(b) 간 비교를 통해 개선 네트워크를 통해 픽셀 분포가 변경된 이미지의 스펙트럼 분포가 합성 이미지 대비 실제 이미지와 유사함을 관찰할 수 있다. 또한 파워 스펙트럼(c)의 변화율 또한 합성 이미지 대비 보다 실제 이미지와 유사하게 개선되었다.

이러한 분석을 통해, 개선된 이미지는 단순히 육안으로 볼 때 보다 많은 디테일을 포함하도록 개선되었을 뿐 아니라, 통계적인 측면에서도 보다 실제 이미지에 유사하도록 개선되었음을 평가할 수 있다.

Fig. 6은 다양한 학습 접근법에 따른 네트워크의 성능 비교를 위해 5가지 접근법(A∼E)를 통해 훈련된 네트워크가 출력한 이미지 중 무작위로 선정된 4종의 샘플 이미지이다. 각 접근법에 따라 개선된 이미지에 대한 주파수 영역에서의 분석은 Fig. 7과 같다.

Fig. 6.

Refinement of synthetic infrared image by approach A, B, C, D, and E

Fig. 7.

Frequency analysis of refinements. (Left) FFTs of refinements. (Right) Power spectra of refinements

Fig. 67에 제시된 샘플 이미지를 포함, 개선 네트워크를 통해 출력된 이미지에 대한 분석 결과 생성형 네트워크를 사용하여 합성 적외선 이미지의 사실성을 개선할 수 있다는 결론을 도출하였다. 또한 주파수 영역에 대한 통계적인 분석을 통해 상이한 접근법 의 결과를 평가할 수 있으며, 제안된 접근법 중에서는 C와 E 유형이 가장 우수한 결과를 도출하였다. A유형은 출력 이미지의 파워 스펙트럼 개선 효과가 미미하나, 네트워크를 보다 우수한 접근법(C, E)으로 학습하기 전의 초기화 목적으로 활용될 수 있다.

4.4 Explainable AI(XAI)

컨볼루션 신경망(Convolution Neural Networks, CNN)에 대한 이전 연구[6,41]에 따르면, CNN에서 깊게 표현하는 경우 더 높은 수준의 시각적 구조를 포착할 수 있다. 그리고 컨볼루션 계층은 완전 연결 계층에서는 사라지는 공간 정보를 자연스럽게 유지할 수 있다. 따라서, 마지막 컨볼루션 계층은 높은 수준의 시맨틱(Semantic) 정보와 자세한 공간 정보 간 최적의 균형을 가질 수 있도록 기대할 수 있다. 본 계층에서의 뉴런은 이미지에서 특정 클래스에 대한 시맨틱 정보를 찾는다. Grad-CAM은 XAI 기법으로서 특정 결정에 대한 각 뉴런의 가중치를 할당하기 위해 CNN의 마지막 컨볼루션 계층으로 흐르는 기울기 정보를 사용한다. 본 기법은 심층 네트워크의 계층 활성화를 설명하기 위해 사용할 수 있다는 점에서 일반적이지만, 본 연구에서는 개선 과정을 안내하기 위해 출력 계층의 결정을 설명하는 데 중점을 두었다. GradCAM에 의해 획득한 결과를 기반으로 개선기 아키텍처의 깊이를 조절할 수 있다.

XAI 기법은 Fig. 9에 제시하였듯이 판별기가 실제 입력 이미지와 합성 적외선 입력 이미지를 구분하기 위해 고려하는 특징들의 히트맵을 생성한다. 이상적으로, XAI 결과는 실제 적외선 입력 이미지에 대해 높은 점수의 히트맵을, 합석 적외선 입력 이미지에 대해서는 매우 낮은 점수를 부여해야만 한다. 또한, 실제 적외선 이미지의 경우 히트맵은 넓게 분포해야만 한다. 본 연구의 합성 및 실제 적외선 이미지 데이터셋의 경우, Fig. 4에 FFT와 파워 스텍트럼으로 나타낸 바와 같이 픽셀 샘플의 특정 분포 측면에서 서로 다른 모습을 보인다. 따라서, 판별기 네트워크는 실제 이미지와 합성 샘플을 구별하기 위해 이미지의 일부가 아닌 전체 이미지에 집중할 수 있어야만 한다. 개선기 네트워크를 통해 개선된 이미지의 경우, XAI 히트맵의 특성은 가능한 한 실제 적외선 입력 이미지와 거의 유사해야 한다. Fig. 9에 세 가지의 XAI 결과를 제시하였다. Fig. 9의 왼쪽 열 그림은 개선기 네트워크에 의해 개선된 합성 적외선 이미지를 보여준다. 중앙 열에 배치된 그림은 XAI 네트워크를 한 번 통과한 후의 활성화 맵을 나타낸다. 오른쪽 열의 그림은 입력 이미지의 현실성을 판별하기 위해 사용되는 특징들을 강조하는 히트맵을 나타낸다. 상단 및 하단 행의 그림은 개선기 네트워크에 의해 개선된 이미지 중 성능이 좋지 않은 경우를 나타낸다. 따라서, 개선기는 적절히 이미지를 개선하는 데 실패하였으며, 개선 성능이 향상될 수 있도록 네트워크의 밀도를 증가시킬 필요가 있다.

Fig. 9.

XAI explanation of the refined image. (Left) Synthetic infrared images after refinement. (Center) Activation Map after the first pass of the refined image through the Grad-CAM network. (Right) Heatmap of the XAI network highlighting the features being used for decision making

중앙 행의 XAI 히트맵은 개선기 네트워크에 의한 개선 사례 중 성능이 좋은 결과를 나타낸다. Fig. 9의 중앙 행에서는 XAI 결과의 넓은 영역에 걸쳐 높은 값의 히트맵을 확인할 수 있다. XAI 네트워크에 의해 생성되는 히트맵 외에도, 설명 작업에 대한 XAI 네트워크의 신뢰성에 대한 정량적 수치를 얻을 수 있고 개선기 네트워크에 의해 개선 품질을 평가하기 위해 서로 비교된다. 신뢰도 점수 계산 방법은 일반화 행동을 시험하기 위해 다음 절에서 설명되는 방법과 유사하다.

4.4.1 Testing for generalization

지금까지 이미지 개선 작업을 수행하고, 네트워크의 XAI 설명을 확인하였지만, 이러한 개선 작업이 다른 종류의 분류 네트워크에 일반화될 수 있는지 시험해봐야 한다. 일반화 여부를 시험하기 위해, ResNet-50을 사용하였다. ResNet-50은 ResNet(Residual Networks) 계열에 속하는 CNN 아키텍처로서 심층 신경망 네트워크 학습과 관련된 문제를 해결하기 위해 설계된 모델이다. ResNet-50은 이미지 분류 작업에 있어서 깊이와 효율성으로 잘 알려져 있다. 학습된 ResNet-50 네트워크를 통해 합성, 개선, 실제 이미지를 시험해볼 수 있으며, XAI의 도움으로 설명을 생성할 수 있다. ResNet-50을 위한 XAI를 사용하기 위한 방법론은 이전에 사용되었던 방식과 유사하며 Fig. 10에 나타내었다. XAI 설명의 분류기 출력 타겟은 훈련된 ResNet-50 모델의 전차, 군용 전차, 장갑차 카테고리(847)이다. 입력으로 주어진 합성, 개선, 실제 이미지와 관심 클래스(847)를 가지고, 해당 카테고리의 원시 점수를 획득하기 위해 이미지를 모델의 CNN 부분과 이후 완전 연결된 연산을 통해 전달한다. 목표 클래스(기울기 1)를 제외한 나머지 클래스에 대해 기울기는 0으로 지정된다. 이후 이 신호는 관심 컨볼루션 특징 맵으로 역전파되는데, 이를 결합하여 특정 결정을 내리기 위해 모델이 주목할 위치를 나타내는 대략적인 Grad-CAM 히트맵(파란색)을 계산한다. 또한, 개선에 대한 정량적 측정을 위해 합성, 개선, 실제 이미지의 네트워크 분류에 대한 신뢰성 점수를 계산하였다(Fig. 11 참고). 신뢰성 점수 계산법은 매우 단순하며, 참고문헌[12]의 방법을 사용하였다. 우선, 설명과 정규화된 입력 이미지를 곱한다. 이 작업은 높은 점수를 획득한 영역을 강화하고, 낮은 점수를 획득한 영역은 억제한다. 이후 수정된 이미지를 다시 모델에 전달하고, 새로운 카테고리 점수를 확인한다. 특정 카테고리(847)에 해당하는 객체를 포함하는 이미지만 사용하였기 때문에, 신뢰성 점수는 개선에 대한 정량적 척도를 제공한다.

Fig. 10.

Grad-CAM overview

Fig. 11.

Confidence Scores: c synth, c refined and c real represent the confidence scores calculated by the CAM feature maps

이상적인 경우, 개선된 이미지의 신뢰성 점수(c refined)는 합성 이미지의 신뢰도 점수(c synth)보다 높아야 하고, 실제 이미지의 신뢰성 점수(c real)와 비슷해야 한다. 본 시험에서는 150개의 합성 및 개선 이미지에 대해 XAI 분석을 실행하였다. 분석 결과 합성 이미지의 신뢰성 점수의 평균값과 중간값은 각각 0.0376, 0.0185이었다. 또한, 합성 이미지의 신뢰성 점수의 평균값 및 중간값은 각각 0.0281, 0.0718이었다. 이를 통해 개선된 이미지의 신뢰성 점수의 평균값 및 중간값은 합성 이미지의 값보다 더 나은 결과를 보여주는 것을 확인하였다(Table 2 참고).

Confidence Socres for synthetic, refined, and real are listed as c synth, c refined, and c real respectively

5. Conclusion

본 연구는 합성 적외선 이미지의 사실성 개선을 위해 적대적 네트워크와 설명 가능한 AI(XAI)를 사용하는 방법을 연구하였으며, 합성-실제 적외선 이미지 간 차이를 최소화하는 신경망의 학습 및 평가에 사용하는 접근법을 제시했다.

주요 연구 목표는 입력 이미지의 구조 및 특성을 보존함과 동시에 사실성을 개선하는 것으로, 이를 위해 Encoder-decoder간 Skip connection을 사용한 U-Net 기반의 개선 네트워크를 설계하였다. 또한 Grad-CAM 기반의 XAI 접근법을 사용하여 설계된 개선 네트워크에 대한 해석방법을 제시하였으며, 개선 네트워크와 학습 데이터에 대한 인간의 개입을 통해 합성 적외선 이미지의 사실성을 효율적으로 개선할 수 있었다. 적대적 네트워크와 XAI의 결합을 통해 적외선 이미지의 사실성을 개선할 수 있는 효율적인 방안을 도출하였으며, 다양한 분석을 통해 보다 나은 결과 이미지를 생성할 수 있었다. 또한, 개선된 이미지와 실제 이미지 간의 유사성 정도를 평가할 수 있는 방안을 제시하였으며, 이를 통해 네트워크 평가 과정에서 소요되는 시간을 줄일 수 있을 것으로 기대한다.

후 기

본 논문은 국방과학연구소를 통해 인공지능 비행제어 특화연구실 산하 인공지능 기반 합성 센서 영상 분석 및 개선기법 연구(IC-05) 관련 지원을 받아 수행되었음(UD230014SD).

References

[1]. . Wang Y., Peng C., Zhang H., Le H. Q.. Wavelength modulation imaging with tunable mid-infrared semiconductor laser: spectroscopic and geometrical effects. Optics Express 12(21):5243–5257. 2004;
[2]. . Rasskazov I. L., Spegazzini N., Carney P. S., Bhargava R.. Dielectric sphere clusters as a model to understand infrared spectroscopic imaging data recorded from complex samples. Analytical chemistry 89(20):10813–10818. 2017;
[3]. . Huang J., He L., Wang J., Xu J., Yuan L.. Near-infrared hemicyanine fluorophores with optically tunable groups: A ‘leap forward’ for in vivo sensing and imaging. Synlett 2023.
[4]. . Mase A., Kogi Y., Kuwahara D., Nagayama Y., Ito N., Maruyama T., Ikezi H., Wang X., Inutake M., Tokuzawa T., et al. Development and application of radar reflectometer using micro to infrared waves. Advances in physics: X 3(1):1472529. 2018;
[5]. . Sexton A. N.. Regulation and Recruitment of Human Telomerase. Ph. D. Dissertation, UC Berkeley 2014.
[6]. . Thermo analytics. EO/IR signature simulation software www.thermoanalytics.com. 2024.
[7]. . Pregagis. Vega prime: Comprehensive visualization toolkit www.presagis.com/en/product/vega-prime/. 2024.
[8]. . Oktal. OKTAL-SE synthetic enviroment simulator https://www.oktal-se.fr/. 2024.
[9]. . Goodfellow I. J., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y.. Generative adversarial networks. arxiv 2014. arXiv preprint arXiv: 1406.2661 102014;
[10]. . Zhu J.-Y., Park T., Isola P., Efros A. A.. Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision 2223–2232. 2017.
[11]. . Kim T., Bang H.. Fractal texture enhancement of simulated infrared images using a cnn-based neural style transfer algorithm with a histogram matching technique. Sensors 23(1):422. 2022;
[12]. . Selvaraju R. R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D.. Grad-cam: Visual explanations from deep networks via gradient-based localization. Proceedings of the IEEE international conference on computer vision 618–626. 2017.
[13]. . Isola P., Zhu J.-Y., Zhou T., Efros A. A.. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition 1125–1134. 2017.
[14]. . Chattopadhay A., Sarkar A., Howlader P., Bala-subramanian V. N.. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. 2018 IEEE winter conference on applications of computer vision (WACV) p. 839–847. IEEE; 2018.
[15]. . Core M. G., Lane H. C., Lent M. Van, Gomboc D., Solomon S., Rosenberg M.. Building Explainable Artificial Intelligence systems. AAAI 1766–1773. 2006.
[16]. . Lent M. Van, Fisher W., Mancuso M.. An Explainable Artificial Intelligence system for small-unit tactical behavior. Proceedings of the National Conference on Artificial Intelligence 900–907. 2004.
[17]. . Alicioglu G., Sun B.. A survey of visual analytics for Explainable Artificial Intelligence methods. Computers & Graphics 102:502–520. 2022;
[18]. . Mohseni S., Zarei N., Ragan E. D.. A multidisciplinary survey and framework for design and evaluation of explainable AI systems. ACM Trans. Interact. Intell. Syst.(TiiS) 11(3-4):1–45. 2021;
[19]. . Ali S., Abuhmed T., El-Sappagh S., Muhammad K., Alonso-Moral J. M., Confalonieri R., Guidotti J., Del Ser N. Díaz-Rodríguez, Herrera F.. Explainable Artificial Intelligence(XAI): What we know and what is left to attain Trustworthy Artificial Intelligence. Information Fusion 99:101805. 2023;

Article information Continued

Fig. 1.

U-Net Architecture: Encoder-decoder network architecture with skip connections to retain input features

Fig. 2.

Block diagram of proposed image refinement

Fig. 3.

PatchGAN Discriminator generates predictions for different patches of the input images

Table 1.

Camera specifications for IR field dataset

Attribute Camera Specifications
Camera Model DJI ZENMUSE H20T
Sensor Vanadium Oxide microwave bolometer
Lens: DFOV 40.6 deg
Lens: FocalLength 13.5 mm
Lens: Aperture f/1.0
Lens: Focus 5 m to ∞

Fig. 4.

Samples for dataset used for training refinement networks using approaches A to E

Fig. 5.

Frequency and power analysis of synthetic (top) and real (bottom) infrared images. (a) Synthetic or real image, (b) FFTs for infrared images, (c) mean of the FFT along the vertical axis, and (d) power spectra of infrared images

Fig. 6.

Refinement of synthetic infrared image by approach A, B, C, D, and E

Fig. 7.

Frequency analysis of refinements. (Left) FFTs of refinements. (Right) Power spectra of refinements

Fig. 8.

Refinement of synthetic infrared image by Approach A. The refined (bottom left) infrared image is much more detailed than the synthetic image (top left). (a) infrared images, (b) FFTs for images in the first column, and (c) power spectra of images in the first column

Fig. 9.

XAI explanation of the refined image. (Left) Synthetic infrared images after refinement. (Center) Activation Map after the first pass of the refined image through the Grad-CAM network. (Right) Heatmap of the XAI network highlighting the features being used for decision making

Fig. 10.

Grad-CAM overview

Fig. 11.

Confidence Scores: c synth, c refined and c real represent the confidence scores calculated by the CAM feature maps

Table 2.

Confidence Socres for synthetic, refined, and real are listed as c synth, c refined, and c real respectively

Confidence Scores c synth c refined c real
Median 0.0185 0.0281 0.148
Average 0.0376 0.0718 0.175