비접촉식 화학작용제 탐지용 라만 분광계를 위한 Denoising Autoencoder 기반 잡음제거 기술
Denoising Autoencoder based Noise Reduction Technique for Raman Spectrometers for Standoff Detection of Chemical Warfare Agents
Article information
Abstract
Abstracts
Raman spectrometers are studied and developed for the military purposes because of their nondestructive inspection capability to capture unique spectral features induced by molecular structures of colorless and odorless chemical warfare agents(CWAs) in any phase. Raman spectrometers often suffer from random noise caused by their detector inherent noise, background signal, etc. Thus, reducing the random noise in a measured Raman spectrum can help detection algorithms to find spectral features of CWAs and effectively detect them. In this paper, we propose a denoising autoencoder for Raman spectra with a loss function for sample efficient learning using noisy dataset. We conduct experiments to compare its effect on the measured spectra and detection performance with several existing noise reduction algorithms. The experimental results show that the denoising autoencoder is the most effective noise reduction algorithm among existing noise reduction algorithms for Raman spectrum based standoff detection of CWAs.
1. 서 론
화생방 상황 발생 시 화학적 위협으로 인한 피해를 최소화하기 위해서는 화학물질의 신속한 탐지 및 대처가 필요하다. 하지만 유독성 화학작용제 중에는 무색, 무취의 특성을 가진 물질이 많기 때문에 가시광선 이외의 파장 대역에서 화학작용제를 찾는 비접촉식 탐지기술의 필요성이 점점 대두되고 있다[1].
그러한 탐지기술 중 하나로써, 모든 상태의 물질을 비파괴적으로 분석할 수 있는 비접촉식 라만 분광계(Raman Spectrometer)가 연구되고 있다[2]. 라만 분광계는 레이저를 물질에 조사할 때 발생하는 물질의 라만 산란광을 측정하는 장비이다. 라만 산란광의 스펙트럼이 물질의 분자구조 및 특성에 따라 고유한 형태를 띠기 때문에 라만 분광계는 화학작용제 탐지에 유용하게 사용될 수 있다[3]. 구체적으로, 유독성 화학작용제가 지표면에 살포된 상황에서 이를 신속히 탐지하기 위해 차량에 라만 분광계를 탑재하여 차량 이동 중에 지표면의 라만 스펙트럼을 측정하고 화학작용제에 오염된 영역을 판단하는 시스템[4]이 군사적으로 연구되고 있다.
라만 분광계로 획득한 라만 스펙트럼은 배경 신호, 검출기의 내재적인 문제 등 여러 이유로 인해 잡음 성분을 포함하고 있다[5]. 이러한 잡음 성분 때문에 라만 분광계는 화학작용제의 명확한 특징 파형을 확보하기 어렵다[6]. 따라서 비접촉식 라만 분광계 기반 유독성 화학작용제 탐지 시스템에서 실용적인 탐지성능을 확보하기 위해서는 라만 스펙트럼에서 랜덤 잡음을 제거하는 과정이 필요하다.
라만 분광계로 측정한 라만 스펙트럼의 잡음을 제거하는 방법으로는 기존 초분광 스펙트럼 연구의 잡음제거 기법을 라만 스펙트럼에 응용하는 연구[5,7–9]를 주로 찾아볼 수 있다. 하지만 일부 라만 분광계 적용 분야에서는 기존 초분광 스펙트럼의 잡음제거 연구와 차이를 보이는 부분이 있다. 일반적으로 초분광 스펙트럼의 잡음제거는 복수의 스펙트럼 표본을 이용하여 잡음을 제거하는 방법이 주를 이룬다[10]. 반면에 차량 이동 중에 지표면에 살포된 화학작용제의 라만 스펙트럼을 측정하는 탐지 시스템의 연구에서는 실적용 상황을 가정할 때 동일 대상에 대해 복수의 라만 스펙트럼 표본을 획득하기 어려우므로 단일 스펙트럼만을 이용한 잡음제거 기법을 적용하는 연구[11]가 이루어진다. 따라서 기존 초분광 스펙트럼 연구에서 단일 스펙트럼만으로 잡음을 제거하기 위한 잡음제거 기법인 Savitzky-Golay 필터(S-G filter), 푸리에 변환, 이동 평균, 중간값 필터 등을 라만 스펙트럼에 응용하는 연구[5,7–9]가 수행되었다.
심층 학습의 발전과 함께 인공 신경망 기반 잡음제거 기법인 denoising autoencoder(DAE)를 라만 스펙트럼의 잡음제거에 적용하는 연구[12]도 수행되었다. DAE 의 학습을 위해서는 잡음이 없는 표본과 잡음이 있는 표본을 모두 보유한 데이터셋을 확보해야 한다[13]. 해당 연구에서는 높은 출력의 레이저로 측정한 라만 스펙트럼을 잡음이 없는 표본으로 가정하고, 낮은 출력의 레이저로 측정한 라만 스펙트럼을 잡음이 있는 표본으로 가정하여 DAE를 학습한다[12]. 하지만 상기 접근법은 서로 다른 출력을 가진 두 개 이상의 레이저를 보유한 상황에서만 유효하며, 단일 출력 레이저만 보유한 경우 상기 접근법을 적용할 수 없다는 한계점을 가지고 있다.
본 논문은 단일 출력 레이저만 보유한 상황에서 확보할 수 있는 라만 스펙트럼 데이터셋으로 DAE를 효율적으로 학습하기 위한 방법을 제안한다. 단일 출력 레이저로 측정한 라만 스펙트럼 표본에는 잡음이 존재하며, 잡음이 있는 라만 스펙트럼 표본만으로 잡음제거 기능을 학습하기 위한 방법으로써 데이터셋 내 인근 표본의 정보를 표본 효율적으로 활용하는 손실 함수를 제안한다. 이를 통해 이동 중인 차량에서 라만 분광계로 지표면에 살포된 화학작용제의 라만 스펙트럼을 측정하는 탐지 시스템을 위한 DAE 기반 라만 스펙트럼 잡음제거 알고리즘을 구현한다. 실험을 통해 기존 라만 스펙트럼 잡음제거 알고리즘과 비교하여 잡음제거 전/후 라만 신호의 성질 변화를 분석한다. 나아가 각 잡음제거 알고리즘마다 탐지 알고리즘을 적용하여 잡음제거 전/후 탐지성능 변화를 분석한다. 실험 결과, DAE 기반 라만 스펙트럼 잡음제거 알고리즘은 다른 잡음제거 알고리즘에 비해 탐지 성능 향상에 가장 효과적인 것을 확인하였다.
2. Denoising Autoencoder 기반 라만 스펙트럼 잡음제거 기법
본 논문에서는 단일 라만 스펙트럼 정보만을 이용하여 라만 스펙트럼의 잡음을 제거하기 위한 알고리즘을 설명한다. 비접촉식 라만 분광계로 측정한 N개의 라만 스펙트럼 표본을 가진 데이터셋이 총 C 종의 화학작용제를 포함하고 있으며, 각 화학작용제 마다
여기서 잡음 신호 v를 가우시안 랜덤 벡터 v~N(0, Qn)라 가정할 때, 라만 스펙트럼 측정 신호 x는 가우시안 랜덤 벡터 x~N(s, Qn)이다. 그리고
라만 스펙트럼 잡음제거 알고리즘은 라만 스펙트럼 측정 신호 x를 입력받아, 신호 x보다 높은 신호대잡음비(Signal-to-Noise Ratio, SNR)를 가진 라만 스펙트럼
기존 DAE[12]는 다음 손실 함수를 최소화하는 방향으로 학습한다,
여기서
본 논문에서 제안하는 DAE 기반 잡음제거 기법은 잡음을 가진 데이터셋에서 잡음제거 기능을 학습하는 문제를 해결하기 위해 동일한 대상에 대해 여러 라만 스펙트럼 표본을 측정한 후, 표본 간 공통 정보를 활용한다. 구체적으로, 데이터셋 내 i번째 화학작용제에 대한 j번째 라만 스펙트럼 표본 xi,j와 해당 화학작용제의 라만 스펙트럼 표본 k-1개로 구성된 집합
여기서 N>0 은 데이터셋 내 표본의 총 개수를 의미한다. 상기 손실 함수로 인해 DAE는 각 라만 스펙트럼 표본 xi,j마다 인근 라만 스펙트럼 표본들의 집합 Xi,j에서 공통적인 특징을 추정하도록 학습한다. 여기서 손실 함수를 평균제곱오차(mean square error)로 계산한 이유는 평균절대오차(mean absolute error)보다 평균제곱오차가 실험적으로 더 좋은 성능을 보이기 때문이다.
또 다른 문제는 라만 스펙트럼 데이터셋 내 환경 다양성 및 표본의 양이 제한적이라는 것이다. 제한적인 환경에서 측정한 라만 스펙트럼 표본만으로 일반적인 데이터에 대해서도 유효한 잡음제거 성능을 학습시키기 위해 다음과 같은 triplet 손실 함수[14] LTriplet를 적용한다,
여기서 zj = fθ(xj)는 j번째 라만 스펙트럼 표본 xj에 대한 DAE의 특징 벡터이다.
식 (3)의 손실함수는 동일 화학작용제의 특징벡터 간 유클리드 거리는 최소화하고, 서로 다른 화학작용제의 특징벡터 간 유클리드 거리를 최대화한다. 이를 통해 DAE의 부호기 fθ가 입력된 화학작용제의 특성을 특징벡터에 반영하도록 직접적으로 학습시킨다. 결과적으로 학습 데이터셋에 없는 환경에서 측정한 라만 신호에 대해서도 DAE가 입력된 화학작용제를 인지하고, 잡음이 없는 화학작용제의 스펙트럼을 복원할 수 있도록 만든다. triplet 손실 함수에 대한 더 자세한 설명은 관련 논문[14]을 참고한다.
본 논문에서 제안하는 DAE는 식 (2)와 식 (3)의 선형 결합으로 이루어진 다음 손실 함수로 학습한다,
여기서 λConsistency와 λTriplet은 각 손실함수의 가중치이다.
3. Denoising Autoencoder 실험 결과
2장에서 설명한 DAE 기반 잡음제거 알고리즘을 실제 측정한 라만 스펙트럼에 적용하고 성능을 평가한다. 실험 자료는 삼양화학에서 제작한 비접촉식 자외선 라만 분광 장비 KRAMS[2]로 측정한다. 아스팔트, 콘크리트, 유리 총 3종의 배경 물질 위에 GF(cyclosarin), HN3(nitrogen mustard), MES(mecetronium ethylsulfate) 총 3종의 화학작용제를 약 2 µℓ 만큼 뿌린 다음 292.92 cm-1 ∼ 3654.98 cm-1의 파수 범위에서 1024개 값에 대한 라만 스펙트럼을 측정한다. 각 배경물질 및 화학작용제마다 500개의 스펙트럼을 측정하여 학습 데이터셋을 구성한다. 이후, 각 배경물질 및 화학작용제마다 100개의 스펙트럼을 추가로 측정하여 시험 데이터셋을 구성한다.
3.1 DAE의 학습
DAE는 각각 3층 신경망으로 이루어진 부호기와 복호기로 구성되어 있으며, 각 층의 설정은 Table 1과 같다. 식 (2)의 윈도우 크기 k는 3으로 설정하였다. 여기서 k의 크기는 DAE 성능에 큰 영향을 미치지 않으며, k가 커질수록 학습 시간이 늘어난다. DAE는 배경물질 및 화학작용제마다 500개의 스펙트럼 표본을 측정하여 확보한 학습 데이터셋으로 학습한다. GPU는 NVIDIA Titan X를 사용하며, 코드는 Python3 환경에서 Tensorflow를 이용하여 구현한다. 식 (3)의 α는 0.5로 설정하고, 식 (4)의 λConsistency, λTriplet는 1로 설정한다. 학습률은 10-3, 정규화는 L2 정규화이며 정규화 계수 λ는 10-6, 드롭아웃 확률은 0.35로 설정한다. 또한 학습률 스케줄은 Stochastic Gradient Descent with Warm Restarts(SGDR)[15]을 사용하고 최적화기법은 Adaptive moment estimation(Adam)[16]을 사용한다. 상기 파라미터 설정 하에 총 1270 epoch을 거쳐 30분 동안 학습을 수행하였다. 학습 과정 중 학습 손실 함수와 검증 손실 함수의 변화 그래프는 Fig. 2와 같다. 학습이 진행됨에 따라 학습 손실 함수 값이 약 0.12로 수렴하고 검증 손실 함수 값은 0.13으로 수렴한다.
3.2 비교대상 잡음제거 알고리즘
학습이 완료된 DAE의 성능을 확인하기 위해 기존의 라만 스펙트럼 잡음제거 알고리즘과 성능을 비교한다. 단일 라만 스펙트럼 정보만으로 잡음을 제거하기 위해 연구된 알고리즘으로는 S-G 필터[5], 푸리에 변환[7], 이동 평균[8], 중간값 필터[9]가 있다.
S-G 필터(Savitzky-Golay filter, S-G filter) 기반 잡음제거 기법은 스펙트럼 내의 한 점을 기준으로 인근 k개의 점을 선택하고, 이를 근사하는 n차 다항식을 찾음으로써 잡음 성분이 제거된 스펙트럼 값을 추정한다[5]. 윈도우에 들어갈 스펙트럼 값의 개수 k와 다항식 차수 n을 이용하여 계수행렬 M을 계산할 수 있고, 슬라이딩 윈도우(sliding window) 방식으로 모든 스펙트럼 값에 대해 계수행렬 M과 합성곱(convolution) 연산을 적용함으로써 잡음이 제거된 스펙트럼
푸리에 변환(Fourier Transform, FT) 기반 잡음제거 기법은 일반적으로 랜덤 잡음에서 고주파수 성분이 신호에 영향을 많이 준다는 특징을 기반으로, 라만 스펙트럼에 고속 푸리에 변환을 적용하여 주파수 영역에서 표현한 후, k개의 저주파수 성분을 취하고 고속 푸리에 역변환을 적용하여 잡음이 제거된 스펙트럼
이동 평균(Moving Average, MA) 기반 잡음제거 기법은 스펙트럼 내의 한 점을 기준으로 인근 k개의 점을 선택하고, 해당 점들의 평균값을 계산하여 잡음 성분이 제거된 스펙트럼 값을 추정한다[8]. 슬라이딩 윈도우 방식으로 모든 스펙트럼 값에 대해 윈도우 내 평균값을 계산하여 잡음이 제거된 스펙트럼
중간값 필터(Median Filter, MF) 기반 잡음제거 기법은 스펙트럼 내의 한 점을 기준으로 인근 k개의 점을 선택하고, 해당 점들의 중간값을 계산하여 잡음 성분이 제거된 스펙트럼 값을 추정한다[9]. 슬라이딩 윈도우 방식으로 모든 스펙트럼 값에 대해 윈도우 내 중간값을 계산하여 잡음이 제거된 스펙트럼
정리하면, 본 논문에서는 각 배경물질 및 화학작용제마다 100개의 스펙트럼을 측정한 라만 스펙트럼 시험 데이터셋을 이용하여 잡음제거 알고리즘을 적용하지 않은 경우인 Raw와 함께 S-G filter, FT, MA, MF, DAE (C), DAE (CT) 6개의 잡음제거 알고리즘을 적용한 경우를 합쳐 총 7개의 경우에 대해 신호 특성 및 작용제 탐지 성능을 확인한다. 여기서 DAE (C)는 식 (2)의 손실 함수 LConsistency만으로 학습한 DAE를 의미하고, DAE (CT)는 식 (4)를 따라 LConsistency와 LTriplet 모두 이용하여 학습한 DAE를 의미한다. 두 가지 경우에 대해 DAE의 성능을 비교함으로써 식 (3) 손실 함수 LTriplet의 효과를 확인한다. 이때 각 잡음제거 알고리즘 별 파라미터는 다음 Table 2와 같이 설정한다.
3.3 스펙트럼 형태 비교
잡음제거 알고리즘의 잡음제거 성능을 비교하기 위해 먼저 잡음제거 전/후 스펙트럼의 형태를 비교한다. 비교 대상으로 사용하는 화학작용제는 신경 화학작용제의 일종인 GF이다. GF의 라만 스펙트럼은 458 ∼ 1705 cm-1 대역과 2626 ∼ 3093 cm-1 대역에 특징 파형을 보유하고 있다. Fig. 3은 아스팔트 배경에 대해 측정한 GF 작용제 라만 스펙트럼 표본과 각 잡음제거 알고리즘 적용 결과를 보여준다. Fig. 3 (a)는 아스팔트 배경 위 GF 작용제의 라만 스펙트럼을 측정한 표본이다. Fig. 3 (b) ∼ (g)는 각 잡음제거 알고리즘을 적용하여 획득한 라만 스펙트럼이다. Fig. 3 (a)의 스펙트럼 형태와 Fig. 3 (b) ∼ (g)의 잡음이 제거된 스펙트럼 형태를 비교하면 스펙트럼 값의 분산이 감소한 것을 확인할 수 있다. Fig. 3 (a) ∼ (g) 중에서 스펙트럼 값의 분산이 제일 작은 것은 Fig. 3 (f) ∼ (g)의 DAE (C)와 DAE (CT)로 잡음이 제거된 라만 신호이다.
3.4 탐지 성능지표를 이용한 비교
각 잡음제거 알고리즘이 화학작용제 탐지 성능에 미치는 영향을 평가하기 위해 일반 우도비 검정(Generalized Likelihood Ratio Test, GLRT)[17] 탐지 알고리즘을 사용하고, 전체 정확도(Overall Accuracy, OA)를 사용한다.
탐지 알고리즘인 GLRT는 라만 스펙트럼 x 를 선형 부분공간 모델[11]로 가정한 후, 검정통계 T(X)를 다음 식을 따라 계산한다.
여기서 직교 투영 행렬
탐지 성능지표인 OA는 모든 종류의 화학작용제에 대한 탐지 정확도를 의미하며, 다음과 같이 계산한다.
여기서 hj∈{0, 1}는 j번째 라만 스펙트럼 표본이 작용제인지 아닌지 나타내는 참값이며,
Table 3은 모든 화학작용제에 대해 각 배경 물질마다 GLRT에 대한 탐지 성능지표 계산 결과를 보여준다. 어떠한 배경에서도 잡음제거 알고리즘을 적용하면 탐지 성능이 Raw보다 향상되는 것을 확인할 수 있다. 특히 DAE (CT)는 모든 탐지 성능지표에서 다른 알고리즘보다 훨씬 향상된 수치를 보인다. 식 (2)의 손실 함수 LConsistency만 적용한 DAE (C)도 기존 라만 스펙트럼 잡음제거 알고리즘에 비해 높은 성능 수치를 보이지만, 식 (3)의 손실 함수 LTriplet까지 적용한 DAE (CT)보다는 낮은 성능 수치를 보인다.
4. 결 론
본 논문은 단일 출력 레이저만 보유한 제한적인 상황에서 비접촉식 라만 분광계 시스템을 위한 denoising autoencoder 기반 잡음제거 알고리즘을 제안한다. 이를 위해 데이터셋 내 표본 간 공통 정보를 활용하고, 메트릭 러닝 기법을 적용하여 표본이 제한적인 데이터셋을 효율적으로 활용하기 위한 손실 함수를 제안한다. 실험을 통해 denoising autoencoder 기반 잡음제거 알고리즘과 기존 라만 스펙트럼 잡음제거 알고리즘인 Savitzky-Golay filter, Fourier transform, moving average, median filter 간 비교를 수행한다. 실험 결과, 비교 대상 잡음제거 알고리즘 중 제안한 손실 함수로 학습한 denoising autoencoder가 화학작용제 탐지 성능 향상에 제일 효과적인 것으로 나타난다.
후기
본 연구는 국방과학연구소의 연구비 지원으로 수행되었습니다.(계약번호: UD190007GD)