딥러닝 모델 기반 사물-인체 이종 그래프 추출을 활용한 총기 인식 및 위협 감지 기법
Risk Detection through Firearm Recognition Using Deep Learning-Based Object-Human Heterogeneous Graph Extraction
Article information
Trans Abstract
Effective border security is crucial in managing and mitigating firearm-related threats. While prior research has focused on firearm detection, it lacks contextual analysis. This paper advances firearm-related incident assessment by integrating pose estimation to improve gun violence detection. Our novel approach extracts body and firearm pose graphs and employs Graph Attention Networks(GAT) for graph analysis to accurately identify gun violence incidents. By recognizing associated actions, our system provides greater situational awareness beyond mere firearm detection. Utilizing Graph-LSTM, we capture spatial and temporal information. As a result, our proposed algorithm is lighter and more accurate than the CNN-LSTM model used as a baseline, achieving test F1-scores of 82.04 % on our collected data.
1. 서 론
최근 위험 감지, 보안 및 모니터링이 필요한 분야에서는 인공지능(Artificial Intelligence)을 활용한 기술 개발이 꾸준히 진행되고 있다[1,2]. 국내에서는 해안지대, DMZ 등을 대상으로 한 감시체계가 운영되고 있으며, 정확한 위험 요소를 감시하고 탐지하는 지능형 국방체계 연구의 필요성을 제시하고 있다[3].
그러나 기존의 인공지능 경계 시스템은 단순한 객체 인식에 초점을 맞추고 있어, 복잡한 상황을 이해하고 해석하는데 한계가 있다. 또한, 높은 오탐지율(false positive rate)과 낮은 상황 인식 능력으로 인해 실제 위협을 효과적으로 식별하지 못하는 경우도 적지 않다. 이 때문에 보안 인력의 불필요한 대응을 유발하거나 실제 위협을 놓치는 문제가 발생할 수 있다.
이러한 한계를 극복하기 위해 본 연구에서는 실시간 데이터 처리와 즉각적인 위험도 감지를 목표로 하는 딥러닝 모델을 제안한다. 이를 위해 과거 데이터를 기반으로 미래의 위협을 예측하고 예방하는 딥러닝 모델을 사용했으며, 보다 구체적으로는 인체와 사물에 관한 이종 그래프 데이터를 이용한 새로운 분류 방법을 제시한다. 입력 데이터로부터 인체와 사물 각각에 대한 그래프 데이터를 생성하고, 이를 결합하여 그래프 시퀀스를 생성한 뒤 입력 데이터를 분류함으로써 정확하고 신속한 상황 인식을 가능케 하는 알고리즘을 개발하였다.
국방을 비롯한 실시간 모델 리스크 관리(Model Risk Management, MRM)가 필수적인 분야에서는 물체 인식보다 상황 인식의 필요성이 점차 높아지고 있다. 본 연구는 이러한 요구에 따라 단순 물체 인식에 그치지 않고 인식된 사람과 물체를 기반으로 모니터링된 결과가 어떤 상황을 의미하는지에 대한 적절한 판단을 내리는 시스템을 제안한다. 이를 위해 오픈소스 기반 컴퓨터비전 포즈 추정 라이브러리를 사용하여 신체와 화기의 포즈를 탐지하고, Graph Long Short-Term Memory (Graph-LSTM)을 통해 공간적 및 시간적 정보를 캡처하여 상황을 분석하는 혁신적인 접근법을 사용했다. 또한 측정된 포즈를 토대로 위험도를 3가지 클래스로 나누어 분석하여 잠재적 위협과 무단 활동을 신속히 탐지할 수 있으며, 가변성이 높은 환경에서도 유의미한 결과를 기대할 수 있다. 한편 자동화된 비디오 데이터 분석을 통해 노동 집약적이고 비용이 많이 드는 수동 모니터링의 필요성도 줄일 수 있다.
2. 선행 연구
인체 동작과 사물을 탐지하기 위한 연구는 활발히 진행되고 있다. 최근에는 객체 탐지 알고리즘이 크게 발전하면서 위협 인지를 위한 다양한 접근이 시도되고 있다. 예를 들면, 이미지 처리와 기계 학습 기법을 사용하여 감시 카메라에서 총기를 탐지하는 방법이 대표적으로 제안되었다[4]. 이 연구는 객체 탐지를 위한 단순한 이미지 처리 기술과 기계 학습을 결합하여 총기와 같은 위험 요소를 효과적으로 식별하였다.
또한, Azevedo Kanehisa(2019)는 Convolutional Neural Networks(CNN)를 활용하여 다양한 자세로 들려있는 총기를 더 높은 정확도로 인식하고자 했다[5]. 이 연구에서는 여러 CNN 모델을 앙상블 기법으로 결합하여, 총기 탐지의 정확성과 신뢰성을 높였다. 이러한 접근 방식과 알고리즘은 단순 객체 인식을 넘어, 다양한 상황에서 객체 행동을 파악하는 데에 중요한 역할을 했다.
이후 단순 객체 인식에서 벗어나 상황 판단을 위해 LSTM(Long Short-Term Memory)과 같은 순환 신경망이 도입되었다. LSTM은 시간적 의존성을 학습할 수 있어, 객체의 시간적 변화와 동작을 분석하는 데 유용하다. 이를 통해, 단순히 현재 프레임에서의 객체 인식뿐만 아니라, 시간에 따른 객체의 행동 패턴을 이해하고 예측할 수 있게 되었다.
최근에는 특히 인체 동작과 사물의 데이터를 그래프로 추출해 처리하는 Graph-LSTM 연구들이 주목받고 있다. 이 연구들은 신체 주요 지점을 구성하는 Body Graph와 뼈대인 Body Skeleton을 인식하기 위해 다양한 접근 방식을 시도하며 인식 성능을 높이고 있다.
먼저 Chenyang Si(2019)는 Attention Mechanism을 도입한 An Attention Enhanced Graph Convolutional LSTM Network(AGC-LSTM)를 개발하여, 인간의 동작 인식을 위한 성능을 더욱 강화했다[6]. 이 모델은 그래프의 중요한 노드와 엣지에 주의를 집중함으로써, 비디오에서의 복잡한 동작을 더욱 정확하게 인식할 수 있었다. 또한 Wentao Zhu(2016)는 Co-occurrence Feature Learning 을 통해 Skeleton-based Action Recognition의 성능을 개선하는 방법을 제안했다[7]. 이 연구는 서로 다른 신체 부위의 동작이 어떻게 상호작용하는지를 학습하여, 더 정확한 동작 인식을 가능하게 했다. 해당 접근법은 다양한 데이터셋에서 우수한 성능을 보였다. Han Zhang (2019)은 Graph Convolutional LSTM 모델을 활용하여 Skeleton-Based Action Recognition을 진행했다[8]. 해당 연구는 인체의 스켈레톤 데이터를 그래프 구조로 표현하고, LSTM의 장기 의존성 학습 능력과 그래프 신경망의 데이터 처리 능력을 결합하여 시공간적 특성을 고려한 동작 인식 정확도가 높았다.
위 연구들은 그래프에 기반한 사물-인체 동작 인식의 다양한 가능성을 보여주지만, 실시간 위험도 감지 등 복잡한 상황 인식에 대한 솔루션을 제공하지는 못한다. 특히 국경지대나 군사시설 보안과 같은 실시간 위험 감지 상황에서는 단순 객체 인식을 넘어서, 인식된 사람과 물체의 행동과 상황을 정확히 파악하는 것이 중요하다. 기존 연구들은 그래프 데이터를 활용한 인식 성능을 높이는 데 중점을 두었으나, 본 연구는 이미지에서 추출한 사람의 동작을 기반으로 위험 상황을 판단하기 위한 실시간 감시 시스템을 제안한다.
3. 연구 방법
3.1 개요
Fig. 1은 본 논문에서 제안하는 방법의 개요도를 나타낸다. 제안하는 방법은 크게 3단계를 통해 주어진 비디오 스트림으로부터 실시간 상황을 위급도에 따라 standing, ready, aiming의 3단계로 판단한다. Fig. 1(c)는 전반적인 모델의 흐름과 행동 인지 및 위험도 분류과정을 나타낸다. Fig. 1(a) ∼ (b)는 Fig. 1(c)의 Extracting Body-Firearm Pose Graph의 세부 과정으로, 신체와 총기 포즈 그래프를 결합하여 그래프 데이터를 추출하는 과정을 다룬다. 아래에서는 해당 3가지 과정에 대해 더 자세히 설명한다.
3.2 총기 인식 모델
Fig. 1(a)는 단일 이미지에서 총기 탐지역할을 하는 딥러닝 모델을 만드는 과정이다. 정확한 총기 인식을 위해 해당 과정은 YOLO-v8(You Only Look Once, Version 8) Pose Estimation 모델을 사용하였다[9]. 해당 모델은 객체를 실시간으로 탐지할 수 있는 성능을 갖추고 있어 긴급한 상황에서도 신속 대응이 가능하다.
해당 모델은 포즈 추정(Pose Estimation) 기술을 사용하여 주어진 이미지에서 총기 객체를 인식할 뿐만 아니라, 총기에 대한 스켈레톤 데이터까지 추출한다. Fig. 2와 같이 소총(Rifle) 사진을 기준으로 3개의 키포인트를 추출할 수 있도록 모델을 구성하였으며. 총기 손잡이, 몸통, 총열 앞부분 3곳에 주석을 달고 키포인트로 삼아 스켈레톤 데이터를 형성했다. Fig. 2(a)는 주석과 엣지, 탐지 범위를 보이고, Fig. 2(b)는 주석 키포인트 지점을 표현했다.
3개의 키포인트는 총기 객체 탐지 딥러닝에 필요한 노드로 활용되어, 손잡이를 쥔 사람의 손과 총기 그립 사이의 연결 지점을 중심으로 사람과 총기 통합 그래프를 생성하고 사람과 총기 간의 상호작용을 분석하는 데 중요한 정보를 제공했다. 데이터는 신체의 포즈와 총기의 위치를 효과적으로 분석하기 위해 정규화되었으며, 두 키포인트 사이의 거리 측정과 같은 방법을 통해 데이터의 스케일을 통일하고 분석을 용이하게 했다. 이 과정은 객체의 구조적 특성 파악 및 패턴 인식에 핵심적인 역할을 한다.
3.3 신체-총기 그래프 결합
Fig. 1(b)는 주어진 이미지에서 사람을 추가 인식한다. 또한, 사람과 총기로부터 추출된 스켈레톤 데이터를 바탕으로 특징 데이터를 추출하고 2개의 그래프 데이터로 만들어낸다. 여기서는 그래프 분석(Graph Analysis) 기법을 통해 스켈레톤의 키포인트를 노드로, 이들 간의 관계를 엣지로 표현하여 복잡한 관계를 그래프 구조로 표현한다. 이를 통해 인체와 총기의 그래프 데이터를 결합하고, 중요한 상호작용을 명확히 파악할 수 있다.
나아가 각각 추출된 사람의 스켈레톤 그래프와 총기의 스켈레톤 그래프를 단일 그래프 데이터로 결합한다. Fig. 3은 사람-총기 이종 결합 그래프를 나타낸다. 결합 알고리즘은 사람과 사물의 특성 데이터를 혼합하여 각 노드, 즉 인체 노드(인체 키포인트) 17개와 사물 노드(사물 키포인트) 3개의 노드 파라미터를 계산하고, 계산된 노드 파라미터에 기초하여 20개 노드의 결합 그래프를 결정할 수 있다.
이때, 노드 파라미터는 통합 바운딩 박스(Bounding Box)를 기준으로 하여 벡터로써 표현되는 각 노드의 거리 특성을 의미한다[9]. 구체적인 노드 파라미터는 수식 (1)과 같다.
이때, ith 는 인체 노드와 사물 노드의 집합에서 i 번째 노드의 파라미터이고,
또한, 해당 노드 간의 관계를 정의하는 엣지의 결정이 필요하다. 총기는 두 개의 엣지로 구성되며, 신체는 18개의 엣지로 구성된다. 통합된 신체-총기 그래프를 생성하기 위해, 우리는 총기의 손잡이를 유클리드 거리 기준으로 가장 가까운 손목과 연결할 수 있는 엣지를 추가하였다. 최종적으로, 그래프 시퀀스는 윈도우 크기를 정의하고, 해당 윈도우 크기 내의 그래프를 선택하여 추출된다.
3.4 Graph-LSTM을 통한 위험 상황 판단
마지막으로 Fig. 1(c)는 Fig. 4와 같이 결합된 그래프(총기를 들고 있는 사람)를 바탕으로 Graph Attention Network(GAT)와 Graph-LSTM 기법을 통해 실시간 상황을 위험도에 따라 3단계로 분류한다[10].
GAT 모델은 그래프 구조 데이터에서 중요한 정보를 식별하고 추출하는 데 사용되는 딥러닝 기술이다. GAT는 각 노드가 연결된 다른 노드들로부터 정보를 수집할 때 중요한 노드에 더 많은 주의를 기울이도록 설계되어, 노드 간의 중요도를 학습하고 데이터의 핵심 특성을 파악한다. 데이터는 GAT가 효과적으로 분석할 수 있는 형식으로 변환되며, 이를 통해 그래프의 특성을 분석하고 중요한 특성 벡터를 출력한다. 이 벡터들은 분석이나 학습 과정에서 중요한 정보로 활용된다. 추출된 그래프는 추후 LSTM 학습을 위한 그래프 특성의 부분 순서열을 생성하는 데에 사용된다.
Graph-LSTM 딥러닝 모델을 통해 GAT를 통해 각 그래프에서 추출한 특징 데이터의 시간적 및 공간적 정보가 통합되며, 최종적으로 실시간 위험도를 판단할 수 있다. Graph-LSTM은 그래프 데이터에서 시간적 패턴을 학습하기 위해 LSTM을 확장한 모델로, 장기적인 동작 패턴과 관계를 학습하여 총기 동작의 위험도를 크게 3가지로 분류하고 위험 상황을 판단한다.
본 연구는 신체와 총기의 상호작용을 포즈 추정에 적용해 통합하는 접근법을 제시했다. 이는 신체 동작과 사물을 개별적으로 탐지한 뒤 위협 요소를 각각 평가하는 방식보다, 위험 상황 판단의 정확도를 높일 수 있다. 아울러 이종 그래프 결합과 위험도 분류 알고리즘은 개별적 객체 탐지와 평가보다 처리 속도가 빠르다. 이는 긴급한 상황 판단이 필요하거나 위협 요소가 빈번한 환경에서 매우 적합하다. 예를 들어, 국경지대나 군사시설 보안과 같은 실시간 위험 감지 상황에서는 단순 객체 인식을 넘어서 인식된 사람과 물체의 행동과 상황을 정확히 파악하는 것이 중요하다. 본 연구의 접근법은 이러한 요구를 충족시킬 수 있다.
4. 연구 결과
4.1 총기 스켈레톤 추정 모델의 학습 및 성능 테스트
개발한 방법의 구현을 위해 총기를 탐지할 수 있는 객체 탐지 모델의 자체적 학습이 필요하였다. 이를 위하여 다양한 종류의 이미지로 이루어진 데이터셋을 구성하였다. 먼저 Salazar-González et al.(2020)의 모의 공격 데이터셋에서 총기 이미지를 추출하였다[11]. 또한 해당 데이터셋에는, 웹 스크래핑을 통해 수집한 2,127개의 이미지와 2,639개의 총기, 본 연구를 위해 자체 제작한 비디오에서 얻은 369개의 이미지가 포함되었다. 또한, 그린스크린 배경으로 녹화된 비디오 프레임에 새로운 배경 이미지를 합성하여 1,950개의 추가 이미지를 생성했다. 이 외에도 키보드나 창문처럼 총기와 유사한 물체를 포함한 962개의 배경 이미지를 수집하여, 잠재적인 오탐지를 방지했다. 각 데이터셋은 80 %를 훈련용, 20 %를 검증용으로 나누어 사용했다. Table 1에 자세한 수치를 나타내었다.
총기 키포인트 주석 작업에는 수동 주석 프로그램인 COCO Annotator를 사용하였으며, 객체 탐지 범위를 생성하기 위해 바운딩 박스(Bounding Box)를 활용하였다[12]. 학습, 검증, 평가를 위해 모든 입력 이미지는 640×640 크기로 일괄적으로 조정하였다.
총기 스켈레톤 추정 모델의 학습에 사용된 하드웨어는 12세대 Intel Core i9 프로세서, 32GB 워크스테이션, NVIDIA GeForce RTX 4070 Ti GPU이다. 훈련은 100 에포크 동안 배치 크기 16으로 진행됐다. 학습을 위한 사진 데이터셋에는 최대 교차점 비율(IoU)이 0.7로 설정됐다. 100 에포크의 학습 결과 Fig. 5과 같이 95 % 이상의 mAP의 높은 정확도로 주어진 이미지에서 총기와 총기의 스켈레톤을 추출할 수 있었다.
4.2 Graph-LSTM 모델 훈련과 위험도 분류
개발된 알고리즘을 이용하여 주어진 비디오에서 위험도를 판단할 수 있는지를 실제 데이터셋을 구성하여 검증하였다. 제안하는 알고리즘은 총기 스켈레톤 추정 모델, 신체 포즈 추정 모델, 결합된 그래프 분석을 통한 GAT 및 Graph-LSTM의 4가지 모델로 이루어진다. 총기를 탐지하기 위해서는 위 4.1 절에서 설명한 자체적으로 학습시킨 총기 탐지 모델을 사용했으며, 신체 포즈 추정을 위해서는 사전 훈련된 Pose Estimation 모델을 활용하였다[9]. 최종적으로 GAT 및 Graph-LSTM 모듈의 훈련 및 테스트를 통해 제안하는 알고리즘의 검증이 가능하였다.
먼저, 다양한 자세로 총기를 든 사람에 대한 데이터셋을 구성하였다. 총기 스켈레톤 추정 모델 학습을 위한 데이터셋과 마찬가지로 총기 및 칼, 방망이 등 다양한 무기를 들고 있는 모의 공격 데이터셋과 웹 스크래핑 데이터셋을 입력 이미지로 활용하였다[11]. 또한, 백색 및 그린스크린 배경에서 총기를 들고 위협을 가하는 행동을 모사하여 촬영하고, 비디오 프레임에 배경 이미지를 합성하여 대규모 학습 및 검증용 이미지 데이터셋을 생성하였다.
이미지들은 Fig. 6과 같이 자세에 따라 ‘Standing’, ‘Ready’, ‘Aiming’ 3개의 클래스로 분류하였다. ‘Standing’ 자세는 가장 위험도가 낮으며, ‘Aiming’ 자세는 사수가 총기를 완전히 조준하는 상태를 나타내어 가장 위험한 상황을 간주한다. Table 2와 같이 시퀀스 데이터셋은 총 25,368개의 이미지를 획득했다. 구체적으로, 8,383개의 프레임은 Standing Pose에, 8,470개의 프레임은 Ready Pose에, 8,515개의 프레임은 Aiming Pose에 해당한다.
이미지의 통합 및 가공을 통해 최종적으로 9개의 동영상으로 이루어진 데이터셋이 형성되었다. 이 중 6개는 훈련에, 1개는 검증에, 2개는 테스트에 할당했다. 모든 비디오는 실시간 처리 성능을 검증하기 위해 일반적인 CCTV 혹은 IP 카메라의 성능에 맞춰 30 fps로 형성하였다. 각 동영상은 클래스별로 3개의 행동 묶음으로 나뉜다. 영상 하나당 여러 클래스를 담아 동작 다양성을 확보했다. 자세한 수치는 Table 3과 같다.
학습을 위한 환경은 Python 3.10.14로 설정하였으며, 추가 라이브러리로는 PyTorch 딥러닝 프레임 워크와 Deep Graph Library를 사용하였다[13,14]. 학습 과정 및 결과 그래프 분석을 위해 TensorBoard를 사용하였다.
GAT 컴포넌트 내에서는 드롭아웃 정규화를 사용해 모델 과적합을 방지하고 ELU(Exponential Linear Unit) 활성 함수를 사용해 모델의 안정성을 높였다. GAT는 어텐션 메커니즘을 활용하여 노드 특징을 선택적으로 가중하고 그래프 전반에 걸쳐 정보를 전파하는 효과적인 역할을 했다. GAT 처리 후, LSTM 네트워크는 정제된 노드 표현을 순차적으로 처리하였다. 마지막으로, 완전 연결 층을 거친 출력에 소프트맥스 활성화 함수를 적용하여 클래스 확률을 도출함으로써 ‘Standing’, ‘Ready’, ‘Aiming’ 3개의 클래스로 분류한다.
본 연구에서 GAT는 각 노드당 22개의 특성 수를 나타내는 입력 채널 크기로 구성됐으며, 3개의 어텐션 헤드를 사용하고, 은닉 채널 수는 16개, 출력 채널 수는 각 노드당 8개로 설정하였다. LSTM의 입력 채널은 GAT 출력 채널 수와 노드 수의 곱으로 결정되어 8×20의 크기를 갖는다. LSTM은 은닉 크기 8과 5개의 스택 레이어로 구성되며, 출력 레이어는 3개의 클래스로 구성된다. 본 학습 모델은 총 9,379개의 학습 가능한 파라미터를 가지고 있다. 다양한 시퀀스 윈도우 크기를 탐색했으며 손실함수로는 Cross-entropy Loss 함수를, 학습 최적화를 위해 Adam 옵티마이저를 사용하여 학습률 0.0001과 가중치 감쇠 1e-4로 100 에포크 동안 학습을 진행하였다.
학습이 완료된 이후, 제안하는 알고리즘은 주어진 동영상에서 총기 포즈를 인식하고, 현재 상황의 위험도를 정확히 예측할 수 있었다. 모델이 몇 개의 프레임을 입력받을지를 의미하는 시퀀스 윈도우 크기 k는 사용자가 임의로 정의할 수 있다. 성능 극대화를 위하여, k 를 변화시키며 여러 차례 테스트를 수행하였다. k = 60의 조건에서 가장 높은 성능이 기록되었다.
또한 제안하는 알고리즘의 성능을 추가 입증하고자 기존의 대표적인 인체 탐지 딥러닝 모델과의 성능 비교 실험을 수행하였다. 그중 하나로, Donahue et al. (2015)의 연구에서 제안된 CNN-LSTM 기반의 Seq-to-Seq 모델이 있다[15]. 이 모델은 스켈레톤 추출 없이 End-to-End 방식으로 동영상 시퀀스에서 물체를 인식하고 설명하는 데 뛰어난 성능을 보여주었다. 따라서 본 연구에서는 제안된 알고리즘과 통상적으로 쓰이는 CNN-LSTM 모델 간의 성능 비교를 통해, 제안된 알고리즘이 기존 방법에 비해 어떤 우수성을 가지는지 평가하고자 하였다.
동일한 데이터셋을 사용하여 제안된 알고리즘과 CNN-LSTM 모델을 학습시킨 후, 두 모델의 성능을 F1-score 지표로 평가하였다. 실험 결과, 제안된 알고리즘의 F1-Score는 82.04 %, CNN-LSTM 모델은 71.36 %를 기록하여 10.68 %p 뛰어난 성능을 보여주었다.
아울러 위험 상황에 대한 클래스별 평가도 제안된 알고리즘이 최대 23.68 %p 더 높았다. 자세한 수치는 Table 4에 나타나 있다. #1은 CNN-LSTM, #2는 Graph-LSTM이고, 윈도우 사이즈는 60으로 모두 동일했다. 이 밖에도 제안된 알고리즘은 학습된 모델의 크기나 inference 소요 시간에서도 CNN-LSTM에 비해 우위에 있었다.
이 결과는 제안된 알고리즘이 이종 그래프를 활용해 복잡한 물체-인체 상호작용을 통한 위험 상황을 효과적으로 파악함을 보여준다. 특히 Aiming 클래스에서의 높은 정확도는 본 연구의 주된 목표와 일치하며, 실제 위협 감지 시스템에 실용적인 활용 가능성도 시사한다.
본 연구에서는 인간 동작과 총기 이종 그래프 구조를 결합해 특징 데이터를 추출했고, 이를 그래프 시퀀스 데이터로 만들어 LSTM 아키텍처에 적용했다. 결과적으로 신체와 총기 전체를 감싼 새로운 바운딩 박스 안에서 각 키포인트를 스케일링하고, 배치하여 데이터셋 전반에 걸쳐 일관성을 보장할 수 있었다.
5. 결 론
본 연구는 신체 자세와 총기의 동시 인식을 기반으로 위험 상황을 분석하는 인간 사물 이종 분류 딥러닝 모델을 제안한다. 구체적으로는 사람의 행동과 총기를 탐지한 그래프 데이터를 생성한 후 결합하여 그래프 시퀀스 데이터를 생성하고, 이를 LSTM 모델을 통해 분석함으로써 더 정확하고 신속한 위험 상황 인식을 가능하게 했다. 예측된 키포인트의 높은 인식률과 모델의 성능이 반증한다. 특히 이종 그래프 형태의 새로운 포즈 추정 분석은 IoT 기반 지능형 보안 시스템에서 중요한 가능성을 제시한다.
아울러 국방 경계 시스템에서 이상 감지와 위험 상황 예방에도 도움을 줄 수 있다. 또한 본 연구의 위험 상황 평가 모델은 공항이나 국가 주요 시설 등 각종 보안시설에서 테러, 공습, 이상행동을 감지하고 예방하는 데에 기여할 수 있다.
한편, 실험방법으로 제시한 프레임워크는 한 명의 사람과 한 개의 총기를 인식하는데 유망한 성능을 보였다. 향후 연구에서는 다수의 인체와 총기가 등장하는 시나리오를 가정하고 신체 및 총기 표현을 통합하도록 프레임워크를 확장할 예정이다. 더 나아가 인체 감지 기술을 발전시켜 위장 무늬와 같은 복잡한 패턴도 식별할 수 있는 정교한 탐지 모델을 개발하고자 한다. 이를 통해 국방과 공공 안전 분야에서도 응용 가능성을 넓혀, 위험 상황을 신속·정밀하게 인식하고 대응하는 시스템 개발 연구를 계획한다.
후 기
이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. RS-2023-00228996, 우주상황인식을 위한 실-가상 연동형 국방 메타버스 기반 기술 개발) 및 2024년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. RS-2024-00419657, 우주 현지 자원을 활용한 건축 기술)을 받아 수행된 연구임.