J. KIMS Technol Search

CLOSE


J. KIMS Technol > Volume 28(6); 2025 > Article
세부 분류를 위한 전차 데이터셋 구축과 전처리 방식별 분류 성능 연구

Abstract

In future battlefields, unmanned systems will play a crucial role in collecting visual intelligence, which enables fast and accurate decision-making by operators and commanders. Among various data types, visual information often offers the most intuitive and reliable insights. The level of analysis of such intelligence especially the granularity of object classification can significantly influence tactical and strategic decisions. Fine-Grained Visual Classification(FGVC), which enables model-level identification(e.g. distinguishing a “T-55 tank” from a generic “armored vehicle”), is essential for achieving information superiority. However, the defense industry faces significant challenges in acquiring high-quality training data due to issues of security, scarcity, and limited diversity. To address this, the present study introduces a fine-grained labeled image dataset containing 34 distinct tank models currently in operation by key countries around the Korean Peninsula. The dataset includes over 4,400 images captured under various conditions to support robust training of AI models. We validate its effectiveness by fine-tuning an Inception-v4 model and analyzing performance across multiple pre-processing methods. This work is expected to support the advancement of automatic target recognition, situational awareness, and AI-based combat simulations within MUM-T frameworks, contributing to smarter and more resilient defense systems.

서 론

최근 인공지능 기술의 급격한 발전과 저출산으로 인한 병력 자원의 지속적인 감소 문제는 국방 분야에 근본적인 변화를 요구하고 있다. 이에 따라 AI 기반 유·무인 복합체계(Manned-Unmanned Teaming, MUM-T) 구축을 통한 기술 중심의 전력 구조 개편이 필수적으로 부각되고 있다. 특히 우크라이나 전쟁은 ‘드론전쟁’이라고 불릴 만큼 UAV(Unmanned Aerial Vehicle)의 활약이 두드러졌다. UAV가 제공하는 영상 정보는 위성 영상이나 고고도 항공 영상에 비해 공간적 범위는 좁지만, 더 높은 해상도와 세부 정보를 포함해 표적의 구조적, 형태적 특징을 더욱 명확히 포착할 수 있다. 기존에는 위성 영상이나 고고도 항공 영상을 통해 ‘기갑차량’ 혹은 장갑차, 전차 수준으로만 식별이 가능하나 UAV 영상 수준에서는 전차 중에서도 ‘T-55’ 같은 모델 단위까지 구체적으로 식별할 수 있는 환경이 마련되었다. 이러한 세부 식별 능력은 단순한 인식 정확도 향상을 넘어, 적 전력의 종류, 성능, 전술적 의도를 보다 정밀하게 판단할 수 있는 정보우위를 제공한다. 따라서 국방 분야에서의 세부 분류(Fine-Grained Visual Classification) 활용은 더 깊이 있는 분석 결과를 제공할 수 있는 정보우위를 기반으로 정확한 판단과 전술적 우위로 이어지는 단초를 제공할 수 있다. 하지만 국방 분야의 특수성으로 인해, AI 모델 학습에 필요한 양질의 데이터 확보에는 제약이 따른다. 특히 적성국 무기 체계와 같이 군 관련 데이터는 축적된 데이터의 양 자체가 적고, 확보한 데이터의 다양성 측면에서도 부족하며, 군사 보안상의 이유로 민간에 공개하거나 연구 결과를 공개하는 것 역시 제한된다. 국방 분야에서 수행된 연구 중 지상, 해양, 공중 도메인별로 딥러닝 기반의 영상 식별을 다루는 연구들[1-6] 대부분 부족한 데이터 수의 한계점을 극복하기 위해 증강[1-3], 가지치기[4], 합성데이터 생성[5], 추가 정보를 통한 탐지 성능 증대[6] 등의 방법을 제시한다. 또한 공개된 자료를 기반으로 구축한 데이터셋에서 히트맵 기반의 XAI(eXplainable AI)[7]를 활용해 군함 세부 분류 결과를 분석하고 의사결정을 시각화하는 활용 가능성을 제시했다. 아울러 세부 분류 성능과 별개로 군용기의 꼬리날개에 기입된 숫자 인식[8]을 통해 추가 정보 도출 가능성을 보여준다. Table 1은 무기 체계에 대한 영상 기반 연구를 요약한 표이다. 세부 분류 작업에 필요한 데이터는 수십 개의 클래스를 포함하며, 이에 비례하는 데이터 수량을 가진다. 또한 군함, 군용기와 같은 협소한 카테고리 안에서 구성되기 때문에 원하는 데이터셋을 구하기가 매우 어렵다.
Table 1.
Study of vision task for weapon system
Researcher # of class Task Data volume Key word
Lim[1] 4 전차 탐지 및 국적 분류 2,000 데이터 증강
Hwang[2] - 전차 탐지 96
Lee[3] 14 군용기 분류 3,640
Han[4] 5 해상 객체 분류 1,762 가지치기,경량화
Park[5] 7 SAR 지상표적 탐지/분류 790 합성데이터
Kang[6] 10 함형별 탐지 1,080 문자인식
Military MARVEL[7] 137 군함 분류 15,858 세부분류, XAI
YOLO11-cls[8] 43 군용기 분류 30,206 세부분류,문자인식
본 연구는 전차 식별을 단순한 객체 수준을 넘어 모델명 단위까지 수행할 수 있도록 세분화된 라벨링 데이터셋을 구축에 중점을 두었다. MUM-T 환경에서 앞으로 더 활발히 운용될 UAV와 UGV(Unmanned Ground Vehicle)가 조우할 기갑차량 중, 후방에서 화력 지원을 수행하는 자주포나 상대적으로 화력이 약한 장갑차보다 전방에서 강력한 화력 체계로 운용되는 전차가 실용적 측면에서 연구 대상으로 적합하다고 판단했다. 현재 퇴역하지 않고 한반도 주변 및 주요 국가에서 운용 중인 34종의 전차 모델을 선정해, 총 4,400여 개 전차 이미지를 포함하는 데이터셋을 구축하였다. 모든 모델은 시각적으로 구분 가능하지만, 제조사가 같은 경우 차이가 미묘해 분류가 어렵고, 같은 모델 내에서도 다양한 파생형과 변형이 존재해 세부 분류가 까다롭다. 이러한 특성을 고려하여 데이터셋을 구성했다. 또한 구축된 데이터셋에는 실제 전장 환경을 고려해 고속 기동으로 인한 흙먼지, 가려짐 등 다양한 조건의 이미지 일부를 포함하였다. 이를 통해 AI 기반 인식 모델이 실제 환경에서도 강건하게 작동하며 전차의 세부 특성을 효과적으로 학습할 수 있도록 했다. 구축한 전차 모델 세부 분류 데이터셋의 유효성을 검증하기 위해, 이미지 분류모델인 Inception-v4[9]를 미세 조정하여 세부 분류 작업을 수행하였다. 또한 부족한 데이터 문제를 완화하고 성능을 극대화하기 위해 데이터의 전처리 방식별로 성능을 비교, 분석하였다. 이를 통해 AI 기반 유·무인 복합체계의 자율 판단 기반 표적 식별, 전장 인식을 통한 지휘 결심 지원, 미래지향적 전투 시뮬레이션 환경 구축 등 병력 의존도 감소와 지능형 전력 체계 구현에 필요한 데이터 기반 인프라 구축에 기여할 것으로 기대된다.

관련 연구

본 장에서는 세부 분류 작업과 이를 위한 공개된 데이터셋 종류를 소개한다. 또한 해당 작업 수행에 활용할 수 있는 CNN(Convolutional Neural Network), ViT (Vision Transformer) 기반 모델에 대해 살펴본다.

2.1 세부 분류 작업

세부 분류(Fine-Grained Classification)는 컴퓨터 비전 분야의 분류 작업 중에서도 더 세밀한 수준에서, 동일 카테고리 내 미묘한 차이를 식별하고 차별화된 특징을 추출하는 분야이다. 예를 들어, 일반적인 분류 작업이 강아지, 새, 자동차와 같이 서로 다른 대상을 구분하는 것이라면, 세부 분류 작업은 시각적으로 유사한 동일 카테고리 내에서 품종, 모델, 연식, 제조사, 음식 종류 등 세부 기준에 따라 구분하는 작업을 의미한다.

2.2 세부 분류 작업을 위한 데이터셋

일반적으로 세부 분류 작업을 위한 데이터셋은 동일한 카테고리 내 다양한 이미지가 대량으로 필요하므로, 공개된 데이터셋이 많지 않고 종류도 한정적이다. 자동차, 새, 강아지, 꽃 등 대부분은 일반적인 도메인에서 종(species)이나 모델명을 구분할 수 있도록 라벨링되어 있다. Table 2는 세부 분류 분야에서 자주 사용되는 대표 벤치마크 데이터셋을 정리한 것이다.
Table 2.
Summary of popular fine-grained classification open image dataset
Dataset # of class Summary
Stanford Cars[10] 196 제조사-모델명-연식 순으로 별도의 196개 클래스를 가지는 16,185장의 이미지로 구성된 자동차 데이터셋.
NABirds[11] 400 48,000장의 이미지로 구성된 북미에서 관측된 400종의 조류 데이터셋.암컷, 수컷, 어린 개체 등 별도의 속성 정보 포함.
FGVC Aircraft[12] 100 고정익 항공기 중 제조사-제품군-세부 기종 기준으로 구분된 10,200장의 이미지로 세부 기종 기준 100개 클래스를 가지는 항공기 데이터셋.대부분 민간항공기지만 F-16A/B, C-130 등 전투기, 수송기도 포함.
CUB-200-2011[13] 200 11,788장의 이미지로 구성된 200종의 조류 데이터셋.객체식별 박스 좌표 및 날개 색, 부리 형태 등 별도의 속성 정보 포함.
Oxford 102 Flowers[14] 102 클래스 당 40∼258장의 이미지로 구성된 꽃 품종 데이터셋.
Stanford Dogs[15] 120 20,580장의 이미지로 구성된 120종의 개 품종 데이터셋.객체식별 박스 좌표 정보 포함.

2.3 세부 분류 작업을 위한 모델

세부 분류 작업은 동일한 카테고리로 구성된 데이터셋을 사용한다. 이러한 데이터셋은 클래스 간 차이가 매우 미묘해 클래스 간 분산은 작고 오히려 동일 클래스 간 분산은 상대적으로 큰 특성을 보여 난이도가 높다.
이런 문제를 해결하기 위한 세부 분류에 대한 방법론은 크게 강한 지도 학습과 약지도 학습 방식으로 나눌 수 있다. 강한 지도 학습은 데이터셋에 부여된 세밀한 주석 정보를 활용해 분류 정확도를 높인다. 그러나 이러한 주석 정보를 구축하려면 상당한 비용과 많은 인력이 필요하다. 지역적 특징 추출에 강점을 가진 CNN 기반 모델 중에서는, 미세하고 미묘한 차이를 식별하기 위해 Inception-v4처럼 깊고 넓은 신경망 구조를 가진 모델이 활용된다. 또한 TransFG[16]처럼 입력 이미지를 작은 패치로 분할하여 글로벌 특징 추출에 강점이 있는 ViT를 활용하거나, CBAM ConvNeXt[17]처럼 CNN 구조에 어텐션 메커니즘을 적용해 레이어 간 관계를 학습하는 방법도 있다. 약지도 학습은 세밀한 주석 정보 부족 문제를 극복하기 위해, 데이터셋에 부여된 카테고리 수준의 레이블만 사용하고 별도의 특징 차이를 찾아내는 기법을 적용해 클래스 구분에 유용한 영역을 식별한다. 이로써 세부 분류 작업에서도 매우 깊은 CNN 기반 모델뿐 아니라, 구조가 비교적 얕은 ConvNeXt 기반 모델이나 ViT와 같은 트랜스포머 계열 모델도 활용할 수 있게 되었다. Table 3은 세부 분류 분야에서 사용되는 여러 모델의 성능을 비교한 것이다. Table 4는 약지도 학습 방식의 여러 모델을 간략히 요약한 내용이다. 방법은 다르지만, 공통적으로 미세한 차별적 특징을 강화하기 위해 노이즈를 억제하고 객체 영역을 강조하는 방식으로 세부적인 특징을 추출하는 방법이 활용되고 있다. 데이터의 주석 정보 생성에는 높은 비용이 소요되기 때문에, 약지도 기반 학습 방식의 연구와 대체가 이루어지고 있다. 그러나 모델의 성능을 평가하기 위해서는 정답 클래스가 명확히 구분된 주석 정보가 포함된 데이터가 필수적이다.
Table 3.
Comparison of FGVC methods on bechmark dataset
Method Backbone Type Accuracy Rate (%)
Stanford Cars FGVC Aircraft CUB-200-2011
Supervised learning
Inception-v4(2021)[9,18] CNN 95.4 95.1 -
TransFG (2021)[16] ViT - - 94.8
CBAM ConvNeXt (2022)[17] CNN 93.3 92.1 87.8
YOLO11x-cls (2024)[8] CNN (별도 95.9 %군용기 데 데이터셋)
Weakly supervised learning
HERBS (2023)[19] Hybrid - - 93.1
SM-ViT (2023)[20] ViT - - 91.6
GHOLM-Net (2025)[21] CNN 94.9 94.0 91.8
Table 4.
Summary of weakly supervised learning method
Method Summary
HERBS (2023)[19] 객체 외 배경 노이즈를 억제히트맵을 활용하여 주요 특징부터 세부 특징으로 순차적 훈련 진행.
SM-ViT (2023)[20] 객체 식별(U2-Net)로 객체 마스크 생성.객체 영역 포함한 패치는 높은 클래스 어텐션으로 구성된 어텐션 맵을 통해 학습.
GHOLM-Net (2025)[21] 히트맵 기반 객체 영역 자르거나 지움.원본 이미지와 객체가 제거된 이미지의 대조 학습 수행으로 객체의 특징 학습.
본 논문에서는 데이터셋을 직접 구축하였으며, 그 유효성을 검증하기 위해 학습·검증·시험 데이터 전반에 걸쳐 주석 정보를 모두 사용하는 강한 지도 학습 방식을 채택하였다. 또한 전차와 형태적 유사성을 지닌 인공물 대상으로 FGVC Aircraft와 Stanford Cars 데이터셋에서 우수한 성능을 보인 Inception-v4 모델을 선택하여 실험을 수행하였다.

전차 모델 분류를 위한 데이터셋 구축

국방 분야의 특성상 국방 데이터를 공개적으로 확보하기에는 현실적인 제약이 따르기 때문에 본 논문에서는 웹 스크래핑을 통해 공개된 전차 이미지를 최대한 수집하여 라벨링을 수행하였다. 식별한 모델명과 파생형을 키워드로 약 10,000장의 이미지를 수집한 뒤, 중복 이미지와 식별이 불가능한 이미지를 필터링하였다. 이후 수동 큐레이션을 통해 각 전차의 모델명 일치시키고 확인하는 작업을 반복하여 데이터셋을 구축하였다.

3.1 데이터셋 구성

전차 모델명을 기준으로 대한민국이 위치한 동북아의 주변국에서 운용하고 있는 전차 모델을 주로 선정하였으며, 해당 전차 모델의 개발사, 주요 운용국, 전차의 세대, 이미지 내 전차 객체 식별 박스 좌표, 분할(Segmentation) 좌표 등 주석 정보가 포함된다. 모델명 선정 시 적성국인 북한에서 운용하는 전차를 최대한 포함하려 했으나 러시아나 중국의 전차를 모방한 모델이거나 충분한 수의 데이터 확보가 불가능한 M-2020과 같은 전차는 포함하지 않았다. 그러나 T-34와 같이 현재 대부분 국가에서 퇴역하여 사용되지 않는 전차지만 북한에서 운용하고 있는 모델은 선정하여 데이터셋을 구축하였다. 또한 클래스별 100개 이상의 수량 충족을 위해 필요에 따라 해당 모델을 정밀하게 구현한 3D 렌더링 및 모형 이미지도 일부 포함되어 있다. Fig. 1, 2는 전체 34종의 전차 모델로 구성된 데이터셋을 보여준다. 데이터셋 내 속성 정보인 모델별로 개발사, 주요 운용국, 주력 전차에서 분류되는 서방식 세대를 표기한 것이며(2차 세계대전 이전 사용 전차는 0으로 표기, 주력 전차가 아닌 경우 경전차, 수륙양용전차로 표기), 데이터셋 내에는 정의되어 있지 않지만, 모델명을 구성하고 수집하기 위해 참고된 파생형들을 나타낸다. 파생형 단위로는 세부 분류 작업에 사용되지 않았으며, 본 논문에서는 모델명 기준으로 세부 분류 작업을 수행하였다.
Fig. 1.
The model-level tank dataset label structure
KIMST-2025-28-6-717f1.jpg
Fig. 2.
The model-level tank dataset
KIMST-2025-28-6-717f2.jpg

3.2 이미지 내 전차 객체 탐지

Grounding DINO[22] 모델을 활용하여 수집한 이미지 내 Tank 및 Vehicle과 같은 일반적인 단어를 통해 전차의 단일 객체 혹은 객체 간 폐색(Occlusion) 및 중첩된 객체 전부를 식별하였다. 식별된 여러 객체 식별 박스 중 Confidence score와 식별 박스 크기를 고려하여 단일 이미지 내 가장 두드러지는 식별 박스 한 개만을 차용함으로써 전차에 대한 식별 박스 주석 정보를 생성하였다.

3.3 이미지 내 전차 객체 분할

HQ-SAM[23] 모델을 활용하여 전차 객체에 대한 분할 작업을 수행했으며, 이는 3.2 이미지 내 전차 객체 탐지에서 추출된 식별 박스 정보를 분할 작업에 대한 프롬프트로 활용하여 전차에 대한 분할 주석 정보를 생성했다. 생성되는 분할 주석 정보는 품질의 정확성을 보장하기 위해 검수자가 검수 절차를 수행했다. 이 과정에서 분할 결과가 부정확한 경우, 검수자가 전경과 배경을 구분하는 점(Point) 형태의 프롬프트를 이미지 내에 추가로 입력하는 수동 큐레이션 과정을 통해 최종 분할 주석 정보를 확정했다.

3.4 데이터셋 형식

구축된 데이터셋의 주석 정보는 COCO 데이터 형식을 차용하였다. 개발사, 주요 운용국 등 추가적인 정보를 포함하기 위해 Fig. 3과 같은 구조로 주석 정보를 구성하였으며, Json 확장자 파일로 존재한다.
Fig. 3.
The dataset format based on COCO dataset and example of bounding box, segmentation
KIMST-2025-28-6-717f3.jpg

세부 분류 모델 학습

구축된 데이터셋과 주석 정보를 활용하여 단계별 전처리를 수행하였으며, 전처리 단계별 데이터의 세부 분류 학습 및 수행을 통해 전처리별 세부 분류 성능을 비교 분석하였다. 각 클래스별 데이터를 7:2:1의 비율로 학습/검증/시험 데이터로 나눠 학습 후 검증 및 테스트를 수행하였다.

4.1 데이터 전처리

수집한 이미지의 원본(Original), 3.2장 객체 식별을 통해 구축된 전차 식별 박스 좌표만 자른 이미지(Crop), 3.3장 객체 분할을 통해 구축된 분할 좌표 외 배경을 검은색으로 균일화한 이미지(Seg), 분할 좌표 외 배경을 제거한 이미지에 객체만을 자른 이미지(Seg+Crop)로 Fig. 4와 같이 전처리 과정 간 발생할 수 있는 총 4가지 방식의 데이터셋을 구성하였으며, 동일한 학습 조건을 적용하기 위해 학습/검증/시험 데이터의 동일한 구성과 Table 5의 학습 조건을 적용하여 Inception-v4의 미세 조정을 각각 수행하였다.
Fig. 4.
The sample of pre-processing image outputs
KIMST-2025-28-6-717f4.jpg
Table 5.
Primary hyper-parameter for training
Input Size 299 × 299 (Resize)
Batch size 32
epoch 100
Loss function CrossEntropyLoss
Optimizer Adam
Learning rate 0.001
Scheduler ReduceLROnPlateau
mode min
factor 0.1
patience 10
Augmentation Trivialaug gmentwide

4.2 학습 결과 및 성능 비교

모델의 작업(Task)은 34종의 전차 모델명을 분류하는 세부 분류 작업이며 클래스별 데이터 수량과 학습/검증/시험 구체적인 데이터 수량은 Table 6과 같다. 모델의 체크포인트는 검증 데이터셋의 손실이 가장 적은 모델을 기준으로 선정하였다.
Table 6.
Distribution of tank model classes
Class Train Valid Test Total
ALTAY 82 24 12 118
Challenger2 88 26 13 127
K1 93 27 14 134
K-2 83 24 12 119
Leclerc 95 28 14 137
Leopard2 83 24 12 119
M1-Abrams 130 38 19 187
M10-Booker 72 20 11 103
M48 Patton 99 28 15 142
Merkava Mk.2 97 28 14 139
Merkava Mk.3 95 27 14 136
Merkava Mk.4 87 25 13 125
PT-76 98 28 15 141
Strv122 78 22 12 112
T-14 68 20 10 98
T-34-76 79 23 12 114
T-34-85 102 29 15 146
T-54/55 141 40 21 202
T-62 70 20 10 100
T-64 98 28 14 140
T-72 80 23 12 115
T-80 103 30 15 148
T-90 128 37 19 184
T-90M 117 34 17 168
Type 10(Japan) 76 22 11 109
Type 90(Japan) 77 22 11 110
Type63 74 22 11 107
Type69 83 24 12 119
Type88 71 20 11 102
Type90 98 28 14 140
Type96 95 27 14 136
Type99 74 21 11 106
ZTD-05 84 24 12 120
ZTQ-15 81 23 12 116
Total 3,079 886 454 4,419
(1)
ACC=CN×100
N은 검증 데이터셋의 총 수량이며, C는 정답 레이블을 맞춘 경우의 수이다. 정확한 답을 맞춘 경우 Top1, 예측한 3개, 5개의 레이블 중 정답이 있는 경우인 Top3, Top5-Accuracy 또한 측정하였다. Table 7의 결과 비교 시 원본 이미지(Original)에 비해 객체 외 배경을 물리적으로 제거(Crop)한 경우와 검은색으로 균일화(Seg) 정확도가 향상되었다. 특히 전처리를 수행한 후 모델 입력에 맞게 299×299로 리사이즈하기때문에, ‘Crop’의 경우 전체 이미지 면적에서 전차가 차지하는 픽셀의 비율이 증가하여 가장 좋은 성능을 보인 것으로 유추된다. ‘Seg’도 ‘Original’보다는 성능이 좋지만 정밀하지 못한 분할로 인해 분류 성능에 영향을 미치는 정보가 배경에 포함되어 정보가 소실되거나 분할을 통해 발생하는 자연스럽지 못한 객체의 윤곽선(Contour)으로 인해 더 좋은 성능 개선으로 이어지지 못한 것으로 보인다. ‘Seg+Crop’ 또한 ‘Crop’과 동일한 수준의 성능을 보여 분류 작업 시 객체 분할보다는 Crop을 통해 객체 외 노이즈를 물리적으로 제거하는 것이 더 큰 효과가 있음을 알 수 있다. 또한 확보할 수 있는 데이터의 양이 제한되는 분야인만큼 학습 시 과적합 발생이 쉬운데 데이터셋의 전처리를 통해 어느 정도 완화할 수 있음을 알 수 있다.
Table 7.
Compare performance by pre-processing
Method (#epoch) Original (#30) Crop (#77) Seg (#67) Seg+Crop (#95)
Train_loss 0.156 0.051 0.072 0.064
Valid_loss 0.675 0.496 0.591 0.489
Top1-Acc 84.42 % 90.52 % 86.46 % 89.73 %
Top3-Acc 94.58 % 97.63 % 95.60 % 97.18 %
Top5-Acc 97.63 % 98.42 % 97.40 % 98.31 %

4.3 시험 데이터셋 적용 결과 분석

전체 4,419장의 이미지 중 약 10 %에 해당하는 454장의 이미지를 시험 데이터셋으로 구성하여 미세 조정된 모델을 시험하였다. 검증 데이터셋의 손실이 가장 낮은 ‘Seg+Crop’의 체크포인트에 해당하는 모델에 적용하였으며, Fig. 5는 산출된 Confusion matrix, Table 8은 클래스별 Precision, Recall, F1-Score를 나타낸다. Fig. 5의 Confusion matrix 참조 시 오답이 가장 큰 건은 Type69가 정답인 이미지에 대해 T-54/55로 예측한 건이 4건, Type63이 정답인 이미지에 대해 PT-76으로 예측한 건이 2건 등 존재한다. 실제로 Type69에 해당하는 중국의 69식 전차는 T-54/55를 모방한 59식 전차(WZ-120)의 개량형이기 때문에 T-54/55와 외형적으로 상당히 유사하다. 동일한 이유로 Type63 또한 소련의 PT-76을 기반으로 개발된 수륙양용전차로써 PT-76과 아주 유사한 외형을 가지고 있다. Table 8을 보면 Top-1 Accuracy가 91.85 %인 것에 비해 Top-3 Accuracy가 5 % 이상 더 높은 97.14 %를 수치를 통해 모델이 정확한 예측을 하지 못한 경우에도 높은 확률로 정답에 가까운 유사 클래스로 예측을 수행하고 있는 것을 알 수 있다.
Fig. 5.
Confusion matrix
KIMST-2025-28-6-717f5.jpg
Table 8.
Performance of checkpoint model
Class Precision Recall F1-Score Support Class Precision Recall F1-Score Support
ALTAY 1.00 0.83 0.91 12 T-64 0.87 0.93 0.90 14
Challenger2 1.00 0.92 0.96 13 T-72 0.69 0.75 0.72 12
K1 1.00 1.00 1.00 14 T-80 0.76 0.87 0.81 15
K-2 0.92 1.00 0.96 12 T-90 1.00 0.89 0.94 19
Leclerc 1.00 1.00 1.00 14 T-90M 1.00 0.88 0.94 17
Leopard2 0.75 1.00 0.86 12 Type 10(Japan) 1.00 1.00 1.00 11
M1-Abrams 0.95 1.00 0.97 19 Type 90(Japan) 0.82 0.82 0.82 11
M10-Booker 0.92 1.00 0.96 11 Type63 0.90 0.82 0.86 11
M48 Patton 0.93 0.93 0.93 15 Type69 0.89 0.67 0.76 12
Merkava Mk.2 1.00 0.93 0.96 14 Type88 1.00 0.91 0.95 11
Merkava Mk.3 0.93 1.00 0.97 14 Type90 1.00 1.00 1.00 14
Merkava Mk.4 1.00 1.00 1.00 13 Type96 0.93 0.93 0.93 14
PT-76 0.88 0.93 0.90 15 Type99 0.82 0.82 0.82 11
Strv122 1.00 0.83 0.91 12 ZTD-05 0.92 1.00 0.96 12
T-14 1.00 1.00 1.00 10 ZTQ-15 1.00 0.92 0.96 12
T-34-76 0.92 0.92 0.92 12 Average 0.92 0.92 0.92 Sum: 454
T-34-85 0.93 0.93 0.93 15 Top-1 Accuracy 91.85 %
T-54/55 0.78 0.86 0.82 21 Top-3 Accuracy 97.14 %
T-62 0.90 0.90 0.90 10 Top-5 Accuracy 98.24 %

결 론

기존 위성 및 고고도 항공 영상의 한계로 기갑차량 수준으로 식별이 제한되었으나 MUM-T 체계, 드론 영상의 활용으로 장갑차, 전차 수준의 식별을 넘어 모델 단위까지 세부 식별이 가능한 환경이 마련되었다. 이러한 변화는 국방 분야에서도 세부 분류에 대한 실용성과 필요성을 명확히 보여준다. 이에 본 연구에서는 한반도 주변 및 주요 국가에서 운용 중인 34종 전차를 대상으로 약 4,400 여장의 이미지 데이터셋을 구축하였다. 전차 객체에 대한 주석 정보는 객체 검출과 분할 마스크 생성, 검수 및 보정 과정을 고쳐 COCO 형식으로 정리하였다. 구축된 데이터셋의 유효성을 검증하기 위해 이미지의 전처리 방식별 학습/검증/시험 데이터를 구성하고 세부 분류모델인 Inception-v4의 미세 조정을 수행하였다. 그 결과 ‘Crop’ 방식의 전처리가 90.52 %의 Top-1 정확도로 가장 좋은 성능을 보였고, 데이터 수량이 제한된 환경에서 발생하기 쉬운 과적합 문제 완화에도 기여할 수 있음을 확인했다. 또한 Confusion Matrix 분석 결과 Top-3 정확도가 97.14 %로 크게 상승한 것을 통해 모방 또는 개량으로 인해 아주 유사한 외형을 가지는 전차 모델들의 정확한 예측은 실패하더라도 정답에 가까운 유사 클래스를 예측할 가능성이 높음을 보여준다. 본 연구의 한계점은 ViT 기반의 모델이나 약지도 학습을 통해 성능 비교나 효과를 제시하지 못한 점이다. 국방 분야에서 데이터는 다양한 지능형 솔루션을 개발하고 구현하는데 핵심 요소다. 이미지 데이터셋이 직관적으로 자동 표적 인지 및 식별하는 솔루션 개발에 활용될 수도 있지만 멀티모달 지식베이스 기반 RAG 시스템[24]에서 군사 도메인의 지식베이스 구축에 활용될 수 있다. 향후 연구에서는 기갑차량 혹은 더 넓은 범위의 군 개체에 대한 체계적, 계층적 데이터 분석, 구축을 수행할 예정이며, 세부적으로는 특정 개체의 부위 식별 및 상태 파악을 통해 물리적 피해평가 및 전투피해평가의 자동화로 확장할 예정이다.

REFERENCES

[1] S. Lim and D. Kang, "Identifications and Evaluation of Tank Nationality using YOLO Algorithm," KIISE Transactions on Computing Practices, Vol. 27, No. 12, pp. 555–562, 2021.
crossref
[2] K. Hwang and J. Ma, "Improvement of Object Detection Performance for Enemy Tanks Using the Combination of Data Augmentation Models," Korean Journal of Computational Design and Engineering, Vol. 27, No. 2, pp. 148–159, 2022.
crossref
[3] C. Lee et al, "A Study on the Classification of Military Airplanes in Neighboring Countries Using Deep Learning and Various Data Augmentation Techniques," Journal of the Korea Institute of Military Science and Technology, Vol. 25, No. 6, pp. 572–579, 2022.
crossref pdf
[4] Y. Han, C. Lee and J. Kang, "A Study on Maritime Object Image Classification Using a Pruning-Based Lightweight Deep-Learning Model," Journal of the Korea Institute of Military Science and Technology, Vol. 27, No. 3, pp. 346–354, 2024.
crossref pdf
[5] J. Park, "Performance Analysis of Deep Learning Based Detection/Classification for SAR Ground Targets with the Synthetic Dataset," Journal of the Korea Institute of Military Science and Technology, Vol. 27, No. 2, pp. 147–155, 2024.
crossref pdf
[6] J. Kang and W. Kim, "A Study on the Acquisition of Identification Information from Warship Image with Deep Learning," Journal of the Korea Institute of Military Science and Technology, Vol. 25, No. 1, pp. 55–64, 2022.
crossref pdf
[7] H. Karus et al, "Toward Explainable Visual Vessel Recognition Using Fine-Grained Classification and Image Retrieval," 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 82–92, 2024.

[8] H. Karaca and N. Aydın Atasoy, "Fine-Grained Classification of Military Aircraft using Pre-Trained Deep Learning Models and YOLO11," Current Trends in Computing, Vol. 2, pp. 150–171, 2025.

[9] C. Szegedy et al, "Inception-v4, inception-resnet and the impact of residual connections on learning," Proceedings of the AAAI conference on artificial intelligence, Vol. 31, No. 1, 2017.
crossref pdf
[10] J. Krause, M. Stark, J. Deng and L. Fei-Fei, "3D Object Representations for Fine-Grained Categorization," IEEE International Conference on Computer Vision Workshops, pp. 554–561, 2013.
crossref
[11] G. V. Horn et al, "Building a Bird Recognition App and Large Scale Dataset With Citizen Scientists: The Fine Print in Fine-Grained Dataset Collection," IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 595–604, 2015.

[12] S. Maji et al, "Fine-Grained Visual Classification of Aircraft," arXiv: 1306.5151, 2013.

[13] C. Wah et al, "The Caltech-UCSD Birds-200-2011 Dataset," California Institute of Technology, 2011.

[14] M. Nilsback and A. Zisserman, "Automated Flower Classification over a Large Number of Classes," Indian Conference on Computer Vision, Graphics and Image Processing, 2008.
crossref
[15] A. Khosla et al, "Novel dataset for Fine-Grained Image Categorization," First Workshop on Fine-Grained Visual Categorization(FGVC), IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2011.

[16] J. He et al, "TransFG: A Transformer Architecture for Fine-grained Recognition," AAAI Conference on Artificial Intelligence, pp. 852–860, 2022.
crossref pdf
[17] Z. Li et al, "ConvNeXt-Based Fine-Grained Image Classification and Bilinear Attention Mechanism Model," Applied Sciences, Vol. 12, No. 18, 2022.
crossref
[18] J. Plested, X. Shen and T. Gedeon, "Rethinking binary hyperparameters for deep transfer learning for image classification," arXiv: 2107.08585, 2021.

[19] P. Yung Chou, Y. Yung Kao and C. Hung Lin, "Fine-grained Visual Classification with High-temperature Refinement and Background Suppression," arXiv: 2303.06442, 2023.

[20] D. Demidov et al, "Salient Mask-Guided Vision Transformer for Fine-Grained Classification," arXiv: 2305.07102, 2023.
crossref
[21] Q. Pan et al, "A Fine-Grained Image Classification Method Based on ConvNeXt Heatmap Localization and Contrastive Learning," IEEE Access, Vol. 13, pp. 80123–80132, 2025.
crossref
[22] S. Liu et al, "Grounding dino: Marrying dino with grounded pre-training for open-set object detection," European Conference on Computer Vision, pp. 38–55, 2024.
crossref
[23] L. Ke et al, "Segment anything in high quality," Advances in Neural Information Processing Systems, Vol. 36, pp. 29914–29934, 2023.

[24] H. Park et al, "VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation," arXiv: 2506.21556, 2025.



ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
FOR CONTRIBUTORS
Editorial Office
160 Bugyuseong-daero 488beon-gil, Yuseong-gu, Daejeon 34060, Korea
Tel: +82-42-823-4603    Fax: +82-42-823-4605    E-mail: kimst@kimst.or.kr                

Copyright © 2026 by The Korea Institute of Military Science and Technology.

Developed in M2PI

Close layer
prev next