서 론
최근 항공 산업에서는 항공 안전 확보 및 정비 효율성 향상을 위한 기술적 접근이 활발히 이루어지고 있으며, 그중 항공기 외관 결함의 조기 검출은 사고 예방과 감항성 유지의 핵심 요소로 부각되고 있다.
항공기 외관 점검 절차 중 하나인 WAI(Walk Around Inspection)[13]는 정비사 또는 조종사가 기체 외부를 육안으로 점검하는 방식으로, 타이어, 날개, 랜딩기어, 엔진 등의 외관 상태를 확인하여 결함을 사전에 식별하는 데 목적이 있다. 그러나 이러한 점검은 주로 작업자의 숙련도와 조명 조건에 의존하기 때문에, 야간이나 역광, 비·눈 등 환경 변화에 따라 미세 결함의 식별이 어려워지고, 이에 따른 인적 오류 가능성도 상존한다. 실제로 2016년 마닐라행 대한항공 여객기의 랜딩기어 고정핀 미제거 사건과 같이 점검 누락으로 인한 사고 사례도 존재하며, 항공기 외판 결함으로 인한 운항 중단 사례도 보고된 바 있다[12].
이러한 한계를 극복하고 외관 결함 검출의 신뢰성과 일관성을 확보하기 위해, 최근에는 인공지능을 활용한 자동화 기술 도입이 요구되고 있다. 특히 딥러닝 기반 객체 탐지 모델은 다양한 결함 형태와 조명 변화에 강건한 특성을 가지며, 실제 WAI 상황에서의 적용 가능성을 높일 수 있다. 본 연구에서는 대표적인 실시간 객체 탐지 모델인 YOLO(You Only Look Once) 시리즈 중 YOLOv5[15], YOLOv8[6], YOLOv9[16]을 적용하여 항공기 외관 결함 검출 성능을 실험적으로 비교·분석하고자 한다.
초기 검토 단계에서는 전통적인 영상처리 알고리즘인 ORB(Oriented FAST and Rotated BRIEF)[7] 방식의 적용도 시도하였으나, 조명 및 반사 변화에 대한 민감성으로 인해 실제 환경에서의 활용에 한계가 있음을 확인하였다. ORB는 CNN 계열의 딥러닝 모델과 달리 학습 과정을 거치지 않는 전통적 특징점 기반 접근 방식으로, FAST 코너 검출과 BRIEF 기술자를 조합하여 특징점을 추출한다. 본 연구에서는 OpenCV 기본 ORB 구현을 사용하였으며, 매칭은 Hamming 거리 기반 k-nearest-neighbor(k = 2)와 Lowe's ratio test(0.75 기준)를 적용하였다. 이러한 방식은 규칙적인 형상에서는 매칭이 안정적으로 이루어지지만, 학습 기반의 일반화 성능을 제공하지 못하기 때문에 실제 WAI 환경에서는 강건성이 부족하다. 이에 따라 본 논문에서는 ORB 방식의 한계는 간단히 언급하는 수준에 머무르고, YOLO 시리즈 간 비교 실험을 중심으로 정밀도(Precision), 재현율(Recall), 평균정밀도(mAP) 등의 성능 지표를 기반으로 자동화 결함 검출의 타당성을 분석하고자 한다.
최근 항공기 외관(surface) 결함 검출에 YOLO 계열 알고리즘을 적용한 연구들이 보고되고 있다. 예를 들어, ASD-YOLO는 YOLOv5 기반의 개선 모델을 제안하여 표면 결함 탐지 성능을 향상시켰으며[18], YOLO-FDD는 fastener 결함 검출에 특화된 네트워크를 개발 하였다[19]. 또한 저조도 환경에 적합한 LESM-YOLO[20], UAV 기반 외관 검사 시스템[21], 그리고 결함 크기 추정까지 시도한 연구[22] 등이 존재한다. 그러나 이들 연구는 특정부위 또는 환경에 제한되거나 정적 데이터셋에 국한된 경우가 많다. 본 연구는 Walk Around Inspection(WAI) 상황에서 스마트폰 기반 촬영 이미지를 대상으로 YOLOv5, YOLOv8, YOLOv9을 비교 적용함으로써 기존 연구와 차별성을 갖는다.
이를 위해 본 연구에서는 Roboflow 공개 데이터셋과 함께, 전국항공기능대회 기준을 바탕으로 자체 제작한 판재 리벳 샘플(30세트)을 활용하였으며, 동일한 데이터셋에 YOLOv5, YOLOv8, YOLOv9 모델을 각각 적용하여 비교 분석을 수행하였다. 이를 통해 항공기 외관 결함 검출의 자동화 가능성과 YOLO 모델의 실무 적용 가능성을 실험적으로 검토하고, 향후 정비 업무에의 활용 가능성을 제시하고자 한다.
본 논문의 구성은 다음과 같다. 제2장에서는 관련 연구 및 기술 배경을 다루고, 제3장에서는 제안 기법을 설명한다. 여기에는 WAI 결함 검출 프레임워크와 데이터셋(DB) 설계 및 구성이 포함되며, 해당 내용은 Fig. 2의 전체 흐름과 함께 제시된다. 제4장에서는 YOLO 시리즈(v5, v8, v9)를 적용한 결함 검출 실험 결과와 성능 비교를 다루며, 마지막으로 제Ⅴ장에서는 결론과 향후 연구 방향을 제시한다.
관련 연구 및 기술배경
2.1 기존 영상처리 기반 기법의 한계
초기 연구에서는 ORB 알고리즘[7]을 활용하여 리벳 손상 등 결함 영역의 특징점을 추출하고 매칭하여 검출하는 방식을 적용하였다. 유사하게 ORB 기반 인식 기법은 기계 부품이나 금속 표면 결함 검출에도 활용된 바 있다[3,17]. 그러나 항공기 표면 결함은 특정한 형상(feature)만으로 일관되게 정의되기 어렵다. 균열(crack)이나 스크래치(scratch)는 조명과 촬영 각도에 따라 특징점이 검출되거나 소실되며, 리벳 주변의 반사광이나 도색 패턴 역시 결함과 무관하게 특징점으로 인식될 수 있다. 따라서 ORB는 결함만을 구별적으로 나타내지 못하고, 정상 영역에서도 다수의 특징점을 생성하여 높은 오탐률(False Positive)을 보이는 구조적 한계를 가진다.
총 75건의 실제 결함(Ground Truth 기준)을 대상으로 ORB 알고리즘을 적용한 결과, 총 107건의 결함 후보가 탐지되었으며, 이 중 실제 결함을 정확히 탐지한 건수는 65건이었다. 이를 기준으로 정밀도(Precision)는 전체 탐지된 객체 중 실제 결함에 해당하는 비율로, 65건을 107건으로 나눈 약 60.7 %로 나타났다. 또한 재현율(Recall)은 전체 실제 결함 중 탐지된 비율로, 65건을 75건으로 나눈 86.6 %로 계산되었다. 한편, 실제 결함이 아님에도 탐지된 오탐(False Positive)은 42건으로, 이는 전체 실제 결함 수(75건)를 기준으로 할 때 오탐률(False Positive Rate)이 56.3 %에 달함을 의미한다.
Table 1에서 나타난 56.3 %의 오탐률은 ORB가 결함을 독립적으로 구별하지 못하고, 표면반사·패턴 등에서도 다수의 특징점을 생성한 결과이다. 실제 결함 75건 중 65건을 탐지하여 Recall은 86.6 %로 높았지만, 결함과 무관한 영역에서도 42건의 False Positive가 발생하였다. 이는 ORB가 동일 형상 기반 에서는 효과적일 수 있으나, 실제 항공기 외판처럼 다양한 조명 변화와 복잡한 결함 형태가 존재하는 환경에서는 신뢰성이 낮다는 점을 의미한다.
Table 1.
Results of ORB application on sheet metal samples
| Indicator | ORB Detector |
|---|---|
| Detection Count | 107 |
| True Defects (Total) | 75 |
| Detection Rate (%) | 86.6 % |
| False Positive (Count) | 42 |
| Error Rate (%) | 56.3 % |
ORB 알고리즘은 지역적 특징점 검출 및 매칭에 효과적인 기법이나, 원래 특정 대상의 결함 여부를 판별하기 위해 고안된 방법은 아니다. 따라서 ORB 특징만으로 결함/비결함을 직접 판단하는데는 구조적 한계가 있으며, 일반적으로는 이 특징량을 기반으로 추가적인 기계학습 분류기(KNN, SVM 등)를 결합하여 이상여부를 판단하는 방식이 요구된다. 그러나 본 연구의 목적은 ORB+기계학습 조합의 최적화가 아니라, ORB 단독 적용의 구조적 한계를 확인하고 이를 딥러닝 기반 YOLO 모델과 비교하여 성능 격차와 적용 필요성을 분석하는데 중점을 두었다. 이에 본 연구는 정밀도와 재현율을 동시에 향상시키기 위해 YOLOv5, YOLOv8, YOLOv9과 같은 딥러닝 기반 탐지 모델을 비교 적용하고, 전통적 특징점 기반 접근 방식과의 성능 차이를 분석하고자 하였다.
2.2 YOLO 시리즈 모델의 발전과 구조적 특성
YOLO는 2016년 Redmon et al.[4]에 의해 처음 제안된 이후, Ultralytics의 YOLOv5[15], YOLOv8[6], YOLOv9[16] 등으로 발전하였다. 본 연구에서는 다음 세 가지 YOLO 시리즈 모델을 비교 분석 대상으로 선정하였다.
YOLOv5: PyTorch 기반의 경량화된 모델로 널리 실무에 활용되며, 속도와 정확도의 균형이 우수하다. 네트워크는 CSP(Cross Stage Partial) 구조 기반이며, 학습 유연성과 커스터마이징이 용이하다.
YOLOv8: 앵커(anchor) 기반 구조를 제거하고 앵커프리(anchor-free) 구조를 채택하여 더 나은 Generalization 을 제공한다. 또한 새로운 백본 구조(C2f module)와 향상된 디코더를 통해 mAP 성능이 개선되었으며, 분류(Classification), 분할(Segmentation), 탐지(Detection)를 통합 지원한다.
YOLOv9: 최신 연구 결과로 제안된 YOLOv9은 기존 모델의 단점으로 지적되던 DFL(Distribution Focal Loss)의 한계를 극복하기 위해, GFLv2 및 딥시그모이드(DeepSigmoid) 회귀 구조를 반영하였다. 이를 통해 더 정확한 바운딩 박스 예측이 가능하며, 학습 효율 및 정밀도가 개선된 것으로 보고되고 있다.
YOLO 시리즈는 모두 실시간 탐지 성능이 뛰어나며, 본 연구에서는 동일한 데이터셋과 조건 하에 세 모델의 정량적 성능을 비교하여 항공기 외관 결함 검출에 가장 적합한 모델을 고찰한다.
제안 기법
3.1 WAI 결함 검출 프레임워크
본 연구에서 제안하는 항공기 Walk Around Inspection (WAI) 결함 검출 프레임워크는 Fig. 2에 제시된 바와 같이 크게 네 단계로 구성된다. 먼저, WAI 과정에서 촬영된 항공기 외관 이미지를 입력으로 받아 전처리 과정을 수행한다. 전처리 단계에서는 입력 이미지를 YOLO 학습 규약에 맞게 640×640 크기로 리사이즈하고, 조명변화·회전·노이즈를 반영한 데이터증강을 적용하였다. 이후 탐지 단계에서는 YOLO 시리즈(v5, v8, v9) 모델을 적용하여 결함 후보 영역을 Bounding Box 로 탐지한다. 마지막으로 출력 단계에서는 탐지된 객체를 crack, dent, scratch, paint-peel-off, missing-head 등 5개 클래스 중 하나로 분류하고, 이를 시각화하여 검사자가 확인할 수 있도록 하였다. 이러한 프레임 워크는 ORB 기반 특징점 검출과 달리, 다양한 조명 변화와 형상 조건에서도 안정적으로 결함을 탐지할 수 있다는 장점이 있다.
3.2 실험 환경 및 조건
본 연구에서 제작한 판금 리벳 샘플은 Canon EOS R6 Mark II(풀프레임, 24.2MP)와 RF 24-105 mm F4 L IS USM 렌즈를 사용하여 촬영하였다. 해상도는 6000× 4000 픽셀로 설정하였으며, 촬영은 삼각대를 이용해 약 50 cm의 거리를 유지한 상태에서 진행하였다. 조명은 실제 정비 현장에서 사용되는 정비용 작업등(Inspection Lamp, 주광색 약 5600 K)을 활용하여, WAI 상황에서의 조명 환경을 최대한 유사하게 재현하였다. 이러한 촬영 환경을 통해 데이터의 일관성과 결함 패턴의 현실성을 확보하였다.
앞서 2.2절에서 설명한 YOLOv5, YOLOv8, YOLOv9 모델을 대상으로 동일한 환경에서 학습 및 비교 실험을 수행하였다. 전체 데이터셋은 학습 : 검증 : 테스트 = 7 : 2 : 1의 비율로 분할하였다. 학습은 Ultralytics YOLO 프레임워크(v8.3)를 사용하여 GPU(NVIDIA RTX 3090) 환경에서 수행하였다. Epoch는 100, Batch size는 16, Optimizer는 SGD, Learning rate는 0.01로 설정하였으며, 입력 이미지는 640×640 크기로 리사이즈하였다. 이러한 설정을 통해 실험 재현성을 확보할 수 있도록 하였다. 주요 학습 조건은 Table 2에 요약하였다.
3.3 공개 데이터셋 구성
본 연구에서는 Aircraft Skin Defects Dataset[10]의 총약 1,000장의 이미지를 활용 하였다. 이 데이터셋은 crack, dent, scratch, paint-peel-off, missing-head 5개 클래스를 포함하고 있으며, 각 라벨은 YOLO 형식의 바운딩 박스로 제공된다. 데이터셋은 항공기외 판표면의 질감, 반사광, 색조 등의 현실적 특성을 일정 부분 반영하고 있어 딥러닝 기반 결함 검출 모델 학습에 적합한 기초샘플로 활용될 수 있다. 다만 결함 클래스 간 분포 불균형과 일부 이미지의 해상도 저하 문제가 존재하여, 학습 전 필터링 및 전처리 작업을 수행하였다. 또한, 공개 데이터셋의 한계를 보완하기 위하여 별도의 제작샘플을 추가 구성하였다.
3.4 판재 리벳 샘플 제작 및 이미지 수집
기존 Roboflow 공개 데이터셋은 다양한 항공기 기종에서 촬영된 외관 결함 이미지를 포함하고 있으나, 동일 기종을 기준으로 결함 탐지 성능을 비교하기에는 한계가 존재하였다. 항공기는 기종마다 구조 형상, 표면 반사, 배경 요소 등이 상이하기 때문에, 서로 다른 기종의 이미지를 혼합하여 사용할 경우 학습 및 검증 과정에서 데이터 불균형과 모델 성능의 편차가 발생할 수 있다.
또한, 실제 항공기 이미지를 동일 기종 기준으로 확보하는 것은 보안상의 제약으로 인해 현실적으로 어려운 상황이다. 이에 따라 본 연구에서는 기종 간 구조 차이를 배제하고 통일된 조건 하에서 실험을 설계하기 위해, 항공기 판금 구조를 모사한 리벳 결함 샘플 30세트 및 테스트용 10세트를 자가 제작하였다. 이 샘플은 전국항공기능대회 판금 부문 실기 평가 기준에 따라, 실제 항공기 외판과 유사한 알루미늄 기반 금속 시편으로 구성되었으며, 리벳 헤드 손상(Head Deformation), 벅테일 불량(Unformed Bucktail), 리벳 누락(Missing Rivet) 등 대표적인 결함 유형이 포함되었다.
이미지는 Canon EOS R6 Mark II(풀프레임, 24.2MP)와 RF 24-105 mm F4 L IS USM 렌즈를 사용하여 촬영하였다. 원본 해상도는 6000×4000 픽셀로 확보되었으며, 촬영은 정비 현장에서 사용되는 광원 조건(light), 촬영 각도(30°, 45°, 90°), 고정된 배경 하에서 진행되었다. 이후 모델 학습을 위해 YOLO 입력 형식에 맞게 640×640 픽셀로 리사이즈하였으며, 이때 Ultralytics 프레임워크의 AutoShape 기능을 활용하여 종횡비를 유지한 채로 패딩(padding) 처리함으로써 객체 손실을 최소화하였으며, 모든 데이터에 동일한 방식의 정규화를 적용하여 실험의 일관성을 확보하였다.
자가 제작 샘플 이미지에 대해서는 YOLO 포맷(Label.txt) 기준에 따라 수동 라벨링을 수행하였다. 라벨링 도구로는 Roboflow Annotator와 LabelImg를 병행 사용하였으며, 결함 유형별 클래스는 다음 Table 3 같이 정의하였다.
Table 3.
Rivet defect classes by type
| Class ID | Class Name |
|---|---|
| 0 | Rivet Head Deformation |
| 1 | Unformed Bucktail (incl. tail-side cracks) |
| 2 | Rivet Head Dent (incl. head-side cracks) |
각 결함 객체는 바운딩 박스로 지정되었으며, 중심 좌표 및 폭/높이를 정규화한 YOLO 형식에 따라 저장하였다. 또한 라벨링 정확도를 높이기 위해 두 명 이상의 검수자가 독립적으로 점검하였으며, 결함 판단 기준은 아래의 Table 4 같이 설정하였다.
Table 4.
Defect evaluation criteria for rivet samples
리벳 주변 판재 균열의 경우, 위치에 따라 리벳 헤드 쪽 균열은 Class 0에, 벅테일 쪽 균열은 Class 1에 포함하여 라벨링하였다. 이는 외부 균열이 리벳 결함과 밀접하게 연결되어 발생하는 경우가 많으며, 실제 정비 기준에서도 해당 부위와 일체로 판단하는 경우가 많기 때문이다.
이러한 기준은 EASA Part-66 항공정비 교육 자료[2] 및 전국항공기능대회 판금 실기 평가 기준을 기반으로 수립되었다. 특히 벅테일 미형성, 리벳 헤드 변형, 리벳 헤드 균열 등은 실제 정비 및 교육 환경에서도 결함으로 분류되며[11], 본 연구에서도 해당 기준을 준용하여 라벨링 작업을 수행하였다.
자가 제작 데이터셋은 총 200장의 영상을 기반으로 annotation을 수행하였다. 클래스별 bounding box 수는 Crack 80개, Dent 65개, Scratch 55개로 구성되었다. 라벨링은 EASA Part-66 및 전국항공기능대회 기준을 참고하여 전문가 검수를 거쳐 진행하였다. 이와 같은 클래스별 분포를 제시함으로써 데이터셋의 특성을 명확히 하고, 연구 결과 해석 시 데이터 불균형 문제를 고려할 수 있도록 하였다.
또한 실무 현장에서는 재질, 두께, 리벳 타입, 리벳팅 조건에 따라 일부 편차가 존재할 수 있음을 고려하여, 일정한 오차 허용 범위 내에서 결함 여부를 판단하였다. 본 연구의 데이터셋 역시 이러한 실무 조건을 반영하여 구축되었으며, 리벳 형상이나 주변 금속 판재가 규격 기준을 초과한 경우를 결함으로 정의하고 실험에 반영하였다.
Fig. 5에는 판재 리벳 정상 상태와 결함 상태를 시각적으로 비교할 수 있도록 구성된 예시 이미지를 제시하였으며, 이를 통해 결함과 정상 상태의 구분이 직관적으로 이해될 수 있도록 하였다.
공개 데이터셋은 다양한 항공기 외관 결함을 포괄하도록 5개의 클래스로 정의되어 있으나, 자가 제작 데이터셋은 전국항공기능경기대회 기준과 EASA Part-66 정비 교육 지침을 기반으로, 실제 리벳 시편 제작이 가능한 범위에서 3개의 주요 결함(리벳 헤드 변형, 벅테일 미형성, 리벳 헤드 균열/오목 변형)을 포함하였다. 이는 실제 정비 현장에서 빈도가 높고 판금 제작 실험을 통해 구현 가능한 결함 유형을 우선적으로 반영한 것이다. 따라서 두 데이터셋 간 클래스 수와 정의에는 차이가 존재하지만, 본 연구에서는 각각의 데이터셋 특성에 맞춘 성능 평가를 수행하였으며, 향후 연구에서는 클래스 매핑(class mapping) 또는 통합 기준 마련을 통해 cross-dataset 비교의 일관성을 확보할 필요가 있다.
실험 결과
4.1 Roboflow 데이터셋 YOLO모델 성능 비교
앞서 3.1절에서 설명한 공개 데이터셋 중 테스트 세트(50장, 84개 객체)를 대상으로 YOLOv5[15], YOLOv8[6], YOLOv9[16] 모델의 성능을 비교하였다. 성능 평가는 Precision, Recall, mAP@0.5 지표를 기준으로 수행하였으며, 검출된 객체 수와 ground truth 간 매칭을 통해 산출하였다. 실험 결과는 Table 5∼8에 요약되어 있다.
Table 5.
YOLOv5 dataset detection results
| Class | Precision | Recall | mAP@0.5 |
|---|---|---|---|
| crack | 0.72 | 0.68 | 0.58 |
| dent | 0.71 | 0.66 | 0.60 |
| scratch | 0.82 | 0.80 | 0.70 |
| paint-peel-off | 0.74 | 0.70 | 0.65 |
| missing-head | 0.60 | 0.55 | 0.50 |
Table 6.
YOLOv8 dataset detection results
| Class | Precision | Recall | mAP@0.5 |
|---|---|---|---|
| crack | 0.85 | 0.76 | 0.65 |
| dent | 0.78 | 0.69 | 0.62 |
| scratch | 0.90 | 0.85 | 0.78 |
| paint-peel-off | 0.81 | 0.770 | 0.75 |
| missing-head | 0.70 | 0.65 | 0.60 |
Table 7.
YOLOv9 dataset detection results
| Class | Precision | Recall | mAP@0.5 |
|---|---|---|---|
| crack | 0.88 | 0.81 | 0.68 |
| dent | 0.81 | 0.72 | 0.65 |
| scratch | 0.90 | 0.85 | 0.78 |
| paint-peel-off | 0.86 | 0.80 | 0.79 |
| missing-head | 0.77 | 0.70 | 0.64 |
Table 8.
Overall YOLO performance metrics
| Model | TP | FP | FN | Precision | Recall |
|---|---|---|---|---|---|
| YOLOv5 | 54 | 15 | 21 | 0.78 | 0.72 |
| YOLOv8 | 67 | 11 | 16 | 0.83 | 0.77 |
| YOLOv9 | 70 | 9 | 14 | 0.88 | 0.83 |
모든 검출 결과는 해당 ground truth와 비교하여 평가하였으며, 클래스별 검출 건수를 기준으로 Precision (정밀도), Recall(재현율), mAP@0.5(평균 정밀도)를 산출하였다. 여기서 Precision은 TP / (TP + FP), Recall은 TP / (TP + FN)으로 계산되며, 검출된 객체 수 대비 정답 매칭 수, 누락 수, 오탐 수를 기반으로 정량화하였다.
클래스 c에 대한 Average Precision(AP)은 Precision-Recall 곡선의 적분으로 정의된다.
전체 클래스에 대한 mean Average Precision(mAP@0.5)은 다음과 같이 계산된다.
여기서 N은 클래스 개수이며, 본 연구에서는 각 클래스별 AP를 계산한 후, 이를 평균하여 최종 mAP@0.5 값을 산출하였다. 따라서 제시된 mAP@0.5는 모든 클래스에 대한 통합적 성능 지표이다.
Table 5∼7에서 확인할 수 있듯, YOLOv9은 전반적으로 가장 우수한 Precision과 Recall 값을 기록하였으며, 특히 scratch, paint-peel-off 클래스에서 일관된 고성능을 보였다. YOLOv8 역시 YOLOv5보다 전반적으로 높은 성능을 보였고, YOLOv5는 일부 클래스에서 오탐(FP) 및 검출 누락(FN)이 빈번하게 발생하였다.
Table 7의 결과를 세분화하면, False Positive는 정상 영역을 결함으로 잘못 인식한 경우(FP-normal)와 실제 결함을 다른 유형으로 잘못 인식한 경우(FP-misclass)로 나눌 수 있다. Crack을 Dent로 인식한 사례와 같이 FP-misclass는 결함 자체는 탐지했으므로 항공기 안전성에 직접적인 위험은 크지 않다. 그러나 정상 영역을 결함으로 인식한 FP-normal은 불필요한 정비를 유발할 수 있어 작업 효율성에 영향을 준다. 반면 False Negative는 실제 결함을 아예 검출하지 못한 경우로, 이는 항공기 안전성 측면에서 가장 치명적인 오류이다. 따라서 Precision과 함께 Recall을 주요 성능 지표로 고려해야 하며, FN을 줄이는 것이 향후 연구에서 가장 중요한 개선과제임을 알수있다.
Table 8의 전체 성능 지표에서도 YOLOv9이 TP, Precision, Recall 모두에서 가장 우수한 값을 기록하였고, YOLOv8은 그 뒤를 이었다. YOLOv5는 오탐(FP) 및 누락(FN) 빈도가 상대적으로 높아 전반적인 검출 신뢰도 측면에서 열세를 보였다.
YOLOv9은 오탐율 기준으로 약 11.4 % 수준(Precision 88.6 %)으로 대폭 개선된 결과를 보였으며, YOLOv8 역시 ORB 방식 대비 현저히 낮은 오탐율을 나타내었다. 이러한 비교 결과는 딥러닝 기반 YOLO 모델이 기존 방식 대비 높은 신뢰도와 실용성을 갖추었음을 실증적으로 보여준다.
YOLOv9이 가장 우수한 Precision과 Recall을 기록하였고, YOLOv8은 균형 잡힌 결과를, YOLOv5는 경량 모델임에도 합리적인 성능을 보였다. FN의 치명성에 대한 심화 고찰은 중복을 피하기 위해 본 절에서는 생략하고, 4.4절에서 WAI 적용 관점에서 논의하였다.
4.2 Confidence Thershold 변화에 따른 영향
Confidence Threshold 변화에 따른 영향은 Table 9과 Table 10에 나타내었다. Threshold가 0.25일 경우 YOLOv9은 Precision 0.85, Recall 0.80, mAP@0.5 0.76을 기록하였으며, Threshold를 0.75로 조정했을 때는 Precision 0.90, mAP@0.5 0.80으로 성능이 향상되었다. 이는 높은 threshold 설정이 오탐을 줄이는 데 효과적임을 의미하며, YOLOv9이 다른 모델에 비해 높은 threshold 환경에서도 안정적인 성능을 유지함을 보여준다. 반면 YOLOv5는 threshold가 높아질수록 Recall 값이 급격히 감소하는 경향을 보여, 민감한 결함 탐지에는 부적합할 수 있음을 시사한다.
Table 9.
Performance metrics at confidence threshold = 0.25
| Model | Precision | Recall | F1-score |
|---|---|---|---|
| YOLOv5 | 0.75 | 0.70 | 0.72 |
| YOLOv8 | 0.80 | 0.75 | 0.77 |
| YOLOv9 | 0.85 | 0.80 | 0.82 |
Table 10.
Performance metrics at confidence threshold = 0.75
| Model | Precision | Recall | F1-score |
|---|---|---|---|
| YOLOv5 | 0.81 | 0.65 | 0.72 |
| YOLOv8 | 0.85 | 0.70 | 0.77 |
| YOLOv9 | 0.90 | 0.78 | 0.84 |
항공기 안전성 측면에서 Recall의 확보가 최우선임은 분명하다. 그러나 Precision 또한 실제 정비 현장에서는 중요한 지표이다. FP-normal이 과도하게 발생하면 정상부위를 결함으로 오인하여 불필요한 정비 절차가 수행되고, 이 과정에서 정비사의 주의가 분산되며 실제 결함 탐지 효율성이 저하될 수 있다. 따라서 Threshold 조정 실험은 Recall을 희생하는 수준이 아니라, Precision과 Recall의 trade-off를 고려하여 WAI 현장에서 적용 가능한 균형점을 탐색하기 위한 과정이라 할 수 있다.
Threshold 변화에 따라 Precision과 Recall 값이 trade-off 관계를 보였다. Threshold를 높일 경우 Precision은 증가하였으나 Recall은 감소하는 현상이 나타났다. FP 와 FN의 적용적 의미는 실제 WAI 환경과 연결하여 4.3절에서 심화 논의하였다.
Table 9와 10은 confidence threshold를 0.25와 0.75로 고정한 상태에서 Precision, Recall, F1-score를 비교한 결과이다. YOLOv9이 두 경우 모두 가장 높은 F1-score 를 기록하여 Precision과 Recall의 균형이 가장 우수하게 나타났다. mAP는 threshold에 무관한 종합 지표이므로 본 표에서는 제외하였다.
4.3 제작 판금 샘플 기반 YOLO 모델 성능비교
Roboflow 기반 공개 데이터셋은 다양한 기종의 항공기 이미지로 구성되어 있어, 기종 간 구조적 차이로 인해 결함 탐지 성능을 일관되게 비교하는 데 어려움이 있었다. 특히 항공기의 기종에 따라 외판 형상이나 주변 배경의 차이가 결함 검출 정확도에 영향을 줄 수 있으며, 이는 실험 결과 해석의 신뢰도를 저해할 수 있다.
이에 본 연구에서는 기종 통일 조건을 가정한 정밀 실험을 설계하고자, 항공기 외판 구조를 나타낸 자가 제작 리벳 결함 샘플을 활용하였다. 동일한 재질과 촬영 조건 하에 구성된 이 이미지셋은 YOLO 시리즈 모델 간의 검출 성능을 공정하게 비교할 수 있는 기반이 된다.
제작된 판재 리벳 결함 샘플은 총 10세트로 구성되었으며, 총 결함 개수는 75개이다. 샘플에는 리벳 헤드 손상(Rivet Head Deformation), 벅테일 미형성(Unformed Bucktail), 헤드 오목 변형(Head Dent), 리벳 누락(Missing Rivet) 등 실제 정비 교육 및 기능평가에서 자주 활용되는 결함 유형이 포함되어 있다. 모든 이미지는 동일한 조도와 촬영 거리, 배경 조건 하에서 수집되었으며, 해상도는 1920×1080으로 통일하였다.
자가 제작 판금 리벳 샘플은 총 200장의 영상과 84개의 결함 객체로 구성되어 있어 데이터셋 규모가 제한적이므로, YOLO 계열 모델의 대규모 파라미터 수 대비 과적합(overfitting) 위험이 존재한다. 이를 완화하기 위해 사전학습 가중치(transfer learning)를 초기값으로 사용하고, 회전·좌우반전·밝기 변화 등의 데이터 증강을 적용하였으며, 검증 세트 모니터링 및 조기종료(early stopping)를 병행하여 일반화 성능 저하를 최소화 하였다.
이러한 설정을 통해 소규모 데이터셋에도 불구하고 모델의 일반화 성능을 유지하고자 하였으며, 결과 해석시 데이터셋 규모의 한계를 고려하였다.
YOLOv5, YOLOv8, YOLOv9 모델은 동일한 학습 설정(Epoch 300, 입력 크기 640×640, Confidence Threshold 0.25)으로 각각 학습되었으며, 자가 제작 테스트 데이터셋을 기반으로 정량적 검출 성능 평가가 수행되었다. 주요 성능 비교 결과는 Table 11에 요약하였다. 본 실험의 Ground Truth는 총 75건의 실제 결함 객체로 구성되어 있으며, 모든 평가지표는 이를 기준으로 산출되었다.
Table 11.
Performance comparison of YOLO models on sheet metal samples
Table 11은 기존 Table 5∼7과 달리 클래스별 Precision 및 Recall 대신 F1 Score를 제시하였다. 이는 Precision 과 Recall이 trade-off 관계에 있어 개별 지표만으로는 모델 성능을 종합적으로 판단하기 어렵기 때문이다. 따라서 Table 11은 모델의 전반적 성능을 단일 지표로 비교하기 위해 F1 Score를 보조 지표로 활용하였다. 실제 Walk Around Inspection(WAI) 환경에서 정비사가 스마트폰 기반 시스템을 활용하는 상황을 가정하면, FP(오탐)는 불필요한 정비와 검사 지연을 유발하지만, FN(미탐)은 항공기 안전성 측면에서 훨씬 더 치명적이다. 따라서 Recall을 핵심지표로 삼되 Precision과의 균형 또한 고려해야 한다. 또한 클래스별 성능 비교는 학술적으로 의미가 있으나, 실제 현장에서는 결함 유형별 중요도를 반영한 새로운 성능 지표, 예를 들어 안전성 가중 성능지표(safety-weighted metric)를 개발하는 것이 필요하다.
이미 Table 5∼7에서 클래스별 성능 지표를 상세히 제시하였으므로, Table 11은 중복을 피하면서도 Precision 과 Recall의 균형을 고려한 실제 활용적 관점의 종합 지표라는 점에서 의미가 있다.
YOLOv9 모델은 전체 지표에서 가장 우수한 성능을 기록하였다. 특히 정밀도(Precision)와 검출률(Recall) 모두에서 96 % 이상을 기록하며, 리벳 결함의 위치와 형태를 안정적으로 탐지한 것으로 분석되었다. 반면 YOLOv5는 일부 결함에 대해 오탐 또는 누락이 발생하여, Precision 및 Recall 지표가 상대적으로 낮게 나타났다. YOLOv8은 경량화된 모델임에도 불구하고 YOLOv5에 비해 전반적으로 향상된 성능을 보였으며, mAP@0.5 기준으로도 3 % 이상의 개선 효과를 확인할 수 있었다. 또한, YOLOv8과 YOLOv9은 모두 Error Rate 0 %를 기록하여, 오탐지 없이 결함 위치를 안정적으로 검출할 수 있음을 보여주었다.
YOLOv8과 YOLOv9은 앵커 프리 구조를 채택하고 있으며, 특히 YOLOv9은 DeepSigmoid 회귀 구조와 개선된 DFL(Distribution Focal Loss)을 통해 작은 결함 객체에 대한 경계 박스 회귀 성능이 향상된 것으로 보인다. 이러한 구조적 특성이 실제 결함의 위치나 형태가 미세하게 다른 상황에서도 보다 안정적인 검출 성능으로 이어진 것으로 판단된다.
한편, 세 모델 모두 F1-score가 88 % 이상을 기록하였으며, 이는 Precision과 Recall 간 균형이 양호하게 유지되었음을 의미한다. 특히 YOLOv8과 YOLOv9은 Error Rate 0 %를 기록하여, 결함 누락(FN)이나 잘못된 검출(FP) 없이 모든 결함을 정확하게 탐지한 사례가 다수 포함되었음을 시사한다.
기존 ORB 기반 탐지 알고리즘은 총 107건을 탐지했으나, 이 중 실제 결함은 65건에 불과해 오탐(False Positive) 수가 42건에 달하였다. 이에 따라 Precision은 60.7 %, Error Rate는 56.0 %로 나타났으며, 이는 YOLOv9의 0.0 %와 비교할 때 극명한 성능 차이를 보여준다. YOLO 기반 모델은 다양한 결함 유형을 안정적으로 검출하면서도, 기존 방식의 한계였던 조명 변화나 형태 왜곡에 강건한 성능을 보였다. 본 결과는 YOLOv9이 실환경과 유사한 리벳 판금 구조에서도 높은 정확도를 유지할 수 있음을 시사하며, 향후 WAI 자동화 시스템의 실무 적용 가능성을 뒷받침하는 실험적 근거로 활용될 수 있다.
결 론
본 연구는 항공기 외관 점검(WAI) 과정에서 발생할 수 있는 인적 오류와 환경 변수로 인한 결함 누락 문제를 해결하기 위해, 딥러닝 기반 객체 탐지 모델을 활용한 자동 결함 검출 기법을 제안하고 실험적으로 검증하였다. 기존 특징점 기반 방식인 ORB 알고리즘의 한계를 극복하고자, YOLO 시리즈(v5, v8, v9)를 적용하여 성능을 비교하였으며, 기종 통일 조건을 만족하는 자가 제작 판금 리벳 샘플을 실험에 활용함으로써 정량적이고 공정한 성능 평가를 가능하게 하였다.
실험 결과, YOLOv8과 YOLOv9 모델은 각각 Precision 및 mAP@0.5 지표에서 94.66 % 이상, 95 % 이상의 우수한 성능을 기록하였으며, 특히 Error Rate 0 %를 달성함으로써 결함 누락과 오탐지 없이 안정적인 검출 결과를 도출하였다. 이는 향후 항공 정비 교육 및 자동화 점검 시스템에 실질적으로 활용될 수 있는 가능성을 시사한다.
위 실험에서 비교한 YOLOv5, YOLOv8, YOLOv9 모델 중 YOLOv9은 가장 높은 Recall(0.83)을 기록하며 FN을 14건으로 최소화하여 실제 결함을 놓치는 위험성을 줄였고, False Positive 역시 YOLOv5의 15건에서 YOLOv9의 9건으로 감소하여 정상 영역을 결함으로 오인하는 사례가 줄었다. 또한 confidence threshold를 고정한 상황에서도 YOLOv9은 Precision과 Recall의 균형을 나타내는 F1-score가 가장 높게 기록되어, 실제 운용 환경에서도 안정적인 성능을 보일 수 있음을 확인하였다. 한편, mAP는 threshold와 무관한 종합 성능 지표이므로 Table 5∼7 및 11에서 종합 비교 지표로 활용되었다. 이러한 결과는 최신 YOLO 모델이 기존 기법보다 항공기 결함 검출의 안전성과 효율성을 모두 개선할 수 있음을 시사하며, 향후 연구에서는 Recall 개선을 위한 데이터 증강, 소형 결함 인식 강화, 임계값 최적화 등이 중요한 과제로 남아있다.
다만, 본 연구에서 제작한 판금 샘플 데이터셋은 규모가 제한적이므로 YOLO 계열 모델의 대규모 파라미터 수 대비 과적합 위험이 존재한다는 한계를 가진다. 이를 완화하기 위해 transfer learning, 데이터 증강, 조기 종료 등의 기법을 적용하였으며, 결과 해석 시 이러한 한계를 고려하였다. 향후 연구에서는 실제 항공기 WAI 데이터를 대폭 확대하고, domain adaptation 및 semi-supervised learning 기법을 도입하여 소규모 데이터 환경에서도 안정적이고 일반화된 성능을 확보할 수 있도록 보완할 계획이다. 또한 정적 이미지 기반의 검출에서 나아가 동적 영상 기반의 실시간 탐지와 다중 결함 인식 고도화 연구가 필요하며, 결함 중요도를 반영한 안전성 가중 성능 지표 개발도 향후 과제로 남는다.







