Introduction
Materials and Methods
연구대상 및 장소
다중분광 영상 데이터 취득
다중분광 영상 처리
통계분석
Results and Discussion
이상치 제거
6월에 대한 다중선형회귀 모델
7월에 대한 다중선형회귀 모델
8월에 대한 다중선형회귀 모델
시계열 통합 다중선형회귀 모델
Conclusion
Introduction
고추(Capsicum annuum L. Colormura)는 한국 5대 밭작물 중 하나이며, 1975년 이후 채소류 중 넓은 재배 면적을 차지하는 작물 중 하나이다(Gyeongsangbuk-do Agricultural Research & Extension Service, 2024). 그러나 최근 고령화로 인한 노동력 부족과 인건비 상승, 이상기후 등의 이유로 재배 면적과 생산량이 감소하는 추세를 보이고 있어, 기후 변화에 대응하고 생산 효율성을 높이기 위한 정밀 농업 기반의 생육 관리 기술 개발이 필요한 상황이다(Sishodia et al., 2020; MDS, 2024). 작물의 생육 상태를 나타내는 여러 지표들 중, 초장은 식물의 발달 상태를 반영하며 최종 생산량과도 높은 상관성이 있는 핵심 지표이다(Gupta et al., 2022). 따라서 안정적인 고추의 생산량 확보를 위해 생산량과 상관성이 높은 초장에 대한 연구가 선행되어야 한다.
최근 정밀 농업 분야에서는 무인기(Unmanned Aerial Vehicle, UAV) 기반 원격 감지 시스템의 활용이 늘어나고 있다(Delavarpour et al., 2021). UAV는 넓은 재배지를 짧은 시간에 비파괴 방식으로 작황분석이 가능해, 기존의 관행적 시스템과 비교했을 때, 비용과 노동력 측면에서 효율적이다(Tsouros et al., 2019).
UAV에 탑재된 다중분광 센서는 작물의 5bands 반사값을 수집하고, 반사값으로부터 계산한 식생지수(Vegetation Indices, VIs)는 엽록소 함량, 수분 상태 등 식물의 생물학적 정보를 정량적으로 분석할 수 있다(Radočaj et al., 2023). 이러한 생육 데이터를 분석하고 예측 모델을 만드는 회귀분석 기술이 작물관리, 수확량 예측, 질병탐지 등 다양한 농업 분야에 활발히 적용되고 있다(Liakos et al., 2018). 현재 분광데이터를 활용해 작물과의 복잡한 상호 관계를 해석할 수 있는 회귀모델을 적용하는 정밀 농업 분야는 생산 개선이라는 목표를 달성하기 위해 많은 연구가 활발히 진행중에 있다(Sharma et al., 2023).
따라서 본 연구는 UAV로 촬영한 다중분광 영상으로부터 취득한 고추 캐노피의 반사값을 통해 산출된 식생지수로 고추의 초장을 추정하는 다중선형회귀 모델 개발을 목표로 한다.
Materials and Methods
연구대상 및 장소
본 연구는 김제시 용지면 반교리 농가 포장(35°50'04.1"N 126°57'45.7"E)에서 2025년 4월 29일에 정식한 칼라무라 품종의 고추(Capsicum annuum L. Colormura)를 대상으로 진행하였다(Fig. 1). 초장은 6월 20일, 7월 18일, 8월 12일에 세 차례에 걸쳐 조사하였고, 샘플 수는 6월은 30개 7월과 8월은 샘플당 착과 수 증가로 인한 조사인력 부족으로 샘플 수가 줄어들어 각각 11개였다. 샘플의 위치들은 Fig. 2에 나타내었다.
다중분광 영상 데이터 취득
무인기에 다중분광 센서를 탑재하여 고추 필지를 촬영하였으며, 이때 사용된 무인기는 Matrice 300 RTK(DJI Technology Inc, China)이고 다중분광 센서는 Altum-PT(MicaSense Inc, USA)였다(Fig. 3). 다중분광 영상은 비행 고도 25 m 기준으로, 1.08 cm/pixel로 취득되었으며, 당시 무인기 비행 속도 4 m/s, 종횡비 중첩도 75%로 6월 19일, 7월 21일, 8월 14일 정오에 취득되었다(Table 1).
Table 1.
Mutispectral Sensor.
다중분광 영상 처리
취득한 개별 영상 데이터는 다른 시점에서 촬영된 다수의 영상들을 동일한 시점으로 정렬하기 위해 Pix4D Mapper(Pix4D S.A., Switzerland)를 이용하여 접합하였고(Harwin and Lucieer, 2012), QGIS(Quantum GIS, USA)에서 panchro 이미지와 다중분광 이미지를 융합하여 전자의 높은 공간 해상도와 후자의 높은 스펙트럼 해상도를 갖는 이미지를 생성하기 위해 Pansharpening기법(Loncan et al., 2015)을 이용하여 영상 정합을 진행하였다. 식생 부분의 5 bands (Blue, Green, Red, NIR, RedEdge)의 반사값을 얻기 위해 ENVI 5.3(Exelis Visual Information Solution Inc., USA)에서 NDVI 영상으로 변환하여 고추 식생 부분을 관심영역(Region of interest, ROI)으로 지정한 후 개체별 반사값을 추출하였다(Fig. 4).
다중분광 영상으로부터 얻은 5 bands의 반사값은 기후 환경 변화에 민감하여 추출한 반사값을 이용해 식물의 상태를 정량적으로 나타낼 수 있게 하는 식생지수(NDVI, GNDVI, NDRE, PRI, RVI, GRVI, DVI, OSAVI, TCARI)를 계산하였다(Table 2)(Jackson and Huete, 1991).
Table 2.
Vegetation indices (VIs).
| VIs | Calculation | Reference |
| NDVI | (Basso et al., 2004) | |
| GNDVI | (Wu et al., 2008) | |
| NDRE | (Boiarskii and Hasegawa, 2019) | |
| PRI | (Wu et al., 2008) | |
| RVI | (Basso et al., 2004) | |
| GRVI | (Wu et al., 2008) | |
| DVI | (Wu et al., 2008) | |
| OSAVI | (Wu et al., 2008) | |
| TCARI | (Wu et al., 2008) |
통계분석
통계분석은 Jupyter notebook 7.0.8(Python 3.11.7, Project Jupyter, USA)을 사용하였고, InterQuartile Range(IQR) 방식을 사용하여 사분위수 1.5를 기준으로 생육정보와 반사값의 이상치를 제거하였다(Yang et al., 2019). 예측 변수 사이에 강력한 상관관계로 인해 회귀 계수의 유의성이 불안정해지는 현상인 다중공선성을 확인하기 위해 Variance Inflation Factors (VIF)계수를 활용하였다. VIF는 다중공선성에 의해 계수 추정치의 분산이 얼마나 팽창하고 있는지 보여주는 지표이며, VIF ≥ 10인 경우 심각한 다중공선성 문제가 존재한다고 간주한다(O’brien, 2007). 그렇기 때문에 유의하지 않은 변수를 하나씩 제거하는 방법인 후진소거법으로 VIF가 높은 순서대로 변수를 제거하여 VIF가 10 이하인 변수들을 선택하였고 이후 선택된 변수들 중 VIF가 높은 변수부터 후진 소거법으로 제거하였다.
두 개 이상의 변수 집합을 연관시키는 데 가장 일반적으로 적용되는 통계 기법인 다중선형회귀(Uyanık and Güler, 2013) 모델을 작성 후 분석을 진행하였다. 다중선형회귀 시 모델의 일반화 성능 확인을 위해 Calibration : Validation 비율은 8:2, 7:3, 6:4 로 설정하였으며, 모델 평가 지표는 Coefficient of Determination(R2), Root Mean Square Error(RMSE), Mean Absolute Percentage Error(MAPE)을 사용하였다(Karunasingha, 2022).
Results and Discussion
이상치 제거
초장과 분광 반사값의 이상치를 월별로 분석하여 제거하였다. 생육정보의 이상치는 6월에는 초장에서 1개와 NIR에서 4개, 7월에는 초장에서 1개와 Blue에서 2개, 8월에는 Blue와 Red에서 각각 1개씩 제거되었다. 같은 객체에서 중복된 이상치가 발생한 경우가 있어 6월은 30개의 데이터 중 이상치 4개를 제거한 26개, 8월은 이상치 3개를 제거한 8개, 8월은 이상치 1개를 제거한 10개의 데이터를 이용하여 회귀모델을 개발하였다.
6월에 대한 다중선형회귀 모델
6월에 모델의 변수로 선택된 GRVI, DVI, PRI, NDRE (Table 3)와 초장을 이용하여 다중선형 회귀분석 하였다(Table 4). 데이터셋 비율 중 8:2 모델에서 가장 낮은 검증오차를 보였지만, R2_C = 0.471로 다른 학습 비율의 모델보다 성능이 낮았고, 6:4 모델에서 R2_C = 0.714, RMSE_C = 3.839 cm, MAPE_C = 2.974%, RMSE_V = 6.239 cm, MAPE_V = 5.001%로 7:3 모델보다 더 나은 성능을 보였다. 그러나 8:2 모델의 R2_C가 다른 학습 비율보다 낮은 성능을 나타내어 6월 모델의 전체적인 일반화 성능이 좋지 않은 것으로 판단되었다.
Table 4.
Multiple Linear Regression using GRVI, DVI, PRI, NDRE to Plant height of June.
| Plant height | 8:2 | 7:3 | 6:4 |
| R2_C | 0.471 | 0.700 | 0.714 |
| RMSE_C (cm) | 4.779 | 3.863 | 3.839 |
| MAPE_C (%) | 3.914 | 3.275 | 2.974 |
| RMSE_V (cm) | 3.650 | 7.003 | 6.239 |
| MAPE_V (%) | 3.553 | 5.352 | 5.001 |
7월에 대한 다중선형회귀 모델
7월에 변수로 선택된 TCARI, NDRE, PRI (Table 5)와 초장을 이용하여 다중선형 회귀분석 하였다(Table 6). 6:4 모델의 경우 훈련데이터셋의 부족으로 R2_C = 1.000로 나타나 명백한 과적합(Montesinos López et al., 2022)으로 판단되었고, 훈련데이터셋이 늘어난 7:3과 8:2 모델에서는 극적인 과적합 경향을 피했지만 마찬가지로 적은 데이터 수로 모델의 신뢰도가 낮다고 판단하였다.
Table 6.
Multiple Linear Regression using TCARI, NDRE, PRI to Plant height of July.
| Plant height | 8:2 | 7:3 | 6:4 |
| R2_C | 0.639 | 0.722 | 1.000 |
| RMSE_C (cm) | 4.549 | 3.911 | 0.000 |
| MAPE_C (%) | 3.577 | 3.052 | 0.000 |
| RMSE_V (cm) | 14.46 | 7.197 | 72.28 |
| MAPE_V (%) | 12.62 | 4.529 | 61.88 |
8월에 대한 다중선형회귀 모델
8월에 모델 변수로 선택된 PRI, TCARI, NDRE (Table 7)와 초장을 이용하여 다중선형 회귀분석 하였다(Table 8). 모든 데이터셋 모델에서 R2_C가 0.8 이상으로 다른 시점에 비해 가장 일반화된 성능을 나타내었으며, 그 중 6:4 모델이 R2_C가 0.995로 가장 높고 가장 낮은 RMSE_V를 나타내었다. 하지만 다른 시점에 비해 높은 오차를 보여 시계열별이 아닌 시계열 데이터를 통합한 다중선형회귀모델 개발이 필요하다고 사료되었다.
Table 8.
Multiple Linear Regression using PRI, TCARI, NDRE to Plant height of August.
| Plant height | 8:2 | 7:3 | 6:4 |
| R2_C | 0.843 | 0.890 | 0.995 |
| RMSE_C (cm) | 4.178 | 3.469 | 0.745 |
| MAPE_C (%) | 2.684 | 2.042 | 0.410 |
| RMSE_V (cm) | 16.60 | 16.31 | 13.86 |
| MAPE_V (%) | 10.39 | 13.15 | 10.80 |
시계열 통합 다중선형회귀 모델
모든 시계열 데이터에서 모델 변수로 선택된 PRI, TCARI, NDRE, OSAVI (Table 9)와 초장을 이용하여 다중선형회귀분석 하였다. 6:4 모델에서 가장 높은 R2_C를 나타내었지만 8:2 모델에서 R2_C = 0.831, RMSE_C = 6.842 cm, MAPE_C = 5.174%, RMSE_V = 6.502 cm, MAPE_V = 4.188%로 가장 낮은 RMSE_V와 MAPE_V와 R2_C 또한 7:3 모델보다 높아 8:2 모델을 비교적 가장 안정적인 모델로 선택하였다(Table 10).
시계열 통합 모델은 월별 모델에서 발생한 과적합이 나타나지 않았으며, 6월 모델 대비 R2_C가 0.714에서 0.831로 향상되는 등 뚜렷한 성능개선이 확인되었다. 이는 월별 모델 대비 데이터 샘플 수가 증가함에 따라 모델의 일반화 성능이 확보되었기 때문으로 사료된다. 따라서 보다 안정적인 성능의 모델을 개발하기 위해서는 추가 데이터 확보가 중요할 것으로 판단된다.
Table 9.
VI’s VIF factor less than 10 of time-series Integration (June, July, August).
| VIs | VIF |
| PRI | 4.159 |
| TCARI | 3.540 |
| NDRE | 1.574 |
| OSAVI | 1.300 |
Table 10.
Multiple Linear Regression using PRI, TCARI, NDRE, OSAVI to Plant height of time-series Integration (June, July, August).
| Plant height | 8:2 | 7:3 | 6:4 |
| R2_C | 0.831 | 0.828 | 0.841 |
| RMSE_C (cm) | 6.842 | 6.953 | 6.341 |
| MAPE_C (%) | 5.174 | 5.271 | 4.932 |
| RMSE_V (cm) | 6.502 | 6.909 | 7.747 |
| MAPE_V (%) | 4.188 | 4.859 | 5.440 |
선택한 모델의 각 독립 변수가 종속변수인 초장에 미치는 상대적인 영향력을 비교할 수 있도록 표준화 회귀계수를 나타내었다(Table 11). NDRE, TCARI, PRI, OSAVI 순으로 표준화 회귀 계수가 높았고, 이는 순서대로 초장 예측에 상대적으로 더 많은 영향을 미쳤다는 것을 의미한다. 선택된 식생지수 특성으로 NDRE는 토양 배경 효과에 대한 잎의 엽록소 함량에 민감한 식생지수이며(Boiarskii and Hasegawa, 2019), TCARI 또한 엽록소 변화에 민감한 식생지수로 모두 RedEdge 영역을 포함한다(Haboudane et al., 2002). 따라서 지금까지의 결과로는 RedEdge가 고추의 초장 예측에 중요한 역할을 하고 있다고 판단되며, 추가적인 데이터 확보를 통해 검증해 나가는 것이 필요하다.
Conclusion
본 연구는 무인기에 탑재된 다중분광 영상을 기반으로 식생지수를 산출하여 고추의 수확량과 상관성이 높은 초장을 추정하는 다중선형회귀 모델을 개발하고자 수행되었다. 6월의 경우 모델의 일반화 성능이 좋지 않았고 7월과 8월 모델의 경우, 이상치 제거 후 데이터 샘플 수가 8개와 10개로 적어 과적합이 발생하거나 RMSE_V와 MAPE_V가 높게 나타나 모델의 신뢰도가 낮다고 판단되었다. 월별 모델의 낮은 일반화 성능과 과적합 발생의 원인이 데이터 표본 부족이라 판단하여, 모든 시점을 통합한 시계열 데이터로 모델을 작성하였다. VIF 계수로 선택된 PRI, TCARI, NDRE, OSAVI를 이용하여 모델을 개발한 결과, 8:2 비율 모델이 R2_C = 0.831, RMSE_C = 6.842 cm, MAPE_C = 5.174%, RMSE_V = 6.502 cm, MAPE_V = 4.188%로 다른 데이터셋 대비 가장 낮은 검증 오차를 보여 가장 안정적인 모델로 선정되었다. 최종적으로 최적 모델의 표준화 회귀계수 분석 결과, RedEdge을 포함하여 계산된 NDRE와 TCARI가 초장에 큰 영향력을 미치는 변수임을 확인하여, 추가적인 데이터 확보를 통해 RedEdge와 초장의 상관성에 관하여 검증해 나갈 필요가 있다고 사료된다.
본 연구는 44개의 제한된 표본 수로 인해 test 데이터셋을 구성하지 못하였으므로, 향후 시계열 데이터를 추가 확보하여 모델의 재현 성능을 검증할 필요가 있다. 또한, 단일 품종(Colormura)만을 대상으로 재현 가능한 모델이라는 한계성을 극복하기 위해 다양한 품종의 데이터를 추가로 확보할 필요도 있다.






