태양광 발전이 날이 갈수록 중요해지고 있다는 건 다들 알고 있을 거야. 그런데 한 가지 문제는 있어. 날씨가 매일 바뀌다 보니, 태양이 얼마나 쨍쨍할지, 즉 ‘태양 복사량’을 정확히 예측하는 게 꽤 어렵다는 거지. 이런 예측이 정확해야 발전량도 안정적으로 관리할 수 있고, 에너지 저장도 효율적으로 할 수 있어. 특히나 일사량이 풍부한 광주 같은 도시에선 이게 정말 중요해!
이번에 소개할 논문은 바로 이 주제를 다룬 연구야. 제목은 조금 딱딱하지만, 내용은 꽤 흥미롭고 실용적이야. “설명 가능한 AI를 통한 태양 복사량 예측 이해: 광주의 관점”. 핵심 키워드는 말 그대로 설명 가능한 AI(Explainable AI, XAI)를 활용해서 광주의 태양 복사량 예측을 똑똑하게 하자는 거야
1. 광주가 태양 복사량 예측에 꽂힌 이유
광주는 남쪽에 있어서 원래부터 일사량이 많기로 유명해. 그래서 태양광 발전소나 시민들이 설치한 태양광 패널도 꽤 많지. 그런데 문제는, 태양이 얼마나 뜰지를 예측하는 시스템이 아직 서울이나 부산만큼 정교하진 않다는 점이야.
게다가 광주는 지금 ‘스마트 시티’로 변신 중이야. 데이터 기반으로 도시를 똑똑하게 관리하고, 시민이 직접 데이터를 제공하는 형태로 에너지도 아끼는 시스템을 만들고 있어. 여기서 가장 중요한 게 뭐겠어? 맞아, 날씨 데이터고 그중에서도 태양 복사량 예측이 핵심 중 핵심이지.
2. XGBoost와 LightGBM? 그게 뭔데?
솔직히 이름만 들으면 머리가 아파지지. 근데 아주 쉽게 설명하자면, 둘 다 요즘 핫한 인공지능 알고리즘이야. 일종의 ‘머신러닝 모델’인데, 일반적인 모델보다 훨씬 똑똑하게 패턴을 찾아줘.
- XGBoost : 여러 개의 결정 트리를 한데 모아, 예측 실수를 점점 줄여가며 결과를 뽑아내는 방식
- LightGBM : 데이터가 커도 빠르게 학습할 수 있고, 성능도 아주 좋은 최신형 알고리즘
논문에서는 이 두 모델을 광주의 날씨 데이터에 적용해서 태양 복사량을 예측했어. 그리고 그냥 정확도만 비교한 게 아니라, SHAP이라는 ‘설명 가능한 AI’ 도구를 써서 “왜 그렇게 예측했는지”도 분석한 게 포인트야.
3. SHAP? 모델이 예측한 이유를 설명해준다고?
맞아! 우리가 AI 모델을 쓰면서 가장 찝찝한 게 “왜 그렇게 판단했는지” 알 수 없다는 거잖아. 그런데 SHAP(SHapley Additive exPlanations)은 이걸 알려줘. 각 변수(예: 온도, 습도, 시간 등)가 예측 결과에 얼마나 영향을 줬는지를 숫자와 시각화로 보여줘서, 모델의 ‘생각’을 엿볼 수 있게 해줘.
예를들어,
- 낮 12시쯤 + 온도 높음 → 태양 복사량도 높을 가능성 ↑
- 습도가 높음 → 햇빛을 가로막을 수 있으나 복사량 ↓
이런 식으로 해석이 가능해지면, 에너지 시스템도 더 잘 설계할 수 있고, 결과에 대한 신뢰도도 확 올라가지.
4. 실제로 어떤 데이터로 예측했는지 궁금하지?
연구팀은 2011년부터 2020년까지의 기상 데이터를 썼어. 기온, 습도, 풍속, 풍향 같은 기본 정보는 물론, 시간 단위 데이터까지 포함돼 있었지. 그리고 데이터 중간에 빠진 값이나 이상치(예: 너무 높은 값)는 제거하거나 보정해서 모델에 학습시켰어.
예측 모델은 다음처럼 구성됐어.
- 학습 : 2011~2016년 데이터
- 검증 : 2017~2018년 데이터
- 테스트 : 2019~2020년 데이터
이렇게 하면 미래의 상황도 예측할 수 있는 모델이 만들어지는 거지.

5. 결과는? LightGBM이 살짝 우세!
두 모델 모두 꽤 괜찮은 성능을 보여줬어. 그래도 수치상으로는 LightGBM이 아주 살짝 앞섰지. 이 정도면 실제로 태양광 발전소 운영에 적용해도 무방할 수준이야.
- LightGBM : MAE 0.355, RMSE 0.570, R² 0.686
- XGBoost : MAE 0.359, RMSE 0.573, R² 0.683
거의 비슷하지? 그래도 LightGBM이 약간 더 빠르고 가벼워서 실제 사용에는 더 적합할 수도 있어.
6. AI 모델이 알려준 중요한 인사이트들
SHAP 분석을 통해 밝혀진 건 아주 직관적이었어.
- 가장 중요한 변수는 시간(Hour), 습도(Humi), 온도(Temp), 월(Month)이었고,
- 습도와 시간의 조합이 특히 중요한 상호작용으로 작용했어.
- 예측값이 높거나 낮을 때, 어떤 변수들이 어떤 영향을 줬는지도 SHAP decision plot으로 한눈에 확인할 수 있었지.
7. 도시 에너지의 미래는 데이터에 있다
이번 연구는 단순한 예측을 넘어서 AI 모델의 결정 과정을 해석 가능하게 만들었다는 점에서 의미가 커. 특히 광주처럼 기후 데이터가 풍부하지만 그간 주목받지 못했던 지역엔 이런 기술이 정말 절실하지.
앞으로는 구름량, 공기질 같은 변수도 더해서 예측 모델을 더욱 정교하게 만들 수 있고, 실시간 데이터까지 접목된다면 완전한 스마트 에너지 시스템 구축도 머지않았을 거야.
[참고] LightGBM과 XGBoost란?
XGBoost : 정밀하고 탄탄한 머신러닝 베스트셀러
XGBoost는 “eXtreme Gradient Boosting”의 줄임말이야. 성능, 속도, 확장성 측면에서 진짜 잘 만들어진 알고리즘이지.
특징 요약,
- 정확도 높음 : 정교한 튜닝으로 좋은 예측 결과 도출
- 정규화 기능 탑재 : 과적합(overfitting)을 잘 방지함
- 결측값 자동 처리 : 데이터 전처리 시 편리
- 병렬 처리 가능 : 대용량 데이터도 빠르게 처리 가능
이렇게 생각하면 쉬워,
XGBoost는 마치 신중하고 꼼꼼한 장인 느낌이야. 시간이 좀 걸리더라도 정확하고 튼튼한 결과물을 만드는 스타일!
LightGBM : 가볍고 빠르지만 똑똑한 고성능 러너
LightGBM은 Microsoft에서 개발한 부스팅 알고리즘이야. 이름 그대로 Light(가볍고) + GBM(Gradient Boosting Machine)이야.
특징 요약,
- 속도 엄청 빠름 : 훈련 속도가 XGBoost보다 최대 20배 빠르기도 함
- 메모리 효율적 : 적은 자원으로 큰 데이터 처리 가능
- 큰 데이터셋에 최적화 : 수십만~수백만 행도 OK
- GOSS와 EFB 기법 탑재 : 불필요한 연산을 확 줄여줌
이렇게 생각하면 쉬워,
LightGBM은 똑똑한 단거리 육상선수 같아. 빠르고, 가볍고, 효율적이지만 정확도도 놓치지 않지.
XGBoost VS LightGBM : 언제 뭐 써야 할까?
| 항목 | XGBoost | LightGBM |
| 예측 정확도 | 높음 | 비슷하거나 살짝 높음 |
| 학습 속도 | 느린 편 | 매우 빠름 |
| 메모리 사용 | 많음 | 적음 |
| 대용량 데이터 | 처리 가능 | 더 잘 처리함 |
| 과적합 방지 | 잘함 | 적절함 |
| 튜닝 난이도 | 상대적으로 쉬움 | 조금 더 민감함 |
요약 정리,
- XGBoost : 고정밀 예측이 필요하고 데이터 규모가 너무 크지 않을 때 유리
- LightGBM : 속도와 효율이 중요한 상황, 대용량 고차원 데이터를 다룰 때 강력
둘 다 성능이 좋아서 실제 프로젝트에서는 둘 다 써보고 비교하는 경우가 많아. 요즘은 LightGBM이 더 많이 쓰이기도 해, 특히 데이터가 많고 빠른 처리가 필요할 때!