🔁 지속 학습 파이프라인 (Continuous Learning + Shadow Deploy)
매일 03:00 Airflow DAG · incremental train · shadow evaluate · conditional deploy · 자기 개선 AI · 김지훈 수석연구원
정적으로 한 번 학습한 모델은 시간이 지날수록 입력 분포가 바뀌면서 성능이 저하된다 (RT-O20에서 다룬 데이터 드리프트). RT-O21은 매일 새벽 03:00 Airflow DAG를 통해 (a) 전일 실제 라벨 수집, (b) feature engineering, (c) 기존 가중치 위에 incremental train, (d) 5% 트래픽으로 신구 모델을 동시에 추론해 KPI를 비교하는 shadow A/B 평가, (e) 신규 모델이 더 좋을 때만 자동으로 promote 하는 conditional deploy를 수행한다.
모든 단계가 자동화되어 있어 모델은 매일 조금씩 똑똑해지고, 신규 모델이 기존보다 못하면 자동 롤백된다. 결과적으로 운영팀의 수동 재학습 부담이 사라지고, 시간이 흐를수록 정확도가 누적 상승하는 자기 개선 AI가 완성된다.
전일 실제 EDD 달성 / 사기 차단 정확도 / 반품 발생 등 ground truth를 OMS / WMS / TMS 로그에서 수집.
결측·이상치 처리 후 표준 feature space로 변환. feature drift 가 큰 컬럼은 자동 재정규화.
기존 weight 위에 N epoch 추가 학습 (LightGBM /PyTorch). 풀 재학습보다 10× 빠름.
5% 트래픽 mirror, 신구 모델 동시 추론. KPI 비교 후delta_score 산출, regression 검사.
신규 모델이 모든 KPI에서 동등 또는 우월할 때만 promote, 아니면 자동 rollback + 알림.
# Airflow DAG: 매일 03:00 실행 collect_new_labels # 전일 실제 EDD 달성 결과 수집 -> feature_engineer # 신규 데이터 피처 변환 -> incremental_train # 기존 모델에 신규 데이터 추가 학습 -> shadow_evaluate # 현재 프로덕션 모델과 성능 비교 -> conditional_deploy # 신규 모델이 더 좋으면 자동 배포
collect_new_labels() · 전일 실제 라벨이 1k건 이상이면 파이프라인 진행, 부족하면 다음날 합산.feature_engineer() · 결측/이상치 비율이 5% 이하일 때 유효, 그 이상이면 자동 quarantine.incremental_train() · GPU 노드 가용 + loss 수렴 시 새 weight 저장, 실패 시 retry 3회.shadow_evaluate() · 5% 미러 트래픽에서 KPI 회귀가 없을 때만 promote 게이트 통과.예) 신규 모델이 EDD 정확도 +0.6pp, 사기 차단 +0.3pp, 반품 예측 +0.2pp 모두 개선이면 delta_score > 0 & no_regress=True → promote. 단 한 KPI라도 −0.1pp 후퇴하면 no_regress=False 로 rollback.
| 모델 | 일일 추가 라벨 | 학습 시간 | shadow 트래픽 | promote 비율 |
|---|---|---|---|---|
| DOM Score Engine | 18,400 | 12분 | 5% | 22% |
| EDD Promise | 22,100 | 24분 | 5% | 38% |
| Fraud Detection | 26,400 | 18분 | 3% | 14% |
| Return Risk | 11,200 | 8분 | 5% | 8% |
EDD Promise 모델은 라벨 변동이 큰 시간 민감 도메인이라 promote 비율 38%로 가장 활발히 갱신된다. Fraud Detection은 데이터 분포가 안정적이라 promote 14%로 보수적이며, shadow 트래픽도 3%로 낮춰 안정성을 우선한다.
[1] 김지훈 외, "OMS AI 지속 학습 파이프라인과 Shadow Deploy 운영 보고서", IntraLogis 사내 보고서, 2026.11
[2] Apache Software Foundation, Apache Airflow 2.x 공식 문서, 2025
[3] Bottou, L. "Online Learning and Stochastic Approximations", On-line Learning in Neural Networks, 1998
[4] Hoi, S.C.H., Sahoo, D., Lu, J., Zhao, P. "Online Learning: A Comprehensive Survey", Neurocomputing, 2021
[5] Google, "TFX Continuous Training", Google Cloud TFX 가이드, 2024
[6] Databricks/MLflow, MLflow Model Registry Documentation, 2024
[7] Netflix Tech Blog, "Continuous Delivery for ML", 2023