IntraLogis Web v9.25.1

🎯 왜 지속 학습 파이프라인인가?Continuous Learning + Shadow Deploy

정적으로 한 번 학습한 모델은 시간이 지날수록 입력 분포가 바뀌면서 성능이 저하된다 (RT-O20에서 다룬 데이터 드리프트). RT-O21은 매일 새벽 03:00 Airflow DAG를 통해 (a) 전일 실제 라벨 수집, (b) feature engineering, (c) 기존 가중치 위에 incremental train, (d) 5% 트래픽으로 신구 모델을 동시에 추론해 KPI를 비교하는 shadow A/B 평가, (e) 신규 모델이 더 좋을 때만 자동으로 promote 하는 conditional deploy를 수행한다.

모든 단계가 자동화되어 있어 모델은 매일 조금씩 똑똑해지고, 신규 모델이 기존보다 못하면 자동 롤백된다. 결과적으로 운영팀의 수동 재학습 부담이 사라지고, 시간이 흐를수록 정확도가 누적 상승하는 자기 개선 AI가 완성된다.

🧭 지속 학습 5단계 파이프라인collect → feature → train → shadow → deploy

STEP 1

collect_new_labels

전일 실제 EDD 달성 / 사기 차단 정확도 / 반품 발생 등 ground truth를 OMS / WMS / TMS 로그에서 수집.

STEP 2

feature_engineer

결측·이상치 처리 후 표준 feature space로 변환. feature drift 가 큰 컬럼은 자동 재정규화.

STEP 3

incremental_train

기존 weight 위에 N epoch 추가 학습 (LightGBM /PyTorch). 풀 재학습보다 10× 빠름.

STEP 4

shadow_evaluate

5% 트래픽 mirror, 신구 모델 동시 추론. KPI 비교 후delta_score 산출, regression 검사.

STEP 5

conditional_deploy

신규 모델이 모든 KPI에서 동등 또는 우월할 때만 promote, 아니면 자동 rollback + 알림.

🐍 Airflow DAG 정의 (Python)

# Airflow DAG: 매일 03:00 실행
collect_new_labels       # 전일 실제 EDD 달성 결과 수집
  -> feature_engineer    # 신규 데이터 피처 변환
  -> incremental_train   # 기존 모델에 신규 데이터 추가 학습
  -> shadow_evaluate     # 현재 프로덕션 모델과 성능 비교
  -> conditional_deploy  # 신규 모델이 더 좋으면 자동 배포

➗ 승격 결정식 & 가중치collect / feature / train / eval 4단계 균등 가중

delta_score = Σ_kpi w_kpi · (new_kpi − old_kpi)

deploy = delta_score > 0 AND no_kpi_regress

# 한 KPI라도 후퇴하면 deploy=False → rollback. 안전성을 정확도보다 우선.

collect .25collect_new_labels() · 전일 실제 라벨이 1k건 이상이면 파이프라인 진행, 부족하면 다음날 합산.

feature .25feature_engineer() · 결측/이상치 비율이 5% 이하일 때 유효, 그 이상이면 자동 quarantine.

train .25incremental_train() · GPU 노드 가용 + loss 수렴 시 새 weight 저장, 실패 시 retry 3회.

eval .25shadow_evaluate() · 5% 미러 트래픽에서 KPI 회귀가 없을 때만 promote 게이트 통과.

예) 신규 모델이 EDD 정확도 +0.6pp, 사기 차단 +0.3pp, 반품 예측 +0.2pp 모두 개선이면 delta_score > 0 & no_regress=True → promote. 단 한 KPI라도 −0.1pp 후퇴하면 no_regress=False 로 rollback.

📦 모델별 일일 학습 요약11월 일일 평균 · OMS AI 4개 모델

모델	일일 추가 라벨	학습 시간	shadow 트래픽	promote 비율
DOM Score Engine	18,400	12분	5%	22%
EDD Promise	22,100	24분	5%	38%
Fraud Detection	26,400	18분	3%	14%
Return Risk	11,200	8분	5%	8%

EDD Promise 모델은 라벨 변동이 큰 시간 민감 도메인이라 promote 비율 38%로 가장 활발히 갱신된다. Fraud Detection은 데이터 분포가 안정적이라 promote 14%로 보수적이며, shadow 트래픽도 3%로 낮춰 안정성을 우선한다.

참고문헌
[1] 김지훈 외, "OMS AI 지속 학습 파이프라인과 Shadow Deploy 운영 보고서", IntraLogis 사내 보고서, 2026.11
[2] Apache Software Foundation, Apache Airflow 2.x 공식 문서, 2025
[3] Bottou, L. "Online Learning and Stochastic Approximations", On-line Learning in Neural Networks, 1998
[4] Hoi, S.C.H., Sahoo, D., Lu, J., Zhao, P. "Online Learning: A Comprehensive Survey", Neurocomputing, 2021
[5] Google, "TFX Continuous Training", Google Cloud TFX 가이드, 2024
[6] Databricks/MLflow, MLflow Model Registry Documentation, 2024
[7] Netflix Tech Blog, "Continuous Delivery for ML", 2023

RT-O21: 지속 학습 파이프라인 (Continuous Learning)

🔁 지속 학습 파이프라인 (Continuous Learning + Shadow Deploy)