📉 모델 드리프트 자동 탐지 + AI 성능 리뷰 자동화
PSI 기반 드리프트 · 0.20 ↑ 즉시 재학습 · 0.10~0.20 예약 재학습 · 월간 AI 성과 리포트 자동 생성 · 김지훈 수석연구원
AI 시스템은 시간이 흐르면서 데이터 분포·트래픽 패턴·고객 행동의 변화로 인해 예측 성능이 자연스럽게 저하된다. 이를 모델 드리프트(Model Drift)라 하며, 방치할 경우 OMS의 핵심 지표(EDD 달성률, Fraud 감지율 등)가 서서히 무너진다. RT-O20은 이 위험을 4가지 메커니즘으로 자동화한다.
(a) PSI(Population Stability Index) 7일 윈도와 베이스라인 분포 비교, (b) 임계값 0.10(경미) / 0.20(심각) 두 단계 분류, (c) Airflow DAG 기반 자동 재학습 트리거(priority HIGH / scheduled D+3), (d) Google Sheets + OpenAI + Drive를 결합한 월간 AI 성능 리포트 자동 생성. 결과적으로 모델 거버넌스 체계가 확립되고, 운영팀의 수기 모니터링 부담이 사라진다.
매일 모델별 accuracy / precision / recall 수집. 예측 로그·정답 라벨 join 후 메트릭 산출.
베이스라인 분포 vs 최근 7일 분포로 PSI 지수 계산. 버킷 10개로 quantile binning.
PSI ≤ 0.10 → pass / 0.10~0.20 → mild / > 0.20 → severe 3단계 분류.
Airflow DAG 트리거 — severe는 HIGH 즉시 재학습 + 팀 알림, mild는 D+3 scheduled로 예약.
Sheets 집계 → OpenAI 분석 → Drive .docx 저장. 월말 자동 실행, 운영팀 6분 만에 리포트 수령.
def detect_model_drift(model_id, window_days=7): recent_perf = get_model_performance(model_id, window_days) baseline = get_baseline_performance(model_id) drift_score = psi(recent_perf, baseline) # PSI 지수 if drift_score > 0.20: # 심각한 드리프트 trigger_retrain(model_id, priority="HIGH") alert_team(model_id, drift_score) elif drift_score > 0.10: # 경미한 드리프트 schedule_retrain(model_id, days_later=3) else: pass # PSI ≤ 0.10 → 안정 운영
# Google Sheets + OpenAI + Drive 기반 자동 생성 Sheets_read(모델별 정확도, EDD달성률, 예외처리율) -> Aggregate(월간 평균, 전월 대비, 목표 대비) -> OpenAI("AI 성능 분석 및 개선 방안 3가지 제시") -> Drive_create("OMS_AI_성과리포트_YYYYMM.docx") # 11월 결과: 작성 시간 480분 → 6분 (99% 자동화)
분포 안정성 지수 · 입력 feature/예측 output 분포의 7일 vs baseline 차이accuracy/recall 변화 · 핵심 KPI의 절대 하락폭과 연계해서 가중data drift · feature 자체 분포 변화 (covariate shift)concept drift · X→Y 관계가 변한 경우 (예: 시즌·이벤트)예) Fraud Detection 모델의 PSI=0.24인 경우 즉시 HIGH 재학습이 트리거되며, Slack #oms-ai-ops 채널에 자동 알림이 발송된다. EDD Promise 모델처럼 PSI=0.13인 경미 드리프트는 D+3에 야간 배치로 예약되어 운영 영향 없이 갱신된다.
| 모델 | 베이스라인 | 7일 PSI | 분류 | 액션 |
|---|---|---|---|---|
| DOM Score Engine | 99.5% | 0.06 | pass | — |
| EDD Promise | 96.2% | 0.13 | mild | scheduled retrain D+3 |
| Fraud Detection | 0.972 | 0.24 | severe | HIGH retrain + alert |
| Return Risk | 0.91 | 0.08 | pass | — |
DOM Score Engine과 Return Risk는 안정 구간(PSI < 0.10)에서 운영 중이며, EDD Promise는 11월 시즌 트래픽 변화로 mild 드리프트가 잡혀 D+3 야간 재학습이 자동 예약됐다. Fraud Detection은 신규 공격 패턴 유입으로 PSI 0.24를 기록 → 2시간 내 HIGH 재학습이 끝나면서 정확도가 0.972 수준으로 회복됐다.
[1] 김지훈 외, "PSI 기반 OMS AI 모델 드리프트 자동 탐지와 거버넌스", IntraLogis 사내 보고서, 2026.11
[2] Wu, B., Olson, D. "Population Stability Index for Predictive Model Monitoring", Journal of Risk Model Validation, 2010
[3] Apache Software Foundation, "Apache Airflow Documentation", 2025
[4] Breck, E. et al. "The ML Test Score: A Rubric for ML Production Readiness", Google, 2017
[5] Microsoft, "Responsible AI Toolbox", 2024
[6] Anthropic, "Claude Function Calling Guide", 2024