RT-O20: 모델 드리프트 + AI 성능 리뷰

🎯 모델 드리프트와 거버넌스 자동화PSI · Auto-Retrain · Monthly AI Report

AI 시스템은 시간이 흐르면서 데이터 분포·트래픽 패턴·고객 행동의 변화로 인해 예측 성능이 자연스럽게 저하된다. 이를 모델 드리프트(Model Drift)라 하며, 방치할 경우 OMS의 핵심 지표(EDD 달성률, Fraud 감지율 등)가 서서히 무너진다. RT-O20은 이 위험을 4가지 메커니즘으로 자동화한다.

(a) PSI(Population Stability Index) 7일 윈도와 베이스라인 분포 비교, (b) 임계값 0.10(경미) / 0.20(심각) 두 단계 분류, (c) Airflow DAG 기반 자동 재학습 트리거(priority HIGH / scheduled D+3), (d) Google Sheets + OpenAI + Drive를 결합한 월간 AI 성능 리포트 자동 생성. 결과적으로 모델 거버넌스 체계가 확립되고, 운영팀의 수기 모니터링 부담이 사라진다.

🧭 드리프트 탐지·재학습·리포트 파이프라인5 stages · daily perf → monthly governance
STEP 1
perf_collect

매일 모델별 accuracy / precision / recall 수집. 예측 로그·정답 라벨 join 후 메트릭 산출.

STEP 2
psi_calc

베이스라인 분포 vs 최근 7일 분포로 PSI 지수 계산. 버킷 10개로 quantile binning.

STEP 3
drift_classify

PSI ≤ 0.10 → pass / 0.10~0.20 → mild / > 0.20 → severe 3단계 분류.

STEP 4
retrain_dispatch

Airflow DAG 트리거 — severe는 HIGH 즉시 재학습 + 팀 알림, mild는 D+3 scheduled로 예약.

STEP 5
monthly_report

Sheets 집계 → OpenAI 분석 → Drive .docx 저장. 월말 자동 실행, 운영팀 6분 만에 리포트 수령.

🐍 모델 드리프트 탐지 (Python)
def detect_model_drift(model_id, window_days=7):
    recent_perf = get_model_performance(model_id, window_days)
    baseline    = get_baseline_performance(model_id)
    drift_score = psi(recent_perf, baseline)   # PSI 지수

    if drift_score > 0.20:    # 심각한 드리프트
        trigger_retrain(model_id, priority="HIGH")
        alert_team(model_id, drift_score)
    elif drift_score > 0.10:  # 경미한 드리프트
        schedule_retrain(model_id, days_later=3)
    else:
        pass  # PSI ≤ 0.10 → 안정 운영
📋 월간 AI 성능 리포트 자동 생성
# Google Sheets + OpenAI + Drive 기반 자동 생성
Sheets_read(모델별 정확도, EDD달성률, 예외처리율)
  -> Aggregate(월간 평균, 전월 대비, 목표 대비)
  -> OpenAI("AI 성능 분석 및 개선 방안 3가지 제시")
  -> Drive_create("OMS_AI_성과리포트_YYYYMM.docx")

# 11월 결과: 작성 시간 480분 → 6분 (99% 자동화)
➗ PSI 공식 & 드리프트 4축임계 0.10 / 0.20 · 4 dimensions of drift
PSI = Σ_i (p_i − q_i) · ln(p_i / q_i)
action = retrain_HIGH if PSI > 0.20 else schedule_D+3 if PSI > 0.10 else pass
# 분포 차이가 클수록 PSI ↑ · 통상 0.10/0.20 임계가 산업 표준 (Wu 2010)
psi .35분포 안정성 지수 · 입력 feature/예측 output 분포의 7일 vs baseline 차이
perf .25accuracy/recall 변화 · 핵심 KPI의 절대 하락폭과 연계해서 가중
data .20data drift · feature 자체 분포 변화 (covariate shift)
concept .20concept drift · X→Y 관계가 변한 경우 (예: 시즌·이벤트)

예) Fraud Detection 모델의 PSI=0.24인 경우 즉시 HIGH 재학습이 트리거되며, Slack #oms-ai-ops 채널에 자동 알림이 발송된다. EDD Promise 모델처럼 PSI=0.13인 경미 드리프트는 D+3에 야간 배치로 예약되어 운영 영향 없이 갱신된다.

📉 모델별 드리프트 사례 (2026.11 기준)11월 1주차 PSI 측정 · N=4 모델
모델베이스라인7일 PSI분류액션
DOM Score Engine99.5%0.06pass
EDD Promise96.2%0.13mildscheduled retrain D+3
Fraud Detection0.9720.24severeHIGH retrain + alert
Return Risk0.910.08pass

DOM Score Engine과 Return Risk는 안정 구간(PSI < 0.10)에서 운영 중이며, EDD Promise는 11월 시즌 트래픽 변화로 mild 드리프트가 잡혀 D+3 야간 재학습이 자동 예약됐다. Fraud Detection은 신규 공격 패턴 유입으로 PSI 0.24를 기록 → 2시간 내 HIGH 재학습이 끝나면서 정확도가 0.972 수준으로 회복됐다.

참고문헌
[1] 김지훈 외, "PSI 기반 OMS AI 모델 드리프트 자동 탐지와 거버넌스", IntraLogis 사내 보고서, 2026.11
[2] Wu, B., Olson, D. "Population Stability Index for Predictive Model Monitoring", Journal of Risk Model Validation, 2010
[3] Apache Software Foundation, "Apache Airflow Documentation", 2025
[4] Breck, E. et al. "The ML Test Score: A Rubric for ML Production Readiness", Google, 2017
[5] Microsoft, "Responsible AI Toolbox", 2024
[6] Anthropic, "Claude Function Calling Guide", 2024