
AI
오프라인과 온라인 A/B 테스트를 통해 오픈챗 추천 모델 개선하기
두줄요약
오픈챗 추천 모델 개선 과정에서 오프라인과 온라인 A/B 테스트의 간극을 줄이기 위해 Adhoc A/B 테스트를 도입했습니다. 개별 변경점을 순차 검증하며 안정적으로 새 모델을 릴리스한 사례를 공유했습니다.
핵심 내용
- 오픈챗 개인화 추천 모델 개선 과정에서 오프라인 테스트와 온라인 A/B 테스트의 간극을 다룸
- 오픈챗은 사용자 행태와 콘텐츠가 빠르게 변해 오프라인 지표와 실제 서비스 성과가 어긋날 수 있음
- 이를 보완하기 위해 개별 변경점 검증용 Adhoc A/B 테스트를 도입하고, 여러 변경점을 누적하며 최종 모델을 릴리스
구조와 흐름
- 추천 서비스는 후보 선정과 랭킹의 2단계 구조로 구성
- 랭킹 모델은 FFM 기반이며 매일 학습, 일부 사용자에게는 시간 단위 피처 갱신 반영
- 오프라인 테스트는 히스토리 데이터 기반 TP 중심 평가, 온라인 테스트는 CPI·UU-CPI·CTR·CVR·Request CPI 중심 평가
트레이드오프
- 오프라인 성능 향상이 온라인 성과로 직결되지 않는 간극 존재
- Adhoc A/B 테스트는 개별 변경점 검증에 유리하지만 테스트 기간과 운영 복잡도 증가
- 그룹 B를 10%로 줄여 리스크를 완화하면서도 통계적 신뢰성을 확보하는 방식 채택
적용해볼 점
- 서비스 환경 변화가 큰 추천 시스템에서는 오프라인 지표만으로 최종 판단하지 않기
- 개별 변경점 단위의 온라인 검증 절차를 두어 롤백과 원인 추적을 쉽게 하기
- 지표 변동에 영향을 주는 정책·필터링 변화까지 함께 관리하기