

체계적인 실험 관리 #1. AI 모델의 성능을 높이는 첫걸음
AI 프로젝트에서 성능 비교와 재현성을 높이기 위한 실험 관리 체계를 소개했습니다. 데이터·코드 버전과 MLflow 기록을 분리해 협업과 추적성을 강화했습니다.
새로운 기술 블로그가 추가되었어요


AI 프로젝트에서 성능 비교와 재현성을 높이기 위한 실험 관리 체계를 소개했습니다. 데이터·코드 버전과 MLflow 기록을 분리해 협업과 추적성을 강화했습니다.


퍼즐봇과 유저 행동 데이터를 바탕으로 퍼즐 스테이지의 품질을 수치화하는 지표를 설계했습니다.\n폴리싱 효율을 높이기 위해 총 미션 수 구간별 기준을 달리 적용하고 사내 테스트로 검증했습니다.


장바구니 바텀시트에 맞는 보완재 추천 모델을 개발하고, NPMI 정제와 셔플링 후처리로 추천 품질을 개선했습니다. A/B 테스트에서 전환과 담은 상품 수, 금액이 유의미하게 상승해 실제 서비스에 적용했습니다.

추천시스템에서 상관관계만 학습할 때 생기는 편향과 누락 문제를 인과추론 관점에서 설명했습니다. 전환율 예측에서는 MTL과 IPW, DR을 결합한 방법으로 성능을 높이는 흐름을 소개했습니다.

SHAP의 기반인 Shapley Value를 예시와 수식으로 풀어 설명했습니다. 모델 예측을 특징별 기여도로 나누는 원리와 계산 시 주의점도 정리했습니다.

머신러닝으로 개인화 추천 시스템을 설계하는 기본 흐름을 설명했습니다. 실험 환경에서 학습하고 배포 환경에서 pCTR과 CPM으로 광고를 선택하는 구조를 정리했습니다.

네이버 쇼핑라이브의 긴 영상에서 숏클립용 하이라이트를 자동 검출하는 Sinossi 기술을 소개했습니다. 행동 인식과 키워드 추출 파이프라인으로 실제 서비스 적용과 확장 방향까지 다뤘습니다.


아자르가 추천 모델의 목표를 리텐션으로 두고 아하 모멘트 기반으로 1차 지표를 찾는 과정을 소개했습니다. 세그먼트 분석과 A/B 테스트를 통해 신규·기존 사용자 모두에서 유효한 지표를 검증했습니다.


Snowflake가 기업 중심 LLM Arctic을 오픈소스로 공개하고, 낮은 훈련비용과 높은 성능을 강조했습니다. Dense-MoE 하이브리드 구조와 FP8 양자화로 추론 효율도 개선했습니다.


전국 설문으로 AI 학습 앱 QANDA의 사용과 수학 성취, 자신감 변화를 분석했습니다. 높은 사용 빈도가 학업 향상과 정서적 개선과 연결된다는 결과를 제시했습니다.

ChatGPT의 환각을 줄이기 위한 프롬프트 패턴 두 가지를 소개했습니다. Fact Check List와 Reflection으로 팩트 검증과 근거 중심 답변을 유도했습니다.


Andrej Karpathy가 Llama 3의 성능, 데이터, 학습 규모를 긍정적으로 평가했습니다. 동시에 더 긴 컨텍스트와 더 작은 모델에 대한 아쉬움도 언급했습니다.