Skill 품질 관리를 위한 Rubric 설계와 시스템 구현
35
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 사내 공용 Skill의 품질 편차를 줄이기 위해 6섹션 30항목 Rubric을 설계하고 GitHub Actions/로컬 플러그인으로 자동 평가를 구현한 내용을 정리한 글입니다. Skill의 결함이 조용히 누적되는 이유로 컴파일/테스트 같은 명확한 게이트 부재를 설명하고, 특히 트리거 실패와 형식 위반이 자주 발생함을 제시합니다. 규칙 검사(정규식·카운트 등 결정적 도구) 17항목과 모델 검사(LLM 판정) 13항목을 분리하는 단일 설계 원칙을 통해 False Negative/False Positive를 줄이도록 구성합니다. BLOCKER 하나라도 있으면 무조건 F가 되도록 S~F 5단계 등급 기준을 정의해 리뷰어의 루프를 단순화합니다. 평가 출력은 ‘왜 문제인가 + 어떻게 고치는가’를 한 묶음으로 제시하고, PR 변경분만 골라 Sticky Comment로 결과를 남기며 Slack DM 분기도 지원합니다. 다음 단계로 Skill의 실제 호출 빈도/호출 후 만족도 같은 사용 데이터를 기준에 결합해 “호출되지 않음” 같은 신호까지 잡는 방향을 기대합니다.

연관 게시글