
AI
AI로 생성한 이미지는 어떻게 평가할까요? (기본편)
두줄요약
생성 이미지 평가는 정답이 없어 품질과 프롬프트 일치율을 함께 보는 접근이 필요했습니다. FID, CLIP Score, Aesthetic Score 등 다양한 지표의 특징과 한계를 정리했습니다.
핵심 내용
- 생성 이미지 평가는 정답이 없는 특성 때문에 기존 비전 태스크보다 어렵다는 점 정리
- 시각적 품질과 프롬프트 일치율, 안전성까지 포함한 평가 기준의 필요성 설명
- PSNR, SSIM, IS, FID, LPIPS, Aesthetic Score, CLIPIQA, Q-ALIGN, CLIP Score, VQA 계열, HPS-V2, Pick Score 등 주요 방법 비교
- 실제 서비스 적용 시 단일 지표보다 목적에 맞는 복수 지표 조합이 중요하다는 결론
적용해볼 점
- 원본 비교가 가능한 과제에는 PSNR, SSIM, LPIPS 같은 지표 고려
- 생성 모델 전반 비교에는 FID 같은 분포 기반 지표 활용
- 프롬프트 충실도 확인에는 CLIP Score나 QA 기반 평가 검토
- 서비스 필터링과 품질 개선을 위해 사람 선호를 반영한 평가 모델 도입 검토