AI로 생성한 이미지는 어떻게 평가할까요? (기본편)

AI

AI로 생성한 이미지는 어떻게 평가할까요? (기본편)

라인2025년 3월 27일

두줄요약

생성 이미지 평가는 정답이 없어 품질과 프롬프트 일치율을 함께 보는 접근이 필요했습니다. FID, CLIP Score, Aesthetic Score 등 다양한 지표의 특징과 한계를 정리했습니다.

핵심 내용

생성 이미지 평가는 정답이 없는 특성 때문에 기존 비전 태스크보다 어렵다는 점 정리
시각적 품질과 프롬프트 일치율, 안전성까지 포함한 평가 기준의 필요성 설명
PSNR, SSIM, IS, FID, LPIPS, Aesthetic Score, CLIPIQA, Q-ALIGN, CLIP Score, VQA 계열, HPS-V2, Pick Score 등 주요 방법 비교
실제 서비스 적용 시 단일 지표보다 목적에 맞는 복수 지표 조합이 중요하다는 결론

적용해볼 점

원본 비교가 가능한 과제에는 PSNR, SSIM, LPIPS 같은 지표 고려
생성 모델 전반 비교에는 FID 같은 분포 기반 지표 활용
프롬프트 충실도 확인에는 CLIP Score나 QA 기반 평가 검토
서비스 필터링과 품질 개선을 위해 사람 선호를 반영한 평가 모델 도입 검토

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...