
AI
AI로 생성한 이미지는 어떻게 평가할까요? (인페인팅 적용편)
두줄요약
인페인팅 기반 배경 인물 제거 결과를 사람 평가와 여러 자동 지표로 비교했습니다. 데이터셋에 따라 Aesthetic Score와 CMMD가 유망한 평가 방법으로 나타났습니다.
핵심 내용
- 인페인팅 기반 배경 인물 제거(BPR)에서 생성 결과를 평가하는 방법 탐색
- 사람 평가와의 연관성을 기준으로 Aesthetic Score, CMMD 등 여러 지표 비교
- 데이터셋과 태스크에 따라 최적 지표가 달라질 수 있음
구조와 흐름
- BPR 파이프라인을 인스턴스 분할, 주요 객체 탐지, 인페인팅으로 분해
- 디퓨전 계열과 GAN 계열 인페인팅 모델의 동작 방식과 특성 정리
- BPR 평가 데이터셋과 Places365 평가 데이터셋으로 실험 구성
성능/운영 포인트
- 사람 평가와의 상관성에서 BPR 데이터셋은 Aesthetic Score가 가장 높았음
- Places365 데이터셋에서는 CMMD가 가장 높은 상관성을 보였고 FID, Aesthetic Score도 높은 편이었음
- 해상도, 인페인팅 영역 크기, 프롬프트 유무가 평가 결과에 큰 영향
주의할 점
- 논문 지표만으로 실제 응용 성능을 단정하기 어려움
- 인페인팅은 정답이 하나가 아니라 자동 평가가 복잡함
- 대규모 데이터가 필요한 지표와 소규모 데이터에서도 쓸 수 있는 지표가 다름
적용해볼 점
- 태스크별로 사람 평가와의 상관성을 기준으로 지표 선택
- 실제 서비스 조건과 유사한 데이터셋으로 별도 검증
- 모델 선정 시 단일 수치보다 여러 평가 지표를 함께 확인