로봇 ML 모델의 경량화 2부: 양자화 인식 훈련

AI

로봇 ML 모델의 경량화 2부: 양자화 인식 훈련

우아한 형제들

우아한 형제들2025년 1월 31일

두줄요약

PTQ의 성능 저하 한계를 보완하기 위한 QAT 개념과 원리를 설명했습니다.\nNVIDIA pytorch-quantization으로 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차를 소개했습니다.

핵심 내용

PTQ의 한계로 발생하는 양자화 오차 누적과 성능 저하를 줄이기 위한 QAT 개념 정리
Q/DQ fake quantization으로 학습 단계에서 INT8 환경을 모사하고 wide minima로 수렴하도록 유도
PyTorch torch.ao.quantization과 NVIDIA pytorch-quantization의 특징 비교
pytorch-quantization으로 ResNet18과 CIFAR-10을 이용해 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차 소개

적용해볼 점

엣지 디바이스 배포를 목표로 할 때 QAT와 TensorRT 호환성 검토
낮은 학습률과 적은 에폭으로 사전학습 모델 미세 조정

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...