
AI
로봇 ML 모델의 경량화 2부: 양자화 인식 훈련
두줄요약
PTQ의 성능 저하 한계를 보완하기 위한 QAT 개념과 원리를 설명했습니다.\nNVIDIA pytorch-quantization으로 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차를 소개했습니다.
핵심 내용
- PTQ의 한계로 발생하는 양자화 오차 누적과 성능 저하를 줄이기 위한 QAT 개념 정리
- Q/DQ fake quantization으로 학습 단계에서 INT8 환경을 모사하고 wide minima로 수렴하도록 유도
- PyTorch torch.ao.quantization과 NVIDIA pytorch-quantization의 특징 비교
- pytorch-quantization으로 ResNet18과 CIFAR-10을 이용해 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차 소개
적용해볼 점
- 엣지 디바이스 배포를 목표로 할 때 QAT와 TensorRT 호환성 검토
- 낮은 학습률과 적은 에폭으로 사전학습 모델 미세 조정
