데보션·2025년 9월 8일AI수식없이 GPT(트랜스포머) 이해하기. 2편GPT 기반 LLM의 추론 최적화와 양자화 개념을 설명했습니다. DeepSeek의 Latent Vector 기반 방식으로 KV Cache 메모리를 줄이는 사례도 다뤘습니다.#LLM#KV Cache69005분