네이버 D22025년 7월 17일AI레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드BERT 기반 SPLADE 모델의 대규모 실시간 서빙 최적화 방법을 소개했습니다. FlashTokenizer와 전/후처리, 추론 최적화로 레거시 GPU 성능을 끌어올린 사례입니다.#BERT#LLM#모델 추론9200레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드