[Tech Series] kt cloud AI 검색 증강 생성(RAG) #4 : 임베딩(Embedding)과 벡터 인덱싱 기술
RAG에서 임베딩과 벡터 인덱싱의 원리, 모델 선정 기준, 최적화 기법을 정리했습니다. 특히 한국어 환경에서는 다국어 적합성과 메모리 비용을 함께 검증해야 한다고 설명했습니다.
#RAG#임베딩#HNSW
7800
양자화 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
5개 표시
RAG에서 임베딩과 벡터 인덱싱의 원리, 모델 선정 기준, 최적화 기법을 정리했습니다. 특히 한국어 환경에서는 다국어 적합성과 메모리 비용을 함께 검증해야 한다고 설명했습니다.
AWS Inferentia/Trainium에서 LLM 양자화 최적화 방법을 소개했습니다.\n민감도 기반 선택적 양자화와 fake quantization으로 메모리를 줄이면서 정확도 손실을 완화했습니다.

LLM의 무작정 큰 모델 경쟁 한계를 짚고 MoE의 구조와 장점을 정리했습니다. 또한 실제 서비스에서 필요한 메모리, 통신, 로드 밸런싱 최적화 포인트를 설명했습니다.

PTQ의 성능 저하 한계를 보완하기 위한 QAT 개념과 원리를 설명했습니다.\nNVIDIA pytorch-quantization으로 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차를 소개했습니다.

Snowflake가 기업 중심 LLM Arctic을 오픈소스로 공개하고, 낮은 훈련비용과 높은 성능을 강조했습니다. Dense-MoE 하이브리드 구조와 FP8 양자화로 추론 효율도 개선했습니다.
