모든 태그
태그

양자화 기술 블로그 글

양자화 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 5최신 5개 표시
홈에서 필터

최신 게시글

5개 표시

AI

[Tech Series] kt cloud AI 검색 증강 생성(RAG) #4 : 임베딩(Embedding)과 벡터 인덱싱 기술

RAG에서 임베딩과 벡터 인덱싱의 원리, 모델 선정 기준, 최적화 기법을 정리했습니다. 특히 한국어 환경에서는 다국어 적합성과 메모리 비용을 함께 검증해야 한다고 설명했습니다.

#RAG#임베딩#HNSW
7800

AI

Nota AI가 제안하는 AWS Inferentia에서 다양한 LLM 모델 양자화 최적화기법 사용하기

AWS Inferentia/Trainium에서 LLM 양자화 최적화 방법을 소개했습니다.\n민감도 기반 선택적 양자화와 fake quantization으로 메모리를 줄이면서 정확도 손실을 완화했습니다.

#AWS Inferentia#Trainium#LLM
4300

AI

모델 크기 경쟁을 넘어: MoE가 제시하는 스마트한 AI

LLM의 무작정 큰 모델 경쟁 한계를 짚고 MoE의 구조와 장점을 정리했습니다. 또한 실제 서비스에서 필요한 메모리, 통신, 로드 밸런싱 최적화 포인트를 설명했습니다.

#LLM#MoE#TensorFlow
6700

AI

로봇 ML 모델의 경량화 2부: 양자화 인식 훈련

PTQ의 성능 저하 한계를 보완하기 위한 QAT 개념과 원리를 설명했습니다.\nNVIDIA pytorch-quantization으로 QAT를 수행하고 ONNX/TensorRT로 변환하는 절차를 소개했습니다.

#ML#양자화#QAT
2200

AI

Snowflake Arctic의 기술적 진보

Snowflake가 기업 중심 LLM Arctic을 오픈소스로 공개하고, 낮은 훈련비용과 높은 성능을 강조했습니다. Dense-MoE 하이브리드 구조와 FP8 양자화로 추론 효율도 개선했습니다.

#LLM#MoE#양자화
900