모든 태그
태그

멀티모달 기술 블로그 글

멀티모달 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 21최신 20개 표시
홈에서 필터

최신 게시글

20개 표시

AI

대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)

대규모 서비스의 이미지 콘텐츠 모더레이션을 위해 멀티모달 LLM과 전통적 ML을 결합한 구조를 소개했습니다. 정확도, 지연 시간, 비용, 정책 유연성을 함께 개선하는 최적화 과정을 다뤘습니다.

#LLM#멀티모달#computer vision
4200

AI

클라우드 환경에서의 비디오 인텔리전스 구현: TwelveLabs로 시작하는 AI 영상 분석 4부 – TwelveLabs Marengo 3.0 임베딩 및 검색 전략과 구현 가이드

TwelveLabs Marengo 3.0의 멀티모달 비디오 검색 전략을 정리했습니다. 고정 가중치, 순위 기반 융합, 의도 기반 라우팅의 차이와 트레이드오프를 설명했습니다.

#LLM#검색#AWS
4200

AI

TwelveLabs Marengo를 활용한 Amazon Bedrock에서의 영상 이해 기술 구현

Amazon Bedrock의 TwelveLabs Marengo로 비디오를 멀티모달 임베딩으로 변환해 시맨틱 검색을 구현한 사례입니다. OpenSearch Serverless와 결합해 텍스트·이미지·오디오 질의로 관련 클립을 찾는 흐름을 소개했습니다.

#Amazon Bedrock#OpenSearch Serverless#검색
2200

AI

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기

X

#LLM#멀티모달#ML
8500

AI

한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기

한국어 텍스트와 이미지를 함께 처리하는 멀티모달 임베딩 모델 개발기를 소개했습니다. 자연어 기반 사진 검색과 유사 상품 추천 사례를 중심으로 설명했습니다.

#LLM#멀티모달#임베딩
8600

기타

더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정

X

#LLM#멀티모달#model
3600

AI

Amazon Bedrock을 활용한 피처링의 소셜 미디어 콘텐츠 분석 시스템

Amazon Bedrock으로 소셜 미디어 콘텐츠를 분석하는 멀티 에이전트 시스템 구축 사례를 소개했습니다. 스트리밍 처리와 브랜드 정규화, 모니터링 체계를 통해 확장성과 운영성을 높였습니다.

#Amazon Bedrock#LLM#멀티모달
3100

AI

“우리는 왜 지금, 프롬프트 엔지니어를 찾고 있을까요?”

미리디는 멀티모달 AI 디자인 품질을 높이기 위해 프롬프트 엔지니어의 역할을 중요하게 보고 있습니다. 프롬프트 설계뿐 아니라 실험, 평가 지표, 협업 역량까지 요구하고 있습니다.

#prompt#LLM#멀티모달
3600

AI

도로의 숨결과 표정으로 결빙을 감지하는 멀티모달 AI 솔루션, 'ARHIS Ambient'

오디오, 이미지, 환경 정보를 결합한 멀티모달 AI로 블랙아이스를 감지하는 솔루션을 소개했습니다. 공공기관 평가에서 정검지율 96.7%를 기록하며 야간·악천후 상황의 한계를 보완했습니다.

#ML#멀티모달#컴퓨터 비전
6500

AI

GS리테일의 Amazon Bedrock을 활용한 AI 와인 라벨 이미지 검색 서비스 구축

GS리테일은 Amazon Bedrock으로 와인 라벨 이미지 검색 서비스를 구축했습니다. Claude와 멀티모달 임베딩, Elasticsearch를 결합해 다국어 라벨 검색 품질을 높였습니다.

#Amazon Bedrock#LLM#멀티모달
5400

AI

CLIP과 BLIP를 활용한 이미지-텍스트 유사도 계산

CLIP과 BLIP의 구조와 용도를 비교하며 이미지-텍스트 유사도 계산 예시를 정리했습니다. CLIP은 직접 매칭에, BLIP은 캡션 생성 후 의미 비교에 적합했습니다.

#CLIP#BLIP#멀티모달
10400

AI

Gemma 3n 모델로 음성과 이미지도 입력해보자

Gemma 3n의 멀티모달 온디바이스 특징과 오디오·이미지 입력 예제를 소개했습니다. 다양한 입력 방식을 활용해 오프라인 환경에서도 응용할 수 있음을 보여주었습니다.

#LLM#멀티모달#온디바이스
7900

AI

멀티모달 LLM을 활용한 Computer Use Agent를 알아보자!

멀티모달 LLM과 AI Agent 흐름을 바탕으로 Computer Use Agent의 개념과 연구 사례를 정리했습니다. 웹 UI 조작과 자동화 가능성을 중심으로 WebShop, LiteWebAgent, AgentQ를 소개했습니다.

#LLM#MCP#웹 자동화
6000

AI

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

카카오 카나나 조직이 멀티모달 언어모델 Kanana-o를 소개했습니다. 이미지와 음성을 함께 다루는 모델 개요를 다루는 글입니다.

#LLM#멀티모달#음성
6700

AI

Meta Llama 4 토크나이저 분석

Meta Llama 4 토크나이저의 한국어 효율과 주요 특성을 비교 분석했습니다.\n독자 토크나이저, 강화된 챗 템플릿, 스페셜 토큰 구성도 함께 살펴봤습니다.

#LLM#Meta Llama#토크나이저
5800

AI

AI Agent: 자율성의 진화, 비즈니스 가치 확장

AI 에이전트의 개념, 구조, 유형, 비즈니스 활용 가치를 설명했습니다. 보안과 신뢰성 같은 도입 과제와 향후 발전 방향도 함께 정리했습니다.

#AI Agent#LLM#ChatGPT
3600

AI

VLM, LLM을 사용하여 멀티모달 학습 데이터 제작하기

VLM과 LLM을 활용해 멀티모달 학습 데이터를 만드는 방법을 소개했습니다. OCR, 프롬프트 엔지니어링, 후처리로 수작업 라벨링의 비용과 시간을 줄였습니다.

#LLM#VLM#멀티모달
7000

AI

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기

X

#LLM#멀티모달#카카오
3900

AI

Multimodal LLM을 직접 학습시켜 보자!

공개 한국어 표 데이터와 InternVL2-1B로 멀티모달 LLM을 직접 학습한 사례를 소개했습니다. 작은 모델과 적은 데이터로도 표 이해 챗봇 시나리오를 검증할 수 있었습니다.

#LLM#멀티모달#fine-tuning
3400

AI

새로워진 쓱렌즈를 소개합니다!

쓱렌즈 매장 서비스를 개편한 과정과 주요 기능 개선 내용을 소개했습니다. 객체 검출, 분류, 멀티모달 기술로 검색 품질과 처리 속도를 높였습니다.

#멀티모달#ML#객체 검출
3500