모든 태그
태그

평가 기술 블로그 글

평가 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 5최신 5개 표시
홈에서 필터

최신 게시글

5개 표시

AI

Amazon Bedrock AgentCore로 구축하는 AgentOps (2): 관측성, 평가, 그리고 AgentOps 라이프사이클

Amazon Bedrock AgentCore로 에이전트 운영의 관측성, 평가, 최적화를 하나의 AgentOps 사이클로 정리했습니다. 트레이스와 메트릭, 로그를 바탕으로 품질과 안전성을 지속 개선하는 흐름을 설명했습니다.

#Amazon Bedrock#AgentOps#관측성
200

AI

Eval for Agents와 Google Stax, QA가 주목해야 할 LLM 평가 도구 비교

OpenAI Eval for Agents와 Google Stax의 차이를 QA 관점에서 비교했습니다. 에이전트 전체 흐름 진단은 Eval for Agents, 텍스트 응답 평가와 시각화는 Stax가 강점입니다.

#LLM#QA#AgentKit
3300

AI

LLM이 문학 번역 성능을 평가할 수 있을까?

LLM을 문학 번역 평가자로 쓰는 연구를 소개하며, 기존 지표보다 인간 판단에 가까운 성과를 보였다고 분석했습니다. 다만 문화적 맥락과 미묘한 뉘앙스까지 완전히 대체하지는 못해 인간 평가의 보완이 필요하다고 정리했습니다.

#LLM#번역#NLP
7400

AI

LLM 모델이 LLM 성능을 평가한다. LLM-as-a-judge 알아보기

LLM이 다른 LLM의 응답 품질을 평가하는 LLM-as-a-Judge 방법을 소개했습니다. 프롬프트를 단순화하고 평가 이유를 요구하면 인간 평가와의 일치도가 크게 높아졌습니다.

#LLM#prompt#평가
2200

AI

ChatGPT와 검색의 미래

ChatGPT가 바꾸는 검색의 방향과 한계를 정리한 글입니다. 대화형 검색의 장점과 평가 방식, 하이브리드 모델의 필요성을 함께 살펴봅니다.

#ChatGPT#검색#LLM
1600