완벽한 AI 가드레일을 향한 여정: NeurIPS 2025 최신 안전성 기술 분석
26
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 NeurIPS 2025에서 발표된 AI 가드레일 및 안전성 기술 동향을 정리한 글입니다.

핵심 흐름

  • 정책의 코드화와 모듈형 저지연 프레임워크(PRIME 등)로 시스템 차원의 가드레일 통합
  • 멀티모달(VLM) 취약점과 시각-텍스트 통합 추론을 통한 유해성 검출(GuardReasoner‑VL, 시각적 이어붙이기 문제)
  • 프롬프트 인젝션·탈옥 공격 고도화에 대한 자동화된 공격·방어 기법 소개(VERA, 유사성 기반 멀티턴 공격, DRIFT, WASP)
  • 환각 탐지 및 완화 기법 제안(LUMINA, 추론 환각 분석, 코드-텍스트 교대 학습)과 과잉 거부 문제 평가를 위한 벤치마크(OVERT, PolyGuard)

연관 게시글