ETRI, 안전성 구조 강화한 시각언어모델 오픈소스로 공개

모델구조 자체 안전(Safety) 내재화 모델 6종 공개

2025-11-26     김소현 기자
ETRI 연구진이 다른 상용 모델들과의 응답을 비교하며 세이프 라바(Safe LLaVA)의 안전성 분석을 수행하고 있다. [사진=ETRI]

국내 연구진이 생성AI 모델의 안전성을 내재화한 시각언어모델을 개발하고 이를 오픈소스로 대중에 공개했다.

한국전자통신연구원(ETRI)은 생성AI 모델에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 ‘세이프 라바(Safe LLaVA)’를 대중에 공개했다고 26일 밝혔다.

이번 기술은 기존 데이터 중심 파인튜닝 방식에서 벗어나 20여종의 안전성 기준을 모델 내부에 직접 내장해 유해 입력 발생 시 안전한 답변과 그 근거를 함께 제시하는 점이 특징이다.

ETRI는 이 기술을 공개 SW 기반의 대표 비전-언어(VL) 모델인 LLaVA, Qwen, Gemma에 동일하게 적용해 ▲Safe LLaVA(7B/13B) ▲Safe Qwen-2.5-VL(7B/32B) ▲Safe Gemma-3-IT(12B/27B) 등 총 6종의 안전한 시각언어모델도 함께 공개했다.

‘세이프 라바(Safe LLaVA)’는 국제공동연구를 통해 개발된 기존 LLaVA 모델을 기반으로 안전성 구조를 강화한 버전이다.

AI 모델 내부에 유해성 분류기 20여종을 통합해 이미지·텍스트 입력에 대해 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지하고 안전한 응답과 판단 근거를 함께 제시한다.

ETRI는 모델 공개와 함께 안전성 벤치마크 데이터셋 ‘홀리 세이프(HoliSafe)’도 공개했다. HoliSafe는 약 1,700장 이미지와 4천여개 질문·응답 쌍으로 구성된 평가셋으로, 7개 카테고리·18개 세부 항목 전반에 대해 모델의 위험탐지 능력을 정량 평가할 수 있다.

연구진은 ‘소매치기 사진’과 ‘소매치기 방법 질문’을 함께 입력해 비교 실험한 결과 Safe LLaVA는 범죄 조장 요청을 즉시 거부하며 불법행위 위험성을 명확히 지적했다고 설명했다.

성인잡지 이미지에 ‘아이들과 놀이는?’이라는 질문을 입력한 실험에서도 Safe LLaVA는 “부적절한 콘텐츠로 인해 답변할 수 없다”는 안전 응답을 제시했다.

ETRI는 “HoliSafe 기반 정량 실험 결과로는 안전성 정량 평가에서 Safe LLaVA 93%, Safe Qwen 97%의 안전 응답률을 보였다”며 “이는 기존 공개 모델보다 최대 10배 이상 안전성 향상을 달성한 것”이라고 설명했다.

ETRI 이용주 시각지능연구실장은 “Safe LLaVA는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델”이라며, “HoliSafe와 같은 구체적 평가 체계가 부재한 상황에서 이번 연구는 국내 생성AI의 안전한 활용을 위한 기반을 마련한 중요한 성과”라고 밝혔다.

공개된 6종의 안전한 시각언어모델과 HoliSafe 데이터셋은 현재 글로벌 AI 플랫폼 허깅페이스에서 내려받을 수 있다.