LLM 신뢰성·안전성 확보 일환, AI허브에 공개

한국지능정보사회진흥원 대구본원 전경
한국지능정보사회진흥원 대구본원 전경

한국지능정보사회진흥원(NIA)이 한국정보통신기술협회(TTA)와 국내 최대 AI 학습용 데이터 플랫폼인 AI허브를 통해 대규모언어모델(LLM) 학습용 데이터 내의 ‘유해 표현 검출 인공지능 모델 및 유해 표현 학습용 데이터’를 공개했다.

14일 NIA에 따르면 이번에 공개된 AI 모델은 주어진 말뭉치 데이터 내에서 유해 표현을 검출하고 다양한 유해 표현 카테고리로 분류하는 기능을 수행할 수 있다.

공개된 모델과 데이터는 과기정통부 초거대AI 확산 생태계 조성 사업의 일환으로 LLM 데이터의 품질검증 과정에서 주요 특성 중 하나인 ‘유해성’을 측정하기 위해 개발했다.

자체 성능검증 결과 높은 정확도(80~90%)를 달성해 유해 표현 검출의 효용성을 입증했다고 NIA는 설명했다.

모델에 학습시키기 위해 구축된 데이터는 유해 표현 검출용 데이터 20만건과 유해 표현 카테고리 구분용 데이터 21만건으로 구성되어 있다.

이 데이터는 한국어 유해표현 오픈소스 데이터를 토대로 AI허브의 ‘온라인 구어체 말뭉치 데이터 및 ‘지식그래프-투-텍스트 데이터’를 활용해 구어체, 문어체 등 문체 다양성을 확보하는데 중점을 두고 구현됐다. 공개된 모델은 AI허브에서 누구나 활용할 수 있다.

NIA는 “국가인권위원회의 혐오 표현에 대한 안내서 등과 같은 신뢰할 수 있는 가이드라인을 참조해 유해 표현 및 유해 카테고리(11개)를 명확하게 정의하고 이를 재가공해 데이터의 일관성과 신뢰성을 확보했다”고 전했다.

NIA 황종성 원장은 “AI기술의 발전은 기술적 진보뿐만 아니라 사회적책임을 담보할 수 있는 윤리적 고려가 병행돼야 한다. 이는 지속가능한 AI생태계 조성을 위한 핵심 요소”라며 “이번 공개가 한국어 LLM의 신뢰성 및 안전성을 강화하기 위한 계기가 될 것으로 기대한다”고 말했다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지