한국어·한국문화 최적화 모델 제공
베타 테스트 피드백 바탕으로 품질 개선

실제 사용성 성능 비교 [자료=디노티시아]
실제 사용성 성능 비교 [자료=디노티시아]

디노티시아가 고성능 대규모언어모델(LLM) 파운데이션 모델 ‘디엔에이(DNA):디노티시아AI’를 개발하고 허깅페이스에 오픈소스로 공개했다고 밝혔다. 디노티시아는 이에 기반한 생성형 인공지능(AI) 어시스턴트의 베타 테스트도 시작했다. 

디노티시아는 "디엔에이가 AI 성능 평가 벤치마크인 KMMLU, KoBest 등에서 평균 점수 기준으로 경쟁 모델을 뛰어넘는 성과를 거둬 작은 모델 크기로도 고품질의 한국어 서비스를 제공할 수 있음을 입증했다"며 "글로벌 벤치마크인 MMLU, GSM8K 등에서도 우수한 성능을 기록했다"고 설명했다.

이번에 공개한 ‘DNA 1.0 8B 인스트럭트’ 모델은 80억개 파라미터 규모의 라마 아키텍처 기반 이중언어 모델로, 한국어 이해와 생성에 최적화됐으며, 영어 처리 능력도 갖췄다.

디노티시아는 고품질 한국어 데이터셋을 사용해 지속적사전학습(CPT)을 진행했으며 지도학습 미세조정(SFT), 직접 선호 최적화(DPO)를 통해 자연스러운 대화 능력과 복잡한 지시를 따르는 수행 능력을 강화했다고 부연했다.

디노티시아에 따르면, KMMLU에서 인문학, 사회학, 과학·기술 등을 평가하는 한글, 영어 벤치마크 전반에서 디노티시아의 LLM 모델은 평균 점수 53.26점으로 경쟁 모델보다 우수한 점수를 기록했다.

디노티시아는 "단순히 일부 항목에서 우수한 결과를 낸 것이 아니라, 전반적인 성능에서 두각을 나타낸 결과란 점을 강조하면서 다방면에서 활용가능하다"고 설명했다. 

디엔에이 파운데이션 모델을 기반으로 생성AI 어시스턴의 베타 테스트에서는 한국 문화와 맥락을 깊이 이해하는 기능을 통해 한국 사용자들에게 특화된 서비스를 제공 역량 검증을 목표로 한다. 이를 위해 베타 테스트에서는 검색, 요약, 번역, 데이터 분석, 보고서 작성, 코딩 등 주요 LLM 서비스 기능을 지원한다. 

박상길 디노티시아 LLM엔지니어링팀장은 “최신 논문을 기반으로 ‘지식 증류, 구형 선형보간(SLERP), 직접 선호 최적화(DPO)’ 등 고급 기법을 직접 구현하고 적용해 최고 수준의 모델 성능을 달성했다”며, “디노티시아의 뛰어난 인재들과 긴밀하게 협력하고 함께 노력한 덕분에 이러한 결과를 이룰 수 있어 기쁘다”고 말했다.

정무경 디노티시아 대표는 “이번 공개는 누구나 사용할 수 있는 고성능 LLM 모델을 제공해 한국 AI기술 발전에 이바지하고자 하는 노력의 일환”이라며, “생성AI 어시스턴트 베타 테스트를 통한 사용자 피드백을 반영해 최상의 서비스를 제공할 계획”이라고 말했다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지