상단여백
HOME 컴퓨팅인사이트 임베디드컴퓨팅
한국어 인식 AI 서비스, 더 고도화된다…차세대 언어모델 2종 공개엑소브레인 프로젝트, 교착어 특수성 고려한 한국어 최신 말뭉치 공개

[IT비즈뉴스 최태우 기자] 인공지능(AI) 소프트웨어 분야에서 국가 혁신기술 개발형 연구개발 과제로 정부가 추진 중인 엑소브레(Exo-brain)인 사업에서 새로운 한국어 언어모델(말뭉치) 2종을 공개했다. 

구글의 다국어 언어모델인 버트(BERT)에 한국어에서 의미의 최소단위인 형태소의 특징까지 반영한 언어모델로 스마트스피커, 지능형 검색 등 한국어를 활용한 AI 서비스 개발 부문에 기여할 것으로 기대된다.

엑소브레인 프로젝트의 총괄기관인 한국전자통신연구원(ETRI)에 따르면, ETRI 연구진이 지난 10일 홈페이지를 통해 공개한 한국어 언어모델 ‘코버트(KorBERT)’는 구글의 언어모델을 사용한 것과 교착어의 특성을 보이는 한국어의 특수성을 고려해 만든 언어모델 등 총 2종이다.

언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해서 주로 구글의 다국어 언어모델인 ‘버트’(BERT)를 사용해왔다.

버트는 문장 내 어절을 한 글자씩 나누고 앞뒤로 자주 만나는 글자를 단어로 인식하는 구조를 띈다. 구글은 버트에 40여만개의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다.

ETRI 연구진이 개발한 코버트(KorBERT)와 구글 언어모델의 알고리즘 비교 (사진을 클릭하면 크게 보입니다)

ETRI 연구진은 여기에 지난 10년간의 신문기사와 백과사전 정보를 더한 45억개의 형태소를 학습한 언어모델을 개발하는 데 집중했다고 설명했다.

단순하게 데이터를 늘리는 것만이 아닌, 어근에 조사가 붙는 교착어의 특성을 지닌 한국어 특성에 맞도록 최소단위인 형태소까지 고려, 모델을 고도화하는 데 주력했다는 게 연구진의 설명이다.

연구진은 이번 한국어에 최적화된 언어모델이 전처리 과정에서 형태소를 분석한 언어모델이자 한국어에 최적화된 학습 파라미터를 지원하면서 방대한 데이터 활용한 점이 구글의 언어모델과의 차별성이라고 설명했다.

개발된 언어모델은 2종 모두 딥러닝 프레임워크인 파이토치(PyTorch), 텐서플로(Tensorflow) 환경에서 사용 가능하며 공공인공지능 오픈 API와 데이터 서비스 포털에서도 확인할 수 있다.

엑소브레인 사업의 총괄책임자인 ETRI 김현기 박사는 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답과 같은 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대한다”고 말했다.

과학기술정보통신부 인공지능정책팀 김지원 팀장도 “AI 허브를 통해 정부 R&D를 통해 개발되는 양질의 소프트웨어 API와 데이터를 공개함으로써 개방형 혁신을 촉진할 수 있도록 노력하겠다”고 밝혔다.

최태우 기자  taewoo@itbiznews.com

<저작권자 © IT비즈뉴스-아이티비즈뉴스, 무단 전재 및 재배포 금지>

최태우 기자의 다른기사 보기
icon인기기사
Back to Top