SKT, A.X 기반 멀티모달·범용 문서 해석 기술 공개

A.X 인코더, 긴 문서 빠르고 효율적 처리 가능
A.X 4.0 VL Light, 한국어 데이터셋 학습된 시각-언어모델

SK텔레콤이 29일 대규모언어모델(LLM)인 에이닷 엑스(A.X)를 기반으로 한 시각-언어모델(Vision Language Model, VLM)과 LLM 학습을 위한 범용 문서 해석 기술을 허깅페이스에 공개했다고 밝혔다.

이날 공개한 모델은 ‘에이닷 엑스 인코더(A.X Encoder)’와 ‘에이닷 엑스 4.0 비전 랭귀지 라이트(A.X 4.0 VL Light) 등 2종으로, 이 모델은 학술 연구나 상업 이용 등에 자유롭게 활용 가능하다.

SK텔레콤은 7월 한 달 동안 대규모 학습(Continual Pre-Training, CPT)에 기반한 A.X 4.0 모델 2종(표준/경량)에 이어 프롬 스크래치 방식의 A.X 3.1 모델 2종(표준/경량)을 순차적으로 선보였다.

이번에 LLM을 산업 영역에 보다 폭넓게 활용하기 위한 기술 2종을 추가한 것으로 공개된 모델은 총 6개로 늘었다.

SKT는 프롬 스크래치 방식의 LLM 개발을 꾸준히 이어가면서 향후 공개할 A.X 4.0 추론형 모델 등 지속적으로 개발 중인 LLM의 활용도와 성능을 높여갈 계획이다.

자연어처리 기술에서 인코더는 입력된 문장을 문맥으로 변환하고 이를 바탕으로 다양한 자연어 처리 작업을 수행하도록 돕는 핵심 구성요소다. 문장의 모든 단어들의 상호 관계를 파악하고 전체 의미와 맥락을 이해하는 역할을 한다.

SK텔레콤은 “A.X 모델에 필요한 데이터의 전 과정 처리 프로세스에 적용하기 위해 A.X 인코더를 개발했다”며 “A.X 인코더는 긴 문서도 빠르고 효율적으로 처리 가능해 대규모 LLM 학습에 적합하다”고 설명했다.

SK텔레콤에 따르면, A.X 인코더는 1억4900만개(149M)의 매개변수를 바탕으로 작동하며 자연어 이해 성능지표 평균 85.47점을 달성했다. 이는 기존 글로벌 오픈소스 모델을 기반으로 KLUE 팀에서 공개한 ‘RoBerTa-base’의 성능지표(80.19점)를 상회하는 수준이다.

A.X 인코더는 1만6384개의 토큰까지 처리할 수 있어 기존 모델들보다 최대 3배의 추론속도와 2배의 학습속도를 구현할 수 있다고 SK텔레콤은 설명했다.

A.X 4.0 VL Light는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)로 한국어와 관련된 시각정보 및 언어 이해뿐만 아니라 표·그래프 이해, 제조 도면 이해와 같은 기업용 애플리케이션에서 탁월한 성능을 제공한다.

70억개(7B) 매개변수의 A.X 4.0 Light 모델을 기반으로 개발돼 사용자 시스템에 쉽게 적용 가능하면서도 중형 모델 수준의 강력한 성능을 제공하는 점이 특징이다.

이 모델은 한국어 시각 벤치마크에서 평균 79.4점을 기록하며 Qwen2.5-VL32B(73.4점)보다 작은 모델 크기에도 불구하고 더 우수한 성능을 보였다. 한국어 텍스트 벤치마크에서는 평균 60.2점을 기록하며 경량형 모델로서 국내 모델 중에서 최상위권에 포진했다.

김태윤 SK텔레콤 파운데이션 모델 담당은 “독자적인 기술력 확보가 소버린AI의 핵심인 만큼, 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 최고 수준의 AI 경쟁력을 확보할 것”이라고 밝혔다.

상단영역

ITBizNews

본문영역