하이브리드 추론 모델 4단계 학습 과정 구현

알리바바클라우드가 오픈소스 대규모언어모델(LLM) 제품군 최신 모델인 큐원3를 공개했다. [사진=로이터]
알리바바클라우드가 오픈소스 대규모언어모델(LLM) 제품군 최신 모델인 큐원3를 공개했다. [사진=로이터]

알리바바클라우드가 오픈소스 대규모언어모델(LLM) 제품군의 최신 세대인 ‘큐원3’를 공개했다. 큐원3 시리즈는 6개의 밀집 모델과 2개의 전문가 혼합(MoE) 모델로 구성돼 모바일 기기, 스마트 글래스, 자율주행차, 로보틱스 등에서 활용할 수 있다. 

큐원3는 알리바바클라우드 최초의 하이브리드 추론 모델이다. 기존 LLM 기능과 고급형 동적 추론을 결합해 ▲수학, 코딩, 논리적 추론과 같은 복잡한 다단계 작업을 위한 사고 모드 ▲빠른 범용 응답을 위한 비사고 모드를 전환하면서 활용할 수 있다고 사측은 설명했다.

또 API를 통해 큐원3에 접근하는 개발자는 최대 3만8000개의 토큰까지 사고 지속 시간을 세밀하게 조정할 수 있어 지능형 성능과 컴퓨팅 효율성간 최적화된 균형을 유지할 수 있다.

이전 모델인 큐원2.5의 2배 규모인 총 36조개에 달하는 방대한 데이터셋을 학습해 추론, 지시 수행, 도구 활용, 다국어 작업 등의 성능이 향상됐다고 알리바바클라우드는 설명했다.

아울러 AIME25(수학적 추론), 라이브코드벤치(코딩 역량), BFCL(도구·함수 호출 능력), 아레나-하드(지시최적화 LLM 평가) 등 다양한 업계 벤치마크에서 최고 수준의 결과를 달성했다. 

하이브리드 추론 모델 ‘큐원3’ 벤치마크 [사진=알리바바클라우드]
하이브리드 추론 모델 ‘큐원3’ 벤치마크 [사진=알리바바클라우드]

또 하이브리드 추론 모델 개발을 위해 긴 CoT(long chain-of-thought) 초기학습(cold start), 추론 기반 강화학습(RL), 사고 모드 융합, 일반 강화학습을 포함하는 4단계 학습 과정을 구현했다.

큐원3 모델은 오픈소스로 공개돼 허깅페이스, 깃허브, 모델스코프를 통해 무료로 다운로드해 사용할 수 있다. 알리바바의 AI 모델 개발 플랫폼인 모델 스튜디오를 통한 API 접근도 지원될 예정이다. 

알리바바클라우드 자료에 따르면 오픈소스로 공개된 큐원 모델 시리즈는 출시 후 전세계적으로 3억회 이상 다운로드됐고 허깅페이스에서는 10만개 이상의 큐원 기반 파생 모델이 개발됐다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지