엣지 디바이스에서 멀티모달 AI 활용 지원
허깅스페이스·깃허브 등에서 오픈소스로 공개

지난달 3일(현지시간) 스페인 바르셀로나에서 열린 MWC 2025 현장에 새겨진 알리바바클라우드 로고 앞을 참관객이 지나가고 있다. [사진=로이터]
지난달 3일(현지시간) 스페인 바르셀로나에서 열린 MWC 2025 현장에 새겨진 알리바바클라우드 로고 앞을 참관객이 지나가고 있다. [사진=로이터]

알리바바클라우드가 인공지능(AI) ‘큐원’ 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘큐원2.5-옴니-7B’를 오픈소스로 공개했다.

큐원2.5-옴니-7B는 종합적인 멀티모달 인식을 위해 설계돼 텍스트와 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리해 실시간 텍스트와 자연스러운 음성 응답을 지원하고, 노트북과 같은 엣지 디바이스에서 최적화된 멀티모달 AI기술을 활용할 수 있도록 한다고 알리바바클라우드는 설명했다.

알리바바클라우드에 따르면 큐원2.5-옴니-7B는 7B(70억) 파라미터를 바탕으로 성능 저하 없는 강력한 멀티모달 처리가 가능해 비용 효율적인 AI에이전트 개발에 적합하다.

예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 

텍스트 생성과 음성 합성을 분리해 서로 다른 모달 간의 간섭을 최소화하는 ‘싱커-톡커 아키텍처’와 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술(TMRoPE)도 지원한다.

끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등도 적용됐다.

알리바바클라우드가 ‘큐원2.5-옴니-7B’를 공개했다. [사진=알리바바클라우드]
알리바바클라우드가 ‘큐원2.5-옴니-7B’를 공개했다. [사진=알리바바클라우드]

큐원2.5-옴니-7B는 현재 허깅페이스와 깃허브를 통해 오픈소스로 공개됐으며, 큐원 챗과 알리바바클라우드의 오픈소스 커뮤니티인 모델스코프를 통해서도 접근할 수 있다.

알리바바클라우드는 지난해 9월 큐원2.5를 처음 공개한 이후 시각 이해와 장문 입력 처리를 위한 모델인 ‘큐원2.5-VL’과 ‘큐원2.5-1M’ 등을 공개하는 등 총 200개 이상의 생성AI 모델을 오픈소스로 공개하고 있다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지