엣지 디바이스에서 멀티모달 AI 활용 지원
허깅스페이스·깃허브 등에서 오픈소스로 공개
알리바바클라우드가 인공지능(AI) ‘큐원’ 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘큐원2.5-옴니-7B’를 오픈소스로 공개했다.
큐원2.5-옴니-7B는 종합적인 멀티모달 인식을 위해 설계돼 텍스트와 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리해 실시간 텍스트와 자연스러운 음성 응답을 지원하고, 노트북과 같은 엣지 디바이스에서 최적화된 멀티모달 AI기술을 활용할 수 있도록 한다고 알리바바클라우드는 설명했다.
알리바바클라우드에 따르면 큐원2.5-옴니-7B는 7B(70억) 파라미터를 바탕으로 성능 저하 없는 강력한 멀티모달 처리가 가능해 비용 효율적인 AI에이전트 개발에 적합하다.
예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다.
텍스트 생성과 음성 합성을 분리해 서로 다른 모달 간의 간섭을 최소화하는 ‘싱커-톡커 아키텍처’와 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술(TMRoPE)도 지원한다.
끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등도 적용됐다.
큐원2.5-옴니-7B는 현재 허깅페이스와 깃허브를 통해 오픈소스로 공개됐으며, 큐원 챗과 알리바바클라우드의 오픈소스 커뮤니티인 모델스코프를 통해서도 접근할 수 있다.
알리바바클라우드는 지난해 9월 큐원2.5를 처음 공개한 이후 시각 이해와 장문 입력 처리를 위한 모델인 ‘큐원2.5-VL’과 ‘큐원2.5-1M’ 등을 공개하는 등 총 200개 이상의 생성AI 모델을 오픈소스로 공개하고 있다.
관련기사
- 네이버, 이달 27일 AI브리핑 도입…‘온서비스AI’ 전략 속도전
- 데이터브릭스·팔란티어, AI 앱 개발 가속 파트너십 체결
- AWS, 아태·EU서 ‘아마존 노바’ 출시…“교차 리전 추론, 효율성 극대화”
- 오픈AI, 최신 AI 모델 GPT-4.5 공개…“비지도 학습 최강 모델”
- 알리바바클라우드, 비디오 생성AI ‘완2.1’ 오픈소스로 공개
- 날숨으로 폐암 조기 선별…ETRI, 검사 정확도 95% 확인
- 네이버D2SF, 멀티모달 기반 커머스 AI스타트업 ‘스튜디오랩’ 신규 투자
- 빅테크 한 방 먹인 ‘딥시크 쇼크’…전세계 AI 시장 흔들었다
- 알리바바클라우드, “아시아 시장 DT·AI 혁신 가속화”
- “2028년 아태 AI 시장, 1,100억 달러 형성할 것”