영상 생성·편집 등 영상 제작 전과정 통합 지원
알리바바가 영상 생성·편집을 위한 오픈소스 인공지능(AI) 모델 ‘완2.1-VACE(Video All-in-one Creation and Editing)’를 정식으로 공개했다. 이 모델은 단일 환경에서 다양한 영상 처리 기능을 하나로 통합해 영상 제작 과정을 간소화하고, 크리에이터의 효율성·생산성 극대화를 지원한다는 게 알리바바의 설명이다.
이 모델은 텍스트·이미지·영상 등 다양한 멀티모달 입력을 기반으로 영상 생성이 가능하며 이미지나 특정 프레임을 참조해 편집하거나, 영상 내 선택 영역을 수정·재구성하고, 시공간 확장까지 지원하는 고급 편집 기능을 제공한다. 즉, 여러 작업을 유연하게 결합함으로써 창의적인 결과물을 더 손쉽게 만들 수 있다는 것이다.
이미지 샘플을 바탕으로 상호작용하는 객체가 포함된 영상을 생성하거나 정적인 이미지를 자연스럽게 움직이게 해 생동감을 부여할 수 있으며 포즈 전환, 움직임 제어, 깊이 조절, 색상 재처리 등의 기능도 포함돼 고도화된 영상 리페인팅을 지원한다.
영상 내 특정 영역을 주변에 영향을 주지 않고 수정하거나 삭제·추가할 수 있으며, 영상 경계를 확장하고 자동으로 자연스러운 콘텐츠도 생성해 준다.
사용자는 정적인 이미지를 영상으로 변환하는 동시에 객체의 이동 경로를 지정해 움직임을 제어하거나, 특정 인물·사물을 참조해 치환하거나 애니메이션 처리할 수 있으며, 수직 이미지를 가로 영상으로 확장하면서 새로운 요소를 추가하는 작업도 손쉽게 수행할 수 있다고 알리바바는 설명했다.
알리바바는 다양한 영상 편집 작업의 니즈를 고려한 첨단 기술을 완2.1-VACE에 다수 적용했다고 설명했다.
멀티모달 입력(텍스트, 이미지, 영상, 마스크 등)을 일괄 처리하는 통합 인터페이스 ‘VCU(Video Condition Unit)’를 도입하고 시간적·공간적 요소를 정형화된 방식으로 표현하는 ‘컨텍스트 어댑터’ 구조를 통해 각 작업 개념을 효율적으로 모델에 주입할 수 있도록 했다는 것이다.
완2.1-VACE는 파라미터 수 기준으로 140억(14B) 버전과 13억(1.3B) 버전 등 2개 형태로 제공된다. 이들 모델은 허깅페이스, 깃허브, 알리바바클라우드 오픈소스 커뮤니티 모델스코프에서 누구나 무료로 다운로드할 수 있다.
관련기사
- 이스트소프트, 포바이포와 ‘맞손’…글로벌 AI SaaS 고도화
- 알리바바클라우드, 오픈소스 LLM ‘큐원3’ 공개
- [데스크칼럼] 반려동물 1,500만 가구 시대…펫 스타트업은 왜 힘들까
- AI와 인간의 협업시대 ‘개막’…MS “기술과 직원의 역할 경계 재정의”
- 카카오엔터, AI 기반 웹툰 숏폼 ‘헬릭스 숏츠’ 론칭
- 이스트소프트, AI휴먼 ‘페르소닷에이아이’ 기반 日 시장 공략 강화
- 알리바바, BMW 차량용 개인비서시스템에 AI엔진 공급
- 네이버, 브릴리언트코리아와 AI기술-데이터 협력 ‘맞손’
- 알리바바클라우드, 비디오 생성AI ‘완2.1’ 오픈소스로 공개
- 알리바바 AI기술…애플 ‘아이폰’에 탑재되나