영상 생성·편집 등 영상 제작 전과정 통합 지원

[사진=로이터]
[사진=로이터]

알리바바가 영상 생성·편집을 위한 오픈소스 인공지능(AI) 모델 ‘완2.1-VACE(Video All-in-one Creation and Editing)’를 정식으로 공개했다. 이 모델은 단일 환경에서 다양한 영상 처리 기능을 하나로 통합해 영상 제작 과정을 간소화하고, 크리에이터의 효율성·생산성 극대화를 지원한다는 게 알리바바의 설명이다.

이 모델은 텍스트·이미지·영상 등 다양한 멀티모달 입력을 기반으로 영상 생성이 가능하며 이미지나 특정 프레임을 참조해 편집하거나, 영상 내 선택 영역을 수정·재구성하고, 시공간 확장까지 지원하는 고급 편집 기능을 제공한다. 즉, 여러 작업을 유연하게 결합함으로써 창의적인 결과물을 더 손쉽게 만들 수 있다는 것이다.

이미지 샘플을 바탕으로 상호작용하는 객체가 포함된 영상을 생성하거나 정적인 이미지를 자연스럽게 움직이게 해 생동감을 부여할 수 있으며 포즈 전환, 움직임 제어, 깊이 조절, 색상 재처리 등의 기능도 포함돼 고도화된 영상 리페인팅을 지원한다.

영상 내 특정 영역을 주변에 영향을 주지 않고 수정하거나 삭제·추가할 수 있으며, 영상 경계를 확장하고 자동으로 자연스러운 콘텐츠도 생성해 준다.

사용자는 정적인 이미지를 영상으로 변환하는 동시에 객체의 이동 경로를 지정해 움직임을 제어하거나, 특정 인물·사물을 참조해 치환하거나 애니메이션 처리할 수 있으며, 수직 이미지를 가로 영상으로 확장하면서 새로운 요소를 추가하는 작업도 손쉽게 수행할 수 있다고 알리바바는 설명했다.

알리바바가 영상 생성·편집을 위한 AI 모델 ‘완2.1-VACE'를 오픈소스로 발표했다. [사진=알리바바]
알리바바가 영상 생성·편집을 위한 AI 모델 ‘완2.1-VACE'를 오픈소스로 발표했다. [사진=알리바바]

알리바바는 다양한 영상 편집 작업의 니즈를 고려한 첨단 기술을 완2.1-VACE에 다수 적용했다고 설명했다.

멀티모달 입력(텍스트, 이미지, 영상, 마스크 등)을 일괄 처리하는 통합 인터페이스 ‘VCU(Video Condition Unit)’를 도입하고 시간적·공간적 요소를 정형화된 방식으로 표현하는 ‘컨텍스트 어댑터’ 구조를 통해 각 작업 개념을 효율적으로 모델에 주입할 수 있도록 했다는 것이다. 

완2.1-VACE는 파라미터 수 기준으로 140억(14B) 버전과 13억(1.3B) 버전 등 2개 형태로 제공된다. 이들 모델은 허깅페이스, 깃허브, 알리바바클라우드 오픈소스 커뮤니티 모델스코프에서 누구나 무료로 다운로드할 수 있다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지