알리바바, MoE 기반 오픈소스 영상 생성 모델 ‘완2.2’ 공개
텍스트·이미지 기반 통합 영상 생성 프레임워크 크리에이터 창의성·편의성 향상 지원
알리바바가 MoE(Mixture-of-Experts) 아키텍처를 적용한 대규모 영상 생성 모델인 ‘완2.2’를 공개했다. 오픈소스로 공개된 완2.2는 크리에이터와 개발자들이 클릭 한 번으로 고품질 시네마틱 영상을 손쉽게 제작할 수 있도록 지원한다고 알리바바는 설명했다.
완2.2는 텍스트 기반의 ‘완2.2-T2V-A14B’, 이미지 기반의 ‘완2.2-I2V-A14B’, 텍스트·이미지 통합 하이브리드 모델 ‘완2.2-TI2V-5B’ 등 3개 모델로 구성되며, 다양한 영상 생성 입력 방식을 단일 프레임워크에 통합할 수 있다.
완2.2-T2V-A14B와 Wan2.2-I2V-A14B는 MoE 아키텍처와 고도로 선별된 미적 데이터셋을 바탕으로 훈련돼 조명·시간대·색조·구도·초점거리·카메라 앵글 등 다양한 요소를 정밀하게 제어하도록 지원한다.
인물의 표정 변화, 손 제스처, 스포츠 동작 등 복잡한 움직임 묘사에도 강점을 보이면서 물리 법칙을 반영한 현실적인 표현력과 고도화된 지시 이해력을 바탕으로 사실적인 영상 생성이 가능하다는 게 사측 설명이다.
알리바바에 따르면, 긴 토큰으로 인해 발생하는 영상 생성 과정의 높은 연산 소모 부담을 줄이기 위해 완2.2 T2V-A14B와 완2.2-I2V-A14B에는 확산 모델의 노이즈 제거 과정에 2개의 솔루션이 도입됐다.
이 설계에는 전체 장면 구성을 담당하는 ‘고노이즈 엑스퍼트’와 세밀한 디테일을 정교하게 다듬는 ‘저노이즈 엑스퍼트’가 포함된다. 2모델 모두 총 270억개 파라미터 중 매 스텝에서 140억개만 활성화되며 연산 소모도 최대 50%까지 줄여준다.
완2.2는 시네마틱 프롬프트 시스템을 통해 조명, 구도, 색감 등의 미적 요소를 세분화해 조절할 수 있도록 설계돼 사용자의 시각적 의도를 보다 정확하게 반영한 결과물을 생성할 수 있다.
기존 완2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 확대된 학습 데이터셋을 활용해 복잡한 장면이나 창의적 표현력에서도 한층 향상된 성능을 제공한다고 알리바바는 설명했다.
하이브리드 모델인 완2.2-TI2V-5B는 고압축 3D VAE 구조를 활용해 시간·공간 축을 각각 4×16×16 비율로 압축, 전체 압축률 64배를 달성했다. 일반 소비자용 GPU에서도 수 분 이내에 5초 분량의 720p 영상을 생성할 수 있으며, 높은 처리 효율성과 확장성을 제공한다.
현재 완2.2 모델은 허깅페이스, 깃허브와 알리바바클라우드의 오픈소스 커뮤니티인 모델스코프에서 공개돼 무료로 다운로드해 활용할 수 있다. 앞서 알리바바는 2월에는 완2.1 시리즈의 4개 모델을, 5월에는 영상 생성·편집 통합 모델 완2.1-VACE를 각각 오픈소스로 공개했다.