알리바바, 디지털휴먼 영상 생성 모델 오픈소스로 공개

‘완2.2-S2V’, 인물 사진으로 디지털휴먼 생성 720P 해상도 지원 고품질 영상 구현

2025-08-28 오현식 기자

‘완2.2-S2V'로 인물사진(왼쪽)으로 생성된 아바타가 노래하고 있는 장면. [사진=알리바바그룹 유튜브 채널]

알리바바가 디지털휴먼 영상 제작을 위한 오픈소스 모델 ‘완2.2-S2V(Speech-to-Video)’를 공개했다. 이 모델은 인물 사진을 영화 수준의 아바타로 구현해 실제처럼 대화하고 노래하며 연기할 수 있게 한다.

알리바바 ‘완2.2’ 영상 생성 시리즈에 포함된 완2.2-S2V는 단일 이미지와 음성 파일만으로 고품질 애니메이션 영상을 구현할 수 있다고 알리바바는 설명했다.

얼굴 클로즈업부터 상반신, 전신까지 다양한 화면 구도의 캐릭터 영상을 제작할 수 있고 프롬프트 지시에 따라 동작과 배경 요소를 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 구현할 수 있다는 게 사측 설명이다.

음성 기반 애니메이션 기술을 통해 자연스러운 대화부터 음악 공연까지 사실감 있는 캐릭터 연기를 구현하고, 한 장면에서도 여러 캐릭터를 매끄럽게 처리할 수 있으며, 음성 녹음을 사실적인 애니메이션 동작으로 변환해 만화풍과 동물, 스타일화된 캐릭터 등 다양한 아바타 제작이 가능하다.

480P, 720P 해상도를 지원해 전문적·창의적 기준을 충족하는 고품질 영상을 구현할 수 있으며 소셜미디어(SNS) 콘텐츠부터 프레젠테이션까지 폭넓게 활용할 수 있다. 임의의 길이를 가진 이전 프레임들을 하나의 압축된 잠재 표현으로 압축하는 프레임 처리 기술이 적용돼 연산 부담을 줄이고 긴 영상 생성도 지원한다.

완2.2-S2V 모델은 허깅페이스, 깃허브와 알리바바클라우드 오픈소스 커뮤니티 ‘모델스코프’에서 다운로드 가능하다.