‘완2.2-S2V’, 인물 사진으로 디지털휴먼 생성
720P 해상도 지원 고품질 영상 구현
알리바바가 디지털휴먼 영상 제작을 위한 오픈소스 모델 ‘완2.2-S2V(Speech-to-Video)’를 공개했다. 이 모델은 인물 사진을 영화 수준의 아바타로 구현해 실제처럼 대화하고 노래하며 연기할 수 있게 한다.
알리바바 ‘완2.2’ 영상 생성 시리즈에 포함된 완2.2-S2V는 단일 이미지와 음성 파일만으로 고품질 애니메이션 영상을 구현할 수 있다고 알리바바는 설명했다.
얼굴 클로즈업부터 상반신, 전신까지 다양한 화면 구도의 캐릭터 영상을 제작할 수 있고 프롬프트 지시에 따라 동작과 배경 요소를 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 구현할 수 있다는 게 사측 설명이다.
음성 기반 애니메이션 기술을 통해 자연스러운 대화부터 음악 공연까지 사실감 있는 캐릭터 연기를 구현하고, 한 장면에서도 여러 캐릭터를 매끄럽게 처리할 수 있으며, 음성 녹음을 사실적인 애니메이션 동작으로 변환해 만화풍과 동물, 스타일화된 캐릭터 등 다양한 아바타 제작이 가능하다.
480P, 720P 해상도를 지원해 전문적·창의적 기준을 충족하는 고품질 영상을 구현할 수 있으며 소셜미디어(SNS) 콘텐츠부터 프레젠테이션까지 폭넓게 활용할 수 있다. 임의의 길이를 가진 이전 프레임들을 하나의 압축된 잠재 표현으로 압축하는 프레임 처리 기술이 적용돼 연산 부담을 줄이고 긴 영상 생성도 지원한다.
완2.2-S2V 모델은 허깅페이스, 깃허브와 알리바바클라우드 오픈소스 커뮤니티 ‘모델스코프’에서 다운로드 가능하다.
관련기사
- 알리바바, AI 코딩 모델 ‘쿠원3-코더’ 공개
- 산업형 AI인재 양성한다…과기정통부, 6대 산·학·연 프로젝트 시동
- 표정·시선·악수까지 재현…ETRI, 실감형 원격협업 기술 공개
- 네이버 “영상 콘텐츠 생태계에 온디바이스AI 전략 접목”
- 생산성 높이고 협업 강화…줌, 새로운 에이전틱AI 기능 출시
- 알리바바클라우드, 클라우드 주도권 강화…6천만 달러 투자한다
- 엔씨AI, 샌드박스네트워크와 협업…“크리에이터 글로벌화 돕는다”
- 이스트소프트, 위해브와 파트너십…K-콘텐츠 글로벌화 지원
- 알리바바클라우드, 이달 말 韓 제2 데이터센터 공식 가동
- 이스트소프트, 포바이포와 ‘맞손’…글로벌 AI SaaS 고도화
오현식 기자
hyun@itbiznews.com