레드팀 대상 테스트, 배포 일정은 미정
메타·구글 등 경쟁사보다 긍정적 평가도

영상 제작 확산형 AI 모델 소라(Sora)가 생성한 데모영상 [source=openai]
영상 제작 확산형 AI 모델 소라(Sora)가 생성한 데모영상 [source=openai]

챗GPT 개발사 오픈AI가 텍스트를 동영상으로 구현해주는 인공지능(AI) 시스템 ‘소라(Sora)’를 공개했다.

오픈AI는 15일(미국시간) 블로그를 통해 “소라를 활용하면 여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 동영상을 빠르게 제작할 수 있다”고 설명하며 “현재 소수의 레드팀(테스터)을 대상으로 배포하고 있으며 피드백을 받기 위해 일부 예술가, 디자이나, 영화 제작자에게 액세스 권한을 부여했다”고 전했다.

오픈AI는 2021년 이미지 생성 모델인 달리E, 2022년 11월 생성AI 챗봇인 챗GPT를 출시하면서 빠르게 1억명의 사용자를 확보했다. 소라는 오픈AI가 공개한 첫 번째 영상용 생성AI 모델로, 구글 연구진이 2017년 논문에서 소개한 트랜스포머 아키텍처 기반의 확산형 AI 모델이다.

오픈AI는 이날 블로그에서 소라를 “언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있는 시스템”이라고 설명했다.

텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 생성할 수도 있고, 기존 동영상을 확장하거나 누락된 프레임을 채울 수도 있다. 단일 동영상 내에서 캐릭터와 시각적인 스타일에 부합하는 여러 이미지를 생성할 수도 있다.

오픈AI는 골드러시 시절의 캘리포니아 항공뷰, 도쿄 거리에서 자연스럽게 촬영된 듯한 영상, 예술 작품이 전시돼 있는 미술관 등 소라가 구현한 데모영상도 블로그에 공개했다. 

오픈AI는 향후 이 시스템을 정식 배포할 때 디지털 워터마크(Label)를 부착할 계획이라고 전했다. 앞서 오픈AI는 이달 7일 생성AI 툴 ‘달리3’로 구현한 이미지에 디지털 워터마크를 부착한다고 밝힌 바 있다.

오픈AI는 “달리3, 소라 등이 만든 이미지에 콘텐츠 출처 및 진위 확인을 위한 연합(C2PA)의 워터마크를 부착할 계획”이라며 “디지털 정보에 대한 대중의 신뢰를 높이는 데 도움이 될 것으로 본다”고 설명했다.

[사진=로이터]
[사진=로이터]

앞서 메타(페이스북)와 구글도 ‘텍스트-투-비디오(Text to Video)’ 모델을 개발 중이다. ‘스테이블 비디오 디퓨전’이라는 제품을 보유한 스타트업 스태빌리티AI도 유사한 AI 툴을 보유하고 있다. 

아마존도 프롬프트 기반 숏폼 애니메이션 키즈 콘텐츠 생성에 특화된 ‘크리에이트 위드 알렉사’를 공개한 바 있다. 다만 이날 오픈AI가 공개한 소라가 성능적인 면에서는 낫다는 평가가 나온다.

기즈모도는 “소라가 생성하는 영상은 경쟁사보다 더 길고 역동적이며 잘 어우러진다. 경쟁사의 모델은 AI 이미지로 구성된 스톱모션으로 느껴지는 반면, 소라는 실제 영상을 제작한 것처럼 보인다”며 “오픈AI는 경쟁사를 부끄럽게 만드는 동영상 모델로 AI 분야에서 또 다른 분야를 개척했다”고 평가했다.

짐 팬 엔비디아 수석연구원도 이날 자신의 X(트위터) 계정에 소라를 “창의적인 툴이라기 보다는 데이터 기반 물리 엔진에 가깝다는 점에서 독특하다”고 평가했다.

관련기사

저작권자 © IT비즈뉴스(ITBizNews) 무단전재 및 재배포 금지