메타, AI 기반 ‘텍스트-동영상’ 변환 기술 공개

[사진=로이터]
[사진=로이터]

메타플랫폼(구 페이스북)이 텍스트를 토대로 동영상 콘텐츠를 만들 수 있는 인공지능(AI) 시스템 ‘메이크-어-비디오(Make-A-Video)’를 공개했다. ‘광장에서 춤추는 로봇’과 같은 문장을 입력하면 AI가 이를 토대로 적합한 비디오 클립을 제작하는 자동화 기술이다.

메타는 ▲슈퍼히어로 망토를 쓰고 하늘을 나는 개 ▲화성에 착륙하는 우주선 ▲붓으로 캔버스에 그림을 그리는 클로즈업 ▲물을 마시는 말 등의 이미지를 공개했다. 이들 단어를 이용해 짧은 비디오 클립이 사실적으로 제작됐다는 게 메타의 설명이다.

메타는 “메이크-어-비디오는 단 몇 단어, 혹은 몇 줄의 텍스트로 상상력에 생명을 불어넣어 생생한 색상, 캐릭터, 풍경으로 가득 찬 독특한 비디오를 만들 수 있다”며 “AI를 통해 새로운 콘텐츠를 빠르고 쉽게 만들 수 있는 도구를 제공해 창의적인 표현을 발전시키는 기술”이라고 소개했다.

이 기술은 단어, 텍스트 등을 이용해 일러스트를 만들었던 ‘메이크-어-신(Make-A-Scene)’을 고도화한 것으로 메이크-어-비디오, 메이크-어-신을 통해 크리에이터는 더 자유롭게 동영상이나 일러스트를 만들어 더 풍부하게 표현을 전달할 수 있다고 메타는 소개했다.

메타는 이미지에서 동영상을 만들거나 기존 동영상을 토대로 새로운 동영상을 만드는 편집 기능도 추가할 예정이다. 또 연내 공개 테스트가 시작될 것으로 알려진다. 구글, 오픈AI 등이 시도하는 이미지 생성 AI가 동영상 영역까지 확장되는 것이다. 

글이나 말을 이미지로 시각화하는 AI는 오픈AI의 ‘달-E(DALL-E)’가 가장 널리 알려진 사례다. 지난해 1월초 1.0버전에 이어 올해 2.0버전이 공개된 달-E는 화질을 더 높이고, 이미지 편집, 이미지 추가·확장 기능을 결합해 매우 정교한 이미지를 생성할 수 있다.

워싱턴포스트(WP)에 따르면, 현재 150만명의 사용자가 1일 평균 200만개의 이미지를 달-E를 통해 생성할 정도로 인기를 끌고 있다. 

단 몇 줄의 텍스트로 AI가 자동으로 생성한 메타 '메이크-어-비디오' 동영상 클립. [source=메타]
단 몇 줄의 텍스트로 AI가 자동으로 생성한 메타 '메이크-어-비디오' 동영상 클립. [source=메타]

하지만 이러한 AI의 발전은 놀라움을 주지만, 동시에 미술, 사진 영역의 직업 전망을 위태롭게 한다는 우려를 불러일으키기도 한다. 실제로 셔터스톡, 어도비스톡 등에서는 AI 이미지를 창작물로 인정해 판매하고 있는 것으로 알려졌다. 일러스트레이터, 사진작가의 영역을 AI가 위협하고 있는 것이다. 

일각에서는 기술 악용에 대해서도 우려한다. 실제로 한 미술대회에서는 AI가 생성 그림이 수상하기도 하면서 논란이 일기도 했으며, 딥페이크 악용처럼 AI가 생성한 가짜 이미지나 동영상이 현실에서 일어난 사실로 전파되는 데 악용될 수 있다.

가짜 시위나 폭동, 혹은 시위의 폭력 진압 이미지나 동영상이 생성돼 가짜 뉴스로 확산되는 악용 가능성이 경고된다. 

편견, 왜곡 강화 등도 넘어야 할 문제다. 잘못된 고정관념을 AI가 고착화할 수 있다는 설명이다.

일례로 오픈AI가 투명성 강화를 위해 외부 연구진을 선임해 구성한 레드팀의 연구에서는 CEO, 변호사 등의 단어에 달-E가 생성한 이미지는 대부분 백인 남성이었으며, 승무원 등의 단어에는 아시아계 여성을 나타내는 편향성이 나타났다고 알려졌다.

학습 과정에서 현재의 편향된 이미지가 투영된 것으로, 이러한 결과는 AI가 편향성을 강화할 우려가 있으며 이에 대한 보완책이 필요할 것으로 보인다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지