동영상도 '뚝딱'...AI가 영화 만드는 시대 온다

오픈AI, 챗GPT 후속 ‘소라’ 공개
텍스트 입력대로 영상 생성

콘텐츠 제작비용 크게 낮춰
AI 활용능력∙창작 역량 중요성↑

딥페이크 등 악용 문제 ‘숙제’
진위 구분용 메타데이터 추가

[정보통신신문=차종환기자]

세계를 충격에 빠트린 인공지능(AI) 챗GPT가 등장한 지 불과 1년여가 흐른 지금, 또하나의 생성형AI ‘소라(Sora)’가 모습을 드러내며 세상을 들썩이게 하고 있다.

챗GPT가 텍스트를 기반으로 인간과 매우 자연스러운 대화를 주고받을 수 있는 AI였다면, 소라는 인간의 언어를 그대로 동영상으로 만들어주는 AI로 센세이션을 일으키고 있다.

가령, “들판을 뛰노는 강아지 영상을 만들어줘”라고 하면, 전혀 이질감 없는 상당한 수준의 해당 영상을 생성해내는 것이다.

이쯤 되면, 머지않아 AI가 만든 영화가 극장에 걸릴 날이 올지도 모를 일이다.

■무엇을 상상하든 눈앞에 펼쳐준다

소라는 마찬가지 챗GPT를 개발한 오픈AI가 개발해 지난달 15일 공개됐다.

오픈AI 측은 우리 세상에 존재하는 물리 법칙을 AI 스스로 이해하고 있어야 동영상 제작이 가능하기에, 소라는 궁극적으로 ‘월드 시뮬레이터(World Simulator)’를 지향하고 있다고 밝히고 있다.

소라는 챗GPT와 같은 트랜스포머(Transformer) 아키텍처를 사용한다.

트랜스포머는 문장 속 단어와 같은 순차 데이터를 학습해 맥락과 의미를 추적할 수 있으며, 서로 떨어져 있는 데이터 요소들의 의미를 이해할 수 있다. 언어에 대한 이해는 ‘달리(DALL-E)3’ 기술을 적용했다.

소라는 텍스트 토큰 대신 이미지를 고정 크기로 나눈 ‘패치(Patch)’를 전달해 시각 데이터에서 작동하도록 한다.

즉, 텍스트 프롬프트를 분석해 주제, 행동, 장소, 시간, 분위기 등 관련 키워드를 추출하면, 데이터셋에서 키워드와 일치하는 가장 적합한 동영상을 검색하고 이를 혼합해 새로운 동영상을 만드는 원리다.

노이즈처럼 보이는 비디오로 시작해 여러 단계를 거쳐 노이즈를 제거하면서 점차 비디오로 변형하는 ‘디퓨전(Diffusion)’ 방식을 거친다. 디퓨전 모델의 노이즈 모델링을 통한 고품질 샘플 생성과 트랜스포머의 모델링 성능을 결합했다고 볼 수 있다.

이로써 소라는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장해 더 길게 만들 수도 있다.

정지 이미지를 통해서도 동영상을 생성할 수 있다. 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채울 수도 있다.

심지어 비디오 게임 같은 가상 환경에서 일어나는 일들도 모방하고 만들어낼 수 있다. 이는 소라가 단순히 영상을 만드는 것을 넘어, 영상 속에서 일어나는 이야기나 환경을 실시간으로 생성하고 조정할 수 있음을 의미한다.

■미디어 업계 ‘쇼크’…영상 제작의 문법이 달라진다

미디어 업계는 소라가 보여주는 결과물을 가히 충격적인 수준으로 받아들이고 있다.

겉으로 보여지는 오브젝트 전반의 퀄리티가 높은 것은 물론, 카메라 워킹이나 프레임 안에서의 이상적인 구도, 각종 전문장비를 이용한 것만 같은 촬영기법 등은 전문가가 구현한 듯한 연출들이라는 평가다.

영상제작업계 중에서도 노동집약적 성격이 강하다는 애니메이션 쪽은 직업의 존폐 여부를 걱정하는 처지다. 예로, 괴물의 동작을 표현할 때 털의 정교한 움직임은 수많은 애니메이터들이 달라붙어 몇 달 동안 작업해야 하는 일이지만 AI는 이를 순식간에 처리할 수 있다.

중국 국영방송은 아예 AI가 제작한 애니메이션을 방영하기 시작했다. 소라의 등장으로 기술 발전이 뒤처질 것을 우려한 중국 정부가 즉시 자국 생성형 AI를 이용한 상용 사례를 만든 것으로 보인다.

관련 업계는 소라의 등장이 산업에 어떤 영향을 미칠지 아직 미지수지만, 영상 제작에 드는 비용을 크게 낮출 것이라는 데에는 이견이 없다.

촬영 현장이라는 개념이 없어지면서 촬영감독, 미술감독, 조명감독 등의 스태프가 무의미해진다. 오히려 AI 촬영감독, AI 미술감독 등 새로운 직업 형태가 등장할 가능성이 높다.

낮아진 제작비용은 근본적으로 콘텐츠의 기획, 작가의 역량이 더욱 중요해진다는 의미다. 누구나 PD가 될 수 있는 시장이 열리는 한편, 누구도 따라할 수 없는 PD의 역량이 각광받을 것이라는 분석이다.

■딥페이크 우려…영상은 이제 믿을 수 없는 것?

오픈AI는 아직 소라의 사용권한을 소수 전문가들에게만 부여하고 있다. 일반인들이 쓰기에는 AI 악용에 대한 이슈가 해결되지 않았기 때문이다.

오픈AI 자체적으로 ‘레드팀’을 구성해 소라의 유해성과 위험성을 평가하는 작업에 돌입한 것으로 알려졌다. 달리3 등 기존 제품에 적용된 안전 조치가 소라에도 적용될 예정이다.

가장 큰 문제는 실존하는 인물에 대한 ‘딥페이크(Deep-fake)’ 영상이다.

올 초 세계적인 팝스타 테일러 스위프트의 얼굴을 합성한 음란물이 유포되는 일이 발생한 바 있다. 올해 각국에 굵직한 선거가 예정돼 있는데 정치인의 얼굴을 합성한 영상이 선거 결과에도 영향을 미칠 수 있다는 우려가 나오고 있다.

조작이 쉬워지면서 영상 정보 자체의 급격한 신뢰도 하락은 피할 수 없어 보인다.

오픈AI는 소라가 생성한 동영상을 쉽게 감지할 수 있도록 메타데이터를 추가하는 방안을 내놨다. 이는 실제 정보와 허위 정보를 구분하는 중요한 증표가 될 전망이다. 하지만 메타데이터 역시 어렵지 않게 지울 수 있어 근본적인 해결책은 되지 못한다.

전문가들은 딥페이크 유통 단계부터 피해를 예방할 수 있도록 사전 규제를 강화해야 한다는 지적이다. 무엇보다 AI를 윤리적으로 활용할 수 있도록 사용자 스스로 선진 의식을 갖추는 것이 중요하다고 강조한다.

차종환 기자 다른기사 보기