OpenAI Sora가 압도적인 이유 | 짜게 식은 Google Lumiere

안녕하세요, 구독자님! 세상을 변화시키는 기술의 최전선에서 소식을 전하는 언타랩스입니다.

미국 최고의 VC 중 하나인 Andreessen horowitz(a16z)가 생성형 AI 영상 기술에 대한 보고서를 발표한지 불과 보름만에, OpenAI의 Sora는 이 아티클에 언급된 수많은 생성형 AI 영상 솔루션들이 모두 무력화 시켰습니다. 또한 보고서가 분석한 기존 AI 영상 기술의 한계도 모두 뛰어넘는 성능을 보였습니다.

Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024 |...

2023 was a breakout year for AI video. At the start of the year, no public text-to-video models existed, and there's a lot to come.

a16z.com

더군다나 지난 1월 24일 발표된 구글의 Lumiere 기억하시나요?

당시 구글은 자신들의 최신 발명품인 생성형 AI 영상 모델, Lumiere를 세상에 공개하면서 모두의 이목을 집중시켰습니다. 이 모델은 이전 세대보다 훨씬 앞선 성능을 자랑하며, 구글이 기술 경쟁에서 다시 한 번 앞서나가는 듯 했습니다. 하지만, 예상치 못한 반전이 기다리고 있었습니다. 단 3주 후, OpenAI가 Sora를 발표하면서 게임의 룰이 완전히 바뀌었습니다.

지난 2월 15일자로 공개된 OpenAI의 Sora 소라의 등장으로 구글의 Lumiere가 순식간에 뒷방으로 밀려났습니다.

이번 뉴스레터에서는 2023년 생성형 영상 AI의 새로운 장을 연 이래로 이어진 발전의 역사를 되짚어보며, OpenAI의 Sora가 왜 그렇게 혁신적이고 압도적이라 불리는지 분석해보려 합니다.

2023년은 AI 비디오 기술의 획기적인 발전을 한 해였습니다.

2023년 초만 해도 공개적으로 사용 가능한 Text-to-Video 모델은 거의 없었으나, 지금은 전 세계 수백만 명의 사용자들이 텍스트나 이미지 프롬프트를 사용해 짧은 비디오 클립을 제작하고 있습니다.

현재 출시된 프로덕트는 대부분 3~4초 길이의 비디오를 생성할 수 있으며, 아직은 품질 면에서 일관성이 부족하고, 문자의 일관성 유지 등 여러 문제를 완전히 해결하지 못했습니다. 그럼에도 불구하고, 지난 한 해 동안 이룬 진전은 앞으로의 발전을 기대하게 만듭니다.

이러한 AI 비디오 기술의 발전은 AI 이미지 생성이 발전했던 것과 유사하게, 그 폭발적인 성장의 초입에 있는 느낌입니다.

생성형 AI 영상 제품 (2023년 12월 기준)

주요 제품 : Runway, Pika, Genmo, Kaiber, Stability(Stable Video Diffusion)

2023년 12월까지만해도, 생성형 AI 영상 제품은 주로 스타트업에 의해 주도되고 있으며, Discord 봇과 같은 형태로 시작된 많은 제품들이 있습니다.

물론 제품이 성숙해지면 자체 웹사이트나 모바일 앱을 구축하기도 합니다.

그런데, 빅테크 기업들은 어디 갔을까요?

메타의 Emu Video, 구글의 VideoPoet과 Lumiere, 바이트댄스의 MagicVideo.와 같은 모델을 발표하는 화려한 게시물을 보셨을 수도 있지만, 공개 제품 목록에서는 찾아볼 수 없습니다.

바이드댄스(틱톡 모회사)가 발표한 MagicVideo

대형 기술 회사들도 이 분야에 관심을 보이고 있으나, 대부분은 아직 공개적으로 제품을 출시하지 않고 연구 결과나 데모 비디오를 공유하는 데 집중하고 있습니다. 이는 법적, 안전, 저작권 문제로 인한 도전과제 때문일 수 있으며, 이러한 상황은 스타트업에게 선점 기회를 제공합니다.

이러한 제품을 사용해 본 적이 있다면, 영상 AI 기술이 여전히 개선해야 할 점이 많다는 것을 알고 있을 겁니다. 모델이 사용자의 프롬프트와 일치하는 멋진 클립을 생성하는 '마법의 순간'을 얻을 수는 있지만, 비교적 드문 경우입니다. 전문가 수준의 클립을 얻으려면 다시 생성을 몇 번 누르고 결과물을 자르거나 편집해야 하는 경우가 더 흔합니다.

미국에서 가장 큰 VC 중 하나인 a16z는 2024년 1월 31일에 공개한 보고서에 다음과 같은 영상 AI의 도전과제를 제시합니다.

제어

장면에서 일어나는 일(예: "앞으로 걸어가는 남자"라고 말하면 그 움직임이 묘사된 대로 움직이는가?)과 '카메라'가 움직이는 방식을 모두 제어할 수 있는가로 나누어 볼 수 있는데
후자의 경우, 많은 제품에서 카메라를 확대/축소하거나 이동하거나 특수 효과를 추가할 수 있는 기능을 별도로 추가하며 해결했습니다.
'설명한 대로 움직이는가'라는 전자의 문제는 해결하기가 더 어렵습니다. 이는 근본적인 모델 품질 문제(모델이 사용자의 지시를 이해하고 실행할 수 있는가)입니다. 때문에 대부분의 회사는 유저에게 컨트롤 할 수 있는 버튼과 옵션을 제공했습니다.
런웨이의 모션 브러시는 이미지의 특정 영역을 강조 표시하고 움직이는 방식을 결정할 수 있는 좋은 예입니다.

2. 시간적 일관성

캐릭터, 오브젝트, 배경이 프레임 간에 일관성을 유지하면서 다른 것으로 변형되거나 뒤틀리지 않게 하려면 어떻게 해야 할까?
이는 공개적으로 사용 가능한 모든 모델에서 매우 흔한 문제입니다. 오늘날 시간적 일관성이 있는 동영상이 몇 초 이상 길어지는 것을 본다면, 동영상을 촬영하고 AnimateDiff 프롬프트 트래블과 같은 기능을 사용하여 스타일을 변형한 동영상일 가능성이 높습니다.

3. 길이

영상의 지속시간. 과연 몇 초를 초과하는 비디오 클립을 만들 수 있을까?
이는 시간적 일관성과 밀접한 관련이 있습니다. 많은 회사에서 생성할 수 있는 동영상의 길이를 제한하는 이유는 몇 초가 지나면 일관성을 보장할 수 없기 때문입니다. 긴 형식의 AI 동영상을 보면 짧은 클립으로 구성되어 있고 수백 개는 아니더라도 수십 개의 프롬프트가 필요하다는 것을 알 수 있습니다.

런웨이의 모션 브러시: 이미지의 특정 영역을 강조 표시하고 움직이는 방식을 제어할 수 있도록 영역을 지정

또다른 모션 브러시 활용 예시: https://twitter.com/i/status/1748437362735243742

2024년 1월 기준, AI 영상 프로덕트들의 수준 비교

Prompt: “Snow falling on a city street, photorealistic”

Genmo https://a16z.com/wp-content/uploads/2024/01/genmo-snow-falling-photorealistic.gif

Runway https://a16z.com/wp-content/uploads/2024/01/runway-snow-falling-photorealistic.gif

Stable Video Diffusion https://a16z.com/wp-content/uploads/2024/01/svd-snow-falling-photorealistic.gif

Pika Labs https://a16z.com/wp-content/uploads/2024/01/pika-snow-falling.gif

이러한 상황에서 지난 1월, 구글은 획기적인 영상 AI 모델 Lumiere를 공개했습니다.

Google Lumiere

아래와 같은 프롬프트를 넣어 얻은 결과물입니다.
- Aurora Borealis Green Loop Winter Mountain Ridges Northern Lights
- Astronaut on the planet Mars making a detour around his base

유저의 의도가 잘 살아있고, 꽤나 고화질의 동영상이 생성되었습니다.

그러나 여전히 영상은 짧았고, 하나의 객체 표현에 제한되어 있습니다.

그러나 이번 OpenAI가 공개한 Sora는 모든 면에서 압도적입니다.

보다 더 복잡한 세상을 표현해 내면서도 고해상도이며, 최대 1분으로 클립을 벗어나 진정한 영상 생성이 시작되었습니다.

구글 루미에르가 약 5~6초의 클립을 만들어 냈다면, OpenAI의 Sora는 최대 1분까지 생성해 낼 수 있습니다.

하나씩 살펴볼까요?

제어

OpenAI의 Sora는 GPT의 Transformer 기술을 결합한 Diffusion model입니다. 덕분에 유저가 말하는 텍스트 언어를 잘 이해하고 구현해 냅니다.

예를들어, 이 프롬프트를 볼까요?

A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

영상 타입 : Movie trailer
영상 내용 : the adventures of the 30 year old space man
주인공 모습 : the 30 year old space man wearing a red wool knitted motorcycle helmet
배경 : blue sky, salt desert
스타일 : cinematic style, shot on 35mm film, vivid colors

각각의 요소를 이해한 Sora가 만들어낸 영상입니다.

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

장면에서 일어나는 일이 설명한 대로 움직이는가 O

카메라'가 움직이는 방식을 모두 제어할 수 있는가 O

이 영상의 프롬프트를 보면 알 수 있지만 별도로 컷 별 상세 요구사항을 넣지도 않았지만, 여러 장면으로 나누어 영화처럼 트레일러 형태로 구성되었습니다.

우주선을 향해 걷는 주인공을 보여주기도 하고, 주인공을 알아서 클로즈업하기도 합니다.

여기에 그 어떤 후처리도 없었다고 OpenAI는 밝히고 있습니다.

시간적 일관성

이는 생성형 AI 영상 모델이 가진 가장 큰 문제 중 하나였습니다.

영상의 길이가 길어질수록 영상 속 사물의 형체가 무너지고 물리법칙을 무시했습니다.

유저가 Runway ML의 기술을 이용하여 정말 많은 노력을 들여 짧은 클립을 이어 붙여 만든 무비 트레일러 영상을 보면 이전 기술의 한계가 명확히 보입니다.