인공지능

OpenAI Sora가 압도적인 이유 | 짜게 식은 Google Lumiere

지금까지 나온 모든 생성형 AI 영상 솔루션을 무력화 시키고, 불과 한 달 전 발행된 a16z가 말한 한계를 모두 뛰어넘었습니다.

2024.02.20 | 조회 257 |
0
|

언타랩스

창업가를 위한 최신 인공지능 트렌드와 비즈니스 이야기를 전합니다.

안녕하세요, 구독자님! 세상을 변화시키는 기술의 최전선에서 소식을 전하는 언타랩스입니다.

 

미국 최고의 VC 중 하나인 Andreessen horowitz(a16z)가 생성형 AI 영상 기술에 대한 보고서를 발표한지 불과 보름만에, OpenAI의 Sora는 이 아티클에 언급된 수많은 생성형 AI 영상 솔루션들이 모두 무력화 시켰습니다. 또한 보고서가 분석한 기존 AI 영상 기술의 한계도 모두 뛰어넘는 성능을 보였습니다.

 

더군다나 지난 1월 24일 발표된 구글의 Lumiere 기억하시나요?

당시 구글은 자신들의 최신 발명품인 생성형 AI 영상 모델, Lumiere를 세상에 공개하면서 모두의 이목을 집중시켰습니다. 이 모델은 이전 세대보다 훨씬 앞선 성능을 자랑하며, 구글이 기술 경쟁에서 다시 한 번 앞서나가는 듯 했습니다. 하지만, 예상치 못한 반전이 기다리고 있었습니다. 단 3주 후, OpenAI가 Sora를 발표하면서 게임의 룰이 완전히 바뀌었습니다.

 

지난 2월 15일자로 공개된 OpenAI의 Sora 소라의 등장으로 구글의 Lumiere가 순식간에 뒷방으로 밀려났습니다.

이번 뉴스레터에서는 2023년 생성형 영상 AI의 새로운 장을 연 이래로 이어진 발전의 역사를 되짚어보며, OpenAI의 Sora가 왜 그렇게 혁신적이고 압도적이라 불리는지 분석해보려 합니다.


2023년은 AI 비디오 기술의 획기적인 발전을 한 해였습니다.

2023년 초만 해도 공개적으로 사용 가능한 Text-to-Video 모델은 거의 없었으나, 지금은 전 세계 수백만 명의 사용자들이 텍스트나 이미지 프롬프트를 사용해 짧은 비디오 클립을 제작하고 있습니다.

현재 출시된 프로덕트는 대부분 3~4초 길이의 비디오를 생성할 수 있으며, 아직은 품질 면에서 일관성이 부족하고, 문자의 일관성 유지 등 여러 문제를 완전히 해결하지 못했습니다. 그럼에도 불구하고, 지난 한 해 동안 이룬 진전은 앞으로의 발전을 기대하게 만듭니다.

이러한 AI 비디오 기술의 발전은 AI 이미지 생성이 발전했던 것과 유사하게, 그 폭발적인 성장의 초입에 있는 느낌입니다.

2023년 생성형 AI 영상 프로덕트, a16z
2023년 생성형 AI 영상 프로덕트, a16z

 

생성형 AI 영상 제품 (2023년 12월 기준)

주요 제품 : Runway, Pika, Genmo, Kaiber, Stability(Stable Video Diffusion)

2023년 12월까지만해도, 생성형 AI 영상 제품은 주로 스타트업에 의해 주도되고 있으며, Discord 봇과 같은 형태로 시작된 많은 제품들이 있습니다.

물론 제품이 성숙해지면 자체 웹사이트나 모바일 앱을 구축하기도 합니다.

 

그런데, 빅테크 기업들은 어디 갔을까요?

메타의 Emu Video, 구글의 VideoPoetLumiere, 바이트댄스의 MagicVideo.와 같은 모델을 발표하는 화려한 게시물을 보셨을 수도 있지만, 공개 제품 목록에서는 찾아볼 수 없습니다.

바이드댄스(틱톡 모회사)가 발표한 MagicVideo

대형 기술 회사들도 이 분야에 관심을 보이고 있으나, 대부분은 아직 공개적으로 제품을 출시하지 않고 연구 결과나 데모 비디오를 공유하는 데 집중하고 있습니다. 이는 법적, 안전, 저작권 문제로 인한 도전과제 때문일 수 있으며, 이러한 상황은 스타트업에게 선점 기회를 제공합니다.

 

이러한 제품을 사용해 본 적이 있다면, 영상 AI 기술이 여전히 개선해야 할 점이 많다는 것을 알고 있을 겁니다. 모델이 사용자의 프롬프트와 일치하는 멋진 클립을 생성하는 '마법의 순간'을 얻을 수는 있지만, 비교적 드문 경우입니다. 전문가 수준의 클립을 얻으려면 다시 생성을 몇 번 누르고 결과물을 자르거나 편집해야 하는 경우가 더 흔합니다.

 

미국에서 가장 큰 VC 중 하나인 a16z는 2024년 1월 31일에 공개한 보고서에 다음과 같은 영상 AI의 도전과제를 제시합니다.

<Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024>

  1. 제어
  • 장면에서 일어나는 일(예: "앞으로 걸어가는 남자"라고 말하면 그 움직임이 묘사된 대로 움직이는가?)과 '카메라'가 움직이는 방식을 모두 제어할 수 있는가로 나누어 볼 수 있는데
  • 후자의 경우, 많은 제품에서 카메라를 확대/축소하거나 이동하거나 특수 효과를 추가할 수 있는 기능을 별도로 추가하며 해결했습니다.
  • '설명한 대로 움직이는가'라는 전자의 문제는 해결하기가 더 어렵습니다. 이는 근본적인 모델 품질 문제(모델이 사용자의 지시를 이해하고 실행할 수 있는가)입니다. 때문에 대부분의 회사는 유저에게 컨트롤 할 수 있는 버튼과 옵션을 제공했습니다.
  • 런웨이의 모션 브러시는 이미지의 특정 영역을 강조 표시하고 움직이는 방식을 결정할 수 있는 좋은 예입니다.

2. 시간적 일관성

  • 캐릭터, 오브젝트, 배경이 프레임 간에 일관성을 유지하면서 다른 것으로 변형되거나 뒤틀리지 않게 하려면 어떻게 해야 할까?
  • 이는 공개적으로 사용 가능한 모든 모델에서 매우 흔한 문제입니다. 오늘날 시간적 일관성이 있는 동영상이 몇 초 이상 길어지는 것을 본다면, 동영상을 촬영하고 AnimateDiff 프롬프트 트래블과 같은 기능을 사용하여 스타일을 변형한 동영상일 가능성이 높습니다.

3. 길이

  • 영상의 지속시간. 과연 몇 초를 초과하는 비디오 클립을 만들 수 있을까?
  • 이는 시간적 일관성과 밀접한 관련이 있습니다. 많은 회사에서 생성할 수 있는 동영상의 길이를 제한하는 이유는 몇 초가 지나면 일관성을 보장할 수 없기 때문입니다. 긴 형식의 AI 동영상을 보면 짧은 클립으로 구성되어 있고 수백 개는 아니더라도 수십 개의 프롬프트가 필요하다는 것을 알 수 있습니다.
런웨이의 모션 브러시: 이미지의 특정 영역을 강조 표시하고 움직이는 방식을 제어할 수 있도록 영역을 지정

또다른 모션 브러시 활용 예시: https://twitter.com/i/status/1748437362735243742

 

2024년 1월 기준, AI 영상 프로덕트들의 수준 비교

Prompt: “Snow falling on a city street, photorealistic”

Genmo https://a16z.com/wp-content/uploads/2024/01/genmo-snow-falling-photorealistic.gif
Genmo https://a16z.com/wp-content/uploads/2024/01/genmo-snow-falling-photorealistic.gif
Runway https://a16z.com/wp-content/uploads/2024/01/runway-snow-falling-photorealistic.gif
Runway https://a16z.com/wp-content/uploads/2024/01/runway-snow-falling-photorealistic.gif
Stable Video Diffusion https://a16z.com/wp-content/uploads/2024/01/svd-snow-falling-photorealistic.gif
Stable Video Diffusion https://a16z.com/wp-content/uploads/2024/01/svd-snow-falling-photorealistic.gif
Pika Labs https://a16z.com/wp-content/uploads/2024/01/pika-snow-falling.gif
Pika Labs https://a16z.com/wp-content/uploads/2024/01/pika-snow-falling.gif

 

이러한 상황에서 지난 1월, 구글은 획기적인 영상 AI 모델 Lumiere를 공개했습니다.

Google Lumiere
Text-to-Video, Google Lumiere
Text-to-Video, Google Lumiere
아래와 같은 프롬프트를 넣어 얻은 결과물입니다. - Aurora Borealis Green Loop Winter Mountain Ridges Northern Lights - Astronaut on the planet Mars making a detour around his base

유저의 의도가 잘 살아있고, 꽤나 고화질의 동영상이 생성되었습니다.

그러나 여전히 영상은 짧았고, 하나의 객체 표현에 제한되어 있습니다.

 

그러나 이번 OpenAI가 공개한 Sora는 모든 면에서 압도적입니다.

보다 더 복잡한 세상을 표현해 내면서도 고해상도이며, 최대 1분으로 클립을 벗어나 진정한 영상 생성이 시작되었습니다.

구글 루미에르가 약 5~6초의 클립을 만들어 냈다면, OpenAI의 Sora는 최대 1분까지 생성해 낼 수 있습니다.

하나씩 살펴볼까요?

 

제어

OpenAI의 Sora는 GPT의 Transformer 기술을 결합한 Diffusion model입니다. 덕분에 유저가 말하는 텍스트 언어를 잘 이해하고 구현해 냅니다.

 

예를들어, 이 프롬프트를 볼까요?

A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors. 영상 타입 : Movie trailer 영상 내용 : the adventures of the 30 year old space man 주인공 모습 : the 30 year old space man wearing a red wool knitted motorcycle helmet 배경 : blue sky, salt desert 스타일 : cinematic style, shot on 35mm film, vivid colors

각각의 요소를 이해한 Sora가 만들어낸 영상입니다.

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

장면에서 일어나는 일이 설명한 대로 움직이는가 O

카메라'가 움직이는 방식을 모두 제어할 수 있는가 O

 

이 영상의 프롬프트를 보면 알 수 있지만 별도로 컷 별 상세 요구사항을 넣지도 않았지만, 여러 장면으로 나누어 영화처럼 트레일러 형태로 구성되었습니다.

우주선을 향해 걷는 주인공을 보여주기도 하고, 주인공을 알아서 클로즈업하기도 합니다.

여기에 그 어떤 후처리도 없었다고 OpenAI는 밝히고 있습니다.

 

시간적 일관성

이는 생성형 AI 영상 모델이 가진 가장 큰 문제 중 하나였습니다.

영상의 길이가 길어질수록 영상 속 사물의 형체가 무너지고 물리법칙을 무시했습니다.

유저가 Runway ML의 기술을 이용하여 정말 많은 노력을 들여 짧은 클립을 이어 붙여 만든 무비 트레일러 영상을 보면 이전 기술의 한계가 명확히 보입니다.

시간이 길어질수록 객체의 현실감이 떨어지기 때문에, 각 장면은 길어야 3초밖에 유지되지 않습니다. 그마저도 자세히 보면, 손가락이 5개였다가 4개였다가 6개로 계속 변하고 있습니다.

손가락이 6개인 병사
손가락이 6개인 병사
손가락이 4개, 6개인 병사
손가락이 4개, 6개인 병사

하지만 공개된 OpenAI의 Sora를 보면 영상 하나가 10초를 넘어가더라도 영상 속 객체들이 온전히 모습을 유지하며 심지어 카메라 앵글이 바뀌어도 마치 실제 촬영처럼 같은 객체로서 보입니다.

Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.

이 영상은 20초짜리 입니다.

이 짧은 프롬프트만으로 시장의 모습, 수 백명의 사람들이 걷는 장면, 카메라 무빙, 클로즈업 되는 중심인물 4명, 그리고 도시의 전경으로 마무리 되는 전환까지 한 번에 만들어졌습니다.

시간적 일관성이라는 측면에서 설명해 보자면,

여러 장면이 생성되는 수 초, 수 십 초 동안 각각의 객체들이 일관되게 존재하며, 마치 짜여진 각본대로 계속 움직입니다. 물리법칙을 꽤나 잘 지키며 말이죠. 장면이 중심인물을 비춘다고 해서 배경의 사람들이 흐려진다거나 찌그러지지 않습니다.

길이

마지막으로 영상의 길이는 설명이 필요 없습니다.

구글 루미에르가 약 5~6초의 클립이었다면, OpenAI의 Sora는 최대 1분의 영상을 만들어냅니다.

물론 아직도 1분은 짧습니다.

이번에 공개된 Sora의 예시에서도 대부분의 영상은 여전히 8초, 10초, 20초에 불과했습니다. 그러나, 최대 1분의 영상에서도 물리세계의 법칙을 준수한 현실적인 영상을 생성해 내었다는 것은 놀랍습니다.

 

왜냐하면 이 모든게 불과 ChatGPT가 세상에 나온 뒤 1년 3개월만에 벌어진 일이니깐요.

2022년 처음 텍스트 분야에서 GPT-3.5가 나오고, 사람들은 곧 영상으로 발전할거야 말은 했지만 그게 이렇게 빠를거라고는 아무도 생각하지 못했을 겁니다.

불과 3주 전에 공개된 구글 루미에르에 엄청난 환호를 보낸 우리니깐요.

유투브의 구글 Lumiere 검색 결과 중 일부
유투브의 구글 Lumiere 검색 결과 중 일부

구글의 Lumiere와 OpenAI의 Sora 모두 아직은 논문만 공개되어 일반 대중이 사용해 볼 수는 없습니다.

하지만 우리가 쉽게 사용할 수 있는 툴로 공개될 날이 멀지 않았다는 것은 분명해 보입니다.

 

어느새 정말 가까운 미래로 다가온 생성형 AI 영상

이런 빠른 변화와 발전 속에서 우리는 어떤 준비를 해야 할까요?

인공지능의 발전에 두려워하기보다, 이 기술이 우리의 이야기를 어떻게 더 풍부하게 만들지에 대해 즐거운 고민을 해보는 것은 어떨까요?

 


세상을 바꾸는 기술에 관심이 많은 언타랩스입니다.

인공지능 기술이 나의 일과 사회에 미칠 영향을 공부하고 이를 투자와 사업에 적용하고 싶은 분들, 댓글을 통해 이야기 나누며 같이 공부하면 좋겠습니다!

언타랩스와 함께, AI의 흥미로운 발전을 계속 따라가고 싶다면?

🚀 뉴스레터 구독

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

언타랩스 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

© 2024 언타랩스

창업가를 위한 최신 인공지능 트렌드와 비즈니스 이야기를 전합니다.

뉴스레터 문의 : untitledlabs.official@gmail.com

자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 070-8027-2840