OpenAI의 최신 발표작, Sora는 생성형 AI 영상의 새 지평을 열었습니다. 이전의 한계를 넘어서며, "역시 OpenAI 인가!" 라는 감탄을 자아냅니다.
지금 바로 확인해보세요.
Sora가 그려낸 놀라운 세계
2월 15일 미국시각으로 공개된 Sora는 단순한 프롬프트 입력만으로도 후처리 없이 놀라운 AI 영상을 만들어냈습니다.
반드시 동영상으로 직접 보아야 합니다. OpenAI Sora 홈페이지에는 그들이 자신있게 공개한 AI 영상들을 볼 수 있는데요. 아래의 유투브에서도 바로 확인하실 수 있습니다.
물리 세계에 대한 이해
비가 내린 후 거리에 고인 물에 반사된 도시의 네온 사인을 보여주는 영상은, 여자의 선글라스에 비친 횡단보도까지도 섬세하게 재현했습니다.
위 영상은 아래의 프롬프트만으로 만들어졌습니다.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
프롬프트: 스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷는다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.
Sora는 실제로 존재하지 않는 상상 속의 장면도 마치 실제인 것처럼 창조해냅니다. 예를 들어, 아기 몬스터와 녹아내리는 초를 특징으로 하는 영상은 픽사 영화의 한 장면처럼 느껴집니다.
표정 변화를 통해 생동감을 부여하며, 시간이 지남에 따라 초가 녹는 모습을 통해 몬스터의 실망감을 표현합니다.
실망한 아기 몬스터
다양한 각도와 시나리오
Sora AI는 비디오 생성 과정에서 다양한 카메라 앵글과 시나리오를 구현할 수 있음을 보여줍니다. 예를 들어, 특정 지시 없이도 영화 트레일러처럼 구성된 우주인 영상은 기획 단계부터 실행에 이르기까지 Sora AI의 창의력이 돋보입니다. 우주인 영상
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
프롬프트: 빨간색 모직 니트 오토바이 헬멧을 쓴 30세 우주인의 모험을 담은 영화 예고편, 푸른 하늘, 소금 사막, 영화 스타일, 35mm 필름으로 촬영, 생생한 색상.
영상 속 남자는 눈 위를 걸으며 우주선으로 향합니다. 하얀 눈 위에 찍히는 발자국이 제법 예술적으로 보입니다.
약 17초간의 영상에서 8번 이상 바뀌는 장면 구성을 보면, Sora AI가 창의적으로 기획하고 제작한 작품이라고 느끼게 됩니다.
드론 뷰
영상에 여러 사람이 등장하면서도, 여전히 자연스럽습니다.
그 전에 생성형 AI 영상들은 대부분 하나의 객체에 집중되거나, 여러개를 생성할 경우 물리법칙이 급격히 깨지는 모습을 보였었는데요.
이 영상에서는 정말 수 십 거의 수 백명의 사람들이 등장하는데도 어색함 없이 넘어갈 수 있었습니다.
네 명의 사람이 주인공처럼 등장하는 씬인데, 뒤 배경의 사람들도 온전히 존재할 뿐더러 카메라 워킹에도 영상에 위화감이 없습니다.
많은 사람들이 나오면서도 위화감 없는 영상에서 OpenAI의 자신감이 보입니다.
Sora가 만든 영상들은 1080p의 고해상도입니다.
그래서 생성 영상을 그냥 봐도 고화질이다 싶은데, 이렇게 클로즈업된 영상을 보면 더더욱 그 해상도에 놀라게 됩니다.
사람의 눈을 이렇게까지 클로즈업해서 표현할 수 있다는게,대체 어떻게 학습 시킨건지 궁금해지네요. 영상
카페에 앉아있는듯한 노인의 얼굴은, 그 피부 표현이며 털의 디테일이 마치 Unity로 렌더링 한듯한 디테일이 돋보입니다. 영상
OpenAI는 AI가 물리적 세계를 이해하고 시뮬레이션할 수 있도록 Sora를 학습시켰습니다.
Text-to-Video 모델인 Sora는 최대 1분 길이의 비디오를 생성할 수 있습니다.
다만, 각종 딥페이크나 악용이 우려되기 때문에 지금은 일부 전문가들에게만 공개되어 있습니다.또한 더 나은 품질로 향상시키기 위해 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하고 있습니다.
OpenAI에 따르면, Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있습니다.
모델은 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지 이해합니다.
어떻게 가능한걸까요?
Sora은 초기에 정적인 노이즈와 같은 비디오에서 시작하여, 여러 단계에 거쳐 노이즈를 점진적으로 제거하고 비디오를 세밀하게 변형시키는 확산 모델입니다.
* 우리에게 익숙한 Runway ML 등 기존의 생성형 비디오들과 마찬가지로 Diffusion model 을 기본으로 합니다. 여기에 더해, OpenAI의 Sora는 Diffusion transformer를 활용하여, 이미지와 영상 분야에서의 기술적 도약을 실현했습니다. GPT의 "T"가 transformer입니다. 정말 쉽게 말하면, 기본 이미지 영상 AI 분야에서 쓰던 diffusion model에 텍스트 LLM에서 잘 먹히던 transformer 기법을 결합한 결과물이라는 거죠. 언어를 잘 이해하면서 이미지를 생성했다 정도로 이해하시면 편합니다. (주의: 전문가가 아니라, 쉽게 풀어쓴 정도입니다)
기존 모델보다 획기적으로 발전된 이유를 알기 위해서는 바로 이 '프랜스포터 아키텍처'를 알아야 합니다.
Sora는 GPT 모델과 유사하게 Sora는 아키텍처를 사용하여 보다 긴 영상을 만들어 낼 수 있었고, 영상 컷 사이사이의 물리법칙에 위배되는 위화감들을 줄일 수 있었습니다.
이를 위해 Sora는 마치 GPT에게 토큰을 학습할때처럼, 비디오와 이미지를 조각내어 '패치'라는 단위로 학습시켰습니다. 예를들어 30s 영상은 1초에 30개의 장면으로 만들어져있는데, Sora는 이거를 어떤 단위로 쪼개어 학습 단위로 이용했다는 거죠. 덕분에 각각의 요소에서 다양한 정보를 뽑아낼 수 있었고 이를 학습에 이용할 수 있게 되었습니다. 이 부분은 공개된 논문을 직접 읽어보시는게 정확합니다.
또한 Sora는 DALL·E 및 GPT 모델에 대한 과거 연구를 기반으로 개발되었기 때문에 보다 높은 언어 이해를 가지고 있습니다.예를들어 쪼개놓은 영상 훈련 데이터를 DALL·E 3의 재캡션 기술을 사용해 분석했고, 보다 자세한 설명을 생성해 낼 수 있었습니다. 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실하게 따를 수 있습니다.
Sora는 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있습니다. 한 번에 여러 프레임에 대한 모델 예측을 제공함으로써 피사체가 일시적으로 시야에서 사라질 때에도 동일하게 유지되어야 하는 어려운 문제를 해결했습니다.
* 앵글이 계속해서 변해도 각각의 객체들이 이전의 모습을 이어갈 수 있는 이유네요.
최근 공개된 Sora에 대한 논의를 마무리하며, 한 가지 주목할 만한 내용이 있습니다.
AGI 달성을 위한 중요한 이정표
작년 샘 알트먼이 해고되기 직전, OpenAI는 Q*라는 프로젝트를 통해 인공 일반 지능(AGI)을 향한 돌파구를 이루었다고 발표했습니다. 당시 Q*는 초등학생 수준의 수학 문제를 해결할수 있는 능력으로 큰 기대를 모았습니다.
그리고, Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 개발을 위한 중요한 발판을 마련했습니다.
수학 문제 해결에 능숙한 Q* 와 실제 물리 세계를 이해하고 모델링할 수 있는 Sora의 결합, 2024년에도 OpenAI에게 눈을 뗄 수 없는 이유입니다.
세상을 바꾸는 기술에 관심이 많은 언타랩스입니다.
인공지능 기술이 나의 일과 사회에 미칠 영향을 공부하고 이를 투자와 사업에 적용하고 싶은 분들, 댓글을 통해 이야기 나누며 같이 공부하면 좋겠습니다!
의견을 남겨주세요