AI 영상도 이제 끝났습니다. 생성형 AI 영상의 최강자 OpenAI Sora

안녕하세요, 구독자님! 세상을 변화시키는 기술의 최전선에서 소식을 전하는 언타랩스입니다.

OpenAI의 최신 발표작, Sora는 생성형 AI 영상의 새 지평을 열었습니다. 이전의 한계를 넘어서며, "역시 OpenAI 인가!" 라는 감탄을 자아냅니다.

지금 바로 확인해보세요.

Sora가 그려낸 놀라운 세계

2월 15일 미국시각으로 공개된 Sora는 단순한 프롬프트 입력만으로도 후처리 없이 놀라운 AI 영상을 만들어냈습니다.

반드시 동영상으로 직접 보아야 합니다. OpenAI Sora 홈페이지에는 그들이 자신있게 공개한 AI 영상들을 볼 수 있는데요. 아래의 유투브에서도 바로 확인하실 수 있습니다.

Introducing Sora - OpenAI's text-to-video model

물리 세계에 대한 이해

비가 내린 후 거리에 고인 물에 반사된 도시의 네온 사인을 보여주는 영상은, 여자의 선글라스에 비친 횡단보도까지도 섬세하게 재현했습니다.

OpenAI, https://cdn.openai.com/sora/videos/tokyo-walk.mp4

위 영상은 아래의 프롬프트만으로 만들어졌습니다.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

​프롬프트: 스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷는다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.

또다른 도쿄의 모습입니다. 영상

OpenAI https://cdn.openai.com/sora/videos/train-window.mp4

위 영상에서는 1) 기차의 흔들림, 2) 창문 너머의 도쿄 근교 모습과, 창문에 비친 기차 안 사람들, 3) 기차가 어두운 공간에 진입하는 순간, 창문에 비친 여성이 선명해지는 현상이 매우 자연스럽게 그려졌습니다.

Sora AI가 창문에 비치는 빛과 그림자에 대한 물리적 현상을 이해하고 있는 걸까요?

경악스러울 정도인데요. 이 영상을 만들기 위해 입력한 프롬프트는 단 한 줄 입니다.

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
프롬프트: 도쿄 교외를 여행하는 기차 창문에 비친 반사

상상력의 힘

아기 몬스터와 녹아내리는 초 영상

Sora는 실제로 존재하지 않는 상상 속의 장면도 마치 실제인 것처럼 창조해냅니다. 예를 들어, 아기 몬스터와 녹아내리는 초를 특징으로 하는 영상은 픽사 영화의 한 장면처럼 느껴집니다.

OpenAI, https://cdn.openai.com/sora/videos/monster-with-melting-candle.mp4

표정 변화를 통해 생동감을 부여하며, 시간이 지남에 따라 초가 녹는 모습을 통해 몬스터의 실망감을 표현합니다.

실망한 아기 몬스터

다양한 각도와 시나리오

Sora AI는 비디오 생성 과정에서 다양한 카메라 앵글과 시나리오를 구현할 수 있음을 보여줍니다. 예를 들어, 특정 지시 없이도 영화 트레일러처럼 구성된 우주인 영상은 기획 단계부터 실행에 이르기까지 Sora AI의 창의력이 돋보입니다. 우주인 영상

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
프롬프트: 빨간색 모직 니트 오토바이 헬멧을 쓴 30세 우주인의 모험을 담은 영화 예고편, 푸른 하늘, 소금 사막, 영화 스타일, 35mm 필름으로 촬영, 생생한 색상.

영상 속 남자는 눈 위를 걸으며 우주선으로 향합니다. 하얀 눈 위에 찍히는 발자국이 제법 예술적으로 보입니다.

약 17초간의 영상에서 8번 이상 바뀌는 장면 구성을 보면, Sora AI가 창의적으로 기획하고 제작한 작품이라고 느끼게 됩니다.

OpenAI https://cdn.openai.com/sora/videos/mitten-astronaut.mp4

드론 뷰

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

영상에 여러 사람이 등장하면서도, 여전히 자연스럽습니다.

그 전에 생성형 AI 영상들은 대부분 하나의 객체에 집중되거나, 여러개를 생성할 경우 물리법칙이 급격히 깨지는 모습을 보였었는데요.

이 영상에서는 정말 수 십 거의 수 백명의 사람들이 등장하는데도 어색함 없이 넘어갈 수 있었습니다.

Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.

네 명의 사람이 주인공처럼 등장하는 씬인데, 뒤 배경의 사람들도 온전히 존재할 뿐더러 카메라 워킹에도 영상에 위화감이 없습니다.

많은 사람들이 나오면서도 위화감 없는 영상에서 OpenAI의 자신감이 보입니다.

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

Sora가 만든 영상들은 1080p의 고해상도입니다.

그래서 생성 영상을 그냥 봐도 고화질이다 싶은데, 이렇게 클로즈업된 영상을 보면 더더욱 그 해상도에 놀라게 됩니다.

사람의 눈을 이렇게까지 클로즈업해서 표현할 수 있다는게,대체 어떻게 학습 시킨건지 궁금해지네요. 영상

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

카페에 앉아있는듯한 노인의 얼굴은, 그 피부 표현이며 털의 디테일이 마치 Unity로 렌더링 한듯한 디테일이 돋보입니다. 영상

Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.

그리고 이건 꼭 봐야해!

눈에서 노니는 강아지들이 너무 귀엽습니다.🥹 영상

우리 골드 리트리버는 다들 애처러눈 눈이네요. 금빛 털에 뭍은 눈들이 매우 사실적입니다.

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

소라 AI로 브이로그도 뚝딱이네요. #고양이는귀여워

고양이의 모습도 자연스럽지만, 집사의 표정 또한 압권입니다.

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

OpenAI는 AI가 물리적 세계를 이해하고 시뮬레이션할 수 있도록 Sora를 학습시켰습니다.

Text-to-Video 모델인 Sora는 최대 1분 길이의 비디오를 생성할 수 있습니다.

다만, 각종 딥페이크나 악용이 우려되기 때문에 지금은 일부 전문가들에게만 공개되어 있습니다.또한 더 나은 품질로 향상시키기 위해 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하고 있습니다.

OpenAI에 따르면, Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있습니다.

모델은 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지 이해합니다.

어떻게 가능한걸까요?

Sora은 초기에 정적인 노이즈와 같은 비디오에서 시작하여, 여러 단계에 거쳐 노이즈를 점진적으로 제거하고 비디오를 세밀하게 변형시키는 확산 모델입니다.

* 우리에게 익숙한 Runway ML 등 기존의 생성형 비디오들과 마찬가지로 Diffusion model 을 기본으로 합니다. 여기에 더해, OpenAI의 Sora는 Diffusion transformer를 활용하여, 이미지와 영상 분야에서의 기술적 도약을 실현했습니다. GPT의 "T"가 transformer입니다. 정말 쉽게 말하면, 기본 이미지 영상 AI 분야에서 쓰던 diffusion model에 텍스트 LLM에서 잘 먹히던 transformer 기법을 결합한 결과물이라는 거죠. 언어를 잘 이해하면서 이미지를 생성했다 정도로 이해하시면 편합니다. (주의: 전문가가 아니라, 쉽게 풀어쓴 정도입니다)

Video generation models as world simulators, OpenAI, 2024

기존 모델보다 획기적으로 발전된 이유를 알기 위해서는 바로 이 '프랜스포터 아키텍처'를 알아야 합니다.

Sora는 GPT 모델과 유사하게 Sora는 아키텍처를 사용하여 보다 긴 영상을 만들어 낼 수 있었고, 영상 컷 사이사이의 물리법칙에 위배되는 위화감들을 줄일 수 있었습니다.

이를 위해 Sora는 마치 GPT에게 토큰을 학습할때처럼, 비디오와 이미지를 조각내어 '패치'라는 단위로 학습시켰습니다. 예를들어 30s 영상은 1초에 30개의 장면으로 만들어져있는데, Sora는 이거를 어떤 단위로 쪼개어 학습 단위로 이용했다는 거죠. 덕분에 각각의 요소에서 다양한 정보를 뽑아낼 수 있었고 이를 학습에 이용할 수 있게 되었습니다. 이 부분은 공개된 논문을 직접 읽어보시는게 정확합니다.

또한 Sora는 DALL·E 및 GPT 모델에 대한 과거 연구를 기반으로 개발되었기 때문에 보다 높은 언어 이해를 가지고 있습니다. 예를들어 쪼개놓은 영상 훈련 데이터를 DALL·E 3의 재캡션 기술을 사용해 분석했고, 보다 자세한 설명을 생성해 낼 수 있었습니다. 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실하게 따를 수 있습니다.

Sora는 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있습니다. 한 번에 여러 프레임에 대한 모델 예측을 제공함으로써 피사체가 일시적으로 시야에서 사라질 때에도 동일하게 유지되어야 하는 어려운 문제를 해결했습니다.

* 앵글이 계속해서 변해도 각각의 객체들이 이전의 모습을 이어갈 수 있는 이유네요.

최근 공개된 Sora에 대한 논의를 마무리하며, 한 가지 주목할 만한 내용이 있습니다.

Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 하며, 이 기능은 AGI 달성을 위한 중요한 이정표가 될 것이라고 믿습니다.
Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.