[번역] fal.ai: 2026 생성형 미디어 현황(State of Generative Media)

들어가며

이제 이커머스 팀이든 비주얼 디자이너든, 누구나 단 몇 분 만에 바로 쓸 수 있는 이미지를 수백 장씩 만들어낼 수 있다. 불과 몇 년 전만 해도 이 정도 규모의 작업을 처리하려면 수천 명의 사진작가와 스튜디오, 제작 인력이 필요했다. 이커머스를 비롯한 디지털 산업 전반의 비용 구조가 변화하고 있다. 생성형 미디어 인프라가 확산되면서 콘텐츠 제작을 가로막던 기존 장벽들이 빠르게 무너지고 있는 것이다.

생성형 기술이 가져온 가장 큰 변화는 사용자와 개발자 모두에게 창작의 가능성이 활짝 열렸다는 점이다. 초기에는 엔터테인먼트 분야가 생성형 미디어 도입을 이끌었지만, 2025년에는 이커머스, 광고, 크리에이티브 스튜디오 등 실질적인 업무 현장에서 본격적인 성장이 나타났다. 연말 기준으로 전체 기업의 88%가 하나 이상의 비즈니스 기능에 AI를 도입한 것으로 집계됐다.

제프리 카첸버그는 이 근본적인 변화를 이렇게 표현했다.

"인류 역사상 이런 수준의 스토리텔링 민주화는 없었습니다." — 제프리 카첸버그, WndrCo 창립 파트너·드림웍스 애니메이션 설립자

이러한 변화의 배경에는 생성형 기술의 빠른 발전이 있다. 모델의 품질과 제어 가능성, 안정성이 과거에는 전문 제작팀만 구현할 수 있었던 수준에 도달했기 때문이다.

이 보고서는 2025년 생성형 기술이 어떻게 발전했고, 주요 트렌드가 어떤 방식으로 가속화되었는지를 살펴본다. 다양한 조직과 개인 사용자를 대상으로 수집한 설문 데이터를 핵심 근거로 삼았으며, 10월 제너레이티브 미디어 컨퍼런스에서 나온 업계 리더들의 발언과 생성형 기술 지형 변화를 다룬 주요 시장 조사 결과도 함께 담았다. 생성형 미디어는 우리가 이야기를 전하는 방식, 비즈니스를 구축하는 방식, 사용자와 소통하는 방식을 근본적으로 바꾸고 있다.

이는 디지털 시대의 새로운 장이 열리고 있다는 신호다.

모델 성숙도

2025년, 동영상 생성 모델은 전문 훈련을 받지 않은 일반 관찰자도 실제 영상과 구별하기 어려운 수준, 즉 시각적 튜링 테스트를 통과하는 단계에 이르렀다. 이미지, 영상, 오디오 전반에 걸쳐 기술 역량이 크게 높아졌고, 각 모달리티는 비슷한 성숙 단계에 접어들었다.

이미지 편집 기능은 한때 침체기를 겪는 듯했던 분야에 새로운 활기를 불어넣었다. 모든 산업과 모달리티에서 인프라 최적화가 진행되며 레이턴시가 충분히 낮아졌고, 이를 바탕으로 실시간에 가까운 응용이 가능해졌다.

개별 모델 출시가 중요한 변곡점을 만들어낸 것은 사실이지만, 2025년의 더 큰 흐름은 '규모'에 있었다. 모델 출시는 더 이상 산발적인 돌파구가 아니었다. 모든 모달리티에 걸쳐 쉼 없이 이어지며 모든 창작 매체의 확장을 이끌었다.

2025년 fal 플랫폼에 통합된 모델

이미지 생성 성능

2025년, 이미지 생성은 실험적 수준의 워크플로우를 실제 제작 파이프라인으로 끌어올렸다. 블랙 포레스트 랩스는 프롬프트 충실도, 텍스트 렌더링 정확도, 인체 자세 표현력이 기존 모델보다 월등히 뛰어난 Flux.1 Dev를 출시했다. 이 모델은 이후 수개월간 경쟁사들이 따라야 할 기준점을 세웠다. 오픈AI의 GPT Image 1은 신규 사용자들 사이에서 하나의 문화적 사건이 되었으며, 스튜디오 지브리 스타일의 이미지가 소셜 플랫폼에서 수십억 뷰를 기록했다.

블랙 포레스트 랩스는 캐릭터 일관성, 스타일 전환, 로컬 편집을 거의 실시간에 가까운 속도로 구현하는 전용 이미지 편집 모델 Flux Kontext도 선보였다. Qwen Image Edit는 LoRA 기능을 갖춘 오픈소스 이미지 편집 모델 중 하나로 등장해, 엔터프라이즈급 컴퓨팅 예산 없이도 개발자들이 파인튜닝을 진행할 수 있는 길을 열었다.

구글 딥마인드의 Nano Banana (v1)는 기술적 전문 지식이 없는 사용자도 자연어 입력만으로 제작 수준의 콘텐츠를 만들 수 있다는 것을 보여줬다. 바이트댄스의 Seedream 4.0은 출력 품질을 유지하면서도 더 빠른 생성 속도와 낮은 연산 비용을 동시에 실현했다.

바이트댄스의 모델 Seedream 4.5로 생성한 이미지

동영상 생성 성능

10개월 동안 8개의 주요 동영상 생성 모델이 출시되며 치열한 경쟁이 이어졌다. 일반적인 기업 소프트웨어에서는 보기 드문 속도로 각 회사가 모델을 내놓으면서 성능 선두 자리가 여러 차례 뒤바뀌었다. 구글 딥마인드는 2024년 12월 Veo 2를 출시해 물리적으로 정확한 영상 표현을 새로운 품질 기준으로 세웠다. 이 모델의 물리 시뮬레이션은 중력, 유체 역학, 물체 간 상호작용을 정밀하게 구현하며 제작 수준 동영상 생성의 기준점을 제시했다.

2025년 2월 출시된 PixVerse v4는 기술 전문가를 넘어 일반 크리에이터도 쉽게 접근할 수 있는 문턱을 낮추며, 정교한 동영상 생성이 대중에게도 충분히 통할 수 있음을 보여줬다. 2025년 4월 출시된 Kling 2.0은 첫 프레임과 마지막 프레임을 지정하는 기능을 도입해, 크리에이터가 생성 시퀀스의 서사 흐름을 세밀하게 제어하고 일관된 캐릭터 표현을 유지할 수 있게 했다.

2025년 5월 출시된 Veo 3는 소셜 미디어와 콘텐츠 채널을 위한 빠른 제작 워크플로우를 가능하게 했다. 빠른 속도와 높은 품질에 네이티브 오디오 생성 기능까지 갖춰, 콘텐츠 크리에이터가 며칠씩 걸리던 작업을 몇 시간 안에 생성·수정·게시까지 마칠 수 있게 됐다. 2025년 여름에는 경쟁이 한층 더 뜨거워졌다. 미니맥스의 MiniMax Hailuo 02와 바이트댄스의 Seedance 1.0이 모두 2025년 6월에 출시되며, 서로 다른 기술 접근 방식으로도 동시에 최고 수준의 성능을 달성할 수 있다는 것을 증명했다.

2025년 7월 디카트가 선보인 MirageLSD는 라이브 스트림 디퓨전 방식으로 실시간 프레임 단위 동영상을 생성했다. 이 방식은 배치 처리 모델로는 대응하기 어려웠던 라이브 스트리밍과 인터랙티브 엔터테인먼트 분야의 새로운 가능성을 열었다. 2025년 9월 출시된 Sora 2는 네이티브 오디오와 뛰어난 멀티샷 생성을 하나의 결과물로 통합해, 별도의 수동 편집 없이도 자연스러운 장면 전환을 구현했다.

2025년에는 4~6주마다 주요 모델이 출시됐으며, 성능 향상과 함께 엔터테인먼트, 마케팅, 교육 전반에 걸쳐 활용 범위도 꾸준히 넓어졌다.

보이스, 음악 및 오디오 합성

2025년 오디오는 생성형 미디어 분야 중 실제 제작에 가장 근접한 영역 중 하나로 자리잡았다. ElevenLabs Turbo v2.5는 약 250~300ms의 저지연 텍스트 음성 변환 시스템으로 가장 널리 쓰이는 모델 중 하나이며, 2025년 5월 출시된 MiniMax Speech-02는 32개 언어에서 인간 목소리와 99%의 유사도를 달성했다. 한 생성형 보이스 사용자는 이렇게 말했다. "300ms 이하는 음성 AI의 기본 조건입니다. 그 이상이 되는 순간 사용 경험 자체가 망가지거든요."

오픈소스 대안들도 접근성을 크게 넓혔다. Apache 2.0 라이선스 기반의 Kokoro TTS는 8,200만 개 파라미터로 제작 수준의 품질을 구현했고, 나리 랩스의 Dia 1.6B TTS는 초실감 대화 합성 기능을 선보였다.

일레븐랩스의 Eleven Music(2025년 8월)은 전적으로 라이선스 데이터만으로 학습한 최초의 주요 AI 음악 모델로, 아티스트 동의 기반의 참여 방식과 50대 50 로열티 분배 구조를 새롭게 확립했다. 수노는 고품질 프롬프트 기반 노래 생성으로 빠르게 소비자 시장에 침투했다. Mirelo SFX v1.5(2025년 10월)와 같은 모델은 영상에 자동으로 싱크를 맞춘 효과음과 배경음악을 생성했다.

3D 모델링 및 비전 언어

2025년 3D 생성은 단순한 실험적 결과물 수준을 넘어 실제 제작에 활용 가능한 에셋으로 성숙했으며, 모델링 작업 기간이 몇 주에서 몇 분으로 단축됐다. 텐센트는 2025년 1월 Hunyuan 3D 2.0을 출시했고, 디모스는 2025년 4월 40억 개 파라미터 규모의 HyperRodin Gen 1.5를 선보였다. 메시는 2025년 7월 버전 5를, 10월에는 v6 프리뷰를 출시했으며, 안드레센 호로위츠의 게임 개발자 설문에서도 주목받은 바 있다.

2025년 9월 출시된 Tripo 3.0은 300만 명 이상의 크리에이터와 700개 이상의 기업에 서비스를 제공했다. 마이크로소프트의 TRELLIS 2는 12월에 출시됐으며, 3초 이내에 고해상도 에셋을 생성해 실시간 응용 가능성을 열었다.

3D 모델 분야에서는 추가적인 혁신이 기대되지만, 몇 가지 현실적인 한계도 존재한다. 생성된 메시는 애니메이션 워크플로우에 활용하려면 여전히 토폴로지 정리가 필요하고, 정교한 기계 구조물에서는 기하학적 정확도가 떨어지는 경우도 있다. 하드 서피스 모델링에는 상당한 수동 보정이 요구될 수 있다.

월드 모델

"창의성이란 기계가 기계적인 결과물을 뽑아내는 게 아닙니다. VFX 작업실에 접근조차 할 수 없었던 아이가 이제 그런 일을 해낼 수 있게 된 겁니다. 우리는 인간의 창의성을 가속하고 있어요." — 스티브 장, 제너레이티브 미디어 컨퍼런스 (2025년 10월 24일)

월드 모델은 모든 모달리티가 하나로 수렴되는 인터랙티브 3D 환경을 동시에 생성하고 시뮬레이션한다. 딥마인드는 2024년 12월 Genie 2를 공개하며, 단 하나의 이미지 프롬프트만으로 플레이 가능한 3D 환경을 만들어내는 기술을 선보였다.

사용자와 AI 에이전트가 키보드와 마우스로 조작하면, 물리 법칙이 일관되게 적용되는 공간 안에서 모델이 행동의 결과를 시뮬레이션한다. 시스템은 10~20초 동안 일관성을 유지하며, 일부 환경은 최대 1분까지 지속되기도 한다.

페이페이 리의 월드 랩스는 2025년 11월 첫 상용 월드 모델 제품인 마블을 출시했다. 마블은 텍스트, 이미지, 영상, 파노라마를 바탕으로 지속 가능한 3D 환경을 생성하며 다운로드도 지원한다. 생성된 환경은 가우시안 스플랫, 메시, 영상 형태로 출력할 수 있으며 유니티, 언리얼 엔진, VR 헤드셋과도 통합된다.

월드 모델은 동영상 생성의 시간적 이해와 3D 모델링의 공간적 추론을 실시간 인터랙션으로 결합하고 있다. 덕분에 자율주행 차량이 시뮬레이션 도시 환경에서 학습하거나, 게임 개발자가 스케치 하나로 세계를 빠르게 프로토타입하는 것이 가능해졌다. 다만 현재 시스템은 완전한 프로덕션 배포보다는 프로토타입 단계에서 주로 활용되고 있다.

최근 발전 동향

파운데이션 모델은 해상도, 시간적 일관성, 물리적 사실감 등 핵심 지표에서 계속 발전해 나갈 것이다. 다만 모델이 근본적인 한계에 가까워질수록 개선 속도는 점차 둔화될 가능성이 높다. 그 한계를 넘어서려면 현재의 디퓨전 및 트랜스포머 방식을 뛰어넘는 아키텍처 혁신이 필요하다. 최근 잇따른 모델 출시들은 그러한 새로운 방향의 가능성을 시사하고 있다.

"저는 스테이블 디퓨전을 처음 써본 날부터 생성형 미디어에 완전히 빠져들었어요. 매일 피드에 올라오는 AI 콘텐츠 품질이 눈에 띄게 좋아지고 있고, 이제는 어디서든 볼 수 있는 시대가 됐죠." — 저스틴 무어, 제너레이티브 미디어 컨퍼런스 (2025년 10월 24일)

블랙 포레스트 랩스의 모델 Flux 2 Max로 생성한 이미지

Flux.2는 아키텍처 개선을 통해 품질은 유지하면서 추론 속도를 3배 높여, 대량 이미지 생성의 경제적 구조를 바꿨다. 향상된 프롬프트 이해력과 텍스트 렌더링 개선은 실제 배포 환경에서 꾸준히 제기되던 문제들을 해결했다.

알리바바 통이 랩의 Wan 2.6은 2025년 12월 16일 출시되어 네이티브 오디오-비주얼 싱크 기능을 도입했다. 이 모델은 1080p 해상도로 15초 영상을 생성하면서 대사, 효과음, 배경 음악을 자연스럽게 동기화하고, 멀티샷 서사 전반에 걸쳐 캐릭터 일관성을 유지한다.

Kling O1은 동영상 편집 분야에 새로운 변화를 가져왔다. 기존에는 수동으로 연결해야 했던 복잡한 다단계 편집 지시를 처리할 수 있게 되면서, 정교한 동영상 작업에서 사람의 개입을 크게 줄였다.

메타의 SAM 3D는 2025년 11월 19일 출시됐으며, 단일 이미지에서 기하학 구조, 텍스처, 공간 배치를 포함한 3D 객체를 재구성한다. 일상 사물에 특화된 SAM 3D Objects와 인체 자세 추정에 특화된 SAM 3D Body, 두 가지 버전으로 제공되며 기존 방법 대비 높은 성능을 보였다.

도입 현황

2025년 내내 기업의 생성형 AI 도입이 빠르게 확산됐으며, 도입 속도는 산업 분야와 활용 목적에 따라 차이가 있었다. 개인 사용자들은 새로운 소비자 애플리케이션을 통해 별도의 기술 지식 없이도 곧바로 활용할 수 있게 됐다.

반면 기업은 다른 차원의 장벽에 직면했는데, 모델 오케스트레이션의 복잡성, 통합 방식 결정, 비용 관리가 모두 배포 속도를 제약하는 요인으로 작용했다. 기업들은 생성형 기술에 접근하기 위해 애플리케이션(65%)과 API(62%)를 거의 비슷한 비율로 활용했으며, 두 가지를 병행하는 경우도 많았다.

배포 성숙도는 모달리티에 따라 편차가 있었다. 아직 31%의 기업이 생성형 모델을 워크플로우에 도입하기 위한 프로토타이핑 단계에 머물러 있다. 크리에이티브 팀은 코드 없이 빠르게 반복 작업할 수 있는 생성형 애플리케이션을 선호한 반면, 엔지니어링 조직은 프로그래밍 방식의 제어와 워크플로우 자동화를 위해 API 통합을 우선시했다.

프론티어 모델 접근이 점점 일반화되면서, 도입 범위는 초기 엔터테인먼트 중심의 실험을 넘어 확장되고 있다. 광고, 이커머스, 크리에이티브 제작 분야의 기업들은 일관된 성능과 확장성, 비용 효율을 갖춘 안정적인 프로덕션 인프라로 무게중심을 옮기고 있다.

기업 ROI

생성형 미디어의 투자 대비 수익은 일반적인 기업용 소프트웨어에 비해 예상보다 빠르게 실현됐다. 다만 세부적으로 보면 결과는 여전히 엇갈린다. 강한 ROI를 달성한 기업들은 명확한 지표를 갖춘 특정 고가치 활용 사례에 집중한 반면, 광범위한 실험에만 나선 기업들은 기대에 못 미치는 결과를 보고했다.

측정 가능한 ROI를 달성한 기업들은 효율 향상, 비용 절감, 매출 확대 세 가지 범주에 집중했다. 74%의 기업이 자사 이니셔티브가 ROI 기대치에 부합하거나 이를 초과했다고 답했다.

크리에이티브 마케팅 플랫폼 핀멘토의 경우, 품질 극대화보다 콜드 스타트 지연을 없애는 것이 핵심 과제였다. 마케터들이 복잡도와 정밀도를 높이기 전에 수십 가지 변형을 빠르게 테스트해야 했기 때문이다. 도입 이후 생성 시간은 80% 단축됐고, 기능 출시 속도는 두 배로 빨라졌다.

게임 스튜디오는 호스팅 제어보다 속도가 더 중요했는데, 경쟁 우위가 경쟁사보다 먼저 최신 기능을 제공하는 데서 나왔기 때문이다. 디지털 크리에이티브 플랫폼 레이어는 이 인사이트를 바탕으로, 소규모 팀으로도 24시간 이내에 새 모델을 스튜디오에 출시할 수 있는 구조를 갖췄다.

생성형 AI를 본격적으로 도입한 기업들은 단순히 새로운 기술을 배포하는 데 그치지 않고 구조적인 변화를 함께 단행했다. 43%는 워크플로우와 제작 파이프라인을 재설계했고, 33%는 직원 교육 및 역량 강화에 투자했으며, 30%는 미디어 생성 인프라를 위한 전용 예산을 별도로 배정했다.

산업별 도입 사례

광고 에이전시

마케팅 조직의 생성형 AI 도입률은 2024년 61%에서 2025년 75%로 상승했다. 그러나 80%는 자신의 업무 중 절반 미만에만 AI를 활용하고 있다고 답했다. 주저하는 가장 큰 이유는 법적 우려로, 94%가 지적재산권 소유 및 법적 책임 문제를 도입의 걸림돌로 꼽았다. 어도비 크리에이티브 스위트, DAM 시스템, 캠페인 플랫폼 등 기존 크리에이티브 워크플로우와의 통합도 예상보다 훨씬 까다로웠다.

성과를 낸 에이전시들은 주요 에셋 제작이 아닌 콘텐츠 변형과 A/B 테스트에 생성형 미디어를 활용했다. 마케터의 72%가 2025년 하반기 가장 중요한 트렌드로 생성형 AI를 꼽았지만, 캠페인 전 과정에 완전히 통합했다고 답한 비율은 30%에 그쳤다. 이 격차는 시급히 해결해야 할 인프라 과제를 드러낸다. 캠페인 규모의 프로그래밍 방식 생성, 브랜드 일관성 유지, 일부 업종에서 요구되는 법적 컴플라이언스를 위한 감사 추적이 그것이다.

이커머스 플랫폼

이커머스 플랫폼은 높은 도입률을 보였으며, 제품 이미지 생성이 핵심 인프라 기능으로 자리잡았다. 매트 쾨니히는 이커머스만의 핵심 제약을 이렇게 표현했다.

"모델의 창의성이 제품 충실도를 절대 해쳐서는 안 됩니다. 이미지와 영상은 모든 제품을 있는 그대로 충실하게 표현해야 합니다." — 매트 쾨니히, 쇼피파이 프로덕트 매니저

영화 및 제작 스튜디오

영화·TV 제작 분야는 주요 운영 워크플로우에 신중하면서도 낙관적인 자세로 생성형 AI 도입을 이어가고 있다. 메이저 스튜디오들은 제작 예산의 3% 미만을 생성형 AI에 배정하는 한편, 계약 관리, 허가, 기획을 위한 AI 기반 도구에 운영 지출의 7%를 돌리고 있다. 독립 스튜디오는 다른 양상을 보였는데, 2022년 이후 65개 이상의 AI 중심 영화 스튜디오가 설립되어 제작 파이프라인 전반에 생성형 AI를 활용하고 있다.

전체 미디어 기업 중 68%의 도입률은 주요 콘텐츠 제작보다는 프리비주얼라이제이션, 자동화 편집, 후반 제작 VFX 보강에서의 활용을 반영한다. 그럼에도 미디어 기업의 AI 지출은 2024~2029년 사이 연평균 37.2% 성장률로 26억 달러에서 125억 달러로 늘어날 것으로 전망되며, 현재의 보수적인 제작 예산에도 불구하고 지속적인 투자 의지를 보여준다.

이처럼 분야별로 생성형 기술 도입 속도가 다른 것은, 기존 스튜디오는 운영 비용 최적화에 집중하는 반면 신규 진입자들은 생성형 기술로 재편된 제작 환경을 새로운 경쟁 기반으로 삼고 있음을 보여준다. 카첸버그는 제너레이티브 미디어 컨퍼런스에서 그 이면의 구조적 제약을 이렇게 짚었다.

"위대한 혁신은 기존 대기업 안에서 일어나지 않습니다. 그들은 과거를 내려놓고 미래로 나아가지 못하거든요." — 제프리 카첸버그, WndrCo 창립 파트너·드림웍스 애니메이션 설립자

게임 기업

게임 스튜디오는 68%가 AI를 워크플로우에 적극 도입하며 높은 채택률을 보였다. 게임 분야에서 생성형 미디어가 성장한 배경에는 전통적인 에셋 제작 일정으로는 따라가기 어려운 빠른 반복 작업의 필요성과, 보다 예측 가능한 생성에 초점을 맞춘 기술 인프라가 있었다. 스튜디오의 40%가 생산성 20% 이상 향상을, 25%가 비용 20% 이상 절감을 경험했다.

활용 사례는 컨셉 아트 제작 가속화부터 텍스처 생성, NPC 대사 변형, 애니메이션 인비트위닝, AI 생성 디테일이 더해진 절차적 레벨 생성까지 다양했다. 인프라 선택 기준으로는 최고 품질보다 생성 속도(41%)와 안정성(37%)이 우선시됐는데, 이는 게임 분야가 생성형 미디어 API를 적극 채택하는 이유를 잘 설명한다. 프로그래밍 방식의 제어가 개발 파이프라인과의 긴밀한 통합을 가능하게 하기 때문이다.

게임 분야의 인프라 요구사항은 다른 분야와 결이 다르다. 동적 콘텐츠를 위한 실시간 생성, 에셋 라이브러리를 위한 배치 처리, 게임 엔진 통합이 필요하며, 빠른 모델 배포와 예측하기 어려운 플레이어 부하에 유연하게 대응할 수 있는 인프라에 대한 수요도 높다. 버케이 귀르는 생성형 게임의 미래를 이렇게 그렸다.

"텍스트-투-게임은 텍스트-투-비디오의 연장선입니다. 본질적으로 영상 출력을 인터랙티브하게 만드는 거예요. 그리 먼 이야기가 아닙니다. 월드 모델의 훌륭한 활용 사례가 될 겁니다." — 버케이 귀르, fal 공동창업자 겸 CEO

영상과 인터랙티비티의 이러한 융합은 콘텐츠 제작에서 세계 시뮬레이션으로의 근본적인 전환을 의미한다. 텍스트-투-게임 기능이 실현되면 플레이어의 행동에 실시간으로 반응하는 동적인 AI 생성 게임 환경이 가능해지며, 게임은 미리 설계된 경험에서 매 순간 새롭게 만들어지는 서사로 변모하게 된다.

교육

교육 분야는 거대한 시장 규모와 역사적으로 낮은 기술 도입률이 맞물려 생성형 미디어의 가장 큰 미개척 기회 중 하나로 꼽힌다. 소냐 황은 이 가능성을 이렇게 표현했다.

"저는 교육 활용 사례가 가장 기대됩니다. 교육은 정말 중요한 시장인데, 설득력 있는 비즈니스 케이스가 충분히 만들어지지 않았어요. 학습자에게 가장 이상적인 고품질 콘텐츠를 대규모로 만들어내는 것이 가장 큰 병목입니다." — 소냐 황, 세쿼이아 파트너

기존 교육 콘텐츠 제작은 황이 지적한 것과 같은 제약에 직면해 있다. 고품질의 개인화된 콘텐츠를 대규모로 만드는 것은 경제적으로 부담이 너무 컸다. 괴르켐 유르트세벤도 교육 분야의 생성형 AI에 대해 강한 전망을 내놓았다.

"동영상 생성 측면에서 교육 시장은 아직 거의 손도 안 댄 상태입니다. 잠재력은 엄청난데, 품질과 예측 가능성이 갖춰지면 새로운 활용 사례가 열리기를 기다리고 있는 거죠." — 괴르켐 유르트세벤, fal 공동창업자 겸 CTO

현재는 일관성과 제어 가능성의 한계로 교육 분야 배포에 제약이 있다. 교육 콘텐츠는 수 주에 걸친 수업 시퀀스 전반에서 사실적 정확성, 문화적 민감성, 교육과정의 일관성이 요구되기 때문이다. 이러한 역량이 성숙해지면 교육은 대규모 개인 맞춤형 학습 수요에 힘입어 생성형 미디어 최대 시장 중 하나로 부상할 수 있다.

개발자 경험

2025년에는 인프라 품질이 개발 속도를 결정짓는 핵심 요인으로 떠올랐다. 생성형 AI 배포를 성공적으로 확장한 기업들은 모델 선택보다 최적화된 서빙 인프라를 우선시했다. 게임 분야에서는 GPU 관리보다 핵심 비즈니스 역량에 자원을 집중해야 한다는 인식이 자리를 잡았다.

구현

일관된 긍정적 ROI 보고에도 불구하고, 실제 프로덕션 규모의 배포를 달성하는 데는 여전히 과제가 남아 있다. 인프라 제공업체마다 속도와 안정성에 큰 차이가 있었고, 콜드 스타트 문제가 사용자 흐름을 끊는 원인이 됐다.

인프라 선택 기준 — 비용 최적화 58%, 모델 가용성 49%, 생성 속도 41%, 안정성 및 가동 시간 37%, 데이터 보안 및 컴플라이언스 34%

도입 패턴을 보면 팀들이 이미지와 영상 워크로드 전반에서 어떤 인프라로 수렴하고 있는지, 그리고 어느 제공업체가 프로덕션 환경에서 신뢰를 얻고 있는지를 파악할 수 있다.

인프라 제공업체별 채택률 — 이미지 생성 API: fal.ai 50%, Google AI Studio 33%, OpenAI 39%, Replicate 15% / 동영상 생성 API: fal.ai 44%, Google AI Studio 56%, Replicate 22%

이러한 기술적 선택은 시간이 지날수록 누적 효과를 낸다. 하루 수백만 건의 요청을 처리하는 제품은 분기별 기능 업데이트가 아닌, 커널과 네트워크 레이어에서의 지속적인 최적화를 통해 경쟁 우위를 쌓아간다. 인프라 파트너의 대응 속도는 순수 성능만큼이나 중요했으며, 테스트와 벤치마크 협업에 대한 신뢰와 의지가 핵심 선택 기준이 됐다.

모델 오케스트레이션 및 관리

기업 프로덕션 배포에서는 중간값 기준으로 14개의 서로 다른 모델을 활용하고 있다. 단일 '옴니 모델'이 모든 생성형 작업을 처리할 것이라는 기대는 빗나갔다. 실제 배포에서는 특수한 응용 분야일수록 범용 방식보다 특화된 최적화가 일관되게 더 나은 성능을 냈다.

"모든 종류의 토큰을 생성하는 옴니 모델을 예상했지만, 특정 출력에 최적화해야 한다는 게 점점 분명해지고 있어요. 가장 뛰어난 업스케일링 모델은 업스케일링만 하고, 이런 특수한 작업들은 각자의 가중치를 가진 전용 모델이 필요합니다." — 괴르켐 유르트세벤, fal 공동창업자 겸 CTO

이처럼 모델 수가 늘어날수록 기업 조직이 감당하기 어려운 복잡성도 함께 커진다. 여러 제공업체에 걸쳐 모델 선택, 테스트, 전환, 성능 모니터링을 단순화하는 도구에 대한 수요는 상당히 크다.

특정 기업 활용 사례에서는 프로덕션 배포 시 클로즈드 API보다 오픈소스 모델을 선호하는 경향이 커지고 있다. 오픈소스의 투명성 덕분에 기업 팀은 모델 동작을 직접 검증하고, 데이터 격리를 보장하며, 벤더 종속 없이 온프레미스 배포를 할 수 있다. 제니퍼 리는 제너레이티브 미디어 컨퍼런스에서 이런 시각을 공유했다.

"코드와 모델이 공개된 오픈소스 모델이 있다면 테스트도 해보고 직접 다뤄볼 수 있어요. 클로즈드 모델에 비해 셀프 호스팅 진입 장벽이 훨씬 낮습니다." — 제니퍼 리, 안드레센 호로위츠 매니징 파트너

셀프 호스팅 여부와 관계없이, 기업은 추론 최적화, 멀티 테넌시 효율, 지리적 분산 측면에서 높은 역량을 필요로 한다. 파운데이션 모델이 점점 범용화될수록, 인프라 결정이 생성형 배포의 속도와 성패를 가르게 될 것이다.

다음 세대

2026년 이후 생성형 미디어 발전의 방향은 분명하다. 세 가지 큰 흐름이 이를 주도할 것이다. 멀티모달 발전(예: 월드 모델), 인프라 최적화, 그리고 크리에이티브 도구의 민주화다.

전문성의 무게중심은 실행보다 오케스트레이션으로 이동할 것이다. 기술적 역량은 넘쳐나지만 안목은 희소해진다. 기술 역량이 범용화될수록 근본적인 가치의 원천도 달라진다. "결국 중요한 건 스토리텔링이다."

카첸버그가 말한 창작의 민주화는 새로운 형태로 현실이 될 것이다. 개인 창업자가 대형 제작사와 구별되지 않는 비주얼 콘텐츠를 만들어내는 시대가 온다. 생성형 기술을 제품에 깊이 녹여낸 기업들은 오케스트레이션, 배포 안정성, 도메인 특화 최적화로 경쟁하게 될 것이다.

전문가 수준의 미디어 생성이 그 어느 때보다 쉬워진 지금, 넘기 어려운 경쟁 우위는 생성형 미디어를 가장 잘 활용할 줄 아는 팀에게 돌아갈 것이다.

원문: https://fal.ai/gen-media-report-volume-1

본 콘텐츠는 2026년 2월 19일 fal.ai에서 발행한 "The State of Generative Media 2026" 리포트를 번역한 것입니다.

저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.

리포트