들어가며
구독자님, 1분짜리 기업 홍보 영상을 만드는 데 얼마가 들까요?
2025년 기준, 프리랜서에게 맡기면 1,000~5,000달러, 에이전시를 쓰면 15,000달러부터 시작이에요. 촬영팀 인건비, 장비 렌탈, 로케이션 비용, 후반 편집까지 합치면 금방 수만 달러를 넘기죠. 한화로 환산하면 1분에 최소 130만 원, 에이전시 급이면 2,000만 원이 넘어요.
그런데 지금 AI 영상 생성 도구의 초당 비용은 0.01~0.50달러예요. 1분 기준으로 환산하면 0.6달러에서 30달러. 가장 비싼 프리미엄 모델을 써도 전통 제작 방식의 0.2% 수준이에요. 그리고 이 비용이 지난 1년 사이에 65%나 더 떨어졌어요.
지난주, 바이트댄스가 공개한 Seedance 2.0은 이 비용 곡선 붕괴의 최신 사례예요. 그런데 이 모델이 화제가 된 건 가격이 아니라, 사진 한 장으로 사람의 목소리까지 복제해버린 사건 때문이었어요. 싸지고 강력해진 기술이 안전장치 없이 퍼지면 무슨 일이 벌어지는지, 출시 3일 만에 적나라하게 드러난 셈이에요.
오늘은 AI 영상 비용의 구조적 변화, Seedance 2.0이 보여준 기술적 전환점, 그리고 이 모든 게 왜 "영상은 돈이 있어야 만든다"는 공식을 무너뜨리는지 이야기해 볼게요.
영상 제작비, 어디까지 내려온 거예요?
숫자부터 짚어볼게요.
2024년, AI 영상 생성 서비스의 비용은 분당 50~200달러 수준이었어요. 그때만 해도 "전통 제작 대비 싸다"는 정도의 이야기였죠. 그런데 2025~2026년 사이에 판이 완전히 바뀌었어요.
현재 주요 모델의 초당 생성 비용을 보면, 가장 저렴한 Vidu 2.0은 약 0.0375달러예요. 업계 평균이 초당 0.084달러 정도인데, 이보다 55%나 저렴한 셈이에요. API를 통한 대량 생성 기준으로는 초당 0.01달러까지 내려가는 플랫폼도 등장했어요. WaveSpeedAI가 정리한 2026년 초 기준으로, 플랫폼과 기능에 따라 초당 0.01~0.50달러 범위에서 움직이고 있어요.
이걸 체감할 수 있는 비교로 바꿔볼게요. 전통적인 기업 영상 제작비가 분당 1,000~5,000달러라면, AI 생성 비용은 분당 0.6~30달러예요. 가장 비싼 AI 모델과 가장 저렴한 전통 제작을 비교해도 97% 이상의 비용 절감이에요. 소셜미디어 캠페인 영상 10편을 AI로 만들면 약 89달러, 같은 작업을 에이전시에 맡기면 10만 달러 이상이라는 분석도 있어요.
산업 채택률도 이 흐름을 뒷받침해요. AI 영상 생성 도구의 산업 채택률은 전년 대비 300% 증가했고, 초당 생성 비용은 같은 기간 65% 하락했어요. 비용이 떨어지니까 쓰는 사람이 늘고, 쓰는 사람이 늘면 경쟁이 붙어 비용이 더 떨어지는 구조예요.
이건 단순히 "AI가 싸다"는 이야기가 아니에요. 영상 제작의 진입 장벽 자체가 사라지고 있다는 뜻이에요. 이전에는 자본이 있어야 영상을 만들 수 있었어요. 이제는 아이디어만 있으면 돼요.
Seedance 2.0이 보여준 것 — 싸기만 한 게 아니에요
비용이 떨어지면 자연스럽게 나오는 질문이 있어요. "싼 만큼 품질도 떨어지는 거 아니야?" 바이트댄스의 Seedance 2.0은 이 질문에 정면으로 답한 모델이에요.
기존 AI 영상 도구들은 대부분 단일 경로로 작동했어요. 텍스트를 넣으면 영상이 나오거나, 이미지를 넣으면 영상이 나오는 식이죠. Seedance 2.0은 이걸 완전히 뒤집었어요. 텍스트, 이미지, 영상, 오디오 네 가지 입력을 동시에 처리하는 통합 멀티모달[^1] 아키텍처를 채택했거든요. 한 번에 최대 12개 파일을 참조할 수 있어요. "이 이미지는 캐릭터로, 이 영상은 카메라 워크 참조로, 이 오디오는 배경 리듬으로" — 이런 식으로 요소별 지정이 가능해요.
기존 AI 영상 도구가 자판기(버튼 누르면 결과가 나오는)였다면, Seedance 2.0은 주방(재료를 고르고 레시피를 지정하면 셰프가 만들어주는)에 가깝다고 할 수 있어요.
기술적으로 주목할 부분은 듀얼 브랜치 디퓨전 트랜스포머[^2] 아키텍처예요. 영상의 비주얼과 오디오를 별도 브랜치에서 동시에 생성하되, 시간적으로 정확히 동기화해요. 립싱크[^3]는 8개 이상의 언어를 지원하고, 스테레오 오디오(배경음악 + 환경음 + 대사)도 동시에 생성해요.
스위스 컨설팅사 CTOL은 이 모델을 실제 테스트한 뒤 "현존하는 가장 진보된 AI 영상 생성 모델"이라고 평가했어요. 물론 이런 종류의 평가는 독립성을 따져봐야 하지만, 2K 해상도 출력, 이전 버전 대비 30% 빠른 생성 속도, 60초 내 멀티숏[^4] 시퀀스 생성이라는 스펙 자체는 객관적으로 인상적이에요.
그리고 결정적으로, 워터마크가 없어요. 이건 편의성이라는 측면에서는 장점이지만, 곧 이야기할 문제의 씨앗이기도 해요.
4강 체제 — "최고"는 없고, "최적"만 있어요
현재 AI 영상 생성 시장은 4강 체제로 정리되고 있어요. 각 모델은 강점이 다르기 때문에, "어떤 게 최고냐"보다 "이 장면에는 어떤 모델이 적합한가"를 따지는 게 더 현실적이에요.
OpenAI의 Sora 2는 물리 시뮬레이션에서 최강이에요. 유리가 깨지는 파편까지 사실적으로 구현하죠. 다만 월 200달러(Pro) 구독이 필요하고 워터마크가 있어요. Google의 Veo 3.1은 시네마틱 품질이 돋보여요. 24fps 방송급 영상에 참조 이미지 4장을 지원하지만, 역시 SynthID 메타데이터 워터마크가 포함돼요. Kuaishou의 Kling 3.0은 가성비가 최고예요. 10초 클립 약 0.50달러 수준이고, 아시아 콘텐츠에 특화되어 있어요. 그리고 바이트댄스의 Seedance 2.0은 멀티모달 컨트롤과 편집 유연성에서 차별화되고, 오디오 레퍼런스 입력을 지원하는 유일한 모델이에요.
이 경쟁이 산업적으로도 실질적인 임팩트를 만들고 있다는 증거가 있어요. Kuaishou의 Kling은 2025년 12월 기준 월간 활성 사용자 약 1,200만 명, 월매출 2,000만 달러를 기록했어요. AI 영상이 더 이상 실험실 프로젝트가 아니라 실제로 돈이 되는 산업이 됐다는 뜻이에요.
Seedance 2.0 출시 직후에는 중국 증시도 반응했어요. 2026년 2월 10일, COL Group이 20% 상한가를 기록했고, Perfect World와 Shanghai Film이 각각 10% 상승했어요. CSI 300 지수도 1.4% 올랐어요. 카이위안증권의 Fang Guangzhao 애널리스트는 "영화·TV 산업의 싱귤래리티 모먼트가 될 수 있다"고 평가했어요.

사진 한 장으로 음성까지 — 비용이 낮아지면 위험도 커져요
여기서 이야기의 결이 바뀌어요. 비용이 급격히 낮아지고 품질이 높아진 기술이 안전장치 없이 퍼지면 어떤 일이 벌어지는지, Seedance 2.0은 출시 3일 만에 보여줬어요.
중국 테크 블로거 Pan Tianhong(판톈홍)은 자기 사진 한 장만 업로드했어요. 음성 샘플도, 텍스트 프롬프트도 없었어요. 그런데 Seedance 2.0이 그의 목소리 톤, 속도, 억양까지 정확히 복제한 영상을 만들어냈어요. 그가 남긴 반응에서 "공포스럽다(恐怖)"라는 표현이 6번 등장했어요.
기술적으로 이건 상당히 의미심장해요. 기존 음성 복제 도구는 최소 30초 이상의 음성 샘플이 필요했거든요. Seedance 2.0은 얼굴 이미지만으로 음성 특성을 추론해낸 거예요. 시각적 유사성(얼굴)과 음향적 정체성(목소리) 사이에 존재하던 벽 — 일종의 '디지털 에어갭' — 이 무너진 셈이에요.
바이트댄스는 즉각 대응했어요. 실인물 참조 기능을 정지하고, Jimeng·Doubao 앱에 라이브 인증(얼굴 + 음성 녹화) 절차를 도입했어요. "먼저 개발하고 나중에 규제하는" 중국 AI 개발 패턴의 전형적 사례이긴 하지만, 대응 속도 자체는 빨랐어요.
하지만 이건 바이트댄스만의 문제가 아니에요. EU가 xAI의 Grok이 비동의 성적 콘텐츠를 생성할 수 있다는 이유로 X(구 트위터) 조사에 착수한 것도 같은 맥락이에요. AI 영상 생성 비용이 떨어질수록, 악용의 비용도 함께 떨어져요. 초당 몇 센트로 누군가의 얼굴과 목소리를 복제할 수 있는 세상이 이미 와 있는 거예요.
오스왈드의 시선
저는 이 현상을 "영상 제작의 민주화"가 아니라 "영상 제작의 상품화(Commoditization)"로 봐요.
20년간 GTM 전략을 수립하면서 수없이 봐왔던 패턴이 있어요. 기술 비용이 급격히 떨어지면, 그 기술 자체는 차별화 요소가 아니게 돼요. 클라우드가 그랬고, 웹사이트 제작이 그랬어요. AI 영상도 같은 경로를 밟고 있어요.
초당 0.01달러로 영상을 만들 수 있다는 건, 역으로 영상만으로는 경쟁 우위를 확보할 수 없다는 뜻이에요. 누구나 만들 수 있으면, 중요한 건 "무엇을" 만드는가 — 즉 기획력과 스토리가 돼요. 도구가 민주화되면, 관점이 희소 자원이 되는 거예요.
데이터 전문가 입장에서 한 가지 더 짚자면, "65% 비용 하락"이라는 수치를 볼 때 측정 기준을 따져봐야 해요. API 기준 초당 비용인지, 구독 모델 환산인지, 어떤 해상도와 기능을 포함한 건지에 따라 숫자가 크게 달라져요. 제가 보기에 순수 생성 비용은 확실히 극적으로 떨어졌지만, 프롬프트 설계, 반복 생성, 후편집을 포함한 실질 제작 비용은 아직 그만큼 떨어지진 않았어요.
그리고 음성 복제 사건이 보여주듯, 기술이 싸고 강력해질수록 안전장치의 비용은 오히려 올라가야 해요. 생성 비용 곡선과 안전장치 비용 곡선이 반대 방향으로 움직이고 있다는 게 이 산업의 구조적 딜레마예요. Seedance 2.0이 워터마크를 넣지 않은 건 사용자 편의를 위한 선택이었겠지만, 그 선택의 사회적 비용은 아직 청구서가 도착하지 않은 상태예요.
마치며
정리하면 이래요.
첫째, AI 영상 생성의 초당 비용이 0.01~0.50달러까지 떨어지면서, 영상 제작은 더 이상 자본의 게임이 아니게 됐어요. 아이디어와 기획력의 게임으로 전환되고 있어요.
둘째, Seedance 2.0은 텍스트·이미지·영상·오디오를 동시에 다루는 통합 멀티모달 아키텍처로, AI 영상이 "생성"에서 "제작"으로 진화하는 전환점을 보여줬어요.
셋째, 비용이 떨어지면 악용의 비용도 함께 떨어져요. 사진 한 장으로 음성까지 복제되는 현실은, 기술 혁신 속도가 윤리적 안전장치를 이미 추월했다는 경고예요.
바이트댄스의 화산엔진 AI 알고리즘 책임자 Wu Di는 최근 인터뷰에서 "2026년 AI 영상 기술에서 1~2번의 대규모 도약이 더 있을 것"이라고 말했어요. 비용 곡선은 더 떨어질 거예요. 그때 우리에게 필요한 건 더 싼 도구가 아니라, 더 나은 질문이에요 — "이 기술로 무엇을 만들 것인가", 그리고 "무엇은 만들지 말아야 하는가".
📎 참고자료 & 더 읽기
핵심 출처
- ByteDance Seed 공식 블로그, "Seedance 2.0", 2026.02.12. : 기술 아키텍처와 데모 영상을 직접 확인할 수 있어요.
- TechNode, "ByteDance suspends Seedance 2.0 feature that turns facial photos into personal voices", 2026.02.10. : Pan Tianhong 사건의 경위와 바이트댄스 대응을 가장 상세하게 다룬 기사예요.
- Caixin Global, "ByteDance Unveils New AI Video Model, Sparking Rally in Chinese Tech Stocks", 2026.02.10. : 중국 증시 반응과 카이위안증권의 산업 분석이 담겨 있어요.
- WaveSpeedAI Blog, "Complete Guide to AI Video Generation APIs in 2026", 2025.12.27. : 주요 모델별 초당 비용 비교와 API 접근 방법을 정리한 가이드예요.
배경 지식
- vidBoard.ai, "AI Video Generation vs. Traditional Production: Cost Breakdown", 2025.10. : 전통 영상 제작 비용과 AI 생성 비용의 체계적 비교예요.
- South China Morning Post, "AI video generation: How China's Kling challenges Google's Veo, OpenAI's Sora", 2026.01.27. : Kling의 MAU 1,200만, 월매출 2,000만 달러 등 상업화 데이터의 원출처예요.
- Free AI Tools, "17 Best AI Video Generation Models Pricing, Benchmarks & API Access", 2025.12. : Artificial Analysis Video Arena 벤치마크 기반의 모델별 성능·가격 비교예요.
📝 용어 설명
[^1]: 멀티모달 (Multimodal): 텍스트, 이미지, 오디오, 영상 등 여러 형태의 데이터를 동시에 이해하고 처리하는 능력이에요. 사람이 눈(시각)과 귀(청각)와 언어를 동시에 쓰는 것과 비슷한 원리예요.
[^2]: 디퓨전 트랜스포머 (Diffusion Transformer): 노이즈(잡음)에서 시작해 점진적으로 깨끗한 영상을 만들어내는 AI 모델 구조예요. 대리석에서 형상을 깎아내듯, 잡음에서 영상을 '깎아내는' 방식이에요.
[^3]: 립싱크 (Lip-sync): AI가 생성한 캐릭터의 입 모양을 음성과 정확히 맞추는 기술이에요. 발음 단위(음소) 수준에서 동기화가 이뤄져요.
[^4]: 멀티숏 (Multi-shot): 하나의 프롬프트로 여러 장면(숏)을 연결해 생성하는 기능이에요. 장면이 바뀌어도 캐릭터의 외모와 성격이 일관되게 유지되는 게 핵심이에요.
의견을 남겨주세요