아티클

[번역] a16z: AI 아바타, 불쾌한 골짜기를 벗어나다

AI 아바타 기술이 불쾌한 골짜기를 넘어 얼굴 표정, 립싱크, 신체 움직임의 자연스러움을 구현하며 콘텐츠 제작, 광고, 교육 등 다양한 산업 분야에서 혁신적인 발전을 이루고 있다.

2025.04.11 | 조회 398 |
0
|
0xPlayer의 프로필 이미지

0xPlayer

-

첨부 이미지

AI가 단순히 콘텐츠를 생성하는 것을 넘어 직접 구현할 때 어떤 일이 벌어질까요? AI는 이미 실제같은 사진, 영상, 목소리 생성 능력을 완벽히 익혀 시각적, 청각적 튜링 테스트를 통과했습니다. 앞으로의 큰 도약은 AI 아바타 분야입니다. 바로 얼굴과 목소리를 합쳐 말하는 캐릭터를 만드는 것입니다.

얼굴 이미지를 만들고, 움직이게 한 다음 목소리를 입히면 되지 않을까요? 그렇게 간단하지 않습니다. 진짜 어려운 점은 입 모양을 맞추는 것뿐만 아니라 얼굴 표정과 몸짓이 함께 자연스럽게 움직이게 하는 것입니다. 놀라서 입이 벌어졌는데 뺨과 턱이 전혀 움직이지 않는다면 어색하겠죠! 또 목소리는 신나게 들리는데 얼굴은 반응이 없다면, 사람 같다는 느낌이 완전히 깨져버립니다.

이 분야에서 눈에 띄는 발전이 이루어지고 있습니다. AI 아바타는 이미 콘텐츠 제작, 광고, 기업 소통에 활용되고 있어요. 현재 모델들은 대부분 말하는 얼굴 부분에만 집중되어 있습니다. 기능은 있지만 아직 한계가 있습니다. 그래도 최근 몇 달 사이에 흥미로운 발전들이 있었고, 곧 의미 있는 진보가 이루어질 것이 분명해 보입니다.

이 글에서는 현재 제대로 작동하는 기술, 앞으로 나올 기술, 그리고 제가 20개가 넘는 제품을 직접 테스트한 결과를 바탕으로 오늘날 가장 인상적인 AI 아바타 제품들을 살펴보겠습니다.

AI 캐릭터를 만들기 위해 20개가 넘는 제품을 테스트했습니다. 수년간 이러한 툴을 사용해 온 사람으로서, 지금 우리가 만들어낼 수 있는 것들에 정말 감탄하게 됩니다.
AI 캐릭터를 만들기 위해 20개가 넘는 제품을 테스트했습니다. 수년간 이러한 툴을 사용해 온 사람으로서, 지금 우리가 만들어낼 수 있는 것들에 정말 감탄하게 됩니다.

연구는 어떻게 진화해왔을까요?

AI 아바타는 일반적인 AI 연구보다 훨씬 복잡한 과제를 안고 있습니다. 말하는 얼굴을 만들기 위해 모델은 음성 소리(음소)와 그에 맞는 입 움직임(시소리) 사이의 관계를 사실적으로 배워야 합니다. 이 관계가 "어긋나면" 입과 목소리가 따로 놀거나 완전히 어색해 보이게 됩니다.

문제가 더 복잡해지는 이유는 말할 때 입만 움직이는 게 아니라는 점입니다. 얼굴의 다른 부분들도 함께 움직이고, 상체와 때로는 손까지도 움직이죠. 또한 모든 사람은 자기만의 독특한 말하기 방식을 가지고 있습니다. 여러분이 좋아하는 연예인과 비교해 여러분이 어떻게 말하는지 생각해보세요. 같은 문장을 말하더라도 입 움직임이 다를 겁니다. 여러분의 말하는 방식을 그들 얼굴에 적용하면 어색해 보일 것입니다.

지난 몇 년간 이 분야는 연구 측면에서 크게 발전했습니다. 제가 2017년 이후 AI 토킹 헤드 관련 논문 70개 이상을 검토한 결과, 모델 구조에서 뚜렷한 발전 흐름을 발견했습니다. CNN과 GAN에서 시작해 NeRF와 3D 가변 모델 같은 3D 기반 접근법으로, 그 다음엔 트랜스포머와 디퓨전 모델로, 그리고 최근에는 DiT(트랜스포머 구조 기반 디퓨전 모델)로 진화했습니다. 아래 타임라인은 각 연도별 가장 많이 인용된 논문들을 보여줍니다.

첨부 이미지

생성물의 품질과 모델 기능 모두 놀라울 정도로 좋아졌습니다. 초기 방식은 매우 제한적이었습니다. 한 사람의 사진 한 장으로 시작해 얼굴 아래쪽 절반을 가리고, 음성 입력에서 얻은 얼굴 특징점을 기반으로 새로운 입 움직임을 만드는 정도였습니다. 이런 모델들은 제한된 양의 고품질 립싱크 데이터로 훈련됐으며, 대부분 얼굴 부분만 클로즈업된 영상이었죠. "오바마 립싱크" 같은 더 현실적인 결과물은 대상 인물의 수많은 영상 시간이 필요했고, 결과물도 매우 제한적이었습니다.

오늘날의 모델들은 훨씬 더 유연하고 강력해졌습니다. 이들은 상체나 전신 움직임, 실감나는 말하는 얼굴, 그리고 역동적인 배경 움직임까지 모두 한 영상에서 만들어낼 수 있습니다. 이런 최신 모델들은 훨씬 더 큰 데이터셋에서 기존 텍스트-투-비디오 모델처럼 훈련됐으며, 다양한 움직임 속에서도 립싱크 정확도를 유지하기 위한 여러 기술을 활용합니다.

이에 대한 첫 선보임은 2월에 공개된 바이트댄스의 옴니휴먼-1(OmniHuman-1) 모델이었습니다(최근 드리미나에서 사용 가능). 이 분야는 빠르게 발전하고 있습니다 - 헤드라(Hedra)는 3월에 캐릭터-3(Character-3)를 출시했는데, 이는 저희의 일대일 테스트에서 대부분의 사용 사례에서 최고 수준으로 평가됐습니다. 헤드라는 이 말하는 웨이모 같은 비인간 캐릭터에도 잘 작동하며, 사용자가 텍스트로 감정과 움직임을 지시할 수 있게 해줍니다.

AI 애니메이션 분야에서도 새로운 활용 사례들이 등장하고 있으며, 스튜디오 지브리 스타일 같은 트렌드에 영향을 받고 있습니다.

아래 영상은 시작 이미지 프레임과 오디오 트랙만으로 만들어졌습니다. 헤드라는 캐릭터의 립싱크와 얼굴 및 상체 움직임을 생성했습니다. 배경에서 움직이는 캐릭터들도 함께 확인해보세요.


AI 아바타의 실제 활용 사례

AI 아바타는 정말 다양한 곳에 활용됩니다. 캐릭터와상호작용하거나 누군가 말하는 영상을 보는 모든 상황을 떠올려보세요. 이미 일반 소비자부터 중소기업, 심지어 대기업까지 폭넓게 사용되고 있습니다.

첨부 이미지

위 이미지는 아직 초기 시장 지도라고 볼 수 있습니다. 이 분야는 빠르게 변화하고 있고, 제품 간 구분도 아직은 대략적인 수준입니다. 많은 제품들이 이론상으로는 이런 모든 사용 사례에 맞는 아바타를 만들 수 있지만, 실제로는 모든 면에서 뛰어난 작업 과정을 구축하고 모델을 최적화하기가 쉽지 않다는 것을 발견했습니다. 아래에서는 시장의 각 영역별로 AI 아바타를 어떻게 활용하는지 예를 들어 설명하겠습니다.


소비자: 캐릭터 생성

이제는 누구나 이미지 한 장으로 움직이는 캐릭터를 만들 수 있게 되었고, 이는 창의성 측면에서 엄청난 가능성을 열어주었습니다. AI로 이야기를 들려주고 싶은 일반 사람들에게 이것이 얼마나 중요한지 말로 다 표현하기 어렵습니다. 초기 AI 영상이 "그냥 이미지 슬라이드쇼"라고 비판받았던 이유 중 하나는 말하는 캐릭터가 없었기 때문이죠(아니면 단순히 음성만 깔리는 정도였습니다).

무언가가 실제로 말을 하게 만들면 콘텐츠가 훨씬 더 재미있어집니다. 일반적인 이야기 영상을 넘어서 AI 스트리머, 팟캐스터, 뮤직비디오 같은 것들도 만들 수 있게 되었죠. 여기 소개된 영상들은 모두 헤드라(Hedra)로 만들어졌는데, 사용자가 시작 이미지 하나와 오디오 클립이나 대본만으로 생동감 있게 말하는 캐릭터를 만들 수 있게 해줍니다.

이미지 대신 영상으로 시작한다면, 싱크(Sync)는 립싱크를 적용해 캐릭터의 입 모양이 음성에 맞게 움직이도록 만들어줍니다. 실제 사람의 연기를 활용해 캐릭터를 움직이게 하고 싶다면, 런웨이 액트-원(Runway Act-One)이나 비글(Viggle) 같은 도구들이 그걸 가능하게 해줍니다.

AI로 캐릭터에 생명을 불어넣는 제가 가장 좋아하는 크리에이터 중 하나는 뉴럴 비즈(Neural Viz)입니다. 그의 시리즈 "모노버스(The Monoverse)"는 글루론이라는 생명체들이 사는 포스트-휴먼 세계를 그립니다. 이제 진입 장벽이 크게 낮아졌기 때문에 AI로 만든 쇼의 폭발적 증가나 독립 인플루언서의 등장은 시간문제일 뿐입니다.

Unanswered Oddities – Episode 1: Humans (youtube.com/@NeuralViz)

아바타를 실시간으로 스트리밍하기가 쉬워지면서, 소비자 대면 기업들이 UI의 핵심 요소로 아바타를 도입할 것으로 예상됩니다. 그저 목소리만 있는 게 아니라, 얼굴과 성격을 가진 완전한 캐릭터인 실시간 AI "코치"와 함께 언어를 배우는 걸 상상해보세요. 프락티카(Praktika) 같은 회사들은 이미 이런 서비스를 제공하고 있으며, 시간이 지날수록 더욱 자연스러워질 겁니다.


중소기업: 리드 생성

광고는 AI 아바타의 가장 성공적인 첫 활용 사례 중 하나가 되었습니다. 배우와 제작팀을 고용하는 대신, 기업들은 이제 매우 사실적인 AI 캐릭터를 통해 제품을 홍보할 수 있게 되었죠. 크리에이티파이(Creatify)아케이즈(Arcads) 같은 회사들은 이 과정을 매우 간편하게 만들었습니다. 제품 링크만 제공하면 대본 작성부터 영상 소스와 이미지 가져오기, AI 배우 "캐스팅"까지 자동으로 광고를 만들어줍니다.

이는 전통적인 광고 제작 비용을 감당할 수 없었던 기업들에게 새로운 가능성을 열어주었습니다. 특히 온라인 쇼핑몰, 게임, 소비자용 앱 분야에서 인기가 높습니다. 여러분도 유튜브나 틱톡에서 AI가 만든 광고를 이미 보셨을 겁니다. 이제는 B2B 기업들도 유즈 랩스(Yuzu Labs)비드야드(Vidyard) 같은 도구를 활용해 콘텐츠 마케팅이나 맞춤형 접근 방식에 AI 아바타 기술을 적용하려 시도하고 있습니다.

이런 제품들은 대부분 실제 인물의 복제본이든 독특한 캐릭터든 AI 배우와 제품 사진, 영상 클립, 음악 같은 여러 요소를 결합합니다. 사용자는 이런 요소들이 나타나는 위치를 직접 조절하거나, "자동 모드"로 설정해 제품이 알아서 영상을 구성하도록 할 수 있습니다. 대본을 직접 작성하거나 AI가 생성한 대본을 사용하는 것도 가능합니다.


기업: 콘텐츠 확장

마케팅을 넘어서, 기업들은 AI 아바타의 다양한 응용 분야를 발굴하고 있습니다. 몇 가지 예를 들자면:

학습 및 개발: 대부분의 대기업은 직원 교육용 영상을 제작하며, 이는 신입 사원 교육부터 규정 준수, 제품 사용법, 역량 개발까지 다양합니다. 신테시아(Synthesia) 같은 AI 도구는 이 과정을 자동화해 콘텐츠 제작을 더 빠르고 확장 가능하게 만듭니다. 일부 직무는 지속적인 영상 기반 훈련이 필요한데, 예를 들어 영업 담당자가 아남(Anam) 같은 제품의 AI 아바타와 협상 기술을 연습하는 것을 상상해보세요.

현지화: 기업이 여러 국가에 고객이나 직원을 두고 있다면, 콘텐츠를 다른 언어로 현지화하거나 문화적 요소를 바꿀 필요가 있습니다. AI 배우는 영상을 각 지역에 맞게 개인화하는 과정을 빠르고 쉽게 만들어줍니다. 일레븐랩스(ElevenLabs) 같은 회사의 AI 음성 번역 기술 덕분에, 기업은 자연스러운 목소리로 수십 개 언어로 동일한 영상을 제작할 수 있습니다.

임원 존재감: AI 아바타를 통해 임원들은 자신의 페르소나를 복제해 직원이나 고객을 위한 맞춤형 콘텐츠를 만들어 자신의 영향력을 확장할 수 있습니다. 모든 제품 발표나 "감사" 메시지를 직접 촬영하는 대신, 회사는 CEO나 제품 책임자의 현실적인 AI 분신을 만들 수 있죠. 또한 델파이(Delphi)시세로(Cicero) 같은 회사들이 만든 기술로 사상가들이 평소에는 1대1로 만날 수 없는 사람들과 소통하고 질문에 답변할 수 있게 되었습니다.


AI 아바타의 구성 요소는 무엇인가요?

첨부 이미지

설득력 있는 AI 아바타를 만드는 일은 쉽지 않습니다. 사실감을 주는 각 요소마다 독특한 기술적 난관이 존재하기 때문이죠. 이는 단순히 불쾌한 골짜기를 피하는 것을 넘어 애니메이션, 음성 합성, 실시간 렌더링의 근본적인 문제들을 해결하는 작업입니다. 다음은 필요한 요소들, 이것들을 제대로 구현하기 어려운 이유, 그리고 현재 어떤 발전이 이루어지고 있는지에 대한 분석입니다:

  • 얼굴 - 실제 사람을 복제하든 새로운 캐릭터를 만들든, 영상의 모든 프레임에서 일관성을 유지하면서 말할 때 자연스럽게 움직이는 얼굴이 필요합니다. 상황에 맞는 표정 연출은 여전히 어려운 과제입니다(예: "정말 피곤해요"라고 말하면서 실제로 하품하는 아바타).
  • 목소리 - 목소리는 실제처럼 들려야 하며 캐릭터와 잘 어울려야 합니다. 10대 소녀의 얼굴에 중년 여성의 목소리가 나오면 어색하겠죠. 저희가 만난 대부분의 AI 아바타 회사들은 다양한 음성 라이브러리를 갖춘 일레븐랩스(ElevenLabs)를 사용하며, 이를 통해 사용자 자신의 목소리도 복제할 수 있습니다.
  • 립싱크 - 품질 좋은 립싱크를 구현하는 것은 까다로운 일입니다. 싱크(Sync)와 같은 회사들이 이 문제에만 전문적으로 집중하고 있죠. 모차(MoCha, 메타에서 개발)옴니휴먼(OmniHuman) 같은 다른 모델들은 더 방대한 데이터셋으로 훈련되었으며, 오디오에 맞춰 얼굴 생성을 정교하게 조절하는 다양한 기술을 활용합니다.
  • 신체 - 아바타는 단순히 공중에 떠 있는 머리일 수 없습니다! 최신 모델들은 움직일 수 있는 전신 아바타를 구현할 수 있지만, 이를 확장하고 사용자에게 전달하는 측면에서는 아직 초기 단계입니다.
  • 배경 - 아바타는 진공 상태에 존재하지 않습니다. 주변 환경의 조명, 깊이감, 상호작용은 전체 장면과 어울려야 합니다. 이상적으로는 아바타가 제품을 집어들거나 주변 물체와 상호작용할 수 있어야 합니다.

아바타가 실시간 대화에 참여하려면(예: 줌 회의에 참석하는 것처럼) 추가로 필요한 요소들이 있습니다:

  • 두뇌 - 아바타는 "생각"할 수 있어야 합니다. 오늘날 대화형 제품들은 주로 지식 베이스를 업로드하거나 연결할 수 있게 해줍니다. 미래에는 더 복잡한 기억 능력과 개성을 갖춘 버전이 나오길 기대합니다. 아바타는 이전 대화를 기억하고 자신만의 "개성"을 드러낼 수 있어야 합니다.
  • 스트리밍 - 이 모든 요소를 지연 없이 실시간으로 스트리밍하는 것은 쉬운 일이 아닙니다. 라이브킷(LiveKit)아고라(Agora) 같은 제품들이 이 분야에서 발전을 이루고 있지만, 지연을 최소화하면서 여러 모델을 동시에 작동시키는 것은 여전히 어렵습니다. 톨란(Tolan) 같은 일부 제품이 이런 기능을 잘 구현하고 있습니다(음성과 얼굴을 가진 AI 외계인 동반자). 하지만 아직 개선해야 할 부분이 많습니다.

AI 아바타에 기대하는 발전 방향

이 분야에는 아직 개발하고 개선할 것이 많습니다. 가장 주목할 만한 몇 가지 영역을 살펴보겠습니다:

캐릭터 일관성과 변형

지금까지 각 AI 아바타는 하나의 고정된 "모습"만 가졌습니다. 옷차림, 자세, 배경이 고정되어 있었죠. 일부 제품들은 더 다양한 옵션을 제공하기 시작했습니다. 예를 들어, 헤이젠(HeyGen)의 캐릭터 라울은 무려 20가지 스타일을 갖추고 있습니다! 하지만 사용자가 원하는 대로 캐릭터를 더 자유롭게 변형할 수 있다면 훨씬 좋을 것입니다.

더 자연스러운 얼굴 움직임과 표현력

얼굴은 오랫동안 AI 아바타의 약점이었으며, 대체로 로봇처럼 보였습니다. 캡션스(Captions)의 새로운 미라지(Mirage) 같은 제품으로 이런 상황이 개선되기 시작했습니다. 이제 더 자연스러운 모습과 다양한 표정을 볼 수 있게 되었죠. 앞으로는 대본의 감정적 맥락을 이해하고 적절히 반응하는 AI 아바타를 보고 싶습니다. 예를 들어 캐릭터가 괴물에게서 도망치는 내용이라면 실제로 두려워하는 표정을 짓는 것처럼요.

신체 움직임

현재 대부분의 아바타는 얼굴 아래 부분, 특히 손짓 같은 기본적인 동작조차 거의 보여주지 못합니다. 지금까지의 제스처 제어는 상당히 기계적이었습니다. 예를 들어, 아르길(Argil)은 영상의 각 부분마다 다른 유형의 몸짓을 선택할 수 있게 해줍니다. 앞으로는 더 자연스럽고 상황에 맞게 추론된 움직임을 볼 수 있길 기대합니다.

"실제 세계"와의 상호작용

현재 AI 아바타는 주변 환경과 상호작용하지 못합니다. 가까운 미래에 실현 가능한 목표로는 광고에서 아바타가 제품을 직접 들고 보여주는 기능이 있습니다. 탑뷰(Topview)는 이미 이런 면에서 진전을 이루었고, AI 모델이 발전함에 따라 앞으로 더 많은 혁신이 이루어질 것으로 기대됩니다.

더 많은 실시간 응용 프로그램

몇 가지 잠재적인 활용 사례를 생각해볼 수 있습니다: AI 의사와의 화상 상담, AI 쇼핑 도우미와 함께하는 맞춤형 제품 찾기, 좋아하는 TV 프로그램의 캐릭터와 페이스타임 통화하기 등이 있죠. 지연 시간과 안정성은 아직 완벽한 인간 수준은 아니지만, 점점 가까워지고 있습니다. 타부스(Tavus)의 최신 모델과 대화하는 데모를 확인해보면 그 가능성을 엿볼 수 있습니다.


우리는 어디로 향하고 있나?

지난 몇 년간 기반 모델 회사와 AI 애플리케이션에 투자하면서 얻은 가장 큰 교훈은 무엇일까요? 바로 특정 분야의 미래를 확실하게 예측하는 것이 거의 불가능하다는 점입니다. 그럼에도 기본 모델의 품질이 마침내 보기 좋은 AI 말하는 캐릭터를 만들 수 있을 정도로 발전했기 때문에, 응용 분야가 급속히 성장할 준비가 되었다고 말하는 것은 무리가 아닙니다.

이 분야는 사용 목적과 대상 고객에 따라 세분화된 제품으로 여러 대형 기업을 탄생시킬 것으로 예상됩니다. 예를 들어, 고객용 영상을 위해 AI 복제본을 찾는 임원은 친구에게 보낼 애니메이션 캐릭터 짧은 영상을 만드는 팬보다 더 높은 품질과 사실감을 원하고, 그에 맞는 비용도 기꺼이 지불할 것입니다.

작업 과정도 중요합니다. AI 인플루언서로 광고를 만든다면, 제품 정보를 자동으로 가져오고, 대본을 작성하고, 영상 소스와 제품 사진을 추가하고, 소셜 미디어에 업로드하고, 성과를 측정할 수 있는 플랫폼을 원할 것입니다. 반면 AI 캐릭터로 이야기를 전달하려면, 캐릭터와 장면을 저장하고 재사용하며 다양한 유형의 영상을 쉽게 연결할 수 있는 도구가 더 중요할 것입니다.


본 콘텐츠는 2025년 4월 8일 a16z에서 발행한 "AI Avatars Escape the Uncanny Valley" 아티클을 번역한 것입니다.

저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

0xPlayer 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 0xPlayer

-

뉴스레터 문의lowell9195@gmail.com

메일리 로고

도움말 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스