
도입
2023년 설립된 바이두 후이보싱은 현재 하루 평균 2만 개 이상의 라이브 방송을 운영하며, 스크립트 생성부터 실시간 질의응답, 지능형 의사결정, 음성 및 영상 클로닝까지 전 과정을 아우르는 AI 라이브 플랫폼으로 자리잡았다.
이 글에서는 후이보싱의 핵심 기술 아키텍처를 심층 분석한다. 검색 증강과 강화학습으로 높은 전환율의 스크립트를 생성하는 방법, 강화학습 기반 지능형 제어 시스템으로 라이브 전략을 실시간으로 최적화하는 방식, 음성과 외형 클로닝을 '시간 단위'로 완성하는 기술, 그리고 '사전-사후' 데이터 플라이휠로 모델을 자체 진화시키는 메커니즘 등을 다룬다.
루오융하오의 디지털 휴먼 라이브 방송이 GMV 5,500만 위안을 기록한 사례는 이 기술이 실제 사람을 넘어서는 판매력을 지녔음을 보여준다. 후이보싱은 앞으로도 더 똑똑하고, 더 사실적이며, 더 효율적인 방향으로 계속 발전할 예정이다.
1. 후이보싱 소개
전자상거래 디지털 휴먼 라이브 서비스 '후이보싱'은 2023년에 정식 출시되었다. 바이두의 비전, 음성, 언어 분야 AI 기술을 총집약한 네이티브 AI 제품으로, 실제 사람을 뛰어넘는 라이브 경험을 만드는 것이 목표다. 2025년 말 기준 하루 평균 2만 개 이상의 라이브 방송이 진행되고 있으며, 전자상거래, 교육, 건강, 금융, 지식 콘텐츠 등 여러 산업에서 활용되고 있다.
2년간의 제품 개선과 기술 혁신을 거쳐, 후이보싱은 실제 사람을 능가하는 수준에 도달했다. 대표적인 사례가 2025년 6월 15일 루오융하오의 디지털 휴먼 라이브 데뷔다. 1,300만 명 이상이 시청했고, GMV(거래액)는 5,500만 위안을 돌파했다. 이는 같은 해 5월 본인이 직접 진행한 라이브 방송(GMV 5,000만 위안)보다 높은 성과다.
1.1 판매자 관점에서 라이브 방송 시작하기
판매자는 후이보싱에서 판매 권한을 받으면 디지털 휴먼 라이브를 직접 시작할 수 있다. 주요 과정은 다음과 같다.
1. 상품 선택
바이두 직영몰(두샤오디엔), 외부 이커머스 플랫폼(징둥, 타오바오, 핀둬둬), 바이두 로컬 생활 서비스의 다양한 상품 중에서 판매할 상품을 고를 수 있다.

2. 진행자 외형 선택 또는 제작
7,800개 이상의 공개 라이브러리에서 진행자 외형을 고르거나, 5분짜리 영상만 직접 촬영하면 나만의 맞춤 외형을 만들 수 있다.

3. 방송 룸 꾸미기

3,600개 이상의 방송 룸 템플릿에서 원하는 스타일과 요소를 선택하거나, AI가 자동으로 배경 이미지와 마케팅 위젯을 생성하도록 할 수 있다.
4. 스크립트 생성

5. 음색 선택
3,200개 이상의 공개 음색 라이브러리에서 진행자 목소리를 고르거나, 모바일 바이두 앱으로 직접 녹음하면 3일 안에 나만의 맞춤 음색을 받아볼 수 있다.

6. 방송 중 상호작용 설정

클릭 한 번으로 AI 질의응답 기능을 켜거나, 자주 묻는 질문과 답변을 미리 등록해두거나, 판매자만의 상품 정보를 추가할 수 있다.
2. 전체 기술 아키텍처
후이보싱의 전체 아키텍처는 판매자 인터페이스, 비전·음성·텍스트 멀티모달 모델, 실시간 렌더링 엔진, 플랫폼 내외부 배포 시스템으로 구성된다.

더 나은 라이브 경험을 위해 디지털 휴먼은 클라우드 기반 생성 방식을 사용한다. 클라우드 생성 시스템은 크게 다음 5가지 하위 시스템으로 이루어져 있다.
- 상품 이해:스크립트, 질의응답, 상호작용 등 모든 콘텐츠 생성 모델에 상품 지식을 학습시킨다.
- 스크립트 생성: 상품 정보를 바탕으로 자연스럽고 말하기 편한 판매 스크립트를 자동으로 만든다.
- 지능형 질의응답: 시청자가 질문하면 실시간으로 상품 정보를 찾아 정확한 답변을 생성하며, 채팅창 댓글과 음성 답변 모두 지원한다.
- 지능형 상호작용: 댓글 참여율, 시청자 이탈률, 시청 시간 등 방송 성과 지표를 높이기 위해 시청자에게 먼저 말을 건다.
- 방송 룸 디자인: 방송 배경을 자동으로 만들고, 마케팅 문구가 들어간 화면 요소들을 합성한다.

3. 콘텐츠 생성
3.1 스타일 맞춤 스크립트 생성
라이브 스크립트의 완성도는 판매 성과에 직접적인 영향을 미친다. 실력 있는 진행자의 스크립트는 시청자의 마음을 움직이고, 자연스럽게 구매까지 이끌어낸다. 하지만 일반 판매자는 마케팅 역량이 부족하기 때문에, 특정 진행자의 스타일만 지정하면 시스템이 알아서 비슷한 느낌의 스크립트를 만들어주길 원한다.
이런 니즈에 맞춰 후이보싱은 멀티모달 상품 분석 기술로 상품 지식 DB를 구축했다. EB4/turbo를 이커머스 라이브 데이터로 대규모 사전학습시키고, 전문가가 정교하게 라벨링한 데이터로 파인튜닝(SFT)하며, 범용 지식과 이커머스 전문 지식을 결합해 원클릭 스타일 모방 기능을 완성했다.
판매자는 상품을 고르고 간단한 마케팅 정보만 입력하면 된다. 미리 준비된 스타일을 선택하거나, 직접 만든 스타일(400자 이상의 판매 문구 제공)을 지정하면 클릭 한 번으로 비슷한 느낌의 판매 스크립트가 완성된다. 고객 채택률 92%, 실제 방송 적용률 67%를 기록했고, 판매자가 직접 쓴 스크립트보다 전환율이 14% 높다.
스크립트 생성 기능의 활용도가 높아지면서, 후이보싱은 이를 독립적인 도구로 분리했다. 이제 판매자는 라이브 방송과 별개로 이 도구만 따로 사용할 수 있다.

기술 아키텍처
전체 기술은 상품 이해, 검색 증강, 강화학습 기반 스타일 생성, 후처리 단계로 구성된다.

- 상품 이해: 시스템은 멀티모달 상품 분석 기술로 상세페이지, 홍보 이미지, 스펙 이미지 등 시각 자료를 처리한다. OCR로 텍스트를 읽고, 레이아웃 구조를 파악하며, 멀티모달 모델로 정보를 통합해 핵심 셀링 포인트, 타겟 고객, 주요 기능, 사용 상황 등을 자동으로 뽑아낸다. 한 장의 이미지에서 '텍스트 내용 + 시각적 의미 + 레이아웃 구조'를 한꺼번에 읽어내고, LLM으로 분석 결과를 표준화하고 데이터 필드를 정리해서 포괄적이고 일관성 있는 상품 지식 DB를 만든다.
- 검색 증강(RAG) 과정: 사용자가 입력한 참고 스타일 텍스트(400자 이상)는 먼저 태그 분석 모듈을 거친다. AI 모델이 핵심 스타일 요소를 파악한다. 예를 들면 말하기 템포(빠름/느림), 감정 강도(열정적/절제된), 분위기 연출 방식(스토리텔링, 비교, 질문 던지기), 고객 니즈 포착, 방송에서 자주 쓰는 판매 기법(한정 수량 강조, 구매 압박, 혜택 단계별 제시) 등이다. 이렇게 파악한 스타일 태그를 바탕으로 시스템이 자동으로 검색어를 만든다. 그리고 범용 지식 DB와 이커머스 전문 DB에서 적합한 표현 방식, 문장 구조, 참고 자료(셀링 포인트 나열 순서, 상품 카테고리별 상투어, 상황별 표현법 등)를 찾아온다.
- 스타일 맞춤 생성 모델: 모델은 이커머스 라이브 방송 데이터로 사전학습된 기반 위에, 운영 전문가들이 세심하게 라벨링한 대량의 데이터(SFT)를 결합했다. 참고한 텍스트의 스타일은 그대로 유지하면서, 내용만 목표 상품의 셀링 포인트와 판매 논리로 자동 교체할 수 있다. 생성된 콘텐츠가 실제 라이브 방송에 어울리면서도 시청자의 감정을 움직일 수 있도록, 시스템에 경량 RLHF/강화학습 최적화를 적용했다. 사람들의 선호도 데이터로 지속적으로 조정해서, 모델이 '자연스럽고, 매끄러우며, 판매 효과가 뛰어난' 스크립트를 안정적으로 만들어낸다. 모델 성능을 계속 높이기 위해 데이터 플라이휠로 생성 모델을 개선해나간다.
- 태그 분류 및 후처리: 스크립트를 더 체계적으로 구조화한다. 장면 전환, 오프닝 멘트, 혜택 복선, 감정 절정, 구매 유도, 마무리 멘트 등으로 세분화해서, 판매자가 실제 방송에서 필요에 따라 활용하거나 직접 수정할 수 있게 만든다.
스크립트 데이터 플라이휠
디지털 휴먼 라이브 콘텐츠 대부분은 AI 모델이 생성한다. 초기에는 전문가의 지식을 기준으로 삼았고, 스크립트, 질의응답, 상호작용 부분의 품질이 일반적인 진행자 수준에 도달했다.
하지만 사람의 경험과 지식에는 주관적 편향이 있고, 포괄성이 부족하며 새로운 변화에 빠르게 대응하기 어렵다. 사람의 판단에만 의존하면 최선이 아닌 차선에 머물 수밖에 없다. 업계 최고 수준의 진행자들을 계속 뛰어넘으려면, 비즈니스 데이터와 AI 모델의 데이터 플라이휠을 구축해야 한다. 플라이휠 효과로 디지털 휴먼 라이브 환경에서 모델의 실제 성과를 지속적으로 끌어올릴 수 있다.

사전 정렬
실제 라이브 환경에서 디지털 휴먼 모델이 궁극적으로 추구하는 건 '실제 성과 최적화'다. 시청자 체류 시간, 댓글 증가, 전환율 향상 같은 실제 비즈니스 지표 말이다. 하지만 성과 목표는 본질적으로 리스크를 수반한다. 예를 들어 과도한 구매 압박, 과장 광고, 애매한 설명 같은 콘텐츠는 단기적으로 높은 반응을 얻을 수 있지만, 사실관계를 왜곡하고 플랫폼 규정을 위반해 안전 문제를 일으킨다.
그래서 모델이 실제 성과에 전면적으로 맞춰지기 전에, 먼저 안정적이고 설명 가능하며 플랫폼 규정을 준수하는 사전 정렬 체계를 구축해야 한다. 사전 보상 모델은 일종의 '문지기' 역할을 한다. 추론 전문 모델을 핵심 판단 기준으로 삼고, 체계적인 선호도 평가와 규칙 기반 보상으로 모델이 규정을 지키면서도 고품질이고 제어 가능한 콘텐츠 스타일을 학습하도록 유도한다. '사전 정렬 → 강화학습 → 전문화 모델 → 피드백 검증'의 선순환 구조를 만든다.
자동 선호도 합성
기존 사전 보상 방식은 전적으로 사람의 라벨링에 의존했고, 비용이 높고 주관성 문제가 있었다. 이를 해결하기 위해 여러 최신 추론형 기본 모델(EB4-4T, Deepseek-R1/V3, GPT-o 시리즈 등)을 통합했다. 여러 모델의 투표, 결과 비교 등급 분류 방식으로 선호도를 자동으로 만들어낸다. 이런 자동화 선호도 생성 방식은 '전문가 라벨링'을 흉내내면서도 다음과 같은 장점이 있다.
일관성이 높아 사람의 주관적 판단 편차를 줄인다. 커버리지가 넓어 수백만 건의 사전 데이터를 확보한다. 변화 대응이 빨라서, 플랫폼 규정이나 콘텐츠 트렌드가 바뀌면 모델도 즉시 업데이트할 수 있다.
최종적으로 사전 RM(보상 모델)의 핵심 학습 데이터가 만들어진다. 사전 RM의 핵심 역할은 모델이 어떤 상황에서도 콘텐츠 안전 기준을 넘지 않도록 보장하고, 이후 실제 성과 정렬 작업에 튼튼한 기반을 제공하는 것이다.

사후 데이터 플라이휠
모델이 실제 사용자 피드백을 학습하도록, 후이보싱은 '콘텐츠 탐색 + 보상 모델링'이라는 두 축의 데이터 플라이휠을 구축했다. 이를 통해 모델이 스스로 진화하고 지속적으로 강화된다.

사후 통계 기반 콘텐츠 탐색: 제어 가능하고 해석하기 쉬운 선호도 데이터 생성
사후 통계 방식은 정밀도가 높고, 제어가 잘 되며, 해석하기 쉬운 선호도 데이터 생산에 초점을 맞춘다. 온라인 실험 프레임워크와 결합해, 실제 사용자 피드백으로 선호도 샘플을 만든다. 빈번한 온라인 실험을 통해 시스템은 수천 건의 선호도 데이터를 계속 쌓아가며, 이후 모델 선호도 정렬 훈련(DPO/IPO 같은 전략 최적화 기법)을 뒷받침한다.
일반화 가능한 보상 업리프트 모델링: 대규모 선호도 데이터의 효율적 확장
사후 통계 기반 실험 방식과 달리, 업리프트 모델링은 사용자 행동 데이터가 부족하고 실험 비용이 높은 문제를 해결한다. 일반화 모델로 사용자 선호도를 직접 예측해서 백만 건급 선호도 데이터를 생성하고, 더 효율적으로 데이터를 확장한다. S-Learner / T-Learner 같은 업리프트 기법으로 사용자 행동의 인과관계 모델을 만들어, "이 콘텐츠가 사용자의 참여/댓글/체류 같은 핵심 지표를 높일까?"를 직접 예측한다.
3.2 지능형 질의응답
후이보싱은 라이브 방송에 특화된 완전한 RAG 시스템을 구축했다. 이커머스 전문 지식 검색 모델, 수천억 규모 모델을 압축한 저지연 생성 모델(12초→2초), 데이터 플라이휠이 포함된다. 현재 멀티모달 자료 관리, 고도로 실감나는 스타 질의응답, 개인 맞춤 표현, 업종별 특화, 판매자/상품 지식 DB 같은 기능을 갖췄다. 고객은 클릭 한 번으로 지능형 질의응답을 켤 수 있으며, 엔드투엔드 가용률 95%, 우수 답변률 90%, 고객 활성화율 94%를 기록했다. 운영팀과 고객 모두 만족스러운 반응이다.

기술 아키텍처
후이보싱의 실시간 질의응답 시스템은 지식 통합 → 분야별 검색 → 저지연 생성 → 후처리 → 데이터 플라이휠의 완전한 순환 구조를 갖췄다. 초사실적 디지털 휴먼에게 실제 사람 수준의 실시간 대화 능력을 제공한다.
- 지식 통합: 판매자의 상품 이미지·텍스트, 셀링 포인트, FAQ, 영상 스크립트, 카테고리 속성과 운영 과정에서 쌓인 데이터를 모두 모아 저장하고, 벡터화 처리로 고가용성 이커머스 지식 기반을 만든다.
- 분야별 지식 검색: 수천 개의 프레임 압축 후 EB-lite/산업 모델과 고차원 벡터 의미 검색을 결합했다. '의도 파악 → 정밀 매칭 → 의미 묶기 → 지식 검색' 파이프라인으로, 복잡한 라이브 맥락에서도 시청자 질문의 의도를 정확히 포착한다. 라이브에는 구어체, 짧은 문장, 심지어 잡음 섞인 말("이거 얼마나 써요?", "다른 색 있어요?")이 많다. 시스템은 심층 의미 임베딩(ernie embedding 등)으로 견고한 실시간 검색을 구현해, 실시간 환경에서도 검색 정확도를 안정적으로 유지한다.
- 저지연 생성: 수천억 규모 모델 압축 결과를 기반으로 만들었다. 라이브의 높은 동시 접속, 낮은 지연, 강한 일관성 요구에 맞춰, 모델 구조 경량화, 텐서 병렬 최적화, Prompt 간소화를 거쳐 응답 지연을 12초에서 2초로 줄였다. 의미의 풍부함과 음성의 자연스러움은 유지하면서 전체 경험을 개선했다.
- 데이터 플라이휠: 지속적인 자체 최적화를 구현한다. 운영 피드백, 사용자 대화 로그, 잘못 매칭된 사례, 우수 질의응답 샘플이 자동으로 데이터 처리 모듈로 돌아가서, 지식 DB 업데이트와 모델 재학습을 이끈다.
3.3 지능형 중앙 제어
실제 진행자는 라이브 방송 상황을 보면서 다음에 뭘 해야 할지 판단한다. 예를 들어 방송 분위기가 침체됐을 때, 댓글을 유도할지, 다른 상품 포인트를 설명할지, 구매를 유도할지 결정한다. 행동을 정한 뒤에는 그걸 어떻게 실행할지도 안다. 댓글 유도를 어떤 식으로 말할지, 어떤 말투를 쓸지, 특정 시청자한테 할지 전체 시청자한테 할지 같은 것들이다.
행동 결정과 행동 실행을 합쳐서 주문, 팔로우, 문의 같은 방송 목표를 극대화한다. 초사실적 디지털 휴먼도 이 두 가지 핵심 능력이 필요하다. 장기 목표(회차별 총 주문 수, 총 댓글 수, 시청 시간 등)가 주어지면, 디지털 휴먼은 1) 방송 상황에 따라 어떤 행동을 할지 판단해야 한다. 상품 포인트 전환, 구매 유도, 댓글 유도, 대화 이어가기 중 무엇을 할까? 2) 행동을 정한 뒤 거기 맞는 멘트를 만들어야 한다. 상품 설명, 할인 안내, 구매 압박 같은 구체적인 말이다.
기술 아키텍처
지능형 중앙 제어의 핵심은 강화학습 기반 의사결정 에이전트와 대형 언어모델 기반 멀티태스킹 두 부분으로 구성된다.

강화학습 기반 행동 결정 에이전트
행동 결정의 목표는 방송 상황별로 최선의 행동을 골라서, 장기 목표(주문, 댓글, 시청 시간 등)를 최대화하는 것이다.

위 그림은 라이브 환경과 강화학습(RL) 의사결정 에이전트의 상호작용 과정을 보여준다.
- 상태(St): 시청자 수, 댓글 빈도, 현재 상품, 시청자 행동 패턴, 질문 유무 등
- 행동(At): 댓글 유도 / 대화 이어가기 / 구매 유도 / 실시간 설명 / 상품 포인트 전환 / 질문 답변 등
- 보상(Rt): 주문 수 증가, 댓글 수 증가, 체류 시간, 전환율 향상 등
- 에이전트는 계속 시도하고 전략을 개선하면서 최적의 방법을 찾아간다.
이렇게 해서 디지털 휴먼이 실제 진행자처럼 행동한다. 분위기가 가라앉으면 먼저 말을 걸고, 시청자가 망설이면 구매를 유도하며, 새 시청자가 들어오면 상품을 소개한다. 강화학습의 장점은 목표 중심이라는 점이다. 한 문장 하나를 잘 만드는 게 아니라, 방송 전체의 성과 지표를 최적화한다.
대형 언어모델 기반 행동 콘텐츠 생성
강화학습 에이전트가 행동을 선택하면, 예를 들어 "구매 유도"를 골랐다면, 거기 맞는 구체적인 내용을 만들어야 한다. 어떤 멘트를 할지, 어떤 말투를 쓸지, 부드럽게 할지 강하게 밀어붙일지, 시청자 댓글을 인용할지 같은 것들이다. 실제로 우리는 강화학습으로 여러 행동별 콘텐츠 생성 전문 모델을 학습시켰다. 특정 파라미터에 맞는 라이브 멘트를 만들 수 있다.
앞으로는 언어 모델을 기반으로 의사결정과 콘텐츠 생성을 하나로 통합해서 엔드투엔드로 학습시킬 계획이다. 단계별로 나눠서 모델링하면 오차가 쌓이는데, 그걸 줄일 수 있다.
4. 음성 클로닝 및 합성
일반 판매자가 직접 목소리로 녹음하면 컨디션도 들쭉날쭉하고 판매 감각도 부족하다. 후이보싱은 스타일 전이 TTS 기술로 감염력 강하고 자연스러운 라이브 오디오를 자동으로 만든다. 2년여의 개선을 거쳐 TTS 활용률은 30.3%에서 92.8%로 올랐고, 제작 기간은 1개월에서 1분으로 줄었다.
이커머스 TTS는 크게 두 단계를 거쳐 발전했다.
1단계(2023.3~2024.Q2): 음성 맞춤 제작
업무용 마이크로 녹음하고, 많은 인력이 투입되어, 전체 과정이 한 달 걸렸다.
2단계(2024.Q3~현재): 미니앱 자가 녹음
녹음 효율 개선, 자동 학습 시스템 업그레이드, 억양의 판매 효과 지속 최적화.


현재 후이보싱은 원본 음색과 열정 판매 음색, 두 가지 클로닝을 지원한다. 고객은 모바일 바이두 미니앱에서 15분만 녹음하면, 하루 안에 시스템이 자동으로 복제 음색을 만들어준다(아래 비교). 지금까지 12만 개 이상의 음색을 만들었고, 그중 2.7만 개 이상이 고객 맞춤 음색이다.
두 가지 음향 효과 선택
앞으로는 방대한 라이브 방송 음성 데이터를 활용해서, 클로닝 기준을 더 낮추고(경쟁사 수준인 30초에 맞춤), 클로닝 속도를 높이며(분 단위로 클로닝·합성 완료), 낭독 품질을 개선할 계획이다(라이브/영상/해설/상담 등 여러 맥락에서 실제 사람처럼). 동시에 음성 하나당 클로닝·합성 비용을 업계 최고 수준으로 낮춘다.
클로닝+합성 기술 아키텍처
전체 아키텍처는 크게 오프라인 성문 등록 및 모델 학습, 온라인 합성 세 부분으로 구성된다.

5. 외형 클로닝 및 합성
진행자 외형은 라이브의 핵심이다. 사실적인 외형은 시청 시간을 늘리고, 결과적으로 주문 전환율도 높인다. 후이보싱은 비전 기술팀과 긴밀히 협력해, 2D 디지털 휴먼 기술로 라이브 방송에 특화된 외형 클로닝·합성 능력을 만들었다. 7,800개에 가까운 공개 라이브러리 외형을 구축해서, 판매자가 후이보싱을 처음 사용할 때 시험해보고 나중에 자체 외형을 만들 수 있도록 지원한다.

외형 클로닝 기술은 크게 네 단계를 거쳐 발전했다.
1단계(2023.3~2023.Q4): V1 버전 입 모양 구현
이커머스 라이브에 맞춰, 녹화 제약이 많은 입 다문 상태와 가림 없는 촬영+외형 클로닝 과정을 완성하고, 첫 공개 라이브러리 외형을 만들었다.
2단계(2024.Q1~2024.Q2): V3V4 버전 입 모양 구현
데이터 구축과 모델 알고리즘 개선으로 입 벌린 촬영과 더 자연스러운 입술 움직임을 구현했다.
3단계(2024.Q3~2025.Q2): 촬영 조건 완화
촬영 중 가림, 큰 각도의 옆모습, 얼굴 클로즈업을 지원한다.
현재는 고객이 5분 정도의 자연스러운 영상만 올리면, 3시간 안에 시스템이 자동으로 복제 외형을 만들어준다. 2025년 말까지 32만 개 이상의 외형을 만들었고, 그중 8만 개 이상이 고객 맞춤 외형이다. 온라인 가용률은 95%다.
4단계(2025.Q3~현재): 입 모양 구현을 넘어서
여러 사람 출연, 동작 구현, 표정 구현, 물건 들기 구현 등 차세대 외형 생성 능력(멀티모달 협업 슈퍼 진행자)을 구축했다.
시각 기술
실시간 환경에서 초기 입술 움직임 방식은 단일 단계 모델링(예: wav2lip)을 썼다. 오디오를 넣으면 픽셀 공간의 입술 이미지를 바로 뽑아낸다. 하지만 실제로 단일 단계 방식은 사실적인 입술 움직임에 도달하지 못했다. 이후 상용화된 방식은 거의 다 2단계 방식을 채택했다. 1단계는 오디오를 2D 키포인트나 3D 얼굴 모델로 바꿔 중간 표현으로 만들고, 2단계는 중간 표현을 GAN 네트워크로 픽셀 공간으로 디코딩한다.
- 시각적 생성 모델: 핵심은 세 가지 모델로 구성된다. 3D 얼굴 재구성 모델, 오디오에서 3D 얼굴 생성 모델, 3D 공간에서 픽셀 공간 얼굴 생성 모델이다. 3D 얼굴 재구성은 3DMM으로 얼굴 이미지(픽셀)를 3D mesh(3차원 공간 점)로 변환한다. Faceformer를 개선한 오디오-3D mesh 예측 모델 기반으로, mesh가 중간 표현으로서 풍부한 얼굴 움직임 정보를 담아 생성 모델이 사실적인 입술 이미지를 만들 수 있게 한다. StyleGan2를 개선한 얼굴 생성 모델 기반으로, 학습 목표는 픽셀 공간의 재구성 손실, 특징 공간의 지각 손실, 적대적 생성 손실을 포함한다. 개인화 추가 미세조정 방식을 구현해서, 사전학습된 기본 모델을 재사용하고 각 진행자의 개인화된 입술 움직임 스타일만 학습한다. 새 외형은 미세조정만 하면 되고, 3시간 안에 제작이 끝난다.
- 온라인 합성 아키텍처: 외형 합성은 TTS 오디오, 기본 영상 프레임, 라이브 방송 배경을 입력받아, 생성 모델로 실시간으로 진행자 입 부분을 합성하고, 최종적으로 비디오 스트림으로 조립해 사용자에게 보낸다. 작업 큐가 버퍼를 만들어서 비디오 스트림의 끊김 없는 연속성을 보장한다. 현재 단일 GPU로 여러 경로 스트리밍 렌더링을 구현했고, 2만 개 이상의 라이브 방송을 동시에 지원한다.


6. 정리
2년여의 지속적인 개선과 기술 혁신을 거쳐, 후이보싱은 단순한 디지털 휴먼 라이브 도구에서 스크립트 생성, 실시간 질의응답, 지능형 제어, 음성 클로닝, 외형 합성 등 멀티모달 전 과정을 아우르는 네이티브 AI 라이브 플랫폼으로 성장했다.
실제 진행자의 콘텐츠 표현과 판매 리듬을 그대로 재현할 뿐만 아니라, 상품 이해 강화, 강화학습 의사결정, 사전-사후 데이터 플라이휠, 대규모 음성·영상 생성 모델 같은 핵심 기술로 '실제 사람을 뛰어넘는' 라이브 능력을 갖추게 되었다.
비즈니스 규모가 빠르게 확장되고 기술 시스템이 계속 진화하면서, 후이보싱은 이미 하루 평균 2만 개 이상의 라이브 방송, 수만 건의 맞춤 외형과 음색, 이커머스와 여러 산업을 아우르는 실제 운영 환경에서 AI 라이브의 완성도와 상업적 가치를 입증했다.
앞으로 후이보싱은 '더 똑똑하고, 더 설득력 있으며, 더 효율적인' 방향으로 계속 발전할 것이다. 스크립트는 더 정교하게, 대화는 더 자연스럽게, 비주얼은 더 실감나게, 음성은 더 생생하게, 의사결정은 더 현명하게 만들고, 끊임없이 돌아가는 데이터 플라이휠로 라이브 경험의 한계를 계속 넘어설 것이다.
본 콘텐츠는 2025년 12월 10일에 百度Geek说님이 발행한 "百度慧播星数字人技术演进" 아티클을 번역한 것입니다.
저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.
의견을 남겨주세요