1. 들어가며: 트래킹과 모션캡쳐
최근 국내에서 버튜버에 대한 관심이 폭발적으로 늘어나면서, '어떻게 버튜버가 되지?' '저 버튜버는 어떻게 저렇게 움직이는 거지?' 하는 질문을 자주 접하게 됩니다.
사실 저는 버튜버를 직접 해본 적도, 버튜버 제작사나 관련 기업에서 일해본 적도 없지만, 개인적인 호기심에서 시작한 리서치를 통해 알게 된 내용을 공유해보려 합니다.
버튜버의 구현 방식은 크게 '트래킹'과 '모션캡처'로 나눌 수 있는데요. 트래킹은 쉽게 말해서 사람이나 물체의 위치를 실시간으로 따라가는 기술입니다. VR 기기가 머리나 손목의 움직임을 감지하거나, 스마트폰이 GPS로 위치를 찾는 것과 유사합니다.
반면 모션캡처는 좀 더 복잡하고 정교한 기술입니다. 사람의 전체적인 움직임을 세세하게 기록하는 거죠. 특히 관절이나 신체 부위의 미세한 움직임까지 한 번에 캡처할 수 있어서, 영화나 게임 제작에서 실제 배우의 동작을 캐릭터에 자연스럽게 입히는 데 사용됩니다. 다만 추가로 특수 장비나 센서가 필요해서, 움직임에 대한 데이터를 더 자세히 얻을 수 있는 만큼 비용도 많이 들어갑니다.
정리하자면, 트래킹이 '어디에 있는지'를 쫓는 기술이라면, 모션캡처는 '어떻게 움직이는지'까지 꼼꼼하게 기록하는, 더 포괄적인 형태라고 볼 수 있습니다.
버튜버들은 콘텐츠의 종류, 그리고 (가장 중요한) 예산에 따라 이 두 가지 기술을 적절히 활용하는데요. 모션캡처가 좀 더 폭넓은 개념이다 보니, 본 콘텐츠에서는 버튜버들의 모션캡처 활용을 중심으로 이야기를 해보려고 합니다.
2. 모션캡쳐 구현 방식에 따른 구분
기본적으로 모션캡쳐는 사람과 물체의 움직임을 디지털 데이터로 기록하고 재현하는 기술입니다. 이 기술은 센서나 카메라를 사용하여 사람과 물체의 움직임을 감지하고, 이를 컴퓨터로 전송하여 디지털화하는데요.
주로 인체의 관절과 근육의 미세한 움직임을 추적하여 3D 모델에 적용하는 방식으로 작동합니다. 모션캡쳐 기술은 특정 기기를 착용하거나, 몸에 센서를 부착하나, 적외선이나 AI를 이용하는 등의 방법 등 구현 방식에 따라 구분이 가능합니다.
사전적으로 분류하면 위와 같지만, 현재 많이 사용되고 알려져 있는 관성식(Inertial), 광학식(Optical)과 마커리스(Markerless)에 대한 내용 위주로 소개해 보겠습니다.
2.1 관성식 모션캡쳐
먼저 관성식 모션캡쳐는 기울기와 가속도, 지구자기장을 측정하는 센서가 신체의 관절 및 주요 부위에 부착된 전용 수트로 모델의 움직임과 회전, 방향을 읽어내는 방식입니다.
관성식 모션캡쳐의 핵심은 바로 IMU라고 불리는 관성측정장치입니다. 이 작은 센서들은 우리가 스마트폰을 돌렸을 때 화면이 회전하는 것과 비슷한 원리로 작동하는데, 훨씬 더 정교하고 정확한 측정이 가능하죠.
실제 모델은 센서가 부착된 수트를 입고 움직이게 되는데, 각각의 센서들은 마치 작은 나침반처럼 방향과 움직임을 감지하며 이 정보를 실시간으로 컴퓨터에 전송합니다.
가성비 모션캡쳐 장비로 알려져 있는 퍼셉션 뉴런(Perception Neuron)도 관성식입니다. 기본적으로 몸에 착용하는 스트랩과 장갑이 있으며, 이 장갑과 스트랩에 센서를 부착하는 형태로 되어있습니다.
센서를 각 관절 부위에 부착하여 센서의 움직임을 통해 사용자의 움직임을 렌더링 한 후 3D 화면으로 뿌려주고, 전용 소프트웨어를 통해 실시간으로 센서의 위치변화를 감지하며, 캡처 이후 후보정까지 진행하게 됩니다.
관성식 모션캡쳐의 가장 큰 장점은 상대적으로 높은 자유도에 있습니다. 예를 들어, 영화나 게임 제작 현장에서 야외 촬영을 해야 하는 경우, 다른 모션캡쳐 방식들은 환경적 제약으로 인해 사용이 어려울 수 있지만, 관성식은 날씨나 장소에 크게 구애받지 않을 수 있습니다.
또한 관성식 모션캡쳐는 경제적인 측면에서도 상대적으로 장점이 있습니다. 후술할 광학식 모션캡쳐가 대규모 스튜디오와 고가의 장비를 필요로 하는 것과 달리, 관성식 은 상대적으로 적은 비용으로도 모션캡쳐가 가능합니다.
하지만 모든 기술이 그렇듯, 관성식 모션캡쳐도 완벽하지는 않습니다. 가장 큰 단점은 오차입니다. 결국 센서들은 시간이 지날수록 약간씩 오차가 누적될 수 있는데요.
이 오차로 인해 버튜버의 관절이 이상하게 움직인다던지, 머리나 몸이 겹쳐지는 등의 방송사고(?)가 발생할 수 있습니다. 이를 해결하기 위해 주기적으로 보정 작업을 해주어야 합니다.
또 아주 미세한 움직임을 캡처하는 데는 한계가 있습니다. 예를 들어, 모델의 섬세한 얼굴 표정이나 손가락 움직임과 같은 아주 미세한 동작들은 관성식만으로는 완벽하게 포착하기 어려울 수 있습니다.
2.2 광학식 모션캡쳐
광학식 모션캡쳐는 블록버스터 영화나 3D 게임에서 가장 널리 사용되고 있는 방식입니다. 기본 원리는 생각보다 단순한데요. 수트에 특수한 반사 마커들을 부착하고, 여러 대의 적외선 카메라로 이 마커들의 움직임을 추적하는 것입니다.
마블의 슈퍼 히어로 영화나, 판타지 영화의 제작 현장을 살펴보면 배우가 쫄쫄이로 된 수트를 입은 것을 보실 수 있습니다. 쫄쫄이로 된 수트, 그리고 이 수트에 부착된 마커를 통해 모션을 포착하고, 이 모션 데이터를 가지고 3D로 구현하는 것이죠. 하지만 이 단순한 원리가 실제로 구현되는 과정은 생각보다 매우 정교하고 복잡합니다.
카메라는 반사된 빛의 강도를 측정해 마커의 위치를 파악하고, 강도에 따라 마커의 정확한 2차원 좌표를 계산해냅니다. 1~2개의 카메라로는 깊이감을 측정할 수 없기 때문에 여러 대의 카메라를 설치해 다각도로 마커를 촬영하고, 각 카메라가 포착한 2차원 데이터와 카메라 간의 위치 관계를 분석해 3차원 좌표를 생성하게 됩니다. 이후 분석된 데이터를 바탕으로 3D 캐릭터와 일체화시키는 작업을 진행합니다.
보통 광학식 모션캡쳐 스튜디오에는 12대에서 많게는 수십 대의 고성능 카메라가 천장과 벽면에 설치되어 있으며, 이 카메라들은 초당 수백 프레임의 속도로 마커들의 위치를 추적합니다. 또한 마커도 최소 60~70개 이상으로 부착해야 합니다.
광학식 모션캡쳐의 가장 큰 장점은 바로 놀라운 정확도입니다. 카메라를 전방위로 설치하고, 마커를 수십개를 붙여놓을 수 밖에 없는 이유죠. 위 사진의 영화 '아바타'에서 보여진 것처럼 배우의 미세한 표정 변화까지도 완벽하게 포착할 수 있습니다.
배우 얼굴에 수십 개의 마커를 부착하고, 이를 특수 카메라로 촬영하면 미세한 표정 변화까지도 디지털 캐릭터에 그대로 반영할 수 있습니다. 이는 캐릭터의 감정 표현을 훨씬 더 풍부하고 섬세하게 만들어주며, 현실감을 높여줄 수 있습니다.
또한 광학식 모션캡쳐는 여러 명의 배우가 동시에 연기하는 장면도 촬영할 수 있습니다. 각 배우마다 다른 패턴의 마커를 사용하여 시스템이 누구의 움직임인지 구분할 수 있게 하는 것입니다. 이는 캐릭터들 간의 상호작용이 많은 장면을 촬영할 때 특히 유용합니다.
물론 광학식 모션캡쳐에도 몇 가지 단점이 있습니다. 가장 큰 문제는 마커가 카메라의 시야에서 가려지면 데이터가 손실된다는 점입니다. 예를 들어, 배우가 몸을 돌리거나 다른 물체에 가려질 때 일부 마커들이 카메라에 보이지 않게 되면, 그 순간의 동작 데이터가 불완전해질 수 있습니다. 이런 문제를 최소화하기 위해 많은 수의 카메라를 다양한 각도에 설치하지만, 완벽한 해결책은 아닙니다.
또한 광학식 시스템은 고가의 장비와 특수한 촬영 환경을 필요로 합니다. 전문적인 모션캡쳐 스튜디오를 구축하려면 최소 수억 원 이상의 비용이 들 수 있으며, 이를 운영하기 위해서는 전문 인력도 필요합니다. 게다가 촬영 공간의 조명 조건도 매우 중요해서, 외부 빛의 간섭을 최소화하기 위한 특수한 환경 설정이 필요합니다.
물론 이러한 단점을 상쇄할만큼 퀄리티가 좋고 정확도가 높기 때문에, 업계 표준부터 소프트웨어, 플러그인 지원이나 업데이트도 대부분 광학식 위주로 흘러가고 있습니다.
2.3 마커리스(Makerless): AI 모션캡쳐
마커리스는 사전적인 분류로 RGB 카메라(일반 비디오 카메라로 촬영한 영상에서 AI가 동작을 인식)와 RGB-D 카메라(색상 정보와 함께 깊이 정보도 캡처해서 더 정확한 3D 동작 인식이 가능)로 구분할 수 있습니다.
마커리스는 마커 없이 카메라로 촬영한 영상에서 가져온 모션 데이터를 처리하는 방식에 AI를 적용하고 있습니다.
특별한 장비나 센서 없이도 아이폰이나 고프로 같은 카메라만으로도 사람의 움직임을 포착하고 분석할 수 있어, 접근성과 비용 면에서 큰 장점을 가집니다.
틱톡이나 인스타그램에서 볼 수 있는 다양한 AR 필터나 동작 기반 효과들이 바로 카메라를 활용한 모션캡쳐를 기반으로 하고 있는데요. SNS에서 사용할 수 있는 모션캡쳐가 다소 정확도가 떨어진다면, 최근의 AI 모션캡쳐는 차원이 다른 속도로 발전하고 있습니다.
AI 모션캡쳐의 핵심은 바로 딥러닝 기술입니다. 수많은 인간의 동작 데이터로 학습된 인공지능 알고리즘이 영상 속 인물의 자세와 움직임을 실시간으로 분석하고, 이를 3D 캐릭터의 움직임으로 변환합니다. 마치 사람이 눈으로 보고 움직임을 이해하는 것처럼, AI는 카메라로 촬영된 영상을 보고 그 안의 동작을 해석하는 것입니다.
AI 모션캡쳐의 가장 큰 장점은 접근성입니다. 스마트폰만 있어도 누구나 모션캡쳐를 시도해볼 수 있다는 점이죠. 과거에는 고가의 장비와 전문 스튜디오가 필요했던 모션캡쳐가, 이제는 누구나 사용할 수 있는 기술이 되어가고 있습니다.
기존 방식들이 특정한 환경이나 조건(수트 등) 필요로 했다면, AI 모션캡쳐는 카메라만 있으면 다양한 환경에서 작동할 수 있습니다. 실내든 실외든, 밝은 곳이든 어두운 곳이든 상관없이 작동하죠.
하지만 AI 모션캡쳐에도 몇 가지 한계가 있습니다. 가장 큰 과제는 정확도입니다. 아무리 AI라 하더라도, 아직은 광학식 모션캡쳐만큼의 정밀한 동작 포착은 어렵습니다. 특히 빠른 동작이나 복잡한 동작을 캡처할 때는 정확도가 떨어질 수 있습니다.
또한 AI의 특성상 학습되지 않은 특이한 동작과 예측하기 어려운 상황에서는 결과가 이상하게 나올 수 있습니다. 예를 들어, 여러 사람이 서로 겹쳐져 있는 상황이나, 특수한 의상을 입은 경우에는 정확한 동작 인식이 어려울 수 있죠.
그럼에도 불구하고, AI 모션캡쳐는 놀라운 속도로 발전하고 있다는 부문에서 업계가 많이 주목하고 있는 것 같습니다.
3. 버튜버의 트래킹과 모션캡쳐
버튜버는 기본적으로 앞서 설명한 관성식과 광학식을 모두 사용할 수 있습니다. 그러나 리소스의 문제로 인해, 일상적인 콘텐츠는 페이셜 트래킹, 콘서트나 모캡 방송을 할 때는 풀트래킹이나 광학식을 사용하는 것이 일반적입니다.
보통 2D 버튜버라고 한다면 단순한 웹캠이나 아이폰, 립모션과 마이크만 활용해도 방송이 가능합니다. 여기에 페이셜 트래킹, 그리고 추가로 핸드 트래킹 정도를 세팅하는데요.
웹캠이나 아이폰에 대응되는 소프트웨어로 실제 사람과 캐릭터를 연동한 다음, 우측 화면에 캐릭터를 띄워 놓고, 시청자와 잡담을 하거나 게임을 하는 것이죠. 이정는 전문 지식 없이도 일반인이 세팅 방법에 대한 가이드 정도를 읽고 무리없이 따라할 수 있는 수준입니다.
버튜버가 VR챗과 같은 동적인 콘텐츠를 한다고 가정을 하면, 풀트래킹에 준하는 모션 캡쳐 장비가 필요합니다. 우리가 흔히 알고 있는 VR 기기, 예를 들어 HTC의 바이브나 메타의 오큘러스, 피코 시리즈 등이 있습니다. 사실 이정도만 되도 부담되는 가격이기 때문에 진입장벽이 어느 정도 있습니다.
더 나아가 정밀한 몸동작이 필요한 퍼포먼스 콘텐츠를 한다고 하면, 더 좋은 모션캡쳐 장비를 활용해야 합니다. 이 경우에 앞서 설명한 관성식과 광학식을 활용할 수 있습니다.
여기서부터는 장비뿐만 아니라 실제 사람의 움직임을 캡쳐한 후 이를 캐릭터에 적용하는 리타겟팅 등의 난이도가 급상승하며, 전문 인력을 필요로 하게 됩니다. 실제 사람의 동작을 모션 캡처로 기록한 후 이 동작 데이터를 크기, 비율, 골격 구조가 다른 3D 캐릭터에 맞게 변환하여 적용해야 합니다.
리타겟팅 과정에서는 관절의 회전값과 위치값을 캐릭터의 골격 구조에 맞게 수학적으로 변환하는 복잡한 과정이 필요합니다. 이 과정에서 원본 모션의 특성을 최대한 유지하면서도 캐릭터에서 자연스럽게 보이도록 하는 것이 실력이죠. 버튜버를 업으로 하고 있더라도, 이정도 세팅이 가능한 국내 버튜버는 많지 않습니다.
관성식이 광학식에 비해 저렴하다고 하지만, 하이엔드 브랜드로 갈수록 굉장히 부담스러운 수준입니다. 엑스센스(Xsens)의 제품을 기준으로 보면 2021년 기준으로도 이미 기본 수트가 6,490 유로, 프리미엄 수트는 1만 유로를 호가했는데요. 추가로 손 동작을 트래킹할 수 있는 장갑만 해도 최신판은 약 6,000달러입니다.
여기에 트래킹 데이터를 관리하고 처리할 수 있는 전용 소프트웨어를 구매해야 합니다. 여기서 끝이 아닙니다. 전용 소프트웨어에 추가 기능(다른 형식으로 내보내기 등)을 사용하려면 또 월 구독제 서비스(500달러 수준)를 추가로 가입해야 하죠.
광학식으로 넘어가면 어떨까요? 당연히 카메라를 비롯한 수트와 소프트웨어 등 최소한의 광학식 모션캡쳐를 위해 한 세트를 완성시키는데만 해도 수천만원, 광학식 스튜디오 대여만 하루에도 수백만원을 호가하는 경우가 많습니다.
현재 업계 동향을 보면, 비디오식 모션캡처는 광학식의 정확도와 품질에는 미치지 못하지만, 관성식에 버금가는 성능을 보여주고 있다는 평가를 받고 있습니다.
한편 관성식 모션캡처 업체들은 하드웨어 판매만으로는 수익 창출에 한계가 있어, 소프트웨어에 기능을 추가하고 가격을 큰 폭으로 인상하면서 사용자들의 불만을 사고 있는 상황입니다. 이러한 업계 변화의 향방은 좀 더 시간을 두고 지켜볼 필요가 있어 보입니다.
4. 모션캡쳐 스튜디오 및 스타트업의 솔루션
4.1. 기존 모션캡쳐 스튜디오 현황
일반적으로 모션캡쳐가 가장 많이 쓰이는 영역 중 하나는 바로 게임 산업입니다. 기본적으로 게임에서 구현되는 캐릭터들의 움직임이나 3D 애니메이션 등은 대부분 모션캡쳐 스튜디오에서 제작되는데요. 해외는 물론 국내 게임사들도 회사 소유의 모션캡쳐 스튜디오를 구비하고 있습니다.
배틀그라운드의 유명한 승리 댄스, 이모트 역시 광학식 모션캡쳐로 제작되었습니다. 위 영상과 같이 전문 댄서가 모션캡쳐 수트를 입고, 춤을 추는 모션 데이터를 확보한 다음, 이를 배틀그라운드 캐릭터에 녹여내는 것입니다.
크래프톤이 개발 중인 인생 시뮬레이션 게임 '인조이'도 모션캡처 기술을 적극 활용하고 있습니다. 메타버스류 게임의 성공 요소인 섬세한 디자인과 자연스러운 움직임을 구현하는 데 중점을 두고 있기 때문입니다.
버튜버는 아니지만 국내 버츄얼 아이돌도 정밀한 퍼포먼스를 위해 광학식 모션캡쳐를 사용합니다. 블래스트의 버츄얼 아이돌, '플레이브(PLAVE)'는 자체 버츄얼 라이브 시스템과 광학식 버츄얼 스튜디오를 구비하고 있습니다. 높은 수준의 모션 캡쳐와 모델링을 활용한 퍼포먼스는 실제 아이돌과 구분이 가지 않을 정도죠.
넷마블에프앤씨는 광명역 인근에 '메타버스 VFX 연구소'를 설립하여, 자회사 메타버스엔터테인먼트의 버츄얼 휴먼, '메이브(MAVE)'를 제작하고 있습니다. 메이브 역시 광학식 모션캡쳐를 바탕으로 제작되며, 실제 바디/보이스 모델이 존재하는 방식입니다.
국내 대표 IT 기업인 네이버 역시 모션캡쳐 스튜디오를 설립 중에 있습니다. 네이버 개발자 컨퍼런스 '단24'의 한 세션에서 밝힌 바에 따르면, 2025년을 목표로 모션캡쳐 스튜디오를 설립할 예정이라고 하는데요. 아마도 네이버의 미디어 서비스(클립, 치지직 등)의 고도화 및 신사업을 위한 것으로 보입니다.
일본의 대표 버튜버 기업인 홀로라이브는 노트를 통해 2023년에 설립한 모션캡쳐 스튜디오에 관한 정보를 공개하고 있습니다.
홀로라이브(커버)는 스튜디오를 위해 건설 비용 약 8억 엔(약 72억 원), 장비 구입에 19억 엔(약 172억 원)을 합쳐 약 27억 엔(약 245억 원)을 투자했습니다. 4개의 모션 캡쳐 공간을 비롯하여 크로마키 합성, 음성 녹음을 위한 전문 스튜디오까지 구비해놨습니다.
일반적으로 광학식 모션캡쳐 스튜디오에서 가장 많이 쓰이는 카메라 브랜드는 비콘(VICON)과 옵티트랙(OptiTrack)입니다. 홀로라이브 스튜디오는 이중 비콘의 최신 기종인 발키리(VK-26)이 약 200대가 넘게 설치했다고 합니다.
해당 모델의 가격이 웹상에서 공개되어 있지 않아 경쟁사 데이터 및 일부 브로셔 등으로 추산해봤을 때, 1대 당 최소 8,000 ~ 10,000 달러 수준으로 보입니다. 카메라뿐만 아니라 렌즈, 케이블, 소프트웨어 등까지 포함하면 훨씬 높아질 것으로 예상되고요.
마커와 수트, 모션 데이터 관리 및 조정에 필요한 컴퓨터, 모션빌더 등의 추가 소프트웨어까지 합치면 위 비용이 나오는 것 같습니다. 여기에 전문 엔지니어를 비롯해 수많은 인력들의 간접 비용까지 포함하면 유지비도 상당할 것으로 보이네요.
특히 홀로라이브는 스트리밍에 사용되는 소품이나 의상들을 사내에서 직접 제작하는데요. 3D 캐릭터부터 콘텐츠에 필요한 소품과 의상은 물론 공연을 위한 무대까지 자체 제작합니다.
포맷에 따라 예능 프로그램을 위한 맵이나 게임 스테이지까지 제작합니다. 스튜디오에서 촬영한 모션캡쳐 데이터를 기반으로 개별로 제작한 소품과 의상, 배경, 스테이지 등을 조합해서 실감나고 화려한 콘텐츠를 만드는 것이죠.
이처럼 모션캡쳐 스튜디오는 투자를 하면 할수록 퀄리티가 올라가기 때문에, 사실상 엄청난 자본을 잡아먹는 구조입니다. 따라서 개인세라면 꿈도 못꾸고, 기업세라고 할지라도 규모가 크지 않다면 모션캡쳐 전문 스튜디오를 단기 임대해서 사용하는 구조로 제작되고 있습니다.
4.2 AI 모션캡쳐의 선두 주자, 무브에이아이(Move.AI)
자본이 있다면 당연히 광학식 모션캡쳐 스튜디오가 최고의 옵션입니다. 그러나 결국 예산과 비용의 문제입니다. 결국 비용을 줄이면서 기존의 퀄리티를 유지하는 방법을 찾아야 하는데요.
이 문제를 해결하기 위해 앞서 이야기한 AI가 산업의 변화를 일으키고 있습니다. 현재 AI를 활용해 수트나 마커없이 비디오 데이터로만 모션 캡쳐가 가능한 다양한 소프트웨어가 개발되고 있는데요. 그중 가장 돋보이는 스타트업은 바로 무브에이아이(Move.AI)입니다.
AI 모션캡쳐는 모션 캡쳐뿐만 아니라 인체의 역학과 물리학을 동시에 고려하면서 자연스러운 3D와 애니메이션을 구현해야 합니다. 가장 까다로운 부분은 카메라로부터의 관측과 물리적 원리를 동시에 해결해야 하며, 모든 계산을 시간과 공간에서 동시에 수행해야 하죠. 따라서 이 작업을 위해 신속하고 방대한 연산 능력이 필요하며, 여기에 AI가 큰 도움을 주고 있습니다.
"No Suits. Less Time. Lower Cost" 딱 이 세 마디가 무브에이아이의 핵심을 말해주는데요. AI 모션캡쳐를 통해 기존 모션캡쳐가 가지고 있는 수트로 인한 불편함, 그리고 시간, 비용을 줄여준다는 것입니다.
특히 무브에이가 관성식을 공략하다고 있다고 느끼는 부분 중에 하나인데, 바로 손과 손가락 모션캡쳐에 중점을 두고 있다고 밝히는 부분입니다. 관성식은 보통 핸드 트래킹을 위해 수트 외에 장갑을 또 구비해야 하는데요. 아마 이 부분을 공략하는 것이 아닌가 싶습니다.
무브는 여러 라인의 서비스를 제공하고 있는데, 그중 가장 기초적인 모델인 무브 원(Move One)은 아이폰만으로 모션캡쳐가 가능합니다. 편리한 1인칭 모션 캡쳐에, 세로/가로 모드 지원과 .fbx 등의 포맷으로 데이터 내보내기까지 가능한데요.
누구나 손쉽게 아이폰으로 앱을 설치해서 퀄리티 높은 모션캡쳐를 해볼 수 있다는 것에 있어서 큰 장점을 가지고 있습니다.
물론 무브에이아이 역시 정밀한 모션캡쳐를 위해서는 여러 대의 카메라가 필요합니다. 그러나 광학식 모션캡쳐 스튜디오처럼 고가의 카메라와 수트가 필요하진 않습니다. 아이폰이나 고프로 정도의 카메라, 그리고 이를 설치할 공간과 사람만 있으면 가능합니다.
2024년 6월, 무브에이아이는 나이키와 UEFA(유럽축구연맹)과 협업하였는데요. 이 프로젝트는 유로 2024 및 나이키의 드라이핏 ADV를 홍보하기 위해 런던, 파리, 베를린의 나이키 매장에서 리얼타임으로 모션캡쳐를 체험해볼 수 있도록 기획되었습니다.
무브에이아이가 정조준하고 있는 시장은 크게 1) 스포츠와 2) 3D 애니메이션으로 보이는데요. 아마 여기에 최적화된 솔루션과 기능들을 계속 개발하지 않을까 싶습니다. 여담으로 마케팅 부사장의 인터뷰에 따르면 달이나 화성에서의 모션캡쳐도 가능하다고 밝히고 있습니다. (실제로 수중에서는 성공)
4.3 라이다를 활용한 모션캡쳐, 무빈(MOVIN)
무빈은 2023년 8월에 설립된 한국 스타트업으로, 네이버의 테크 투자조직인 D2SF로부터 투자 유치를 받은 모션캡쳐 솔루션 회사입니다.
앞서 이야기한 광학식 모션캡쳐는 고가의 카메라와 수트가 필요하고, 무브에이아이와 같은 AI 모션캡쳐는 스마트폰이나 고프로와 같은 카메라를 필요로 했는데요. 무브에이아이도 1대로는 2D의 평면적인 움직임만 캡쳐가 가능하기 때문에 여러 대의 카메라가 필요합니다.
반면 무빈은 단일 라이다(LiDAR)를 활용하여 모션캡쳐를 구현합니다. 일반적으로 라이다는 자율주행에 많이 활용된다고 알려져 있는데요. 라이다 센서를 활용해 실시간으로 실제 인간의 모션을 따오고, 이 모션 데이터를 언리얼과 같은 3D 프로그램에 연동할 수 있는 토탈 솔루션을 개발하고 있는 것으로 보입니다.
퍼시픽 그래픽스(Pacific Graphics) 2023에 채택된 무빈의 논문을 간략하게 요약해보면, 라이다로 획득한 3D 포인트 클라우드 데이터를 입력으로 받아, AI가 이전 프레임의 포즈 정보를 참조하여 시간적 연속성을 가진 자연스러운 전신 모션을 생성하는 딥러닝 기반의 생성 모델 구조라고 합니다.
간략하게 표현하면 '라이다와 AI를 효율적으로 활용한 모션캡쳐'라고 할 수 있겠습니다. 특히 논문에서는 1) 라이다가 대중화되면서 점점 저렴해지고 있고, 2) 라이다를 활용한 방식은 무빈이 최초이고, 3) 특별한 슈트나 마커가 필요 없어 일반 사용자들도 쉽게 사용 가능하다고 밝히고 있습니다.
창업한지 얼마되지 않은 팀이지만, 탄탄한 기술력을 바탕으로 솔루션 개발 및 시장을 개척해 나가는 것으로 생각되는데요. 과연 라이다를 활용하는 방식이 기존 솔루션이나 무브에이아이 대비 얼마나 비용 효율적일지, 퀄리티를 유지할 수 있을지가 관건인 것 같습니다.
5. 정리 및 결론
모션캡쳐는 의료, 게임, 영화 산업을 넘어 버튜버와 같은 새로운 엔터테인먼트로 영역을 확장하고 있습니다. 물론 전문적인 모션캡쳐는 시장이 작은 버튜버 씬에서 기업형 버튜버들만이 활용할 수 있는 상황입니다.
하지만 무브에이아이나 무빈에서 개발하고 있는 새로운 모션캡쳐 솔루션들이 등장하면서, 이러한 진입 장벽이 점차 낮아지고 있습니다. 스타트업들이 개발 중인 솔루션들이 기존 광학식 모션캡쳐의 높은 비용과 공간적 제약을 해결하면서도 준수한 품질을 제공하려 노력하고 있는데요.
물론 모션캡쳐 외에도 기술적으로 해결해야 할 문제는 많이 남아 있습니다. 광학식 모션캡쳐가 버튜버에게는 꿈과 같은 기술이지만, 이를 시청자들에게 먹힐 만한 콘텐츠로 만들기 위해 들이는 리소스는 상상을 초월합니다.
앞서 언급한 홀로라이브 스튜디오는 화려한 스펙으로 야심차게 시작했지만 지속적인 기술적 오류로 버튜버와 시청자의 불만을 자아냈습니다. 처음에는 소속 버튜버들에게 연 2회 3D 라이브를 지원하겠다고 했지만, 버튜버와 스태프의 부담으로 연 1회로 축소하기도 했습니다.
물론 홀로라이브처럼 엄청나게 호화로운 콘서트 수준이 아닐지더라도 아직까지 3D 라이브는 부담일 수 밖에 없는 것 같습니다(많이 봐주세요).
결국 버튜버에게 있어서 3D 라이브는 모션캡쳐뿐만 아니라 이에 수반되는 많은 준비와 작업들이 필요하다는 것이죠. 다행히 생성형 AI 혁명이 부담을 조금이나마 덜어줄 수 있을 것으로 기대하고 있습니다.
많은 기업들이 텍스트 프롬프트를 활용하여 아이템과 배경, 환경 등의 3D 에셋을 손쉽게 제작할 수 있는 생성형 AI 툴을 만들고 있습니다.
이러한 기술의 발전은 기업세뿐만 아니라 개인 버튜버들도 합리적인 비용으로 3D 라이브를 할 수 있을 것으로 기대됩니다. 물론 버튜버는 디지털 캐릭터를 구현하는 기술도 중요하지만, 결국 그 기술로 자신만의 매력과 콘텐츠를 어떻게 빛내는지가 더 중요하다고 생각합니다.
저는 해당 업계를 경험하지 못했고, 전문가도 아니기 때문에 분석 내용에 오류가 있을 수 있습니다. 내용이 사실과 다르거나 비약이 심한 부분이 있다면 언제든지 댓글로 말씀 부탁드립니다. 감사합니다 😸
의견을 남겨주세요