논문

[번역] 이머시브 멀티미디어 커뮤니케이션: 확장 현실(XR) 스트리밍 기술의 최신 동향

본 연구는 XR 스트리밍의 트래픽 특성, QoE 영향 요인, 시각적 주의 기반 최적화 기법을 분석하고 게임, 헬스케어, 교육 등 다양한 분야의 활용 사례와 함께 실시간 렌더링, 시점 예측, 표준화 등 주요 과제들을 제시한다.

2025.07.23 | 조회 257 |
0
|
0xPlayer의 프로필 이미지

0xPlayer

-

첨부 이미지

초록

확장현실(XR)은 급속히 발전하며 콘텐츠 제작과 소비 방식에 혁신을 가져올 것으로 전망된다. XR 환경에서 사용자는 다양한 감각적 입력을 통합하여 가상 환경에 대한 일관된 인식을 구성하게 된다.

본 연구는 XR 스트리밍의 최신 기술 동향을 검토하며 여러 패러다임을 중심으로 살펴본다. 먼저 XR의 개념을 정의하고 다양한 XR 헤드셋과 멀티모달 상호작용 방식을 소개하여 기본적인 이해의 토대를 마련한다. 이어서 XR 트래픽의 특성을 분석하여 고유한 데이터 전송 요구사항을 조명한다.

나아가 XR 시스템에서 QoE(Quality of Experience)에 영향을 미치는 핵심 요인들을 탐구하여 사용자 만족도 향상의 핵심 요소를 파악하고자 한다. 또한 XR 스트리밍의 효율성과 성능 개선을 위한 시각적 주의 기반 최적화 기법들을 제시한다. 마지막으로 현재 적용 사례들을 검토하고 주요 과제들을 조명하여 XR의 현재와 미래 발전 방향에 대한 통찰을 제공한다.


1. 서론

1. 서론

확장현실(XR)은 물리적 세계와 가상 세계를 융합하여 사용자에게 몰입감 있고 상호작용이 가능한 경험을 제공하는 포괄적 기술 영역을 지칭한다. 여기에는 가상현실(VR), 증강현실(AR), 혼합현실(MR)이 포함된다.

최근 몇 년간 XR은 물리적 영역과 디지털 영역을 매끄럽게 통합함으로써 업무, 교육, 사회적 상호작용, 엔터테인먼트 등 삶의 다양한 영역에서 근본적인 변화를 이끌어내고 있다. XR 시장은 2024년부터 2032년까지 연평균 성장률 32.1%를 기록하며 2032년에는 1조 7,069억 6,000만 달러 규모에 도달할 것으로 전망된다.

하드웨어와 소프트웨어 기술의 비약적 발전은 XR 시장 성장을 가속화하며 몰입형 경험의 접근성과 효과를 대폭 향상시켰다. 특히 XR 기능이 탑재된 스마트폰과 웨어러블 기기의 확산으로 XR 경험이 더 많은 사용자에게 다가가고 있다.

더 나아가 코로나19 팬데믹으로 인한 전 세계적인 원격근무 확산과 디지털 커뮤니케이션으로의 전환은 원격 협업 도구에 대한 수요를 급격히 증가시켰다. 이에 따라 XR 솔루션은 소비자뿐만 아니라 기업 부문에서도 주목받는 기술로 자리잡고 있다.

XR은 무제한적인 움직임과 물리적 환경 및 가상 환경과의 실시간 원활한 상호작용을 통해 매력적인 사용자 경험을 제공한다. XR 애플리케이션은 몰입형 경험 제공을 목표로 하므로, 사용자가 인지하는 QoE는 XR 사용자에게 무엇보다 중요한 요소이다.

기존 서비스 개선과 미래 서비스 개발을 위해서는 사용자의 기대와 경험을 평가하고 이해하는 핵심 지표인 QoE가 필수적이다. 그러나 XR 시스템의 QoE 메트릭 평가는 QoE에 영향을 미치는 다양한 분야의 복합적 요인들로 인해 여전히 주요한 과제로 남아 있다.

또한 XR 시스템에서 우수한 QoE를 보장하기 위해서는 상당한 양의 저장 공간, 연산 능력, 네트워크 대역폭이 필요하다. 가장 중요한 문제 중 하나는 콘텐츠 트래픽의 기하급수적 증가로, 이는 현재 네트워크 인프라에 심각한 부담을 가한다. XR 애플리케이션의 광범위한 도입은 우수한 네트워크 품질과 성능에 대한 요구를 더욱 증가시키고 있다. 더불어 XR 기술은 시스템 설계, 동적 시점 예측, 적응적 스트리밍 등에서 새로운 과제를 제기한다.

기존 연구들은 XR을 보다 광범위한 멀티미디어 기술의 하위 영역으로 간주하며, 주로 교육, 헬스케어, 산업, 엔지니어링 등 특정 응용 분야에 초점을 맞추어 왔다. 하지만 이러한 연구들은 일반적으로 XR 스트리밍 고유의 과제에 대해서는 제한적인 관심만을 보였다.

한편 여러 조사 연구들이 360도 비디오 스트리밍을 다루었다. 예를 들어, Chen et al.은 전방향 비디오 코딩에 대한 종합적 검토를 제공하며 프로젝션 기법과 비디오 품질에 미치는 영향에 중점을 두었다. Xu et al.은 360도 비디오 및 이미지 처리의 발전을 검토하며 시각적 주의 모델링, 품질 평가, 압축 기법을 강조했다.

Zink et al.은 360도 비디오 스트리밍 시스템을 분석하며 콘텐츠 생성, 저장, 배포, 렌더링, QoE 평가, 엣지 기반 배포 모델을 다루었다. 높은 QoE 제공이라는 XR의 목표를 고려하여, 다수의 연구가 특히 이미지와 비디오 품질 평가에 집중해왔다.

예를 들어, Duan et al.은 XR 환경에서 시각적 및 멀티모달 주의 모델링과 지각적 품질 평가를 검토했다. Min et al.은 스트리밍, VR/AR, 사용자 생성 콘텐츠 전반에 걸친 품질 평가 접근법을 조사했다. Ruan et al.은 VR 스트리밍에 대한 QoE 평가 방법을 조사하며 머신러닝 기반 QoE 최적화 기법을 강조했다.

그러나 이러한 연구들은 주로 QoE 관점에서 360도 비디오 스트리밍의 과제를 다루고 있어, 보다 광범위한 XR 스트리밍 과제는 상대적으로 충분히 탐구되지 않은 상태이다.

본 논문은 XR 스트리밍과 관련된 현재 발전상황, 과제, 방법론에 대한 포괄적인 조사를 제공한다. 주로 360도 비디오나 특정 응용 분야에 초점을 맞추고 XR 스트리밍 과제에는 제한적인 관심만을 보인 기존 연구의 한계를 파악하고 이를 해결하고자 한다.

XR 스트리밍의 고유한 요구사항과 전문적 연구의 필요성을 강조하며, 본 논문은 멀티모달 상호작용, 트래픽 패턴, 적응적 스트리밍 기술에 대한 심층적 검토를 제공한다.

2장에서는 AR, VR, MR을 포함한 XR 용어를 정의하고, 이어서 전형적인 XR 스트리밍 시스템 아키텍처와 XR 트래픽 특성을 상세히 분석한다. 3장에서는 주요 XR 기기에서 사용되는 멀티모달 상호작용 기법을 정리한다. 4장에서는 QoE에 영향을 미치는 핵심 요인들을 논의한다. 5장에서는 응용 계층과 네트워크 계층 모두에서의 주요 시각적 주의 최적화 접근법을 소개한다. 주요 응용 사례와 과제는 6장과 7장에서 논의된다. 마지막으로 8장에서 연구 내용을 정리한다.


2. 확장현실(XR) 시스템과 트래픽 개요

2.1 XR 기술의 정의

그림 1. XR의 정의: 현실-가상 연속체에 따른 AR, MR, VR (그림은 LLM으로 생성됨). (a) 사용자가 모바일폰에서 AR을 사용하여 도시와 상호작용하는 모습. (b) 홀로렌즈 2 MR 헤드셋을 착용한 사용자가 테이블에 표시된 도시와 상호작용하는 모습. (c) VR 사용자가 도시에 서서 완전한 몰입 방식으로 상호작용하는 모습.
그림 1. XR의 정의: 현실-가상 연속체에 따른 AR, MR, VR (그림은 LLM으로 생성됨). (a) 사용자가 모바일폰에서 AR을 사용하여 도시와 상호작용하는 모습. (b) 홀로렌즈 2 MR 헤드셋을 착용한 사용자가 테이블에 표시된 도시와 상호작용하는 모습. (c) VR 사용자가 도시에 서서 완전한 몰입 방식으로 상호작용하는 모습.

XR은 고급 컴퓨팅과 인간-기계 상호작용을 활용하여 물리적 세계와 디지털 세계를 결합하는 다양한 몰입형 환경을 아우른다. XR에서 "X"는 다양한 공간 컴퓨팅 기술을 나타낼 수 있다. XR이 향후 더 많은 기술을 통합할 가능성이 있지만, 본 연구는 주로 VR, AR, MR에 중점을 둔다.

그림 1에서 보는 바와 같이, XR 기술의 정의와 상호관계는 현실-가상 연속체를 통해 설명할 수 있다. 이 연속체는 순전히 물리적인 현실에서 완전한 가상 세계에 이르는 스펙트럼을 나타내며, 사용자에게 다양한 수준의 몰입감과 상호작용성을 제공한다. VR, AR, MR에 대한 구체적인 설명은 다음과 같다.

  • 가상현실(VR): VR 기술은 현실-가상 연속체의 끝단에 위치하는 가상 환경을 다룬다. VR은 실제 세계 주변 환경을 완전히 차단하고 완전한 몰입형 디지털 환경을 구현한다. VR 헤드셋이나 헤드 마운트 디스플레이(HMD)를 착용함으로써 사용자는 인공 세계의 360도 전방위 시야를 경험할 수 있다. 이러한 몰입형 경험은 사용자가 새롭고 역동적인 환경에 있다고 인식하도록 하는 설득력 있는 착각을 만들어낸다. 이를 통해 사용자는 가상 환경과 객체를 매우 현실적이고 매력적인 방식으로 탐색하고 상호작용할 수 있다.
  • 증강현실(AR): AR 기술은 현실-가상 연속체에서 실제 환경에 가까운 영역에 위치한다. AR은 물리적 세계 위에 디지털 요소를 중첩시켜 표현한다. 이러한 기술은 이미지, 텍스트, 애니메이션과 같은 디지털 요소를 통합하여 물리적 세계를 향상시킨다. 사용자는 AR 안경, 태블릿, 스마트폰을 통해 이러한 요소들에 접근할 수 있다. 특정 AR 경험에서 물리적 요소와 가상 요소 간에 일정 수준의 상호작용이 있을 수 있지만, 디지털 구성요소와 물리적 구성요소 간의 직접적인 상호작용은 일반적으로 제한적이거나 없는 경우가 대부분이다.
  • 혼합현실(MR): MR 기술은 현실-가상 연속체의 중심부에 위치한다. 실제 세계 위에 디지털 특성을 중첩시켜 물리적 항목과 디지털 항목이 실시간으로 공존하며 서로 상호작용할 수 있게 한다. 따라서 MR 시스템은 환경으로부터 입력을 받아 이에 따라 적응한다. 예를 들어, 사용자는 자신이 있는 방 안에 디지털 객체를 배치하거나 회전시키는 등 다양한 방식으로 이러한 가상 요소와 상호작용하여 매력적이고 상호작용적인 경험을 만들어낼 수 있다.

2.2 XR 시스템 아키텍처

그림 2. XR 시스템의 아키텍처는 사용자, XR 기기, 스트리밍 네트워크, XR 서버로 구성된다. 사용자는 다양한 멀티모달 상호작용 기법을 통해 XR 헤드셋과 상호작용하며, QoE 최적화는 응용 계층과 네트워크 계층에 적용되는 방법들을 포함한다.
그림 2. XR 시스템의 아키텍처는 사용자, XR 기기, 스트리밍 네트워크, XR 서버로 구성된다. 사용자는 다양한 멀티모달 상호작용 기법을 통해 XR 헤드셋과 상호작용하며, QoE 최적화는 응용 계층과 네트워크 계층에 적용되는 방법들을 포함한다.

XR 시스템의 전형적인 구조가 그림 2에 제시되어 있으며, 이는 XR 사용자, 헤드셋, 서버를 포함한다. 현재 대부분의 XR 시스템이 로컬 렌더링을 채택하고 있으므로, XR 헤드셋은 사용자 입력 캡처, 콘텐츠 렌더링, 공간 컴퓨팅, 데이터 처리(예: 로컬 애플리케이션 로직 및 알고리즘)와 같은 대부분의 연산 및 처리 작업을 담당한다. 로컬 애플리케이션 로직은 로컬 기기에서 실행되는 일련의 규칙과 작업을 의미한다.

XR 서버는 XR 애플리케이션 메커니즘을 위한 복잡한 연산을 수행하고, XR 애플리케이션의 전역 로직을 관리하며, 연결된 모든 헤드셋으로부터의 입력을 처리하고, 일관된 애플리케이션 상태를 유지하며 모든 사용자가 동일한 콘텐츠를 경험하도록 보장하기 위해 충돌을 해결한다. 서버는 클라이언트에게 실시간 업데이트를 배포하여 모든 사용자가 가상 세계에 대한 동기화된 시각을 갖도록 보장함으로써 응집력 있고 매력적인 멀티플레이어 경험을 가능하게 한다.

사용자는 입력 기기와 센서를 통해 다양한 멀티모달 상호작용 방법(3장에서 설명)으로 XR 시스템과 상호작용한다. 획득된 상호작용 데이터는 XR 헤드셋이나 다른 기기에 의해 처리되고 XR 서버로 전송된다. XR 서버는 XR 헤드셋에 콘텐츠 업데이트를 제공한다. 헤드셋은 콘텐츠를 렌더링하고 상호작용 데이터를 처리하여 결과를 다시 사용자에게 전송한다.

서버와 헤드셋 간의 통신은 실시간으로 이루어져, 한 사용자의 행동이 다른 사용자들의 XR 환경에서 신속하고 정확하게 반영되도록 보장한다. XR 헤드셋과 서버는 함께 사용자들이 일관된 가상 세계 내에서 복잡하고 실시간 상호작용에 참여할 수 있는 원활하고 몰입적인 환경을 구현한다.

2.3 스트리밍에서의 XR 트래픽 패턴

XR 스트리밍에 대한 최적화 방법을 논의하기 전에, 먼저 XR 트래픽 패턴을 살펴보고 XR 스트리밍에서의 잠재적 문제들을 파악한다. XR이 사용자에게 멀티모달 상호작용과 몰입형 경험을 제공하므로, 그 트래픽은 전통적인 콘텐츠 트래픽과 상당히 다르다. XR에 대한 관심 증가와 주목할 만한 발전에도 불구하고, XR 스트림의 트래픽 특성화는 여전히 대부분 명확하지 않다. XR 네트워크 트래픽을 분석하고 모델링하는 연구는 상대적으로 부족한 상황이다. 따라서 XR 시스템은 사용자를 위한 최적의 성능과 QoE를 보장하기 위해 현재 통신 시스템에서 트래픽을 평가하는 발전이 필요하다.

그림 3. XR 플랫폼의 트래픽 패턴 예시. 스트림은 연결 단계와 전송 단계의 두 단계로 나뉜다. 연결 단계에서는 HTTP가 사용되고, 전송 단계에서는 UDP가 사용된다.
그림 3. XR 플랫폼의 트래픽 패턴 예시. 스트림은 연결 단계와 전송 단계의 두 단계로 나뉜다. 연결 단계에서는 HTTP가 사용되고, 전송 단계에서는 UDP가 사용된다.

그림 3에서 보는 바와 같이, XR 트래픽은 연결 단계와 전송 단계로 나눌 수 있다. 연결 단계에서는 안정적인 연결을 보장하기 위해 HTTP가 사용되고, 전송 단계에서는 지연을 최소화하기 위해 UDP가 사용된다. 한편 트래픽은 다운링크(DL)와 업링크(UL) 스트림으로 구분할 수 있다. 두 스트림 모두에 다양한 유형의 패킷이 존재한다.

보다 구체적으로 살펴보면, 전형적인 HTTP 세션이 연결 단계에서 발생한다. 전송 단계에서 UL 스트림은 동기화, 상호작용 데이터, 비디오 프레임 수신 정보를 위한 패킷들을 포함하는 반면, DL 스트림은 비디오 프레임 패킷 버스트, 동기화, 확인응답을 포함한다. XR DL 스트림의 주요 데이터 구성요소는 비디오 프레임이며, 이는 대용량 패킷 버스트로 전송된다. UL 상호작용 정보는 두 번째로 중요한 트래픽 스트림이다. 이 정보는 XR 기기에 의해 수집되고 콘텐츠를 갱신하기 위해 서버로 전송된다.

또한 UL과 DL 스트림 모두에서 더 작은 패킷들이 탐지되었다. 이러한 패킷들은 비디오 프레임 수신에 관한 피드백 역할을 한다. 이 피드백은 프레임 재전송의 필요성을 결정하기 위해 스트리밍 프로토콜에서 활용될 가능성이 있다.

Baldoni et al.은 70명의 참가자로부터 40시간 이상에 걸쳐 Quest 2 헤드셋을 사용하여 수집된 Questset이라는 데이터셋을 소개했다. 이 데이터셋의 분석을 통해, 저자들은 비디오 프레임이 패킷 버스트로 스트리밍되며, 프레임 레이트가 프레임 간 간격을 결정한다는 것을 발견했다. 또한 특정 프레임들이 이전 프레임들로부터 예측될 수 있어 재렌더링이나 전송의 필요성을 없애는 스킵된 프레임의 사례들을 관찰했다. 이 현상은 더 큰 프레임 간 간격을 야기한다.

다양한 소셜 VR 플랫폼의 트래픽 패턴도 평가되었다. VR 모델을 로드하고 연결을 설정한 후, XR 시스템은 UDP를 통해 데이터를 스트리밍하며, 패킷 분포에서 강한 주기성과 규칙성을 보인다. VR 콘텐츠는 접근 시 로드되고 거의 변경되지 않으므로, 스트리밍된 패킷은 주로 연결, 동기화, 확인응답, 상호작용을 처리한다. 데이터 전송은 버스트성을 나타내며, 교환되는 데이터의 양은 상대적으로 적다.

소셜 VR 플랫폼은 일반적으로 낮은 대역폭을 요구하는 다수의 상호작용을 지원한다. 그러나 새로운 모델이 로드될 때 대역폭 요구사항이 상당히 증가하여 지연과 긴 대기 시간을 초래한다. 또한 새로운 사용자들이 플랫폼에 가입함에 따라 다운로드 처리량이 선형적으로 증가하여 확장성 문제를 야기할 수 있다. 한편 DL은 음성과 비디오와 같은 콘텐츠 트래픽과 실시간 멀티미디어 신호를 모두 포함한다. 접근 네트워크의 용량이 DL 속도를 초과할 때 실시간 성능이 저하된다.

앞서 언급된 연구는 기존 XR 시스템이 렌더링과 네트워크 인프라의 제약으로 인해 상대적으로 적은 연산 및 대역폭 요구사항으로 낮은 품질의 경험을 제공한다는 것을 보여준다. 그러나 XR 기술이 발전함에 따라, 고충실도의 완전한 몰입형 경험을 제공하도록 설계된 애플리케이션으로의 전환이 예상된다.

이러한 고급 XR 애플리케이션은 높아진 사용자 기대를 충족하기 위해 네트워크 품질과 연산 능력에 상당히 높은 요구를 한다. 현재 XR 시스템이 적당한 연산 능력과 대역폭으로 작동할 수 있지만, 향상된 해상도, 시야각, 리프레시 레이트와 같은 HMD의 발전은 XR 환경의 현실감과 반응성을 크게 향상시킬 수 있다. 이러한 하드웨어 개선은 더욱 원활하고 시각적으로 매력적인 몰입형 경험을 가능하게 하지만, 고해상도, 저지연 콘텐츠를 처리하기 위한 더 높은 대역폭 요구도 증가시킨다.

따라서 HMD 업그레이드가 중요하지만, 차세대 XR 애플리케이션을 지원하고 품질 저하 없이 실시간 상호작용을 가능하게 하기 위해서는 네트워크 인프라와 대역폭 최적화에 초점을 맞춘 연구가 필수적이다.

예를 들어, 고충실도 몰입을 달성하려면 이상적인 종단 간 XR 시스템 지연이 전정-안구 반사 과정의 지속 시간에 해당하는 7ms 미만이어야 한다. 360도 XR 콘텐츠의 경우, 360 × 180도 시야각, 64 픽셀 퍼 디그리(PPD), 30 FPS의 프레임 레이트, 8비트 색상 깊이를 고려할 때 필요한 대역폭이 2.3 Tbps에 도달할 수 있다.


3. XR 기기와 사용자 상호작용

많은 빅테크들이 XR 기술에 상당한 투자를 하며 애플 비전 프로, 마이크로소프트 홀로렌즈 2, 메타 오큘러스 퀘스트 3, 구글 글래스, 삼성 기어 VR, HTC 바이브와 같은 다수의 상용 제품을 출시했다. 스마트폰, 컴퓨터, 태블릿, 헤드셋을 포함한 다양한 기기가 XR 애플리케이션을 지원하지만, 헤드셋이 가장 널리 사용되고 몰입감이 뛰어난 기기이다.

다양한 XR 헤드셋의 기술적 특징이 표 1에 나열되어 있다. 또한 세 가지 주요 XR 헤드셋에 대한 상세한 소개를 제공한다: 애플 비전 프로, 마이크로소프트 홀로렌즈 2, 메타 오큘러스 퀘스트 3.

3.1 최신 XR 헤드셋

3.1.1 애플 비전 프로

애플 비전 프로는 2023년 6월 5일에 출시된 애플에서 개발한 혼합현실 헤드셋이다. 이 기기는 핸드 트래킹, 아이 트래킹, 음성 인식, 얼굴 표정 인식을 포함한 물리적 입력을 상호작용에 활용하며, iOS 프레임워크를 기반으로 구축된 비전OS에서 작동한다.

헤드셋은 듀얼 4K 마이크로 OLED 디스플레이를 탑재하여 총 2,300만 픽셀을 제공하며 일반적으로 90 FPS로 작동한다. 또한 표시되는 콘텐츠에 따라 96 또는 100 FPS로 자동 조정된다.

애플 비전 프로는 광범위한 카메라와 센서를 포함한다: 6개의 외부 추적 카메라, 4개의 아이 트래킹 카메라, 2개의 고해상도 메인 카메라, 얼굴 인식을 위한 트루뎁스 카메라, 깊이 매핑을 위한 라이다 스캐너. 추가로 이 기기는 사용자 상호작용과 환경 통합을 향상시키기 위해 플리커 센서, 4개의 관성 측정 장치(IMU), 주변광 센서를 장착하고 있다.

비전 프로는 이러한 고급 기능을 구동하기 위해 두 개의 프로세서를 사용한다. 강력한 그래픽 성능으로 알려진 애플 M2 칩은 비전OS를 지원하고 복잡한 컴퓨터 비전 알고리즘을 처리한다. 한편 새로 도입된 애플 R1 칩은 기기의 카메라, 센서, 마이크로폰으로부터의 입력을 처리하여 단 12밀리초 내에 신속한 이미지 전송을 보장한다. 이러한 듀얼 프로세서 구성은 비전 프로가 혼합현실 환경에서 정교한 3D 경험을 제공할 수 있게 한다.

3.1.2 마이크로소프트 홀로렌즈 2

마이크로소프트에서 개발한 홀로렌즈 2는 2019년 11월 7일에 출시된 고급 혼합현실 헤드셋이다. 이 기기는 핸드 트래킹, 아이 트래킹, 음성 인식을 포함한 다양한 직관적 입력을 통해 사용자 상호작용을 향상시킨다. 윈도우 10을 기반으로 한 윈도우 홀로그래픽 운영체제에서 실행된다.

투명 홀로그래픽 디스플레이를 탑재한 홀로렌즈 2는 2K 3:2 라이트 엔진을 사용하여 이전 모델보다 더 넓은 시야각(FoV)으로 더욱 몰입적인 시각 경험을 제공한다. 시스템은 사용자의 물리적 환경 내에서 홀로그램을 렌더링하도록 설계되어 가상과 현실 세계의 융합을 제공한다.

기기는 광범위한 기능을 지원하기 위해 여러 센서와 카메라를 포함한다: 1메가픽셀 비행시간 깊이 센서, 이미지와 비디오 촬영을 위한 8메가픽셀 카메라, MR 캡처 카메라 배열. 또한 혼합현실 환경에서 공간 인식과 탐색에 중요한 가속도계, 자이로스코프, 자력계를 탑재하고 있다.

홀로렌즈 2는 퀄컴 스냅드래곤 850 컴퓨트 플랫폼으로 구동되며, 이는 홀로그래픽 데이터의 처리와 윈도우 홀로그래픽 OS의 전반적인 작동을 모두 담당한다. 이러한 통합은 복잡한 연산과 실시간 데이터 처리의 효율적인 수행을 가능하게 하여 원활한 상호작용 경험을 제공한다.

3.1.3 메타 오큘러스 퀘스트 3

메타(이전 페이스북)에서 개발한 메타 퀘스트 3는 2023년에 출시된 일체형 VR 헤드셋이다. 퀘스트 3는 하드웨어와 소프트웨어 모두에서 상당한 개선을 통해 몰입형 VR 경험의 한계를 넓혔다.

기기는 듀얼 LCD 디스플레이를 탑재하여 눈당 2064 x 2208 픽셀의 통합 해상도를 제공함으로써 우수한 시각적 선명도와 확장된 시야각을 구현하며, 이는 가상 환경의 인지된 깊이와 명확성을 전반적으로 향상시킨다.

퀄컴 스냅드래곤 XR2 Gen 2 플랫폼으로 구동되는 퀘스트 3는 향상된 처리 성능과 효율성을 자랑하여 VR 애플리케이션에서 더 높은 프레임 레이트와 더 세밀한 그래픽을 가능하게 한다. 헤드셋은 주로 120 FPS에서 작동하여 부드럽고 반응적인 시각적 성능을 제공하며, 콘텐츠에 따라 조정되는 적응형 리프레시 레이트를 갖는다.

또한 퀘스트 3는 터치 컨트롤러에서 고급 핸드 트래킹과 향상된 햅틱 피드백을 도입하여 더욱 촉각적이고 상호작용적인 사용자 경험에 기여한다. 이전 모델과 마찬가지로, 퀘스트 3는 여러 통합 카메라를 통한 인사이드 아웃 트래킹을 사용하여 외부 센서의 필요 없이 사용자의 물리적 공간 내에서 원활한 움직임을 지원한다.

기기는 또한 안드로이드의 개선된 버전을 기반으로 한 업데이트된 퀘스트 플랫폼을 활용하여 더욱 세련된 사용자 인터페이스와 확장된 콘텐츠 라이브러리를 제공한다. 디스플레이 기술, 처리 성능, 사용자 상호작용에서의 이러한 발전은 고충실도 VR 경험을 더 넓은 대중에게 더욱 접근 가능하게 만들려는 노력에서 메타 퀘스트 3의 역할을 중요한 진전으로 부각시킨다.

표 1. 인기 있는 XR 기기의 포괄적 사양과 상호작용 방법
표 1. 인기 있는 XR 기기의 포괄적 사양과 상호작용 방법

XR 기기 시장은 다양한 요구를 충족하도록 맞춤화된 폭넓은 제품군을 제공한다. 애플 비전 프로와 마이크로소프트 홀로렌즈 2와 같은 고급 기기는 최신 처리 성능과 핸드, 아이, 얼굴 트래킹을 위한 첨단 추적 기술을 갖춘 프리미엄 MR 경험을 제공하여 기업 애플리케이션에 이상적이다.

오큘러스 퀘스트 3와 HTC 바이브 프로 2와 같은 중급 기기는 고해상도 디스플레이와 넓은 시야각을 특징으로 하며, 게임과 미디어 소비에 최적화되어 있지만 고급 기기의 완전한 MR 기능은 제공하지 않는다.

매직 리프 1과 구글 글래스 엔터프라이즈 에디션 2를 포함한 입문급 기기는 경량 설계와 적당한 해상도에 초점을 맞추며, 증강 오버레이와 원격 지원과 같은 산업 애플리케이션을 대상으로 한다.

XR 기술의 진화는 디스플레이 해상도의 발전, 더 넓은 시야각, 증가된 처리 성능, 아이 트래킹, 핸드 트래킹, 음성 인식, 햅틱 피드백과 같은 정교한 멀티모달 상호작용 기능으로 특징지어진다. 또한 독립형 무선 기기로의 전환은 XR 기술을 더욱 몰입적이고 접근 가능하며 다양하게 만들어 더 광범위한 채택과 일상생활로의 통합을 위한 길을 열고 있다.

3.2 멀티모달 상호작용

XR 헤드셋은 일반적으로 시각과 청각을 넘어서는 멀티모달 상호작용 기술을 지원하여 사용자가 핸드 트래킹, 음성 명령, 시선 추적, 햅틱 피드백을 통해 가상 환경을 경험할 수 있게 한다. 많은 실험적이고 신기술들이 상호작용에 대한 잠재력을 가지고 있지만, 아직 XR 애플리케이션에 적용할 준비가 되지 않았다. 이 섹션에서는 기본적인 시각과 청각 상호작용을 제외한 주요 멀티모달 상호작용 기술을 다음과 같이 소개한다:

  • 컨트롤러: 컨트롤러는 사용자가 가상 세계와 상호작용할 수 있게 하는 XR 시스템의 필수 구성요소이다. XR 컨트롤러는 손 움직임을 모니터링하고 이를 가상 행동으로 변환하도록 설계된 버튼, 썸스틱, 트리거, 센서를 갖추고 있다. 이 기기는 사용자가 가상 환경 내에서 객체를 조작하고, 메뉴를 탐색하며, 다양한 활동을 수행할 수 있게 하여 손의 기능을 확장하는 도구로 작용한다.
  • 헤드 트래킹: 헤드 트래킹은 XR 시스템과 상호작용하기 위한 기본적인 메커니즘이다. 이는 센서와 알고리즘의 조합을 사용하여 더욱 몰입적이고 반응적인 경험을 제공하기 위해 사용자의 머리 움직임과 방향을 추적하는 것을 포함한다. 머리 움직임을 정확하게 캡처함으로써 XR 시스템은 사용자의 관점에 맞게 시각적 및 청각적 출력을 조정할 수 있어 가상 환경에서의 존재감과 몰입감을 향상시킨다.
  • 핸드 트래킹: 핸드 트래킹과 제스처 인식은 사용자가 전통적인 컨트롤러 없이 손을 활용하여 가상 세계와 상호작용할 수 있게 한다. XR 시스템은 카메라와 센서를 활용하여 핀치, 잡기, 스와이프와 같은 제스처를 해석하기 위해 손이나 손가락 움직임을 추적한다. 예를 들어, 사용자는 이 방법으로 가상 공간에서 항목을 집고, 이동시키거나, 크기를 조정할 수 있다.
  • 음성 인식: 음성 인식 기술은 사용자가 음성 명령을 사용하여 XR 시스템을 제어하고 가상 요소와 상호작용할 수 있게 한다. 내장 마이크로폰이 사용자의 음성을 캡처하고, 음성 처리 알고리즘이 명령을 해석한다.
  • 햅틱 피드백: 햅틱 기기는 가상 객체와의 터치나 상호작용을 시뮬레이션하기 위해 진동이나 힘을 통한 물리적 피드백을 제공하여 가상 경험의 현실감을 향상시킨다. 많은 XR 컨트롤러와 글러브나 슈트 같은 햅틱 기기는 진동 모터와 포스 피드백 시스템을 포함한 고급 피드백 메커니즘을 갖추고 있으며, 모두 몰입 경험을 크게 향상시키도록 설계되었다.
  • 아이 트래킹: 아이 트래킹은 사용자의 시선 방향을 모니터링하고 그들이 보고 있는 곳을 기반으로 상호작용을 가능하게 한다. 눈 움직임은 센서와 카메라에 의해 추적되고, 알고리즘이 데이터를 기반으로 행동을 유발하는 데 사용된다. 아이 트래킹은 인터페이스를 제어하고, 몰입감을 향상시키며, 렌더링 기법을 최적화하는 데 사용될 수 있다.
  • 얼굴 표정 인식: 얼굴 표정 인식은 시스템이 사용자의 얼굴 표정을 감지하고 해석할 수 있게 하는 기술이다. 이 상호작용 방법은 아바타나 디지털 캐릭터가 실시간으로 사용자의 감정을 반영할 수 있게 하여 몰입 경험을 향상시키며, 가상 상호작용에 현실감과 개인적 연결을 추가한다. 기술이 발전함에 따라, 이 기능은 소셜 XR, 게임, 훈련, 정신 건강 전반의 애플리케이션에서 점점 더 필수적이 되어 더욱 매력적이고 효과적인 가상 경험을 창조할 것이다.

4. 경험 품질

XR이 사용자에게 몰입형 경험을 제공하는 것을 목표로 하므로, 인지된 QoE가 중요하다. 현재와 미래의 XR 서비스 개발을 위해서는 사용자 경험과 기대를 이해하는 것이 필수적이다. XR에서 QoE를 평가하기 위한 많은 기초 메트릭들은 해상도, 비트레이트, 프레임 레이트, 버퍼링, 색상 깊이에 초점을 맞춘 전통적인 비디오 평가에서 유래한다.

이러한 메트릭들이 XR QoE에 대한 기준선을 제공하지만, XR에서의 적용은 더욱 복잡하고 동적이다. XR의 상호작용적이고 몰입적인 특성으로 인해 포괄적인 QoE 모델을 개발하는 것은 여전히 주요 과제로 남아 있다.

표 2에서 보는 바와 같이, QoE에 영향을 미치는 요인들은 세 그룹으로 분류될 수 있다: 하드웨어 성능, 네트워크 QoS(서비스 품질) 파라미터, 미디어 구성과 같이 경험에 영향을 미치는 내재적 시스템 속성을 포함하는 시스템 요인; 물리적 위치, 사회적 맥락, 특정 사용 사례 시나리오와 같이 시스템이 작동하는 외부 환경을 포함하는 맥락 요인; 감각 입력, 인지적 부하, 감정적 반응을 포함하여 인간이 경험에 대해 갖는 생리적 및 심리적 인식과 관련된 인간 요인.

표 2. QoE에 영향을 미치는 요인들
표 2. QoE에 영향을 미치는 요인들

4.1 시스템 요인

시스템 요인은 기술적 기준에서 XR 서비스나 애플리케이션의 전반적인 성능에 영향을 미치는 품질이나 특성이다. 시스템 요인은 네트워크, 애플리케이션, 서비스, 하드웨어 요인의 네 범주로 분류된다.

네트워크 요인은 패킷 손실, 시스템 지연, 처리량, 평균 비트 레이트, 버퍼링 시간, 버퍼링 이벤트 비율, 네트워크 대역폭과 같이 사용자에게 XR 콘텐츠의 전달과 성능에 영향을 미치는 네트워크 특성을 의미한다. 애플리케이션 요인은 해상도와 프레임 레이트와 같이 콘텐츠가 처리되고 제시되는 방법을 정의하는 기술적 사양과 설정을 포함한다.

서비스 요인은 시청되는 콘텐츠의 유형, 애플리케이션의 복잡성, 선택된 시청 모드와 같이 사용자 참여와 만족도에 영향을 미치는 콘텐츠 및 사용자 상호작용과 관련된 속성이다. 하드웨어 요인은 HMD, 헤드폰, 디코더 성능, 헤드 트래킹 기술, 시야각과 같은 XR 기기의 물리적 구성요소와 성능에 관련된다. 이러한 각 범주는 사용자의 전반적인 경험 품질에 상당한 영향을 미친다.

해상도, 프레임 레이트, 지연과 같은 이러한 요인들 중 많은 것들이 전통적인 비디오 QoE 연구에서 유래하여 주로 수동적 시청 시나리오에서 평가되었다. 그러나 XR에서는 가상 경험과 사용자 움직임 간의 동기화를 보장하기 위해 실시간 상호작용과 저지연 요구사항과 같은 추가적인 복잡성을 다루기 위해 확장되었다.

콘텐츠 품질은 QoE에 직접적인 영향을 미친다. 사용자의 경험은 또한 블록화와 흐림과 같은 알고리즘과 하드웨어에서 발생하는 다른 문제들에 의해 부정적인 영향을 받을 수 있다. 추가로 미디어 구성과 네트워크 QoS 파라미터와 같은 시스템 요인들이 QoE에 상당한 영향을 미친다.

Dobrian et al.은 버퍼링 비율, 렌더링 품질, 접속 시간, 평균 비트레이트, 버퍼링 이벤트 비율을 포함한 다양한 품질 메트릭을 평가하는 연구를 수행했다. 그들은 버퍼링에 소요된 시간의 비율을 나타내는 버퍼링 비율이 모든 콘텐츠 유형에 걸쳐 사용자 참여에 영향을 미치는 가장 중요한 요인임을 발견했다.

Ghinea et al.은 색상 깊이와 프레임 레이트의 영향을 확인하고, 상당한 프레임 손실이나 색상 깊이 감소에 의해 사용자의 만족도와 프레젠테이션에 대한 이해가 비례적으로 감소하지 않는다는 것을 발견했다. Zhang et al.은 하드웨어 품질, 콘텐츠 품질, 사용자 상호작용, 환경 이해의 네 가지 고급 파라미터를 포함하는 QoE 평가 프레임워크를 제안했다.

Singla et al.은 HMD 기기와 사용자 행동이 QoE에 미치는 영향을 평가했다. [69]에서 수행된 연구는 VR에서 머리 움직임과 객체 움직임 모두의 궤적과 속도를 조사했다. 또한 이 연구는 사용자가 다양한 상황에서 어떻게 인식하는지에 대한 더 깊은 이해를 얻기 위해 배경의 복잡성과 같은 콘텐츠의 여러 측면을 검토했다. 그들은 또한 총 80명의 참가자로부터 멀미 수준의 평가를 수집했다.

360도 비디오의 지각적 품질과 관련하여, Shahid et al.은 사용자의 프로필을 고려하면서 콘텐츠 유형, 인코딩 파라미터, 렌더링 기기가 QoE에 미치는 영향에 대한 주관적 평가를 수행했다. 그들의 연구 결과는 시청자가 덜 매력적인 콘텐츠에 비해 VR에서 매력적인 360도 비디오를 시청할 때 인코딩 파라미터에 대해 더 큰 관용을 보인다는 것을 나타냈다. 추가로 연구는 기기 유형이 시청자 만족도에 상당한 영향을 미치며, 구글 카드보드에 비해 HTC 바이브에서 시청된 콘텐츠에 대해 더 높은 평균 의견 점수가 기록된다는 것을 보여주었다.

딥러닝의 발전과 함께, QoE에 영향을 미치는 요인들을 평가하기 위해 신경망 모델이 설계되고 있다. Duan et al.은 색상 불일치, 흐림, 고스팅과 같이 VR 이미지 품질에 영향을 미치는 중요한 왜곡을 감지하는 딥러닝 기반 메트릭을 소개했다. Zhu et al.은 의미적 및 왜곡 특정 세부사항을 모두 캡처하여 참조 없이 실제 환경의 이미지 품질을 평가하는 접근법을 제안했다.

Liu et al.은 품질, 편안함, 대응성을 기반으로 AI가 생성한 전방향 이미지를 평가했다. 품질은 선명도와 색상을 포함한 시각적 충실도를 측정하고, 편안함은 이미지 현실감과 구조적 일관성을 평가하여 사용자의 몰입 경험을 측정한다. 대응성은 생성된 이미지와 그것을 안내하는 텍스트 프롬프트 간의 정렬을 확인한다.

Zhu et al.은 인간 피험자가 자기중심적 공간 이미지의 지각적 품질을 평가하는 주관적 품질 평가 방법을 사용했다. Sun et al.은 360도 이미지의 무참조 품질 평가를 위한 다채널 CNN 모델을 제안했다.

Duan et al.은 VR 환경에서 시청되는 전방향 이미지의 지각적 품질에 대한 인간 평가를 수집하는 주관적 품질 평가 방법을 사용했다. 그들은 시각적 진동, 몰입 지속시간, 비디오 콘텐츠와 같은 요인들의 영향을 추가로 조사했다. 더욱이 그들은 VR 환경에서 해상도, 비트 레이트, 프레임 레이트와 같은 다양한 파라미터가 비디오 품질에 미치는 영향을 평가했다.

4.2 사용자 요인

XR QoE에서 사용자 요인은 전통적인 비디오 QoE 연구의 통찰력을 기반으로 한다. 사용자 편안함, 만족도, 지각적 반응을 평가하는 메트릭들은 XR에서 적용 가능하지만 높아진 감각적 및 인지적 요구를 고려하기 위해 확장이 필요하다. 사용자의 생리적 및 심리적 요소 모두 QoE에 상당한 영향을 미친다.

4.2.1 생리적 요인

성별, 나이, 기타 생리적 특성과 같은 생리적 요인들은 QoE에서 중요한 역할을 한다. Laghari et al.은 성별과 나이와 같은 인체에 내재된 다양한 요인들을 분석하여 사용자 인식 품질에 미치는 주요 영향을 식별했다. 이러한 요소들 중 많은 것들이 광범위하게 조사되고 모델링되었지만, 개인의 생리적 특성이 QoE에 미치는 구체적 영향은 여전히 중요한 연구 영역으로 남아 있다.

Saleme et al.은 신흥 XR 애플리케이션인 360° 멀세미디어(다중 감각 미디어)를 연구하여 경험에 영향을 미칠 수 있는 생리적 측면을 조사했다. 이전 연구와 달리, 저자들은 냄새 민감도를 별개의 변수로 도입하고 여성이 여러 감각이 관련된 시나리오에서 더 큰 민감도를 가진다는 것을 발견했다.

Shahid et al.도 나이, 성별, 콘텐츠에 대한 관심, 파노라마 VR 콘텐츠에 대한 친숙도를 포함한 사용자 프로필 데이터와 인코딩 설정, 콘텐츠 유형, 기기 유형과 같은 다른 파라미터들의 분석을 통해 XR에서 QoE를 조사했다. 그들의 연구 결과는 사용자들이 매력적인 360도 파노라마 VR 비디오를 시청할 때 인코딩 레이트에 대해 더 높은 관용 수준을 가지며, 덜 매력적인 콘텐츠를 시청할 때보다 인코딩 레이트에 덜 민감하다는 것을 나타냈다.

추가로 시청자들은 특정 기기 유형에 대해 뚜렷한 선호를 보였다. 따라서 사용자 프로필을 분석함으로써, 콘텐츠 서비스 제공업체와 기기 제조업체는 사용자 기대를 충족하는 서비스를 제공하기 위해 자원을 효율적으로 할당할 수 있다.

4.2.2 심리적 요인

사용자의 심리적 상태가 다양한 방식으로 QoE에 상당한 영향을 미친다는 것이 입증되었다. Palhais et al.의 연구는 시청자들이 콘텐츠에 관심이 있을 때 비디오 품질 문제를 간과하는 경향이 있음을 보여주며, 관심과 QoE 간의 긍정적 상관관계를 나타낸다.

추가로 성격, 태도, 동기, 주의 수준, 기분과 같은 다른 심리적 요인들도 QoE에 영향을 미치는 데 중요한 역할을 한다. 일부 연구들은 관심을 QoE의 핵심 영향 요인으로 식별한다. 이러한 관심은 특정 콘텐츠에 의해 유발될 수 있어 사용자의 QoE 인식에 상당한 영향을 미친다.

4.3 맥락 요인

맥락 요인은 사용자의 주변 환경을 정의하는 상황적 특성을 포함한다. 맥락 요인들이 전통적인 비디오 QoE 연구에서 적용 가능하지만, 사용자가 더욱 몰입적이고 가변적인 환경에서 상호작용하는 XR에서 더 높은 중요성을 갖는다. 조명, 소리, 위치와 같은 요인들은 전통적으로 수동적 맥락에서 평가되었지만, 몰입감과 사용자 편안함에 직접적인 영향을 미치기 때문에 XR에서 중요해진다.

이러한 요인들은 개별적으로 그리고 집단적으로 그들의 규모, 행동, 발생 패턴에서 차이를 보일 수 있다. 이러한 요소들은 물리적 환경 측면(예: 조명, 소리, 위치)과 경제적 요인(예: 가격 선호도와 예산 제한)으로 분류된다.

Han et al.은 사용자의 QoE가 주변 환경에 존재하는 여러 외부 요소들에 의해 영향을 받는다고 주장했다. 그들은 사용자가 편안할 때 QoE가 향상된다는 것을 발견했다. 추가로 사용자의 경험은 좌석의 위치, 시청 영역의 거리와 높이, 조명 조건, 전화 착신이나 문자 서비스 알림과 같은 잠재적 방해와 같은 물리적 요인들에 의해 상당한 영향을 받는다.

Martinez et al.은 구독 비용과 같은 경제적 맥락 요인을 QoE에 영향을 미치는 요소로 강조했다. Yamori et al.은 사용자가 콘텐츠에 지불하는 금액이 그들의 경험에 영향을 미치며, 사용자들이 일반적으로 더 낮은 가격의 콘텐츠에 대해 더 높은 관용을 보인다는 것을 발견했다.

또한 Sackl et al.이 수행한 연구들은 재정적 제약, 사용자 기대, 품질에 기반한 가격 책정과 같은 요인들을 통합하는 것이 사용자 인식 모델의 성능에 기여한다는 것을 보여주었다. Duan et al.은 조명과 배경 복잡성과 같은 실제 맥락 요인이 중첩된 AR 이미지의 지각적 품질에 미치는 영향을 평가했다. 그들은 나중에 실제 장면에 디지털 콘텐츠를 중첩시키는 효과를 검토하는 시각적 혼란 이론을 사용하여 AR 환경에서 이미지 품질을 평가하는 프레임워크를 제안했다. Wang et al.은 가상과 현실 세계 간의 상호작용이 지각적 품질에 어떻게 영향을 미치는지 검토했다.


5. XR 스트리밍 최적화를 위한 시각적 주의 방법

5.1 시각적 주의

XR 시스템에서 사용자들은 일반적으로 제한된 시야각 내에서 장면을 보고 가장 매력적이고 흥미로운 영역에 집중한다. 인간 시각 시스템의 넓은 시야각에도 불구하고, 가장 높은 시각적 예리함은 시야의 중앙 2.5°만을 차지하는 중심와 영역에 집중되어 있다. 이 특징을 활용하여 대역폭 사용량과 연산 능력을 줄이기 위한 수많은 최적화 방법들이 제안되었다.

이러한 방법들의 핵심 아이디어는 사용자가 어디를 보고 있는지 또는 어떤 부분이 시각적으로 더 매력적이고 시청될 가능성이 높은지를 식별하는 것이다. 따라서 XR 시스템은 사용자의 시점 근처의 콘텐츠를 고품질로 스트리밍하면서 다른 영역은 낮은 품질로 전달한다. 이러한 방법들이 인간 시각 시스템의 특성을 활용하므로, 우리는 이러한 기법들을 시각적 주의 방법이라고 하며 중심와 스트리밍과 타일 기반 스트리밍으로 분류한다.

중심와 스트리밍은 화면을 중심와, 혼합, 주변 영역으로 나눈다. 시각적 예리함이 가장 높은 중심와 영역은 사용자의 시선과 정렬되어 가장 높은 해상도로 스트리밍된다. 혼합 영역은 중간 해상도를 가진 전환 영역 역할을 하여 부드러운 세부사항 전환을 보장한다. 시각적 예리함이 가장 낮은 주변 영역은 이 영역에서 세부사항에 대한 눈의 둔감함을 활용하여 연산 자원을 절약하기 위해 낮은 해상도로 스트리밍된다.

이 기술은 빠른 시선 이동과 동적 상호작용을 포함하므로 게임, 가상 시뮬레이션, XR 작업공간과 같은 실시간 애플리케이션에 특히 적합하다. 중심와 스트리밍의 적응적 특성은 초점 영역에서 높은 시각적 품질을 보장하면서 지연과 연산 요구를 최소화하며, 이 둘은 이러한 환경에서 반응성을 유지하는 데 중요하다.

타일 기반 스트리밍은 XR 콘텐츠를 직사각형 타일로 나눈다. 가시 뷰포트 내의 타일들에 대해서는 고품질 스트림이 전달되고, 뷰포트 외부의 타일들은 낮은 품질로 스트리밍된다. 이 방법은 사용자가 적극적으로 관찰하는 영역에 대역폭을 우선 배치하여 효율적인 자원 활용을 보장하고 시청 경험을 향상시킨다.

이는 사용자 시청 패턴이 더 예측 가능하고 콘텐츠가 종종 사전 렌더링되는 360° 비디오 스트리밍, 원격 협업, 가상 관광에 특히 효과적이다. 이러한 특성들은 타일 기반 스트리밍이 자원 활용을 최적화하고, 몰입감을 향상시키며, 실시간 적응 없이도 일관된 품질을 제공할 수 있게 한다.

5.2 시점 예측

중심와 렌더링과 타일 기반 스트리밍 모두 사용자가 보고 있는 영역을 결정하기 위해 시선을 활용한다. 실시간 아이 트래킹의 능력에도 불구하고, 아이 트래커가 특정 시선 지점을 감지하는 시점과 HMD 프레임에서 해당 시각적 콘텐츠가 업데이트되는 시점 사이에는 자연스러운 지연이 있다. 이러한 지연은 중심와 렌더링과 타일 기반 스트리밍과 같은 최적화 방법을 통해 달성된 품질 개선을 무효화할 수 있다.

더욱이 더 이상 중심와 시각 범위에 있지 않은 영역을 최적화함으로써 QoE에 부정적인 영향을 미칠 수 있다. 그 결과, 미래 시선 위치를 예측하는 방법들이 주목받게 되었다.

그림 4. 시점 예측 방법의 설명
그림 4. 시점 예측 방법의 설명

그림 4에서 보는 바와 같이, 뷰포트 예측은 사용자가 가까운 미래에 관찰할 가능성이 있는 비디오나 장면의 특정 영역을 예측하며, 일반적으로 예상되는 시선 방향을 중심으로 한다. 돌출성 예측은 사용자의 현재 시선 초점과 관계없이 지각적 또는 인지적 중요성으로 인해 시각적 주의를 끌 가능성이 가장 높은 영역을 식별한다.

뷰포트 예측 방법은 평균 절대 오차(MAE), 대원 거리, 겹침 정확도와 같은 메트릭을 사용하여 평가된다. MAE는 예측된 시점과 실제 시점 간의 평균 편차를 계산하고, 대원 거리는 구면 표면에서 예측된 시점과 실제 시점 간의 최단 경로를 측정한다. 겹침 정확도는 예측된 뷰포트가 덮는 실제 뷰포트 영역의 비율을 측정한다.

돌출성 예측의 경우, 쿨백-라이블러 발산(KLD), 피어슨 상관계수(PCC), 정규화된 스캔패스 돌출성(NSS)이 널리 사용되는 메트릭이다. KLD는 예측된 돌출성 맵과 실제 돌출성 맵 간의 분포 차이를 측정하며, 낮은 값이 더 가까운 정렬을 반영한다. PCC는 예측된 돌출성 분포와 실제 돌출성 분포 간의 선형 상관관계를 평가한다. NSS는 예측된 돌출성을 인간의 주시점과 비교하여 사용자 주의와의 정렬을 나타낸다.

이러한 메트릭들은 방향적 정밀도, 공간적 겹침, 실제 사용자 초점과의 정렬의 균형을 맞춰 XR 콘텐츠 전달을 최적화하기 위해 시점과 돌출성 예측 방법을 종합적으로 평가한다.

사용자가 어디를 볼 것인지 예측하는 것을 문헌에서 종종 뷰포트 예측이라고 하지만, 더 정확한 용어는 시점 예측이다. 시점은 요각과 피치각에 의해 결정되는 뷰포트의 중심을 의미한다. 유사하게, 돌출성 예측의 목표는 이미지나 비디오에서 인간의 눈이 주의를 기울이는 위치를 예측하는 것이다.

본 연구에서는 예상되는 사용자 초점을 기반으로 콘텐츠 전달을 최적화한다는 공통된 목표를 제공하므로, 용어를 상호 교환적으로 사용하면서 돌출성과 뷰포트 예측 방법을 요약한다. 지난 수십 년간 수많은 시점과 돌출성 예측 방법들이 제안되었으며, 크게 고전적 머신러닝 기반과 딥러닝 기반 접근법으로 분류된다.

5.2.1 고전적 머신러닝 기반 방법

여러 기존 방법론들이 과거 시점 궤적을 활용하여 미래 시청 위치를 예측하기 위해 다양한 선형 회귀(LR) 알고리즘을 사용한다. 추가로 선형 회귀 방법의 성능을 향상시키기 위해 예측 오차의 분포를 추정하는 일부 확률적 모델들이 제안되었다.

그러나 LR 기반 방법들은 선형 머리 움직임을 가정하며, 이는 상당한 편향을 야기하는 강한 가정이다. 따라서 다양한 사용자의 시점 궤적으로부터 공간적 및 시간적 특징을 추출하는 수많은 방법들이 개발되어 더 나은 성능을 달성하고 기존 XR 스트리밍 시스템에서 주류가 되었다.

애플리케이션의 다양한 사용자로부터의 시점 궤적이 유사한 공간적 및 시간적 특성을 보이므로, 사용자의 시점 궤적은 클러스터링 방법을 통해 다른 사용자들의 과거 데이터를 기반으로 예측될 수 있다. 유사성을 공유하는 궤적을 분류하기 위해 스펙트럴 클러스터링 접근법이 사용된다. 각 클러스터에 대해 미래 시점 위치를 예측하기 위한 특정 함수가 계산된다.

유사하게, Taghavi et al.은 이전 사용자들의 시점 궤적을 다양한 그룹으로 클러스터링했다. 쿼터니언을 외삽함으로써 사용자의 궤적이 이러한 클러스터 중 하나와 매칭되고, 클러스터 중심을 사용하여 시점이 예측된다.

5.2.2 딥러닝 기반 방법

사용자 시점을 예측하기 위해 많은 딥러닝 기반 방법들이 제안되었다. Hu et al.은 동적 장면에 초점을 맞춰 CNN(합성곱 신경망) 기반 모델로 미래 시선 위치를 예측한다. 한편 LSTM(장단기 메모리) 네트워크가 시점 예측에 널리 사용된다.

Xu et al.은 동적 360도 콘텐츠에서 관찰자들의 시선 데이터 데이터셋을 구축하고 시선 변위 예측을 위해 CNN과 LSTM 네트워크를 사용한다. 예를 들어, Fu et al.은 시점을 예측하기 위해 LSTM을 자기 주의 메커니즘과 결합한다. Zhang et al.은 세 개의 LSTM 모델을 구성하고 그들의 예측의 평균을 최종 결과로 사용한다.

트랜스포머가 많은 분야에서 진전을 이루었으므로, 시점 예측에서도 사용된다. Chao et al.은 시점을 예측하기 위해 트랜스포머 인코더를 활용한다.

시점 예측의 정확도를 향상시키기 위해 돌출성 맵과 비디오 콘텐츠와 같은 추가 정보가 딥러닝 모델에 통합된다. Xu et al.은 머리 움직임을 예측하기 위한 심층 강화학습(DRL) 방법을 제시한다. 이 방법은 360도 비디오 콘텐츠와 과거 뷰포트 궤적을 입력으로 받고 에이전트의 행동과 사용자의 움직임 간의 차이를 최적화한다.

Romero et al.은 미래 시점을 예측하기 위해 과거 시점 궤적과 돌출성 맵을 활용하는 LSTM 모델을 개발한다. Nguyen et al.은 돌출성 맵을 예측하는 CNN 아키텍처와 이러한 예측된 돌출성 맵과 머리 방향 맵을 사용하여 미래 시점을 예측하는 LSTM 모델을 제안한다.

Zhu et al.은 마르코프 체인 기반 알고리즘을 사용하여 공간-시간적 단서와 시각적 행동 적응을 통합함으로써 돌출성 예측을 향상시키는 시각적 행동 적응 돌출성 모델을 소개한다. 나중에 그들은 투영 왜곡을 다루고 공간-시간적 정보를 활용하여 돌출성 예측을 향상시키기 위해 머리와 눈 움직임 데이터를 모두 활용하는 그래프 기반 시청 행동 모델과 그래프 기반 CNN 모델의 두 가지 방법을 제시한다.

또한 그들은 구면 조화함수를 사용하여 서로 다른 주파수 대역의 특징을 캡처하고, 머리와 눈 움직임에 대한 정확한 돌출성 맵을 생성하기 위해 저급 시각적 특징과 고급 단서를 결합하는 360도 이미지를 위한 돌출성 예측 모델을 제안한다.

Duan et al.은 아이 트래킹 데이터를 기반으로 AR 장면에 맞춤화된 벡터 양자화 돌출성 예측 모델을 개발한다. Zhu et al.은 VR 환경에서 사용자 초점에 대한 오디오, 특히 앰비소닉 사운드의 상당한 영향을 입증한다. 추가로 그들은 멀티모달 정렬된 임베딩 공간 내에서 오디오와 시각적 특징을 계층적으로 융합하는 오디오-시각 돌출성 예측 네트워크를 제안한다.

앞서 언급한 모든 방법들은 단일 시점 궤적 예측에 초점을 맞춘다. 그러나 Guimard et al.은 유사한 과거 궤적에서 발생할 수 있는 다양한 가능한 미래 궤적을 고려하여 공개 시점 데이터를 분석함으로써 다중 시점 예측의 필요성을 강조한다. 이를 해결하기 위해 그들은 다중 시점 예측을 위한 이산 변분 학습 방법을 제안한다.

유사하게, Wang et al.은 시점 예측을 분류 문제로 다룸으로써 시청 확률과 함께 다중 시점 궤적을 예측하는 트랜스포머 기반 방법을 개발한다. 이러한 접근법들은 사용자 행동의 내재된 불확실성과 변동성을 포착하여 미래 시점에 대한 더욱 포괄적이고 정확한 예측 모델을 제공하는 것을 목표로 한다.

표 3. XR 시스템을 위한 시점 예측 방법 요약
표 3. XR 시스템을 위한 시점 예측 방법 요약

전통적 방법과 딥러닝 기반 방법 모두에 대한 시점 예측 기법이 표 3에 요약되어 있다. 시점 예측에 가장 필수적인 데이터가 과거 궤적임이 분명하다. 딥러닝이 발전함에 따라, 돌출성 맵과 비디오 프레임을 포함하여 시점 예측 정확도를 향상시키기 위해 더 많은 유형의 정보가 사용되고 있다.

5.3 적응적 스트리밍

앞서 언급한 중심와 렌더링과 뷰포트 스트리밍 기법들은 콘텐츠를 더 작은 영역으로 나누어 XR 콘텐츠를 공간적으로 최적화하며, 시점에 가장 가까운 영역은 고품질로 스트리밍하고 다른 영역은 낮은 품질로 스트리밍한다. 추가로, 대역폭과 연산 요구사항을 더욱 줄이기 위해 콘텐츠 품질을 시간적으로 동적 조정할 수 있다.

적응적 스트리밍은 네트워크 조건과 기기 성능에 따라 미디어 품질을 동적으로 조정함으로써 XR 애플리케이션에서 콘텐츠 전달을 최적화하는 중요한 애플리케이션 계층 기술이다. 이는 버퍼링과 재생 중단을 최소화하여 부드럽고 몰입적인 사용자 경험을 보장한다. XR 콘텐츠를 여러 품질 수준으로 인코딩하고 실시간으로 조정함으로써, 적응적 스트리밍은 대역폭을 효율적으로 사용하고, 확장성을 향상시키며, 접근성을 개선한다.

적응적 스트리밍은 일반적으로 NP-hard 문제인 QoE 최적화 문제로 공식화된다. 따라서 빔 서치, 동적 프로그래밍, 그리디 알고리즘과 같은 다양한 휴리스틱 알고리즘들이 제안되었다.

Hu et al.은 사용자의 QoE를 최대화하는 볼록 최적화 문제로 XR 스트리밍을 공식화하고 최적 솔루션을 얻기 위해 이분법을 사용했다. Zhang et al.은 QoE 최대화를 NP-hard 문제로 공식화하고 우선순위에 기반하여 각 타일의 품질을 결정하는 랭킹 기반 휴리스틱 솔루션을 제안했다.

그럼에도 불구하고, 이러한 휴리스틱 솔루션들은 시간이 많이 걸리고 다양한 네트워크 상황에서 최적 결과를 달성하는 데 어려움을 겪는다. 이러한 과제를 해결하기 위해 단일 에이전트 심층 강화학습(SADRL)을 기반으로 한 다양한 방법들이 제안되었다.

타일 수와 비트레이트 수준에 따라 행동 공간의 차원이 증가하는 것을 고려하여, Fu et al.은 비동기 장점 액터-크리틱(A3C) 알고리즘으로 각 타일에 대한 비트레이트를 순차적으로 결정하는 적응적 스트리밍 전략을 제시한다.

행동 공간의 복잡성은 뷰포트 영역을 기반으로 비트레이트를 조정함으로써 더욱 줄일 수 있다. Zhang et al.은 VR 비디오를 뷰포트와 나머지의 두 영역으로 나누었다. 뷰포트 내의 타일들은 A3C를 활용한 SADRL 모델에 의해 결정되는 동일한 비트레이트를 할당받는다. 반대로, 나머지 타일들은 가장 낮은 비트레이트를 할당받는다.

Tang et al.은 타일 기반 방법을 사용하지 않고 전체 VR 비디오를 여러 사용자에게 스트리밍하고 QoE를 최대화하기 위해 각 사용자에 대한 비트레이트 결정을 하기 위해 A3C 알고리즘을 활용한 SADRL 방법을 채택했다.

Kan et al.은 VR 비디오를 뷰포트, 주변, 보이지 않는 세 영역으로 나누고 이 세 영역의 비트레이트를 동시에 결정하기 위해 A3C 알고리즘을 활용한 SADRL 모델을 제시했다. Wei et al.은 타일의 비트레이트를 결정하는 2단계 전략을 제안했다. SADRL 모델이 먼저 세그먼트 비트레이트를 결정하고, 그다음 개별 타일의 비트레이트가 뷰 예측과 세그먼트 비트레이트를 고려하여 게임 이론을 사용하여 결정된다.

Feng et al.은 뷰포트 내부의 타일들을 다양한 수준으로 분류하고 이러한 타일들의 비트레이트를 결정하기 위해 근접 정책 최적화(PPO) 알고리즘을 활용했다. Long et al.은 다중 사용자를 위해 다중 에이전트 심층 강화학습(MADRL)과 그래프 합성곱 네트워크를 기반으로 통신 및 연산 자원을 할당하는 적응적 자원 할당 접근법을 제안한다.

그러나 SADRL을 기반으로 한 모든 기존 방법들은 일반적으로 다른 타일들의 존재를 전역적으로 고려하지 않고 비트레이트 결정에 대한 지역 최적해를 달성한다. 따라서 Wang et al.은 XR 스트리밍을 분산 부분 관찰 마르코프 결정 과정(Dec-POMDP) 최적화 문제로 공식화하고 트랜스포머 방법의 다중 시점 예측을 기반으로 타일에 대한 비트레이트를 전역적으로 결정하기 위해 다중 에이전트 근접 정책 최적화(MAPPO) 알고리즘을 사용하는 MADRL 방법을 제안한다.

그림 5. 시각적 주의 기반 적응적 스트리밍 방법의 전형적인 프레임워크. XR 콘텐츠가 많은 영역으로 분할된다. 각 영역의 품질은 A3C, PPO와 같은 다양한 DRL 알고리즘에 의해 결정된다.
그림 5. 시각적 주의 기반 적응적 스트리밍 방법의 전형적인 프레임워크. XR 콘텐츠가 많은 영역으로 분할된다. 각 영역의 품질은 A3C, PPO와 같은 다양한 DRL 알고리즘에 의해 결정된다.

그림 5에서 보는 바와 같이, 적응적 스트리밍은 QoE 최적화 문제로 공식화되고 DRL에 의해 해결될 수 있다. XR 콘텐츠가 많은 타일로 분할되고, 각 타일의 품질은 환경 상태를 관찰함으로써 DRL 알고리즘에 의해 결정된다. DRL 모델의 상태, 행동, 보상은 아래와 같다:

  • 상태: RL 에이전트는 n 프레임을 재생한 후 환경의 상태를 취하며, 예측된 시점 위치, 과거 n 프레임에 대한 다운로드 시간, 과거 n 프레임에 대한 네트워크 처리량, 마지막 프레임의 품질, 현재 버퍼 수준을 포함하지만 이에 국한되지 않는다.
  • 행동: RL 에이전트의 행동은 비트레이트다. 비트레이트가 연속적인 행동(스칼라)이므로, PPO, A3C 등과 같은 많은 DRL 방법들이 적용될 수 있다.
  • 보상: 설계된 XR QoE 모델이 RL의 보상으로 사용될 수 있다. 예를 들어, QoE 모델은 네 가지 주요 구성요소로 이루어질 수 있다:
    • 𝑄𝑡 = 𝑄¹𝑡 − 𝜂1 · 𝑄²𝑡 − 𝜂2 · 𝑄³𝑡 − 𝜂3 · 𝑄⁴𝑡 (1)
    • 여기서 𝑄¹𝑡는 시간 단계 𝑡에서의 뷰포트 품질로 사용자의 뷰포트 내 비디오 콘텐츠의 평균 품질을 나타낸다. 𝑄²𝑡는 연속적인 뷰포트 간의 품질 변화를 측정하는 뷰포트 시간적 변동이다. 𝑄³𝑡는 블록화 아티팩트를 방지하기 위해 사용자의 뷰포트 내 타일들 간의 레이트 변화를 고려하는 뷰포트 공간적 변동이다.
    • 𝑄⁴𝑡는 사용자 경험에 대한 버퍼링 이벤트의 영향을 나타내는 리버퍼링 시간이다. 𝜂∗는 다양한 사용자 선호도를 허용하는 조정 가능한 파라미터들이다. 이 모델은 변동과 리버퍼링 이벤트를 최소화하는 것과 높은 뷰포트 품질의 균형을 맞추는 것을 목표로 한다.

5.4 패킷 스케줄링

시간에 따라 변하는 네트워크를 통한 XR 스트리밍은 많은 변수와 파라미터를 포함하는 복잡한 문제다. 테일 드롭과 우선순위 스케줄링과 같은 기본 방법부터 공정성을 달성하고 테일 지연을 최소화하도록 설계된 더 복잡한 메커니즘에 이르기까지, 전통적인 비디오 스트리밍을 위한 여러 네트워크 적응형 패킷 스케줄링 알고리즘이 존재한다.

테일 드롭 알고리즘은 실제로 널리 사용되는 간단하고 인기 있는 패킷 스케줄링 알고리즘이다. 트래픽 혼잡이 발생할 때 큐의 꼬리에서 패킷이 드롭된다. 그러나 테일 드롭은 패킷 유형을 구별하지 않는다. 따라서 전통적인 비디오 스트리밍을 위해 우선순위 스케줄링 알고리즘이 제안되었다.

인기 있는 우선순위 패킷 스케줄링 방법 중 하나는 I-프레임(인트라 프레임), P-프레임(예측 프레임), B-프레임(양방향 프레임)과 같은 프레임 유형을 기반으로 패킷을 드롭하는 것이다. [16]에서 비디오 프레임은 I, P, B 프레임에 적용된 우선순위 레이블을 기반으로 무작위로 드롭된다.

Gobatto et al.은 IRAP(인트라 무작위 접근점) 패킷 손실을 피하기 위한 패킷 드롭 알고리즘을 제안한다. 네트워크 혼잡이 감지되면, 혼잡이 사라질 때까지 비 IRAP 패킷들이 선제적으로 드롭될 수 있다. 그러나 이러한 연구들은 동일한 유형의 프레임들 간의 차이를 고려하지 않는다.

일반적으로 GOP(그룹 오브 픽처스)에서 첫 번째 P 프레임은 후속 P 프레임들보다 더 많은 왜곡을 야기한다. 그 결과, 동일한 유형의 프레임들이 재구성 품질에 다양한 영향을 미친다. 따라서 비디오 품질에 대한 패킷의 영향을 모델링하고 패킷 스케줄링 방식을 생성하기 위한 더 정교한 방법들이 제안되었다.

Chakareski et al.은 제한된 네트워크 링크를 통한 다중 비디오의 패킷 스케줄링 문제를 해결하기 위한 최적화 프레임워크를 제안한다. 비디오 패킷들은 레이트-왜곡 정보를 사용하여 특성화된다. 패킷을 폐기함으로써, 분산 스트리밍 기법은 많은 스트림 간의 레이트와 왜곡 간의 트레이드오프를 가능하게 한다. 그러나 그들의 연구는 VR 비디오 대신 다중 전통적 비디오 간의 공정성을 달성하는 것을 목표로 한다.

Corbillon et al.은 품질 왜곡 대신 프레임 유형, 프레임 의존성, 프레임 크기를 고려한 평가 함수를 사용하여 전통적인 비디오 패킷의 우선순위를 매긴다. 한편, 패킷들은 평가 함수에서 얻은 중요도에 따른 순서로 필터링된다.

Nasralla et al.은 비디오 스트리밍을 위한 콘텐츠 인식 패킷 스케줄링 방법을 제안한다. 제안된 유틸리티 함수는 I 프레임, P 프레임, B 프레임과 같은 프레임의 시간적 복잡성과 종류에 따라 비디오 전송을 위한 패킷의 우선순위를 매긴다. 시스템에서 패킷들은 그들의 우선순위에 기반하여 드롭된다. 그러나 그들의 연구는 프레임의 상호 의존성과 레이트 정보를 간과한다.

Kang et al.은 다양한 중요도의 비디오 패킷들이 서로 다른 데드라인 임계값을 사용하여 스케줄링되는 패킷 스케줄링 알고리즘을 보여준다. 패킷의 중요도는 모션-텍스처 맥락과 GOP에서의 상대적 위치에 따라 달라진다. 비디오 패킷들은 원래 재생된 순서와 다르게 데드라인 임계값에 기반하여 스케줄링된다.

XR의 급속한 발전에도 불구하고, 최근 몇 년간 XR 콘텐츠 전송을 위한 패킷 스케줄링 방법은 거의 제안되지 않았다. Cosma et al.은 실시간 VR 비디오와 다른 미디어 애플리케이션을 위해 네트워크 자원을 분배하기 위해 머신러닝을 활용하는 패킷 스케줄링 기법을 소개한다. RL이 다양한 트래픽 클래스의 우선순위를 매기고 패킷 스케줄링 규칙을 결정하는 데 사용된다.

그러나 그들의 연구는 VR 비디오의 데이터 감소 대신 VR 비디오와 다른 애플리케이션의 다중 트래픽 간의 자원 할당 문제를 해결한다. 한편, 단일 경로가 VR 비디오의 까다로운 사양을 충족하지 못할 가능성이 있다. VR 비디오 품질을 향상시키기 위해 다중 경로에서 동시에 VR 비디오 스트리밍이 제안된다.

Wei et al.은 다중 경로 TCP를 기반으로 한 VR 비디오 스트리밍 프레임워크를 제안한다. 프레임워크는 지연과 패킷 손실과 같은 모든 경로의 네트워크 조건에 따라 뷰포트의 비트레이트를 동적으로 선택한다. 시스템은 VR 비디오를 제때 전달하기 위해 다양한 경로에서 비디오 패킷을 스케줄링한다. 그러나 그들의 시스템은 네트워크 조건에 따라 비트레이트를 선택하고 다중 경로에 걸쳐 자원을 할당하도록 설계되었다.

Chakareski는 VR 비디오를 위한 다중 셀 기지국을 기반으로 한 협력 전송 시스템을 제시한다. 과거 뷰포트 데이터를 기반으로, VR 콘텐츠의 인기도를 결정하기 위한 통계적 모델이 제안되며, 이는 타일에 가중치를 부여하는 데 사용된다. 시스템은 다중 기지국 간의 자원 할당을 위한 패킷 스케줄링을 생성하기 위해 콘텐츠 인기도, 레이트 왜곡, 기지국 정보를 통합한다.

그러나 시스템은 사용자의 차이를 간과하고 타일에 가중치를 부여하기 위해 빈도 모델만 사용하므로 실제로 사용자의 뷰포트를 구현할 수 없다. Ge et al.은 XR 전송을 위한 다중 경로 협력 라우트 방식을 제안한다. 낮은 시스템 지연으로 대규모 VR 데이터를 스트리밍하기 위해, 데이터가 다중 엣지 데이터 센터(EDC)에 반복적으로 저장된다. MCR 방식은 지연 제약을 충족하기 위해 EDC를 선택한다. 그러나 그들의 연구는 다양한 VR 패킷에 적합한 경로를 결정하는 것을 목표로 한다.

Wang et al.은 불리한 네트워크 조건 하에서 데이터 볼륨을 줄이고 XR 스트리밍을 최적화하기 위해 타일 가중 레이트-왜곡 정보를 기반으로 한 시점 인식 패킷 스케줄링 전략을 제안한다. 시스템은 시점의 중요성을 고려하고 전송 네트워크의 효과에 의해 뷰포트의 높은 품질을 유지한다.

표 4. 기존 패킷 스케줄링 방법의 비교
표 4. 기존 패킷 스케줄링 방법의 비교

 

패킷 스케줄링은 다양한 최적화 문제로 공식화될 수 있다. 레이트-왜곡 최적화 문제가 전형적인 것으로, 목표는 왜곡에 대한 제약 조건 하에서 전송 레이트를 최소화하거나 전송 레이트에 대한 제약 조건 하에서 왜곡을 최소화하는 것이다.

그림 6. 시각적 주의 기반 패킷 스케줄링 방법의 전형적인 프레임워크. 스트리밍된 패킷들은 시점을 기반으로 한 XR 콘텐츠의 중요도에 따라 스케줄링된다.
그림 6. 시각적 주의 기반 패킷 스케줄링 방법의 전형적인 프레임워크. 스트리밍된 패킷들은 시점을 기반으로 한 XR 콘텐츠의 중요도에 따라 스케줄링된다.

그림 6에서 보는 바와 같이, 패킷들은 해당 XR 콘텐츠의 중요도에 기반하여 가중치가 할당된다. 이 중요도는 패킷을 드롭함으로써 발생할 품질 왜곡을 반영한다. 패킷이 더 중요할수록, 더 높은 왜곡을 야기한다. 따라서 패킷 스케줄링 전략은 네트워크 대역폭이 제한될 때 뷰포트 외부의 패킷을 드롭함으로써 뷰포트 내에서 높은 품질을 유지하는 것을 우선시한다.

목적 함수는 다음과 같다:

첨부 이미지
첨부 이미지

여기서 𝑃𝑖는 𝑖번째 패킷을 스케줄링할 확률이고, 𝐷𝑖는 𝑖번째 패킷이 전송되지 않을 경우의 왜곡이며, 𝑅𝑖는 𝑖번째 패킷을 전송하는 데 필요한 레이트이고, 𝑅max는 최대 허용 가능한 전송 레이트다. 이 제약 최적화 문제를 해결하기 위해 라그랑주 승수를 사용할 수 있다.


6. XR의 다양한 활용 분야

XR의 애플리케이션은 몰입적 능력을 활용하여 경험을 향상시키고, 효율성을 개선하며, 새로운 기회를 창출하면서 다양한 산업에 걸쳐 확산되고 있다. 연구에 따르면 XR은 다양한 분야에서 효과적으로 적용되어 상당한 실용적 이익을 가져다준다.

헬스케어에서 XR은 의료 전문가들이 위험 없는 가상 환경에서 절차를 연습할 수 있게 하는 외과 훈련과 계획에 사용된다. 예를 들어, 코로나19 팬데믹 동안 의사들은 원격 치료를 제공하기 위해 XR을 사용하여 환자 결과와 안전성을 향상시켰다.

소매 부문에서 이케아와 세포라와 같은 회사들은 고객이 집에서 가구를 시각화하거나 가상 메이크업 애플리케이션을 실험할 수 있게 하는 AR을 고객 경험에 통합하여 고객 참여와 만족도를 개선했다. 이 섹션에서는 몇 가지 주요 XR 애플리케이션을 논의한다.

• 게임과 엔터테인먼트: XR이 몰입적 환경과 멀티모달 상호작용을 제공함에 따라, 사용자가 가상 환경과 매우 현실적인 환경에서 캐릭터와 아이템과 상호작용할 수 있게 하여 게임과 엔터테인먼트 경험을 크게 향상시킨다. 많은 연구들이 XR이 게임과 엔터테인먼트에 더 나은 사용자 경험을 제공한다는 것을 입증했다.

VR 헤드셋은 사용자가 완전한 가상 세계에 들어갈 수 있게 하는 시각적이고 감정적으로 매력적인 경험을 제공한다. 추가로 XR은 신체 활동을 증가시켜 신체 건강을 촉진한다. 예를 들어, 포켓몬 GO는 고급 모바일 기술을 실제 탐험과 통합하는 AR 게임이다. 2016년 이후로 전 세계를 충격에 빠뜨린 세계적 현상이 되었다.

포켓몬 GO가 입증한 바와 같이, AR 게임은 사용자가 실제 환경에서 디지털 캐릭터와 객체와 상호작용할 수 있게 함으로써 사용자들 사이에서 신체 활동과 운동을 증가시킬 수 있다. 유사하게, MR도 게임과 엔터테인먼트 시스템에서 주요한 역할을 한다. XR은 인간이 우리의 상상을 넘어서는 방식으로 서로 상호작용할 수 있게 하고, 컴퓨터와의 상호작용 규모는 오늘날 데스크톱 컴퓨터에서 우리가 익숙한 것을 훨씬 넘어설 것이다.

  • 헬스케어: XR 기술은 훈련과 절차 시뮬레이션에서 치료와 재활에 이르기까지 헬스케어의 다양한 측면을 혁신하고 있으며, 환자와 의료 전문가 모두에게 혁신적 솔루션을 제공한다. XR은 정신 건강, 물리치료, 제약 개발, 의학 교육과 같은 많은 헬스케어 분야에서 채택되었다. 일부 헬스케어 기관은 시뮬레이션된 수술과 같은 복잡한 임상 절차에 대해 의사를 훈련시키기 위해 XR을 사용했다. 이런 방식으로, 전문가와 학생들은 위험 없는 환경에서 복잡한 절차를 연습할 수 있어 자신감과 기술을 얻는다. 또한 XR은 CT(컴퓨터 단층촬영)와 MRI(자기공명영상) 스캔과 같은 전통적인 모달리티와 통합함으로써 의료 영상을 변혁한다. 이러한 통합은 의료 전문가에게 해부학적 구조의 3차원 시각화를 제공하여 진단 정확도를 향상시키고 복잡한 해부학에 대한 더 깊은 이해를 촉진한다. 헬스케어에서 XR 기술의 통합은 그 다양성뿐만 아니라 환자 치료를 변혁하고 헬스케어 결과를 개선할 상당한 잠재력을 보여준다. 예를 들어, VR은 환자가 고통스러운 절차 동안 자신을 집중 분산시키기 위해 가상 환경과 상호작용하는 통증 관리에 효과적으로 사용된다.
  • 교육과 훈련: 몰입적이고 상호작용적이며 경험적인 학습 환경의 잠재력을 활용함으로써, XR 기술은 교육과 훈련에서 더욱 포괄적인 서비스와 활용을 제공할 수 있다. 이는 사용자가 복잡한 개념을 이해하고 문제 해결 능력을 향상시키는 데 도움을 줄 수 있다. 예를 들어, VR은 학습자가 물리적 현실의 제약 없이 역사적 재연이나 복잡한 과학 실험과 같은 시뮬레이션된 시나리오에 참여할 수 있는 완전한 몰입형 경험을 제공한다. 스탠포드 대학교와 같은 기관들은 의학생들이 통제되고 안전한 환경에서 수술을 연습할 수 있게 하는 VR 프로그램을 구현하여 기술 습득과 자신감 향상을 이끌어냈다. 유사하게, AR 회로와 같은 AR 애플리케이션은 학생들이 실시간으로 전자 부품과 회로를 시각화하고 상호작용할 수 있게 하여, 상호작용적인 3D 표현을 통해 전기공학 원리에 대한 이해를 향상시킨다. 또한 MR 기술은 건축과 디자인 과정에서 사용되어 학생들이 자신의 프로젝트의 3D 모델을 조작하고 상호작용할 수 있게 하여 공간적 관계와 디자인 개념에 대한 더 깊은 이해를 촉진한다. 이러한 XR 기술은 능동적 학습을 지원하고 전통적인 방법이 부족할 수 있는 실습 경험을 제공함으로써 학생 참여, 동기, 복잡한 주제에 대한 이해를 크게 개선할 수 있다.
  • 여행과 관광: XR은 관광지, 박물관, 역사 유적지의 현실적인 가상 투어를 제공할 수 있어, 개인이 교통비, 숙박비, 기타 여행 경비를 발생시키지 않고도 여행 목적지를 경험할 수 있게 한다. XR 기술은 또한 잠재적 여행자들에게 물리적으로 방문하기 전에 목적지를 가상으로 경험할 기회를 제공하여 여행 계획과 의사결정을 돕는다. 예를 들어, XR 사용자들은 호텔, 명소, 전체 도시의 가상 투어를 할 수 있으며, 이는 그들의 여행 선택에 영향을 미치는 현실적인 미리보기를 제공한다. 추가로 여행과 관광에서 XR의 도입은 고객 경험을 개선할 뿐만 아니라 업계에 상당한 이익을 제공한다. 가상 경험을 제공함으로써 여행 사업체들은 물리적 여행의 환경적 영향을 줄일 수 있어 지속 가능한 관광 관행을 촉진한다. 더욱이 XR 기술은 강력한 마케팅 도구 역할을 하여, 목적지가 방문객을 끌어들이는 독특하고 기억에 남는 경험으로 경쟁적인 시장에서 차별화하는 데 도움을 준다. 예를 들어, 페로 제도의 관광청은 VR을 사용한 성공적인 원격 관광 캠페인을 시작하여 잠재적 관광객들이 현지 가이드의 관점을 통해 섬들을 탐험할 수 있게 하여 관심과 예약을 증가시켰다. XR 기술이 계속 발전함에 따라, 관광업에의 통합이 성장할 것으로 예상되며, 혁신을 위한 새로운 기회를 제공하고 전반적인 여행 경험을 향상시킬 것이다.
  • 이커머스와 리테일: XR 기술은 몰입적이고 상호작용적인 경험으로 소비자가 제품과 브랜드와 상호작용하는 방식을 변화시키고 있다. VR은 사용자가 가상 매장이나 제품 쇼룸을 탐험할 수 있는 완전한 디지털 환경을 창조하여 온라인 쇼핑의 새로운 방법을 제공한다. 예를 들어, 이케아의 VR 쇼룸은 고객이 시뮬레이션된 가정 환경에서 가구를 시각화할 수 있게 하여 의사결정 과정을 향상시킨다. 유사하게, 세포라가 개발한 스마트 미러와 같은 AR 애플리케이션은 고객이 스마트폰을 사용하여 가상으로 메이크업을 시도해 볼 수 있게 하여 물리적 매장 방문을 요구하지 않고 개인화된 쇼핑 경험을 제공한다. 추가로 XR 기술은 공급망 관리와 직원 훈련에도 적용되어 훈련 목적을 위한 현실적인 시뮬레이션을 제공하고 창고 운영을 최적화한다. XR이 계속 발전함에 따라, 전자상거래와 소매업에의 통합은 점점 더 정교하고 개인화된 쇼핑 경험을 제공하여 업계의 지형을 재편할 준비가 되어 있다.
  • 엔지니어링과 제조업: XR은 시각화, 프로토타이핑, 훈련 과정을 향상시킴으로써 엔지니어링과 제조업 분야를 혁신하고 있다. XR 기술은 엔지니어들이 전례 없는 방식으로 복잡한 설계를 탐구하고 조작할 수 있게 하며, 이는 복잡한 엔지니어링과 제조업 환경에서 특히 유리하다. XR은 상세한 가상 프로토타입의 창조를 촉진하고 엔지니어들이 시뮬레이션된 환경에서 포괄적인 분석과 수정을 수행할 수 있게 하여 물리적 프로토타입에 대한 의존을 크게 줄이고 설계 주기를 단축시킨다. 예를 들어, 자동차 업계에서 포드와 같은 회사들은 차량 설계 과정을 향상시키기 위해 VR을 활용하여 엔지니어들이 새로운 모델의 가상 둘러보기를 수행하고 시뮬레이션된 피드백을 기반으로 실시간 조정을 할 수 있게 했다. 한편, 제조업과 엔지니어링은 종종 위험한 작업을 포함한다. XR은 작업자들이 이러한 작업을 원격으로 수행할 수 있게 하여 그들의 안전을 보장한다. 추가로 XR은 팀이 공유된 가상 작업공간에서 협력할 수 있게 하여 커뮤니케이션과 조정을 개선하고 혁신적인 문제 해결을 촉진한다. 이러한 발전은 워크플로우를 간소화할 뿐만 아니라 제조업 운영의 전반적인 생산성과 안전성을 향상시킨다.

7. 과제와 미래 연구 방향

제한된 대역폭과 높은 변동성을 가진 네트워크에서 XR 성능을 향상시키기 위해 광범위한 연구가 헌신되었다. 그러나 고품질 XR 콘텐츠를 스트리밍하는 것은 여전히 중요한 도전 과제로 남아 있다. 본 논문은 몇 가지 유망한 연구 도전 과제를 강조하고 이 분야를 발전시키기 위한 잠재적 연구 방향을 탐구한다.

  • 실시간 렌더링과 전송: XR 스트리밍에서 실시간 렌더링과 전송은 특히 저지연, 높은 대역폭, 계산 효율성에 대한 요구사항의 균형을 맞추는 데 상당한 도전을 제시한다. 저지연은 몰입 경험을 유지하는 데 중요하며, 사소한 지연조차도 사용자의 존재감을 방해하고 불편함을 야기할 수 있다.10밀리초 미만의 지연을 목표로 하는 촉각 인터넷에 대한 연구와 5G와 같은 네트워크 기술의 발전이 이러한 지연 도전 과제를 해결하는 데 중요하다. 따라서 네트워크 혼잡을 효과적으로 관리하고 와이파이와 5G 연결의 변동을 포함한 네트워크 이질성에 적응하는 것이 일관된 성능을 보장하는 데 필수적이다. 추가로 지터와 패킷 손실을 최소화하는 것이 원활한 사용자 경험을 보존하는 데 필수적이다. 동시에 고해상도 3D 콘텐츠, 특히 다중 사용자 환경에서의 전달은 상당한 대역폭을 요구한다. 이는 QoE를 손상시키지 않고 대역폭을 효율적으로 관리하기 위한 고급 압축 알고리즘과 적응적 스트리밍 기법의 개발을 필요로 한다. 더욱이 복잡한 장면의 실시간 렌더링은 상당한 계산 능력을 요구하여, GPU에 무거운 요구를 가한다. 엔비디아가 개발한 것과 같은 고성능 GPU가 이러한 요구를 충족하는 데 필수적이지만, 추가적인 최적화가 여전히 필요하다. 여기에는 하드웨어 아키텍처 개선과 XR 기기, 특히 휴대용과 웨어러블 기기가 에너지 효율성을 유지하면서 이러한 계산 요구를 처리할 수 있도록 보장하는 더 효율적인 알고리즘 개발이 포함된다.
  • QoE: XR 스트리밍에서 QoE는 몰입적 사용자 경험을 제공하기 위해 기술적 및 경험적 요소를 모두 포괄하는 다면적 개념이다. 효과적인 QoE 모델은 필요한 데이터 압축에도 불구하고 시각적 충실도를 보장하고, 정교한 공간 오디오 처리를 통해 몰입감을 향상시키며, 더 전체적인 경험을 위해 추가 감각을 참여시키는 햅틱, 냄새, 맛 피드백과 같은 신흥 기술을 통합하는 등 XR의 고유한 도전 과제를 다뤄야 한다. 자연스러운 상호작용 방법이 필수적이며, 사용자가 XR 환경과 원활하게 상호작용할 수 있게 하는 직관적이면서도 방해가 되지 않는 설계를 필요로 한다. 사용자 편안함은 또 다른 필수적인 측면으로, XR 기기의 장기간 사용을 지원하기 위해 멀미와 피로를 완화하는 데 특별한 초점을 맞춘다. 가상 공간 내에서의 사회적 상호작용은 기술적 및 사회적 역학을 모두 다루는 정교한 협력 도구를 요구하는 추가적인 복잡성을 도입한다. XR에서 QoE 분야가 여전히 발전하고 있지만, 이러한 상호 연결된 요인들에 대한 철저한 이해가 XR 환경에서 사용자 경험을 상당히 향상시키는 견고한 모델을 만드는 데 중요하다.
  • 시점 예측: XR 스트리밍의 기본적인 도전 과제는 시점 예측이다. 이 주제에 대한 광범위한 연구에도 불구하고, 기존 접근법들은 종종 부정확한 시점 예측 결과를 낳는다. XR 환경에서 사용자의 주의는 개별 행동, 과거 움직임, 비디오 콘텐츠, 외부 영향을 포함한 다양한 요인들에 의해 형성된다. 따라서 딥러닝 기반 솔루션이 미래 발전에 필수적일 것이다. 다양한 복잡한 시나리오에서 장기간 주의 패턴을 정확하게 예측하는 능력은 가장 고급 모델의 능력조차 넘어선다. 현재 대부분의 학습 기반 방법들은 최대 5초 동안의 시점 궤적을 정확하게 예측할 수 있는 능력을 가지고 있다. 인코딩과 스트리밍 과정의 다른 요소들이 사용자의 실시간 행동에 원활하게 적응할 수 있도록 하기 위해서는 이 예측 기간의 지속시간을 증가시키는 것이 중요하다.
  • 표준과 프로토콜: 신흥 분야로서, XR은 보편적으로 받아들여지는 표준과 프로토콜이 부족하여, 하드웨어, 소프트웨어, 콘텐츠에서 단편화를 야기한다. 이러한 단편화는 다양한 플랫폼과 기기 간의 호환성 문제를 만들어, 원활한 사용자 경험과 콘텐츠 상호 운용성을 방해한다. 또한 표준화된 개발 프레임워크와 통신 프로토콜의 부족은 XR 애플리케이션을 기존 기술과 시스템과 통합하는 것을 복잡하게 한다. 다양한 XR 환경에서 일관된 품질, 성능, 보안을 보장하는 것이 개발 노력을 더욱 복잡하게 한다. 더욱이 XR의 고유한 트래픽과 성능 특성은 표준과 프로토콜에서 상당한 개선을 요구한다. 높은 해상도, 프레임 레이트, 상호작용성, 이동성, 햅틱과 공간 추적과 같은 새로운 데이터 유형을 포함한 XR의 하드웨어와 콘텐츠 요구사항은 추가적인 과제를 제기한다. 이러한 과제를 해결하기 위해, 업계와 학계 이해관계자들은 XR 기술의 확장과 확장성을 가능하게 할 철저한 표준과 프로토콜을 개발하고 구현하기 위해 함께 작업해야 한다.
  • 경량 XR 솔루션: 현재 XR 솔루션은 종종 비싸고 불편한 웨어러블 기기에 의존한다. XR HMD는 내장 프로세서와 배터리를 통합하여 착용하기에 거추장스럽고 무겁게 만든다. 따라서 기존 HMD는 경량이면서도 고품질 XR 경험을 제공할 수 없다. 현재 기기의 부피와 불편함 없이 최적의 사용자 경험을 제공할 수 있는 경량 XR 솔루션의 설계에 대한 긴급한 필요가 있다.
  • 환경 매핑: 환경 매핑은 과제로 가득한 또 다른 영역이다. XR 애플리케이션은 관련성 있고 몰입적인 경험을 제공하기 위해 사용자의 환경을 정확하게 매핑하고 해석해야 하며, 이는 공간 인식과 추적을 위한 고급 알고리즘을 필요로 한다. 다양한 조명 조건 하에서 객체를 정확하게 렌더링하고 객체를 다른 객체의 앞이나 뒤의 적절한 공간적 순서로 표시하여 올바른 가림을 보장하는 것은 복잡한 기술적 과제다.
  • 콘텐츠 생성과 관리: 콘텐츠 생성과 관리는 XR 스트리밍에서 중요한 과제를 나타내며, 고품질의 현실적인 그래픽 생산과 최적의 성능 유지 간의 신중한 균형을 필요로 한다. 상세한 그래픽 자산을 렌더링하는 집약적인 요구는 하드웨어 자원에 상당한 부담을 가할 수 있다. 또한 고충실도 3D 모델, 애니메이션, 몰입적 환경의 창조는 본질적으로 시간이 많이 걸리며, 전문적인 지식을 요구하여 종종 개발상의 병목현상을 야기한다. 이러한 과제를 완화하기 위해, 고급 저작 도구와 워크플로우의 배포가 필수불가결하다. 대형 언어 모델(LLM)의 통합은 복잡하고 상호작용적인 3D 세계와 햅틱 환경을 생성하는 효율성을 향상시키는 유망한 방법을 제공하여 콘텐츠 창작자의 작업 부하를 완화한다. 그럼에도 불구하고, 다양한 성능을 가진 기기에 걸친 이 콘텐츠의 배포는 여전히 강력한 장애물로 남아 있어, 일관되고 고품질의 사용자 경험을 보장하기 위한 적응적 전략을 필요로 한다. 추가로 광범위한 몰입적 콘텐츠의 효과적인 관리와 조직은 발견 가능성을 보장하는 데 필수적이다. 이러한 맥락에서, LLM에 의해 강화된 메타데이터 관리는 기기와 콘텐츠의 검색 가능성을 향상시키는 데 중요한 역할을 하여 사용자가 원하는 몰입적 경험에 접근하는 것을 촉진한다.

XR 기술이 직면한 상당한 과제, 특히 대역폭 제한, 연산 요구, 지연을 고려할 때, 여러 혁신적인 솔루션들이 탐구되고 있다. 실시간 렌더링과 고품질 스트리밍은 상당한 대역폭을 요구하여 기존 네트워크 인프라에 중요한 과제를 제기한다.

이러한 문제들을 해결하기 위해, 중심와 렌더링과 같은 적응적 스트리밍 기법이 사용자의 시선 영역에 고해상도 처리를 할당하여 전반적인 연산 부하를 줄인다. 추가로 5G 네트워크의 배포는 더 낮은 지연과 더 높은 데이터 전송 속도를 제공하여 더욱 원활한 XR 경험을 촉진한다.

엣지 컴퓨팅과 클라우드 기반 렌더링은 XR 기기에 더 가까이에서 데이터를 처리하여 지연을 줄이고 기기 자체의 처리 요구를 오프로드하는 다른 실행 가능한 솔루션이다. 이러한 접근법들은 집합적으로 XR의 기술적 과제를 해결하여 다양한 부문에서의 더 광범위한 도입을 촉진한다.


8. 결론

네트워크 대역폭과 연산 능력의 개선으로 인해, 사람들은 이제 더욱 몰입적인 XR 경험을 요구하고 있다. 본 연구는 XR 시스템에서 아직 철저히 검토되지 않은 애플리케이션에 이르기까지 광범위한 주제를 탐구함으로써, 360도 비디오나 교육과 헬스케어와 같은 특정 분야에 좁게 초점을 맞춘 이전 연구들이 남긴 공백을 메우는 것을 목표로 하는 XR 스트리밍에 대한 최신 연구의 포괄적 분석을 제시한다.

XR 콘텐츠가 전통적인 미디어와 구별되므로, XR 트래픽 특성을 분석하는 것이 고유한 네트워크 인프라 요구사항을 이해하는 데 중요하다. 우리는 트래픽 패턴, 기기 아키텍처, 멀티모달 상호작용, 적응적 스트리밍 기술의 상세한 분석을 제공한다.

추가로 시스템이 사용자 기대를 충족하고 매력적이고 몰입적인 경험을 제공하도록 보장하기 위해 XR QoE에 영향을 미치는 요인들을 분석한다. 본 연구는 또한 과제와 미래 연구 방향을 다루면서 애플리케이션과 네트워크 계층 모두에서 고급 최적화 전략을 탐구한다.

XR 스트리밍의 고유한 과제와 QoE 요구를 강조함으로써, 본 논문은 몰입형 멀티미디어 통신의 미래 개발을 위한 기초적 통찰력을 제공한다. 궁극적으로, 우리의 목표는 XR 스트리밍에서 혁신적인 연구를 영감하고 최종적으로 일상생활에서 몰입적 XR 경험을 개선하는 것이다.


본 콘텐츠는 2025년 3월 3일 발표된 "Immersive Multimedia Communication: State-of-the-Art on eXtended Reality Streaming" 논문을 번역한 것입니다.

저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

0xPlayer 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 0xPlayer

-

뉴스레터 문의lowell9195@gmail.com

메일리 로고

도움말 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스