Video Kills the Lidar Star?

[요약]

1. 주변 사물에 대한 정확한 '측정'값을 내놓는 라이다와 달리, 컴퓨터 비전 솔루션은 확률에 기반한 '추정'값을 제공합니다.

2. 이 추정값의 부족함을 보완하기 위해 레이더를 퓨전해서 사용하던 테슬라가, 레이더를 제거한 퓨어 비전 솔루션을 내놓았습니다.

3. 간혹 발생하는 레이더의 노이즈가 걸림돌이 될 정도로 컴퓨터 비전 성능이 진화했기 때문이라고 볼 수 있는데요.

4. 여기서 한 걸음 나아가, 테슬라는 카메라만으로 라이다의 기능을 대체하려 준비하고 있습니다.

5. 이미지 내 픽셀의 심도를 분석해 3D 맵을 만들어내는 '의사(Pseudo) 라이다' 기술로, 라이다만큼 정확한 3D 지도를 만들어내려는 겁니다.

6. 의사 라이다의 정확도가 계속 향상돼 라이다를 대체할 수 있게 된다면, 테슬라는 감히 따라할 수 없는 기술적 해자를 쌓게 될 겁니다.

라이다 vs 카메라, 측정과 추론의 대결

완전 자율주행이란 목표를 향해 달리고 있는 주자들은 크게 라이다 진영과 카메라 진영으로 나뉩니다.

구글 웨이모를 필두로 자율주행을 개발 중인 대부분의 기업들은 라이다와 고정밀 지도 HD Map 조합의 솔루션을 개발하고 있습니다. 라이다는 빛을 쏴서 물체의 거리와 크기, 속도 등을 비교적 정확하게 ‘측정’할 수 있는 기기인데요. 레이저 발광부가 360도로 돌면서 빛을 쏘고 반사된 빛을 다시 받아들입니다. 빛이 센서로 돌아오기까지의 시간을 측정해 거리를 측정하고, 그 정보를 X, Y, Z 축에 좌표로 저장합니다. 이렇게 무수히 많은 좌표값들이 모인 이미지가 마치 점으로 이뤄진 구름과 같다고 해서 ‘포인트 클라우드’라고 합니다. 이 포인트 클라우드가 라이다로 만들 수 있다고 하는 3D 지도의 실체인데요. 이런 지도를 바탕으로 라이다는 자율주행차에게 "3m 높이의 트럭이 20m 후방에서 60km/h로 달려오고 있다"는 식의 신뢰도 높은 측정값을 제공할 수 있습니다

라이다는 위 사진과 같이 정밀한 측정치를 바탕으로 주변 환경에 대한 3D 데이터를 제공합니다 (사진 출처: Popular Science)

하지만 테슬라를 비롯한 극소수의 기업들은 이와 반대로 카메라를 활용한 시각 데이터만으로 완전 자율주행을 구현하려 노력하고 있습니다. 인간이 두 눈만 가지고 안전하게 운전을 할 수 있는 것처럼, 컴퓨터도 이를 모방해 시각 데이터만으로 성공적인 완전 자율주행이 가능하다고 보는 겁니다. 하지만 카메라는 기본적으로 물체를 2D 이미지로 인식합니다. 때문에 라이다처럼 움직이는 물체에 대한 거리와 속도, 가속도에 대한 측정값을 내놓을 수는 없습니다. 단지 그동안 수많은 이미지 데이터를 가지고 학습한 결과를 바탕으로 이런 수치들을 ‘추론’할 뿐입니다. 만약 학습한 내용이 아니라면 잘못된 추론 결과를 내놓게 될 것이고, 실제로 이는 어이없는 인명사고를 낳기도 했습니다. 때문에 카메라 비전의 부족한 판단 능력을 보완하고자 보조장치로 레이더가 함께 사용되었고, 카메라+레이더 조합의 솔루션은 오랫동안 테슬라 오토파일럿의 상징과도 같았습니다.

2020년 도로에 전복된 흰색 트럭을 인지 못하고 충돌하는 테슬라 차량 (영상 출처: Youtube - Drive Tesla Canada 채널)

그런데 지난 5월, 일론 머스크는 자신의 트위터에서 6월부터 레이더를 없앤 퓨어 비전 버전의 오토파일럿과 FSD를 배포하겠다고 발표했습니다. 레이더 없이 카메라만을 활용해 자율주행 기능을 구현하겠다는 겁니다. 어딘가 나사 하나 빠진 것 같았던 비전만 믿고 레이더를 없애겠다니, 뭔가 불안하게 느껴질 수밖에 없겠죠. 그러던 중 얼마 전 6월 22일 개최된 CVPR(국제 컴퓨터 비전 및 패턴인식 국제학회) 행사에서, 테슬라 AI 디렉터인 안드레이 카파시가 여기에 대해 비교적 명쾌한 설명을 내놓았는데요.

레이더 없이도 잘 달릴 수 있을까?

2021년 6월 20일 진행된 안드레이 카파시의 CVPR Keynote 오프닝 (사진 출처: Youtube - Tesla News 채널)

안드레이 카파시의 말을 빌리면, 레이더는 자율주행 성능에 방해가 되는 ‘노이즈’입니다. 레이더는 가끔씩 예측 불가능한 간격으로 멍청한 측정값을 뱉어낸다고 하는데요. 예를 들면 고가도로 아래를 지날 때, 레이더가 고가도로를 장애물로 인식해서 차량이 멈춰서는 ‘팬텀 브레이킹’ 현상이 빈발한다고 합니다. 반대로 카메라 비전에선 이런 오류가 발생하지 않는다고 하는데요. 그렇기 때문에 카메라와 레이더가 각각 인식한 데이터를 퓨전해서 의사결정을 내려야 하는 경우, 상당히 곤란한 상황들이 발생하는 겁니다. 카메라를 보완하기 위해 추가한 레이더의 잘못된 판단이 오히려 걸림돌로 작용한 건데요.

그래서 심플함을 미덕으로 보는 테슬라는 레이더를 아예 빼버리기로 합니다. 이제 카메라 비전의 성능이 레이더보다 훨씬 더 정확한 수준으로 향상됐기 때문이겠죠. 인공신경망을 학습만 잘 시키면 비전만으로도 충분하다는 것이 안드레이 카파시의 의견입니다. 운전대를 잡아본 적 없는 사람을 운전 면허 학원에 보내고 도로 주행 교육을 시켜 좋은 운전사로 만드는 것처럼, 좋은 데이터 셋을 가지고 인공 신경망을 충분히 학습시키기만 하면 레이더 없이도 훌륭한 결과를 내놓을 수 있다는 겁니다.

여기서 카파시가 말하는 좋은 데이터셋의 조건은 3가지인데요.

1. Large: 많아야 합니다. 하나의 유사한 상황에 대해 수백 만 개의 학습 데이터는 확보해야 합니다.
2. Clean: 깨끗해야 합니다. 심도나 속도, 가속도에 대해 명확히 라벨링된 데이터가 필요합니다.
3. Diverse: 다양해야 합니다. 단순히 아무도 없는 공도를 달리는 것 같이 지루한 영상은 아무리 많아봐야 필요 없겠죠. 다양한 예외 상황에 대한 데이터가 필요합니다.

그럼 이런 좋은 데이터는 어떻게 확보할까요?

현재 전세계에서 돌아다니고 있는 100만 대 이상의 테슬라 차량들이 라벨링된 데이터를 전송해줍니다. 하지만 어마어마한 양의 데이터를 모조리 전송하는 건 비효율적이겠죠? 뉴럴넷이 꼭 학습해야 하는 특이 상황을 찾아내기 위한 조건 221개를 엔지니어들이 미리 정의해놓았는데요. 예를 들면, 달려야 하는 초록불에서 정지해 있다거나, 터널을 지난다거나, 도로 위에 카누가 떨어져 있다거나 하는 특이한 상황이 되면 테슬라 차량은 이를 라벨링해서 학습 데이터로 만들어 보관합니다. 테슬라 중앙 서버에서는 이런 학습 데이터를 넘겨받아 뉴럴넷을 학습시키고, 이렇게 성장한 뉴럴넷을 다시 전세계 테슬라 차량에 배포합니다. 이런 오답노트 학습 과정을 무한히 반복하면서 인공신경망이 발전해나가는 건데요.

안드레이 카파시의 6월 CVPR 발표 자료에 의하면, 테슬라는 이런 학습 과정을 지난 4개월 동안 이미 7차례 반복했고, 60억 개의 라벨링된 데이터를 갖고 있다고 하는데요. 그 용량은 무려 1.5 페타바이트에 달한다고 합니다. 1페타바이트는 1테라바이트의 1024배에 달하는 크기입니다. 아무리 추리고 추린 예외 상황들이라고 하지만, 용량이 어마어마하죠? 이쯤 되면 인공신경망을 학습시키는 것부터가 하나의 연구과제가 될 겁니다.

그래서 이렇게 거대한 크기의 데이터를 끊임없이 학습시키기 위해, 테슬라는 직접 슈퍼 컴퓨터까지 만들었습니다. 이번에 처음 공개된 테슬라 슈퍼 컴퓨터는 5,760개의 GPU로 구성됐으며, 1.8 엑사플롭스의 성능을 갖춘 세계 5위 수준의 하드웨어라고 합니다. 여기서 1 엑사플롭스는 1초에 100경 번의 연산을 수행할 수 있음을 뜻하는데요. 우리가 100경이라는 숫자를 살면서 들어볼 일이 몇 번이나 있을까요? 컴퓨터에 ‘슈퍼’라는 말이 괜히 붙는 게 아닌 것 같습니다.

안드레이 카파시의 CVPR 발표 자료를 통해 공개된 테슬라 슈퍼컴퓨터의 모습 (사진 출처: CVPR 안드레이 카파시 Keynote)

이렇게 트레이닝된 퓨어 비전 소프트웨어는 생각보다 놀라운 퍼포먼스를 보여주고 있다고 합니다. 기존의 레이더+카메라 퓨전 버전에서는 500만 마일을 달릴 때마다 1회의 사고가 발생했지만, 카메라만 사용한 퓨어 비전 버전에서는 1,500만 마일을 달렸음에도 사고가 발생하지 않았다고 하네요. 기존의 보완 장치였던 레이더를 제거함으로써 오히려 더 나은 성능을 갖추게 된 겁니다.

카메라가 라이다를 대체할 수 있을까?

더 놀라운 건, 이제 카메라만으로 라이다를 대체하는 연구가 진행되고 있단 겁니다. 단순히 레이더보다 조금 더 나은 수준이 아닙니다. 테슬라는 라이다로만 가능했던 정확한 거리/속도/가속도 측정을 비전만으로도 충분히 구현할 수 있다는 자신감이 붙은 건데요.

앞서 주변 사물에 대해 3D 입체 영상을 그려낼 수 있는 라이다와 달리, 카메라로는 사물을 2D로만 인식할 수 있다는 이야기를 했었는데요. 사실 사람도 마찬가지입니다. 사람도 한쪽 눈만 뜨고 있으면 사물의 원근감을 제대로 구분하지 못하죠. 그래서 양쪽 눈으로 인식한 이미지를 뇌에서 합치는 과정을 통해 세상을 입체적으로 바라볼 수 있게 됩니다. 이런 인간을 모방한 퓨어 비전 방식 역시 똑같은 시도를 합니다. 테슬라는 사방에 달린 8개의 카메라를 통해 주변 이미지를 인식합니다. 하지만 초기에는 반도체 칩의 연산 능력이 부족해, 8개 카메라로부터 입수한 영상 이미지를 한번에 처리하지 못했습니다. 때문에 보조 카메라의 처리 빈도를 낮추고 메인 카메라에 의지했다고 합니다. 그러던 중 2019년 자체 개발한 AI칩이 적용된 오토파일럿 HW 3.0이 출시되면서, 8개 카메라가 촬영한 이미지를 하나로 합쳐 3D 이미지 구현을 본격적으로 시도할 수 있게 됐죠.

하지만, 여기서 문제가 발생합니다. 3D 이미지를 만들었을 때 그 원근감의 정밀도 문제인데요. 인간 운전자에겐 앞 차가 25m 떨어져 있느냐 30m 떨어져 있느냐 하는 이슈가 별로 중요하지 않습니다. 그저 적당히 멀리 떨어져 있구나 하고 인지만 하면, 직감으로 적절한 타이밍에 브레이크를 밟아도 별 문제가 없습니다. 하지만 직감이란 게 없는 컴퓨터에게 이 5m의 갭은 하늘과 땅 차이입니다. 주변 사물이 얼마나 떨어져 있는지 정확히 인식하는 것이 자율주행 자동차의 안전을 좌우하는 핵심이니까요. 3m 떨어져 있으면 3m, 10m 떨어져 있으면 10m라고 정확한 거리를 인식해서 알려줘야만 브레이크와 악셀을 밟을 강도, 타이밍을 정확히 판단해서 사고를 예방할 수 있습니다. 이런 점에서 물체의 원근을 정확히 ‘측정’할 수 있는 라이다가 ‘추론’만 하는 카메라 비전 방식에서 훨씬 우월했던 겁니다. 아무리 라이다처럼 3D 이미지를 만들 수 있더라도, 그 원근이 정확하지 않다면 있으나 마나 한 데이터겠죠.

비전으로 Depth Map을 만들고, 이를 다시 3D 맵으로 구현한 모습 (사진 출처:Pseudo-LiDAR from Visual Depth Estimation, Yan Wang)

이런 한계를 극복하고 원근감을 좀 더 정확히 추론하기 위해 연구되고 있는 기술이 ‘의사 라이다(Pseudo lidar)’입니다. 말 그대로 비전 만으로 라이다와 유사한 성능을 발휘하고자 하는 ‘짭 라이다”라고 할 수 있는데요. 먼저 카메라가 입수한 2D 이미지를 구성하는 미세한 픽셀 하나 하나의 깊이를 추정합니다. 이렇게 추정한 깊이를 가지고 주변 사물의 원근을 표현하는 Depth Map을 만들고, 이를 다시 라이다가 제공하는 형태의 3D 지도로 변환하는 겁니다.

이런 2D -> 3D 변환 기술을 통해 퓨어 비전의 인지 성능이 대폭 개선시키는 것이 의사 라이다 기술의 목표인데요. 2019년 코넬대 박사 과정 대학원생 Yan Wang이 발표한 의사 라이다 관련 논문에서 언급된 실험 결과에 의하면, 의사 라이다 기술을 통해 30M 거리의 사물 인지 정확도가 기존의 22%에서 74%로 대폭 상승했다고 합니다. 물론 이 정확도가 99%에 달하는 라이다에 비하면 아직 많이 부족한게 사실입니다. 하지만 연구에 탄력이 붙고 추가 개선 방안이 계속 발표되고 있다는 점에서, 의사 라이다가 진짜 라이다를 대체하는 날을 희망적으로 그려볼 수 있을 것 같다는 생각이 듭니다.

Time will tell

카메라 비전 기반 자율주행 솔루션의 가장 큰 장점은 확장성이라고들 말합니다. 라이다 가격이 아직까지 수천 만원에 달할 정도로 비싼 반면, 카메라는 기껏해야 백만원 남짓이면 장착할 수 있습니다. 또 라이다와 함께 사용되는 HD맵을 전세계 도로에서 확보하는 것이 쉽지 않지만, 카메라 솔루션은 이런 지도를 필요로 하지 않으니까요.

이렇게 비전 방식은 확장은 상대적으로 손쉬워 보이지만, 테슬라를 보면 결코 아무나 시도할 수 있는 방식이 아닙니다. 수십 억 km의 실제 주행 데이터를 확보해야 하고, 슈퍼 컴퓨터를 활용해 이를 인공신경망에 학습시켜야 합니다. 또 도로를 달리면서 8개의 카메라로 받아들이는 주변 정보를 빠르게 처리하며 판단을 내릴 수 있는 전용 AI칩까지 필요합니다. 전통 자동차 제조사는 물론이고, 거대 IT기업들조차 쉽게 따라올 수 없는 영역이죠.

그렇기 때문에 비전 기반 자율주행 솔루션이 성공한다면, 테슬라는 정말로 남들이 감히 따라올 수 없는 깊은 기술적 해자를 확보하게 될 것 같습니다. 경영학 교과서에 모방할 수 없는 경쟁우위의 대표적 사례로 소개될지도 모르겠네요. 과연 카메라가 정말로 라이다를 이길 수 있을지는, 시간이 말해주겠죠?

※ 이 글은 전기차 전문 매체 EV POST에 동시 게재됩니다.