안녕하세요. 구독자님
이번 시리즈는 내용이 많아서 총 2부작으로 작성하려 하니 참고부탁드립니다.
이번 글은 지난번에 공유드린 "Chat GPT, 움직일 수 있는 몸을 얻다. (이슈 정리)" 내용에 이어서 작성되는 글입니다.
Figure01 로봇이 소개되었을 때, Figure 회사의 연구원인 Corey Lynch 가 기술 글을 간략하게 작성해주었는데요. 이 기술 글을 참고하여 좀 더 쉽게 구독자님에게 전달드리고자 합니다.
1️⃣ 어떤게 가능하다고 했지?
지난 레터에서 'Figure 01;의 능력에 대해서 정리했습니다. 내용을 다시 한 번 상기하고자 아래와 같이 요약을 해두었어요. 혹시라도 자세한 내용을 보고싶다면 '다시 보기'에 있는 링크에 방문해주세요.
1) 요약
- 눈에 보이는 것을 설명한다.
- 사물의 쓰임을 이해한다.
- 행동에 따른 이유를 설명할 수 있다.
- 다음 할 일을 계획할 수 있다.
- 단기 기억이 가능하다.
2) 다시 보기
2️⃣ 조금 더 알고 싶어!
우선, 이전에 전달드린 레터에서는 "ChatGPT에게 몸이 생겼다."로 전달을 드렸었는데요. 이번 기회에 좀 더 알아보니 로봇에 연결된 AI는 ChatGPT가 아니었습니다. 관련한 내용도 아래 포함되어 있으니 읽으실 때 참고해주세요. 🙏
'Figure01'이 발표된 날에 Figure의 연구원인 Corey Lynch가 좀 더 기술적인 설명을 해주었습니다. 이 내용을 토대로 해서 로봇 'Figure01'에는 어떠한 기술이 있는지 알아보도록 해요.
1) 내부 동작 도식화
우선, 로봇의 행동을 도식화한 그림인데요. 내부에는 'OpenAI model', 'Neural Network Policies', 'Whole Body Controller' 와 같이 다양한 모듈(?)이 보이네요.
Figure01는 직접 주변을 보고(로봇 내부의 카메라), 사람의 말을 듣고(마이크), 이해하는 능력(컴퓨터)을 가지고 있죠. 이 모든 것은 '오픈AI'라는 회사에서 만든 큰 컴퓨터 프로그램(모델) 덕분인데요.
동영상에서도 보셨다 시피, 이 프로그램은 사진과 글을 함께 이해할 수 있어요. 로봇이 본 사진과 들은 말을 이 프로그램이 분석해서, 로봇이 어떤 말을 해야 할지, 어떤 행동을 해야 할지 결정해요. 그리고 이 결정에 따라 로봇은 사람에게 대답을 하거나, 주어진 명령을 수행하는 행동을 보여주게 되는거에요.
2) 'Multimodal model' 에 연결 된 Figure01
Multimodal model이란, 여러 가지 형태의 정보나 데이터를 처리할 수 있는 컴퓨터 프로그램을 말해요.
예를 들어, 사람과 대화하는 로봇에게 'Multimodal model'을 적용하면, 로봇은 사람의 말소리(음성 데이터)를 듣고, 주변 환경을 카메라로 보며(이미지 데이터), 이 모든 정보를 종합해서 사람의 의도를 이해하고 적절한 행동을 결정할 수 있어요.
이러한 'Multimodal model'이 연결된 게 'Figure01' 로봇인데요. 이 로봇에는 사전 훈련된 'Multimodal model'에 연결하면, 몇 가지 흥미로운 능력을 갖게 됩니다.
이 모든 것은 'Figure 01'이 내장된 카메라로 입력 받은 사진과 글을 이해하고, 그 정보를 바탕으로 상황을 판단하며, 적절한 행동을 결정하는 능력 덕분에 가능한 것입니다.
3) Figure01, 단기기억력을 얻다.
앞서 말한 Multi modal 중, 대화의 history를 이해하는 사전 훈련된 모델이 'Figure 01'에게 강력한 단기 기억 능력을 줍니다.
영상 중에 "거기에 그것들을 놓을 수 있어?"라는 질문이 있었어요. 여기서 "그것들"이 무엇을 가리키는지, 그리고 "거기"가 어디인지 알아야 정확한 대답을 할 수 있죠. 올바르게 대답하기 위해서는 기억을 되돌아볼 수 있는 능력이 필요합니다.
사전 훈련된 모델이 대화의 이미지와 텍스트 역사를 분석함으로써, 'Figure 01'은 빠르게 계획을 세우고 이를 수행합니다: 1) 컵을 건조대에 놓고, 2) 접시를 건조대에 놓습니다.
4) 부드럽게 움직이는 Figure01의 팔
이 연구원에 따르면 Figure01의 팔 또한 학습이 이루어진 것이라고 합니다.
그 기술을 "learned low-level bimanual manipulation"라고 칭하는데, 이는 로봇의 팔을 사용하여 물체를 다루는 기술을 학습한 것을 의미해요.
이 모든 행동은 '신경망 visuomotor transformer 정책'에 의해 주도됩니다. 이 정책들은 로봇에 탑재된 카메라에서 아주 빠른 속도(10헤르츠(Hz)) 이미지를 받아들이고, 이를 바탕으로 200헤르츠(Hz)의 속도로 24-자유도(DOF, 손목이 움직일 수 있는 방향의 수) 행동(손목 자세와 손가락 관절 각도)을 생성합니다.
이러한 행동들은 전체 몸체 컨트롤러가 추적하는 고속 설정 값(setpoint)으로 작용합니다.
- 인터넷에서 사전 훈련된 모델들은 이미지와 텍스트를 통해 상식적인 추론을 하며 고수준 계획을 세웁니다.
- 학습된 시각-운동 정책(visuomotor transformer 정책)은 이 계획을 실행하며, 수동으로 지정하기 어려운 빠르고 반응적인 행동을 수행합니다.
- 한편, 전체 몸체 컨트롤러는 안전하고 안정적인 동작을 보장합니다. 예를 들어, 균형을 유지하는 것과 같이요.
간단히 말해, 이 시스템은 고수준 계획부터 낮은 수준의 물리적 조작까지, 로봇이 복잡한 작업을 수행할 수 있게 하는 여러 단계의 제어 계층을 포함하고 있습니다.
3️⃣ 끝으로
단 하나의 로봇에 엄청 많은 기술이 접합되어 있는 듯 해요. 실제로는 이러한 기술 외에도 말할 수 없는 수 십~수 백 가지의 기술이 내포되어 있을 텐데요. 저도 이번 기회를 통해 로보틱스 분야에 대해 찍먹을 해볼 수 있었던 기회가 아닌가 싶습니다.
이러한 로봇과 같은 삶을 사는 날이 올지, 아니면 실생활이 아닌 산업/의료 용으로만 사용될지 모르겠습니다만, 현재 OpenAI와 Figure는 미래 시대에 또 한발을 내딛은 것으로 보여지네요.
다가오는 로봇 사회를 대비하는 삶도 필요할 것 같다라는 생각과 함께 이번 레터는 여기서 마치도록 하겠습니다. 🫡
의견을 남겨주세요