Mobile ALOHA는 스탠퍼드 대학교에서 발표한 AI 로봇입니다.
모바일 조작 시스템으로, 전신 원격 조작을 통해 복잡한 작업을 놀랍게 수행하는 모습을 보여줍니다.
소개는 housekeeping robot 이라고 했지만 웬만한 노동은 수행 할 수 있을 것으로 보입니다…!
이 시스템은 카메라로 얻은 비전 정보로 학습을 합니다. 이를 통해 청소, 설거지, 요리, 빨래 접기 등 다양한 인간의 육체 노동을 학습할 수 있다고 합니다.
가격도 약 4000 만원으로 가정용 로봇을 가질 수 있다고 하니 로봇이 사람을 대체하는 세상이 한 걸음 더 다가온 걸까요?
아래 영상에서 ALOHA의 능력을 확인해 봅시다.
이 프로젝트의 또 한 가지 놀라운 점은 소프트웨어 및 하드웨어 부품을 오픈소스로 제공한다는 점입니다.
3D 프린팅, 조립 및 소프트웨어 설치에 대한 자세한 튜토리얼을 제공함으로써 누구든 약간의 자본만 있다면 해당 로봇을 운행 해 볼 수 있습니다.
너무 놀라웠기에 바로 논문을 확인해 보았습니다. 다음은 실제 논문을 정리한 내용 입니다.
알로하의 사양
손목 카메라 2개와 상단 카메라 1개로 사물을 인식하는 것을 볼 수 있습니다.
학습 이후에는 원격 조작 설정을 제거할 수 있으며 자율 실행 중에는 ViperX 300 두 대만 사용됩니다
두 팔 모두 최소/최대 높이는 65cm/200cm에 도달할 수 있으며 앞쪽으로는 100cm까지 뻗을 수 있습니다.
무게는 성인 남자와 비슷한 75kg이며 배터리는 12시간 지속 할 수 있고 100N의 힘을 낼 수 있습니다.
Mobile ALOHA 가 할 수 있는 일
Mobile ALOHA 시스템은 냉장고에서 음식을 가져오는 것과 같은 간단한 작업부터, 새우를 볶거나 무거운 요리용 냄비를 보관하는 벽장을 열고 들어올리는 것과 같은 복잡한 작업까지 수행할 수 있다고 합니다
또한, 주방 싱크대에서 사용한 팬을 가볍게 씻거나 엘리베이터를 호출하고 타는 것과 같은 일상적인 작업도 수행할 수 있다고 합니다.
Mobile ALOHA 의 학습 법
ALOHA 시스템은 주로 모바일 조작 작업을 위해 사람의 데모를 통한 모방 학습(Imitation Learning)을 사용합니다.
이는 로봇이 사람의 동작을 모방하여 작업을 수행하는 방식으로, 기존의 ALOHA 데이터셋과 공동 학습(co-training)을 통해 성능을 향상 시킬 수 있다고 합니다.
공동 학습이란 동일한 데이터 셋을 가지고 다른 알고리즘으로 학습하는 것을 의미합니다.
각 알고리즘이 동일한 데이터를 사용하여 별도로 학습하고, 그 결과를 서로 교환하면서 상호 보완적으로 학습하는 것 입니다.
이를 통해 각 알고리즘은 서로의 부족한 부분을 보완하고, 모델의 성능을 향상 시킬 수 있다고 합니다.
또한, ALOHA는 VINN with chunking, Diffusion Policy, ACT와 같은 최근의 모방 학습 방법과 호환되며, 이러한 방법들을 통해 좋은 성능을 달성할 수 있다고 합니다.
Mobile ALOHA 성능
Mobile ALOHA는 복잡한 모바일 조작 작업을 수행할 수 있으며, 공동 학습을 통해 성능을 향상 시킬 수 있다고 합니다.
논문에서는 50회의 데모로도 성공률을 최대 90%까지 높일 수 있음을 보고하였습니다.
아래 표를 보시면 공동 학습을 시키면 50번 데모를 하는 것 만으로 와인잔의 수건으로 닦는 업무를 95% 확률로 해낸다는 것을 볼 수 있습니다.
(5% 실패는 어느 정도 실패를 의미하는 지는 잘 모르겠습니다. 와인을 제대로 못 닦았을 수 도 있겠고, 심하면 유리잔을 깨는 경우도 있었겠죠….?)
ALOHA의 제한점과 향후 방향
ALOHA 시스템의 제한점은 하드웨어 측면에서는 시스템의 차지하는 공간을 줄이고, 팔의 높이를 더 많이 조절할 수 있도록 하는 것이 필요하다는 점이라고 합니다.
더 작은 부피의 로봇이 된다면 더 다양한 공간에서 작동할 수 있고, 팔의 높이를 더 조절 할 수 있다면 더 다양한 작업을 할 수 있겠죠?
또한, 소프트웨어 측면에서는 정책 학습 결과를 단일 작업 모방 학습으로 제한되어 있으며, 로봇이 자체적으로 개선하거나 새로운 지식을 습득하는 것이 불가능하다는 한계가 있다고 합니다.
자체적으로 개선까지 한다면 정말 바로 사람을 대체 할 수 있겠죠…? 아직은 그 단계까지는 아니라고 합니다.
또한, Mobile ALOHA의 데모는 전문 운영자에 의해 수집 되었기 때문에 비 전문가가 이질적으로 학습을 하면 이에 대한 처리를 하지 못 한다고 합니다. 무엇이 올바른 건지 로봇 스스로는 학습하지 못하는 것이죠.
향후 작업에서는 이러한 제한점을 극복하기 위해 하드웨어 및 소프트웨어 측면에서의 개선이 필요하다고 서술하였습니다.