로봇에게 능숙한 손 조작 능력을 학습시키는 TRI의 혁신적인 접근법

글/캐롤린 마사스(Carolyn Mathas)

제공/마우저 일렉트로닉스(Mouser Electronics)

AR(로봇)-0.jpg
(출처: TRI Press Room)

도요타 연구소(Toyota Research Institute, TRI)가 개발한 혁신 기술이 로봇 공학에 획기적인 발전을 가져올 것으로 기대된다. 로봇이 픽-앤-플레이스 동작을 지루하게 반복하던 시대에서 손 사용 동작을 빠르게 학습하고 숙달할 수 있는 시대로 나아가게 된 것이다. 로봇은 매우 광범위한 작업들을 지원할 수 있는 가능성을 가지고는 있지만, 아직까지 극적인 변화를 보여주지는 못했다.

TRI의 혁신적인 접근법은 로봇이 단지 학습만 하는 것이 아니라, 복잡한 조작 작업을 하룻밤 사이에 관찰하고 흡수하고 숙달할 수 있도록 한다. 그럼으로써 코드를 한 줄도 변경하지 않고도 또는 소모적인 프로그래밍 작업을 하지 않고도 도구를 사용하거나, 액체를 따르거나, 야채의 껍질을 벗기는 것과 같은 정교한 행동을 습득할 수 있게 되었다(그림 1). 이로써 수백만 가지의 학습 사례를 사용해서 힘들게 머신 러닝을 하던 시절은 가고, 로봇이 똑똑할 뿐만 아니라 놀랍도록 능숙하게 조작을 하고 적응을 할 수 있는 시대로 접어들고 있다.

AR(로봇)-1.jpg
[그림 1] 로봇에게 요리하는 방법을 “가르치면” 로봇이 하룻밤 사이에 그러한 능력을 습득하고 다음 날 아침이면 요리를 할 수 있다. (출처: TRI)

새로운 접근법

TRI의 러스 테드릭(Russ Tedrick) 로보틱스 부사장에 따르면, 로봇을 성숙도와 능숙한 손놀림에 있어서 새로운 반열에 올려 놓겠다는 목표를 가지고 2016년에 능숙 조작 팀(dexterous manipulation team)을 시작했다고 한다. 이 팀은 시작하면서 스스로에게 이러한 질문을 던졌다: “로보틱스에서 이 새로운 접근법을 추구하는 데 가장 큰 걸림돌은 무엇인가?” 이에 대한 답을 찾아보니, 그것은 바로 시뮬레이션에 의존하는 것이었다. 이러한 판단에서 직관적 물리 프로젝트(Intuitive Physics Project)라고 하는 새로운 노력이 시작되었다. 이는 시뮬레이션으로 할 수 없는 것들을 자신의 손으로 할 수 있도록 하는 것이다.

시뮬레이션에 의존하던 것에서 탈피하기 위해 모방 학습을 도입하게 되었는데, 이는 기존에 이미 있던 행동 복제 방법을 약간 변형한 것이다. 그러던 중 2022년에 한 하계 인턴이 확산 모델(diffusion model)을 사용한 변형 기법을 시도해 보기로 했는데, 그 결과가 역사를 만들고 있다.

특정한 행동에 대한 일련의 시범 자료(demonstration)를 수집했다면, 로봇은 해당 행동의 수행 방법을 자율적으로 학습할 수 있다. 이 과정에서 핵심이 바로 확산(diffusion)이라고 하는 생성형 AI 기법이다.

예를 들어, 로봇을 학습시키는 교사가 간단한 기술 세트를 시연해 보이면 확산 정책(Diffusion Policy)은 센서가 사람의 움직임과 자연어를 관찰한 것을 기반으로 로봇 동작을 생성한다. 이 시연은 교사의 원래 데모 후 몇 시간 동안 실행된다. 확산 사용의 이점은 크게 세 가지다:

• 멀티 모달(multi-modal) 시연에 적용할 수 있다. 인간 교사가 자연스럽게 행동을 시연할 수 있으며 로봇을 혼란스럽게 할까 염려할 필요가 없다.

• 고차원적인 행동 공간에 적합하다. 그러므로 로봇이 시간적으로 미리 계획할 수 있으며, 근시안적이거나 모순되거나 변칙적인 행동을 피할 수 있다.

• 수작업적 튜닝을 하거나 골든 체크포인트를 찾을 필요 없이, 로봇이 잘 작동할 것이라는 확신을 가지고 로봇들을 대규모로 안정적이고 신뢰성 있게 훈련할 수 있다.

또한 이들 로봇은 촉각을 감지할 수 있으므로, 좀더 손쉽게 학습할 수 있다. TRI 소프트 버블 센서는 폭신하고 변형이 가능한 바깥쪽 멤브레인을 관찰하는 내장 카메라로 구성된다. 이들 센서는 단지 희박한 힘 신호를 측정하는 것을 넘어서 로봇이 접촉 패턴, 기하학적 구조, 미끄러짐, 힘에 관한 공간적으로 밀집한 정보를 인지할 수 있게 해준다. 로봇은 환경과의 상호작용을 촉각으로 느낄 수 있을 때 작업 수행 능력이 훨씬 더 높아진다(표 1).

AR(로봇)-표1.jpg
[표 1] 촉각을 함께 사용할 수 있을 때와 시각만 사용할 수 있을 때의 성능 비교 (출처: TRI)

플랫폼

TRI의 로봇 학습 접근법은 사용하는 원격조종장치에 관계없이 적용 가능하며, 실제로 간단한 조이스틱부터 정교한 양손 조정 장치까지 다양한 인터페이스가 사용되고 있다.

TRI는 생성형 AI와 관련하여 최근에 이루어진 성과들 덕분에 로봇에게 새로운 조작 능력을 가르칠 수 있게 되었다. 이들은 동일한 로봇, 코드, 셋업을 사용해서 야채의 껍질을 깎고, 핸드 믹서를 사용하고, 스낵을 준비하고, 팬케이크를 뒤집는 것과 같은 60가지 손 사용 동작을 수행할 수 있게 되었다.

TRI의 시유안 펭(Siyuan Feng) 전임 연구원은 “우리는 가장 일반적인 오류 모드에 대한 강력한 동작을 로봇 학습에 사용되는 데이터에 포함시켰다. 이는 지도 학습(supervised learning)이지, 결코 마술처럼 이뤄지는 게 아니다. 로봇이 어떻게 응답해야 하는지 교사가 보여줄 필요가 있다”고 말했다.

숙달 명령 수신의 핵심은 위치-대-위치의 결합인데, 여기서 인간 작업자는 양손 입력을 통해 로봇의 자세와 동작을 가르칠 수 있다. 로봇은 토크 기반의 운영 공간 제어(Operational Space Control)를 통해 자세와 동작을 실행하여 작업자의 움직임을 모방하고 작업자에게 촉각 피드백을 보낸다. TRI는 이 춤을 세계와 공유할 계획이라고 오픈 소스 릴리스를 통해 암시했다.

앞에서 시뮬레이션에서 탈피함으로써 TRI 팀이 진보를 이루게 되었다고 소개했지만, 그렇다고 시뮬레이션이 완전히 배제된 것은 아니다. TRI는 물리적인 로봇 군집과 자신들의 강력한 드레이크(Drake) 시뮬레이션 스위트 모두에서 구체적인 데이터의 견고한 행동 커리큘럼을 구축하고 있다. 도구 사용, 형태가 바뀔 수 있는 물체의 조작, 신중한 양손 협응 등 TRI의 능숙 조작 로봇에 60가지 이상의 행동을 학습시켰다. 로봇들이 이러한 능숙 조작 동작들을 숙달하고 나면 일반화를 통해서 이전에 전혀 학습하지 않았던 새로운 행동을 할 수 있게 될 것이다.

TRI는 자사의 로봇 유치원에서 다양한 커리큘럼을 구축하기 위해서 애쓰고 있다. 2024년 말까지 1,000가지 이상의 행동을 학습시킬 계획이다. 또한 자신들의 시뮬레이션 전문성을 활용해서 실제 학습을 강화하고 군집 학습을 위한 기초적인 툴들을 마련할 생각이다. 그러면 한 로봇이 배우고 났을 때 모든 로봇이 배울 수 있게 될 것이다.

향후 개발

TRI 능숙 조작 팀의 벤 버치필드(Ben Birchfield) 매니저는 “우리가 생각하는 것 중의 하나는 확장이 용이한 일반 알고리즘을 개발하는 것이다. 언어와 이미지 생성에서 볼 수 있듯이, 데이터가 이미 존재하는 곳에서는 믿을 수 없는 일들이 일어나고 있다. 로봇과 관련하여 해결해야 할 과제는, 아직은 방대하고 다양한 데이터 세트가 존재하지 않는다는 것이다. TRI가 구축하고자 하는 것이 바로 이것이다. 방대한 행동 모델을 토대로 이러한 범용 모델을 생성하고 이를 뒷받침하기 위한 알고리즘을 개발하는 것이 TRI의 연구가 지향하는 목표다”라고 말했다.

다음 단계에서 해야 할 중요한 작업은 의미론적 능력과 고도의 물리적 지능 및 창의성을 융합한 강력한 대규모 행동 모델을 개발하는 것이다. 이러한 모델은 로봇으로 하여금 필요할 때 자연스럽게 새로운 조작 행동을 생성할 수 있도록 만들 것이다. 궁극적으로 이러한 혁신은 로보틱스를 넘어서 자동화, 머신 러닝, HMI(human-machine interaction)까지 이어질 것이다.

신제품 발표

죄송합니다. 더 이상 지원되지 않는 웹 브라우저입니다.

아래의 링크에서 브라우저를 업그레이드 하시기 바랍니다.

Internet Explorer 다운로드 | Chrome 다운로드