[논문 리뷰] A Causal Approach to Tool Affordance Learning
Abstract
A Causal Approach to Tool Affordance Learning
Jake Brawer et al.
IROS 2020
기존의 머신러닝 기반 로봇 시스템은 다양한 환경에서 문제를 해결하는 데 있어서 인과적 지식(cause-and-effect knowledge)의 부재라는 중요한 한계에 직면해 왔다. 즉, 기존 방법들은 패턴 인식이나 통계적 연관성에 의존하기 때문에 "왜"와 "어떻게"에 대한 깊은 이해 없이 동작하는 경우가 많았다. 이는 로봇이 새로운 환경이나 도구에 직면했을 때 유연하고 적응력 있게 행동하기 어렵게 만드는 주요 원인이 된다.
본 연구는 이러한 문제를 근본적으로 해결하고자 explicit causal model을 로봇이 스스로 학습할 수 있는 새로운 접근법을 제안한다. 핵심은 두 가지 학습 경로를 결합하는 것이다.
첫째, Observation을 통해 수동적으로 환경 내 상호작용을 관찰하고,
둘째, Self-supervised experimentation을 통해 로봇이 스스로 다양한 도구를 사용해보며 결과를 축적하는 방식이다.
이러한 데이터를 기반으로 로봇은 Structural Causal Model (SCM)을 구성한다. SCM은 단순히 원인에서 결과로 향하는 일방향적 추론뿐 아니라, 결과에서 원인을 역으로 추론하는 양방향 reasoning을 가능하게 한다. 예를 들어, 원하는 목표가 있을 때 어떤 도구가 가장 적합할지 역으로 추론하여 선택할 수 있는 것이다.
이 방식은 특히 tool affordance learning이라는 도전적인 과제에 적용되어 그 효과를 입증했다. 연구 결과, 로봇은 매우 적은 학습 데이터만으로도 새로운 도구를 적절히 선택하고 목표 지향적인 물체 조작을 성공적으로 수행할 수 있었다. 즉, 도구의 사용 가능성을 인과적으로 이해하고 이를 실제 행동으로 연결짓는 능력을 갖추게 된 것이다.
Introduction
동물들은 환경 속 도구를 창의적으로 활용해 물리적 문제를 해결한다. 그러나 오늘날 로봇은 여전히 이러한 유연한 추론과 적응 능력이 부족하다. 기존 머신러닝 기반 로봇 시스템은 통계적 패턴 학습에는 능하지만, 인과적 관계를 명시적으로 이해하지 못해 투명성과 일반화에서 큰 제약이 따른다. 이는 예측 불가능한 환경에서는 안전상의 문제로도 이어질 수 있다.
이를 해결하기 위해 본 연구는 로봇이 직접 관찰과 자율 실험을 통해 인과 관계를 학습하고, 이를 기반으로 명시적이고 설명 가능한 구조적 인과 모델(Structural Causal Model, SCM)을 구축하는 방식을 제안한다. 이 모델은 방향성 비순환 그래프(DAG)로 표현되며, 이를 통해 로봇은 원인에서 결과로, 혹은 결과에서 원인으로 유연한 인과 추론이 가능하다. 더불어 뉴럴 네트워크를 동적으로 결합함으로써 패턴 인식 능력도 유지한다.
본 방법은 실제 휴머노이드 로봇을 통해 검증되었으며, 로봇은 새로운 도구를 상황에 맞게 선택하고 조작할 수 있었다. 또한 이전에 학습한 인과 지식을 활용해 새로운 도구의 사용법도 빠르게 익힐 수 있음을 보여주었다. 이 연구는 로봇이 물리적 환경 속에서 인과적 reasoning과 적응력을 획득하는 데 중요한 진전을 제시한다.
Methodology
이 연구의 목표는 로봇이 구조적 인과 모델(SCM)을 학습하여 단순한 도구 사용 행동을 모델링하고, 이를 바탕으로 새로운 도구의 affordance를 빠르게 파악할 수 있게 하는 것이다. SCM은 관측되지 않은 외부 요인(U), 관찰 가능한 변수(V), 그리고 변수 간 관계를 규정하는 함수 집합(F)으로 구성된다. SCM은 방향성 비순환 그래프(DAG)로 표현되며, 각 노드는 변수, 각 엣지는 인과적 함수에 대응된다.
기존 연구에 따르면, feedforward neural network도 하나의 SCM으로 해석될 수 있다. 이 논문은 이 점을 이용하여, 학습한 인과 구조를 기반으로 뉴럴 네트워크를 구성하고, 이를 통해 각 변수 간 구조적 방정식을 모델링한다. 이는 사전에 데이터 분포에 대한 강한 가정 없이 다양한 환경에 적용 가능하도록 만든다.
이 시스템은 세 가지 학습 단계로 구성된다. 먼저, 관찰 단계에서는 수동적으로 수집한 데이터를 이용해 인과적 연결 구조를 초기 추정한다. 이 과정은 일반적으로 방향성이 없는 그래프를 생성한다. 이후 자기주도 실험 단계에서는 로봇이 능동적으로 변수를 조작해 개입 데이터를 수집하고, 이를 통해 엣지 방향을 설정하며 인과 그래프를 구체화한다. 개입은 정보량이 많은 변수부터 선택적으로 수행하여 실험 횟수를 최소화한다. 마지막으로, 새로운 변수를 기존 그래프에 통합하는 증강 단계에서는 기존에 없던 새로운 엣지를 추가한다. 이 과정에서도 잘못된 인과 관계를 줄이기 위해 위상 정렬 기반의 테스트 순서와 추가적인 휴리스틱을 적용한다.
학습된 인과 구조를 바탕으로, 로봇은 뉴럴 네트워크를 통해 인과 추론을 수행할 수 있다. 이는 원인에서 결과로 가는 전향적 추론뿐 아니라, 결과로부터 원인을 추정하는 abductive 추론도 가능하게 한다. 관측되지 않은 변수들은 "query"로 처리되며, 주변 관측값을 이용해 추정된다. 이를 위해 변수별로 인과적 점수를 부여하고, 점수가 높은 변수부터 순차적으로 추론을 진행한다. 뉴럴 네트워크는 각 상황에 맞춰 동적으로 구성되며, 간단한 feedforward 구조로 설계된다.
로봇은 또한 affordance 학습을 통해 각 도구가 수행할 수 있는 행동 특성을 벡터 형태로 표현한다. 이 affordance 벡터는 도구의 행동 결과와 목표 행동 간의 일치도를 기반으로 빠르게 추정된다. 이를 통해 로봇은 새로운 도구에 대해서도 최소한의 시도로 적합한 행동 전략을 세울 수 있다.
Experiments
아래와 같은 도구들에 대해서 실험을 진행하여 결과를 도출하였다.
a) 각 도구별로 블록의 중심이 목표 영역의 중심에 도달한 평균 거리를 나타낸다.
b) hoe 도구로 초기 학습을 진행한 후, 선택된 여러 도구들의 학습 곡선을 보여준다.
c) 고정된 목표 위치를 기준으로 블록의 위치에 따라 도구가 어떻게 선택되고 사용되었는지를 나타낸다.