Abstract
PLATO: Planning with LLMs and Affordances for Tool Manipulation
Arvind et al.
arxiv 2024
PLATO는 기존 LLM 기반 로봇 시스템의 한계인 환경 사전 지식 필요성 long-horizon task 불가 문제를 해결하기 위해 역할 기반 modular LLM agents로 구성된 아키텍처를 제안한다. Zero-shot 환경 적응성과 affordance reasoning을 통해 도구 조작을 포함한 복잡한 task를 고수준 계획부터 저수준 실행 및 검증까지 통합 처리할 수 있으며 실제 동적 환경에서의 실험을 통해 강인함을 입증하였다. 이는 LLM과 로보틱스 통합의 새로운 design paradigm으로 평가될 수 있다.
Introduction

로봇 기술의 발전에도 불구하고 현실 세계에서의 자율적인 복잡 작업 수행은 여전히 어려운 문제로 남아있다. 대부분의 기존 접근 방식은 대규모 학습 데이터 또는 환경에 대한 사전 지식에 의존하며, 이는 일반화와 적응성 측면에서 한계를 드러낸다. Large Language Model (LLM)은 세계 지식과 일반적인 상식을 포함하고 있어 이러한 한계를 극복할 잠재력을 제공하지만, 기존 연구들은 여전히 스크립트 기반 또는 인간이 정의한 프리미티브에 의존하고 있어 도구 조작과 같은 복잡한 상호작용에는 한계가 있다.
PLATO는 이러한 문제를 해결하기 위해 설계되었다. 본 시스템은 사전 환경 지식 없이 자연어 기반 사용자 명령으로부터 고수준 계획을 생성하고, 이를 실제 로봇이 실행 가능한 저수준 명령으로 변환하는 완전한 에이전트 프레임워크를 구성한다. 특히 도구 사용과 같은 어려운 조작 작업에서 affordance를 기반으로 동작 계획을 수립함으로써, 이전 시스템들이 처리하지 못했던 다양한 상황에서의 유연성과 적응성을 보인다.
본 논문의 핵심 contribution은 다음과 같다.
- LLM을 기반으로 하는 High-Level Planner와 Step Planner의 통합 구조 제안
- affordance reasoning을 위한 task-oriented grasping 메커니즘 개발
- 도구를 포함한 다양한 객체와의 상호작용을 지원하는 end-to-end 로봇 제어 파이프라인 구축
Method

위와 같은 architecture 구조를 통해 자연어 명령으로부터 실제 로봇 저수준 동작 실행까지의 task 수행이 진행된다.
Scene Comprehension
이 모듈은 자연어 명령과 환경 이미지를 입력받아 작업에 필요한 객체들을 인식하고, 이들 중 어떤 것이 도구(tool)인지 아닌지를 이진 분류한다. 결과적으로 객체 리스트와 도구 여부 정보가 다음 단계에 전달된다. 이를 통해 시스템은 환경 내 객체들에 대한 명확한 이해를 기반으로 작업 계획을 수립할 수 있다.
High-Level Planner
사용자의 명령은 고수준 작업 시퀀스로 변환된다. 이 과정은 , , , 의 네 요소로 구성된 계획 단계로 표현되며, 이후 모듈들이 쉽게 해석할 수 있도록 정형화된다. 예를 들어, “Make a salad” 명령은 [“pickup”, “original position of tomato”, “tomato”, “none”] 과 같은 형태로 변환된다. 이와 같은 추상화는 Step Planner와의 효율적인 연계를 가능하게 한다.
Vision Module
비전 모듈은 4대의 RGB-D 카메라로부터 획득한 이미지를 통해 객체의 중심좌표와 크기를 산출한다. Grounding DINO를 통해 객체를 탐지하고 Segment Anything Model (SAM)을 통해 세그멘테이션을 수행한다. 이후 point cloud를 구축하고, 이를 로봇의 좌표계로 변환하여 객체의 정확한 물리 정보를 제공한다. 이를 통해 Step Planner가 정밀한 동작 계획을 수립할 수 있도록 지원한다.
Step Planner
고수준 계획을 저수준 로봇 명령으로 변환하는 모듈이다. Go-to, Grasp, Tilt 등의 기본 명령어를 활용하여 로봇이 실행 가능한 시퀀스를 생성한다. 이전 실행 단계 정보도 함께 제공되어 불필요한 동작을 제거한다. 예를 들어 [“place”, “original position of table”, “table”, “hammer”] 명령은 Go-to, Grasp (release), Go-to(후퇴) 명령으로 구체화된다. 이는 실제 작업 공간의 좌표 및 물리적 제약을 모두 고려하여 정교하게 수행된다.
Task-Oriented Grasping
도구(tool)와 객체(object)를 구분하여 grasp 전략을 결정한다. 도구인 경우, affordance model과 LLM reasoning을 통해 graspable region을 식별하고, 이를 기반으로 grasp 후보를 필터링한다. 후보 grasp 중 가장 적합한 것을 선택하여 로봇의 grasp point로 사용한다. 이 과정은 zero-shot generalization을 지원하며, 데이터베이스에 없는 도구도 유사한 affordance를 기반으로 처리할 수 있도록 한다. 핵심적인 모듈로 아래와 같이 구체화 하여 architecture가 묘사된다.

Task-Oriented Grasping 모듈의 처리과정은 아래와 같다.
우선, 로봇 end-effector에 부착된 카메라로부터 촬영된 RGB 이미지와 해당 객체의 mask가 입력으로 주어진다. 이 객체는 Scene Comprehension, SAM Vision Module, Overall Planner, Tool Affordance 모듈을 거쳐 선택된 것이다. 이후 입력된 mask와 이미지를 기반으로 가능한 모든 grasp 후보가 예측된다. 이 후보들은 최종 grasp을 결정하기 위한 후보군으로 활용된다.
다음으로, 입력된 task와 Query Tool이 affordance model의 database와 매칭된다. 여기서 LLM 기반 reasoning을 통해 가장 유사한 task와 object가 선택되며, 예를 들어 사용자가 fork를 사용하는 task를 요청했을 경우, database 내의 spoon이 유사한 grasping pattern을 가진 도구로 선택될 수 있다. 이후 선택된 Database Tool의 graspable region mask를 Query Object의 mask에 mapping하는 과정이 진행된다. 이 단계에서 유사한 도구 간 일반화된 grasp 방식을 적용함으로써, 새로운 도구에 대해서도 적절한 grasp region을 예측할 수 있다.
이렇게 매핑된 region을 기반으로 초기 grasp 후보들이 필터링되고, 최종적으로 가장 적합한 grasp이 선택된다. 만약 database tool과 query object 간 매핑이 실패할 경우에는 예외 처리로써 Query Object 전체 mask를 사용하여 grasp 후보를 선정한다. 이는 fail-safe를 보장하기 위한 장치이다. 마지막으로 선택된 grasp 후보는 depth 정보를 이용해 3D grasp point로 변환되며, 로봇이 실행 가능한 명령으로 활용된다.
Experiment

7-DoF Franka robot과 4개의 Intel RealSense D415 카메라를 이용하여 table-top manipulation 실험 환경을 구성했다.
Single-Task Grasping
“Place next to “와 “Place within ” 작업에서 객체 인식 및 단순 grasp-and-place 수행 능력을 평가하였으며, 각각 10회 중 7회와 6회 성공하여 높은 수준의 기본 작업 수행 능력을 입증하였다.
Single-Task Tool Use
“Scoop up candy”, “Flatten the ball of dough”, “Whisk the empty bowl” 작업을 통해 affordance 기반 grasp과 고수준-저수준 action 변환 성능을 평가하였고, 각각 10회 중 5회, 6회, 4회 성공하며 비교적 높은 성공률을 보였다.
Multi-Task Tool Use
“Scoop candy and place into bowl”, “Flatten dough and poke holes”, “Flatten dough and scoop candy onto it” 작업에서 복수 도구와 객체 기반 장기 계획 및 연속 도구 조작을 검증하였으며, 각 작업별로 10회 중 3회, 3회, 0회의 성공으로 도구 혼동과 복잡 작업에서의 어려움이 드러났다.
Conclusion
본 연구에서는 LLM 기반 agentic framework인 PLATO를 제안하고, 이를 통해 사전 환경 지식 없이도 도구 조작을 포함한 복잡 작업을 수행할 수 있음을 보였다. Scene Comprehension, Vision, High-Level/Step Planning, Task-Oriented Grasping으로 구성된 모듈화된 구조는 다양한 환경에 적응 가능한 로봇 시스템의 설계를 가능하게 한다. 실험 결과, 단순 작업뿐 아니라 도구 조작이 포함된 복잡 작업에서도 높은 성공률을 보였으며, affordance 모델과 LLM reasoning의 결합이 핵심적인 성능 향상 요인임을 확인하였다. 향후 Vision 모듈의 semantic 분류 능력과 Step Planner의 동적 state reasoning 능력을 개선한다면 보다 향상된 성능을 기대할 수 있다.