Abstract
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
Wang, Zihao, et al.
NeurIPS 2023

이 논문은 오픈 월드 환경에서 multi-task embodied agent를 위한 task planning 문제를 다룬다. 오픈 월드에서는 장기적이고 복잡한 reasoning이 요구되며, vanilla planner는 sub-goal 순서를 설정할 때 agent의 현재 능력을 고려하지 않아 비효율적이라는 한계를 가진다. 이를 해결하기 위해 "Describe, Explain, Plan and Select (DEPS)"라는 LLM 기반 interactive planning 기법을 제안한다. DEPS는 plan execution 과정 기록과 failure 발생 시 self-explanation을 통해 초기 플랜을 보정하며, goal selector를 통해 병렬 sub-goals를 수행 난이도 기준으로 재정렬한다. 실험 결과, Minecraft 환경에서 70개 이상의 태스크를 robust하게 수행하고 기존 대비 성능을 2배 이상 향상시킨다. ALFWorld와 tabletop manipulation 환경에서도 범용성을 확인한다. 또한 Ablation study를 통해 각 구성 요소의 기여도를 분석하고 Obtain Diamond grand challenge에서도 성능 향상을 달성한다.
Introduction
복잡한 환경에서 다양한 태스크를 수행할 수 있는 multi-task agent의 개발은 범용 인공지능의 중요한 이정표로 간주된다. 이를 위해 기존 연구에서는 planner가 계획을 생성하고, low-level goal-conditioned controller가 이를 수행하는 hierarchical goal execution architecture를 사용해 왔다. 이 방식은 table-top manipulation, 2D 그리기, 테이블 재배치 등 여러 로보틱스 도메인에서 유의미한 성과를 보여왔다. 하지만 이런 방식이 open world처럼 탐색 범위가 무한하고 인터넷 수준의 지식을 요구하는 환경에서도 작동할 수 있는지는 아직 미지수다.
실험을 통해 동일한 아키텍쳐를 다양한 도메인에 적용하여 open-world에서의 어려움을 정량적으로 보였다. 특히 Minecraft에서의 낮은 성공률은 open-world 특유의 복잡성에 기인한다는 점을 부각한다.
마인크래프트에서는 크게 아래의 두가지 어려움이 존재한다.
Challenge #1
Minecraft와 같은 환경은 객체 종류가 매우 다양하고, 이들 간의 관계가 복잡하다. 예를 들어 다이아몬드를 얻기 위해서는 최소 13단계의 sub-goal을 올바른 순서로 실행해야 한다. 반면 Tabletop 환경은 일반적으로 2~3단계면 충분하다.
Challenge #2
같은 목표라도 상황에 따라 적절한 sub-goal sequence가 다르다. 예를 들어 침대를 만들기 위해 양이나 마을을 찾는 것이 최적 경로지만, 시간 내에 접근할 수 없다면 거미를 잡아 string을 얻어 침대를 만드는 경로를 택해야 한다. 즉, 상태에 따라 달라지는 가장 효율적인 경로 선택이 필수적이다.
DEPS는 LLM을 기반으로 하는 interactive planning 기법이다. sub-goal 실행 실패 시, descriptor가 현재 상황을 요약하여 planner에 다시 전달하고, explainer는 이전 계획의 오류를 분석한다. planner는 이 정보를 반영해 플랜을 수정한다. 또, goal selector를 통해 현재 상태에서 도달 가능성이 높은 sub-goal을 선택함으로써 전체 플랜의 실행 가능성을 향상시킨다.
Minecraft에서 71개의 태스크를 데모 없이 수행하며, 각 태스크는 3000~12000 스텝 이내에 완료된다. 동일한 controller를 사용할 때 기존 planner 대비 DEPS는 성공률을 약 2배 향상시킨다. 또한 ALFWorld와 Tabletop manipulation 환경에서도 기존 방법 대비 최대 50% 이상의 성능 향상이 확인된다.

Architecture
전반적인 구조
Descriptor: sub-goal 실패 시 상태를 텍스트로 요약
LLM (Planner & Explainer): 초기 플랜 생성 + 실패 원인 설명 + 재계획
Selector: 여러 병렬 sub-goal 중 가장 효율적인 목표를 선택
Goal-conditioned Controller: sub-goal을 실행하는 정책

DEPS는 단순히 LLM이 처음에 생성한 계획을 그대로 따르는 것이 아니라 실행 도중 발생한 실패에 대해 피드백을 받아 재계획하고 가장 효율적인 goal을 선택하는 상호작용적 루프를 형성한다.
1. Goal (T) 입력 → 초기 plan P₀ 생성 (LLM)
2. Controller가 sub-goal g₀ 실행 → 실패 시 descriptor가 현재 상태 st 요약 → dt
3. LLM이 dt로부터 실패 원인 설명 → et
4. pt = pt₋₁ + dt + et → 새로운 plan Pt 생성
5. Selector가 Pt에서 실행할 goal gt 선택
6. π로 gt 실행 → 반복
Horizon-Predictive Selector Yields Efficient Plans
문제 정의
- 하나의 목표를 달성할 수 있는 경로가 여러 개 존재 (e.g., 여러 종류의 나무에서 log 획득 가능)
- 하지만 현재 agent의 위치 및 환경 상태에 따라 일부 경로는 비효율적
Selector의 역할
- 병렬 sub-goal 집합 Gt에서 현재 상태 st 기준으로 도달까지 남은 step 수(horizon) 를 예측
- 가장 짧은 horizon을 가진 goal을 선택해 gt로 설정
- VLM 기반 semantic similarity는 물리적 거리나 지형 요소 반영 불가 → horizon 기반 방식이 더 적합
Horizon 예측 방식
- µ(g, st) = 현재 상태에서 goal g까지 남은 step 수를 예측하는 뉴럴 네트워크
- 이 값을 기반으로 softmax 분포로 goal 선택

- µ는 offline trajectory로 학습하고, Impala CNN 백본을 사용
- Controller policy와 parameter 공유 가능
예를 들어 Plains biome에 있을 때 oak tree가 근처에 있고 acacia tree는 savanna에 있을때 selector는 oak tree를 선택하여 효율적 계획 수립하는 것이다.

Experiments

Minecraft Task101은 총 71개의 세부 태스크로 구성되어 있으며, 이를 8개의 메타 그룹(meta groups)으로 나누어 평가를 진행한다. 각 메타 그룹은 제안하는 DEPS 방법의 서로 다른 측면을 집중적으로 테스트하도록 설계되었다. 메타 태스크들은 서로 다른 난이도, 작업 길이(long-horizon 여부), 객체 조합(compositionality) 등을 평가한다.

DEPS와 기존 LLM 기반 플래너들의 성공률(success rate)을 Minecraft Task101에서 비교한다.

다양한 Minecraft 설정(지형, 객체 분포, 난이도 변화) 하에서 DEPS의 성공률을 측정한다. 환경 변화에도 불구하고 DEPS는 높은 성공률을 유지하여 환경 적응성(environmental robustness) 을 검증한다.

서로 다른 selector 버전(예: horizon-predictive, random 선택 등)과 병렬 sub-goal 수, 최대 episode 길이(max steps)를 조정하며 성공률 변화를 분석한다. 병렬 sub-goal이 많아질수록 단순 selector는 성능이 급격히 떨어지지만, horizon-predictive selector를 사용하는 경우 높은 성공률을 유지한다.

재계획 없이 실행하는 vanilla planner (Round 0)와, 재계획을 1, 2, ..., ∞ 번까지 허용했을 때의 성공률을 비교한다. ∞는 task가 성공하거나 LLM 최대 토큰 수에 도달할 때까지 재계획을 반복하는 경우를 의미한다 (Codex 기준 최대 약 7~8회 가능).