Intro
LLM을 통해 로봇이 사람과 비슷한 수준으로 소통하고, 이해하며, 추론할 수 있게 되면서 로봇 공학의 핵심 구성 요소인 통신, 인식, 계획 및 제어 분야에서 LLM이 활용되는 방식과 잠재적 기회를 분석한다. 이 논문은 GPT-3.5 이후 개발된 LLM을 중심으로, 주로 텍스트 기반 모델을 다루며 인식 및 제어를 위한 멀티모달 접근 방식도 포함하여 연구한다. 프롬프트 엔지니어링에 대한 가이드와 사례를 제공하여 연구자들이 초보자 수준에서도 쉽게 LLM 기반 로봇 솔루션을 접할 수 있도록 돕고 있다. 또한, 튜토리얼 형식의 예시와 구조화된 프롬프트를 통해 LLM의 기능을 로봇 응용 프로그램에 자연스럽게 통합하는 방법을 설명한다. 이 서베이는 LLM 주도의 로봇 공학 연구의 최신 동향을 탐색하는 연구자들을 위한 로드맵으로, 로봇 개발에 있어 언어 모델을 효과적으로 활용하기 위한 종합적 개요와 실질적인 가이드를 제공한다.
대형 언어 모델(LLM)의 발전으로 로봇 공학은 정보 검색, 환경 적응, 지속적 학습 등 여러 분야에서 혁신적인 변화가 일어났다. LLM은 인터넷 규모의 데이터셋으로 학습하여 매우 큰 파라미터 수를 가지고 있으며 추가 학습 없이도 다양한 작업에 대해 Zero-shot 또는 Few-shot 학습 기능을 제공한다. 이러한 emergent abilities(모델 크기가 커질수록 발생하는 새로운 기능)는 LLM이 상식적 지식을 바탕으로 복잡한 명령을 이해하고 반응할 수 있도록 한다. 더불어 프롬프트 엔지니어링을 통해 자유 형식의 언어 설명이나 대화를 통해 풍부한 문맥적 정보를 반영할 수 있다. in-context learning 기법은 LLM이 JSON, YAML, PDDL, 코드 등 특정 포맷으로 결과를 생성하게 해주어 로봇 제어와 같은 외부 도구와의 통합을 가능하게 한다. 그럼에도 불구하고 LLM의 사용에는 여러 도전 과제가 존재한다.
첫째, LLM이 때때로 부정확한 응답을 생성하여 로봇의 안전성을 보장하기 위해 필터링 및 수정 메커니즘이 필요하다.
둘째, emergent abilities는 예측하기 어렵고 입력의 작은 변화에도 반응이 달라질 수 있다.
셋째, 효과적인 프롬프트를 설계하는 것은 로봇의 능력을 최대한 발휘하게 하지만, 여전히 로봇 시스템 통합에 필요한 체계적인 가이드라인이 부족한 상황이다.
이 논문은 LLM의 응용을 로봇 시스템의 통신, 인식, 계획 및 제어로 분류하고 이를 통해 연구자들이 로봇 시스템에 LLM을 통합하는 방법을 이해하고 한계와 안전성을 고찰할 수 있도록 돕는다.
해당 논문은 세 가지 핵심 질문을 기반으로 설계하였다.
1. LLM은 각 로봇 분야에서 어떻게 사용되는가?
2. 연구자들은 LLM의 통합 한계를 어떻게 극복할 수 있는가?
3. 각 분야에서 최소한의 기능을 제공하기 위해 필요한 프롬프트 구조는 무엇인가?
이 질문을 해결하기 위해 GPT-3.5 이후 개발된 LLM을 중심으로 검토하며, 주로 텍스트 기반 모달리티를 고려하지만 인식 및 제어를 위한 멀티모달 접근도 다룬다. 또한, 초보자도 쉽게 접근할 수 있도록 프롬프트 엔지니어링 가이드를 제공하며 로봇 컴포넌트 기능을 강화 또는 대체할 수 있는 네 가지 주요 프롬프트 예시(대화형 그라운딩을 위한 대화형 프롬프트, 장면 그래프 생성을 위한 지시 프롬프트, 소수샷 계획을 위한 계획 프롬프트, 보상 생성용 코드 생성 프롬프트)를 소개한다.
Preliminary
로봇 공학에서 사용된 언어 모델을 LLM(대형 언어 모델) 등장 이전과 LLM 등장 이후로 구분하여 검토하고 있다. LLM 등장 이전(pre-LLM) 시대는 GPT-2 등장 이전으로 정의되며, 주로 RNN(순환 신경망)과 초기 Transformer 아키텍처를 포함한다. 이 시기 연구는 RNN 기반 모델을 활용하여 시퀀스 데이터 처리에 중점을 두었으며, 명령어를 행동 시퀀스나 형식 언어로 변환하는 방식이 주를 이루었다. 예를 들어, RNN을 통해 텍스트 명령어를 해석하여 특정 객체 식별과 같은 시각적 피처로 매핑할 수 있었으나, 장기 의존성 문제로 인해 응용 범위에 한계가 있었다.
이후 Transformer 아키텍처가 등장하며 비순차적 모델이 로봇의 새로운 작업(예: Vision-Langauge 내비게이션)을 가능하게 했다. 이러한 Transformer 기반 모델과 Self supervised learning은 BERT나 GPT-2와 같은 인터넷 규모의 사전 훈련된 모델의 개발로 이어졌다. 이 모델들은 언어에 대한 광범위한 이해를 제공하며 이를 통해 일반화 능력 향상과 특정 로봇 작업을 위한 Fine-tuning이 가능해졌다.
또한, 연구자들은 로봇의 다양한 멀티모달 상호작용을 위해 멀티모달 정보를 처리할 수 있는 언어 모델을 개발했다. 예를 들어, 사용자 및 환경과의 상호작용에서 자연어와 시각적 피처가 필요한 경우가 많아 이러한 멀티모달 모델이 요구되었다.
최근 LLM의 발전은 이해력, 문맥 인식, 일반화 능력에서 뛰어난 성과를 보여주며, GPT-3, GPT-4 등은 대규모 데이터 학습을 통해 정교한 패턴을 포착한다. 학습 비용 문제를 해결하기 위해 파라미터 효율적인 Fine-tuing 방법(예: Adapter, LoRA)이 개발되었고, 프롬프트 엔지니어링과 in-context learning(ICL) 기술이 추가 학습 없이도 효과적으로 작업을 수행하게 한다. 특히 chain-of-thought(CoT) prompting은 중간 추론 단계를 추가해 LLM의 추론 및 문제 해결 능력을 강화해 로봇 분야에서 중요한 기술로 자리 잡고 있다.
Communication
LLM을 활용한 로봇의 의사소통은 크게 언어 이해와 언어 생성 두 가지로 구분된다.
1. 언어 이해
해석: 자연어 명령을 LTL, PDDL, Python 같은 형식 언어로 변환한다. 그러나 LLM이 정확한 구문 및 의미를 놓치는 경우가 있어 어휘 간소화, 인간 피드백, 구문 검사 등의 방법이 사용된다.
그라운딩: 언어 표현을 로봇이 인식할 수 있는 대상(예: 객체, 행동)과 연결한다. LLM의 상식 지식을 이용해 물체 텍스트 라벨의 맥락을 파악하며, 멀티모달 기능을 통해 감각 인지와의 직접 연결이 가능해진다.
2. 언어 생성
과제 의존 언어 생성: 특정 기능을 위한 문장(예: 설명문, 지시문)을 생성하며, LLM의 한계를 보완하기 위해 지식 그래프나 확률 모델을 추가하여 상황의 불확실성을 평가한다.
과제 비의존 언어 생성: 사회적, 감정적 목적의 문장을 생성하며, 비언어적 단서(손짓, 표정)를 포함해 상호작용을 강화한다. 대화의 깊이를 높이기 위해 메모리 모듈을 추가하여 정보를 저장하고 맞춤형 대화를 생성한다.
Perception
LLM 기반 로봇의 perception 파트는 감각 모달리티와 인식 행동으로 나뉘다.
1. Sensing modalities
시각: 이미지와 포인트 클라우드를 분석하여 객체 라벨과 장면 설명을 추출하며, VLM 모델(예: CLIP, InstructBLIP)과 연계해 이미지 캡셔닝, VQA 등을 수행한다. 하지만 3D 정보를 수집하는 것은 메모리 제한으로 인해 큰 scene에서는 어려워서 연구자들은 3D 장면 그래프와 같은 구조를 활용한다.
청각: AudioCLIP과 Wav2CLIP 같은 오디오-언어 모델을 활용해 시각 데이터와 결합해 환경 이해도를 높인다. 예를 들어, AVLMaps는 3D 맵에 소리와 이미지 데이터를 결합해 로봇이 다양한 목적에 따라 탐색할 수 있게 한다.
촉각: CLIP 기반의 촉각-이미지 피처를 이용해 접촉 정보를 해석하며, MultiPLY는 촉각 센서 정보를 LLM의 피처 공간으로 매핑해 상호작용을 강화한다.
2. Sensing behavior
수동 인식: 로봇이 수동적으로 정보를 수집하며, 객체 인식, 자세 추정, 장면 재구성 등에 사용된다. 그러나 관측이 불가능한 영역에서는 제한이 있다.
능동 인식: 로봇이 의도적으로 센서 데이터를 수집하여 환경을 더 잘 이해하도록 합니다. 예를 들어, LLM-Planner는 냉장고를 여는 등 추가 행동을 통해 보이지 않는 물체를 찾는다.
Planning
LLM 기반의 로봇 계획은 작업 계획(Task Planning), 모션 계획(Motion Planning), 작업 및 모션 계획(TAMP) 세 가지 영역으로 나뉜다.
1. Task planning
정적 계획: 사전 정의된 명령어와 예시를 기반으로 Zero-shot/Few-shot 방법을 사용하며, 장기 계획에 한계가 있어 반복적으로 최적 행동을 선택하거나 코드 생성 기법(Code as Policies, ProgPrompt)을 활용해 관측 환경에 맞는 계획을 생성한다.
적응형 계획: 피드백에 따라 계획을 수정하며, 실패를 감지해 재계획을 시도한다. 예를 들어, LLM-Planner는 주변 상황을 반영한 새로운 계획을 생성하고, 과거 실패를 학습해 반복 오류를 방지한다.
2. Motion planning
경로 생성: 위치 시퀀스를 계산해 드론 비행 경로 등을 계획하지만, 언어 모델의 불연속 토큰 제약으로 간단한 시나리오에서만 활용된다. VoxPoser는 VLM을 활용해 잠재 공간을 생성하고, 탐색 기반 플래너로 경로를 계획한다.
3. Task and Motion planning
고수준-저수준 통합: LLM의 논리적, 물리적 추론을 활용해 고수준 목표를 생성한 후 세부 경로를 계획한다. 단순한 작업에 주로 적용되며, 추가 프롬프트로 운동학이나 물리적 타당성을 고려해 보다 복잡한 작업에도 적용하도록 확장한다. Text2Motion은 물리적 타당성을 갖춘 고수준 행동을 생성해 저수준 동작과 결합하여 사용한다.
Control
LLM 기반 로봇 제어는 직접적 접근과 간접적 접근으로 나뉜다.
1. Direct approach
언어 명령을 통한 제어 신호 생성: LLM을 통해 운동 원시 동작이나 제어 신호를 생성하며, Gato, RT-1 등은 작업별 전문가 시연으로 훈련된다. 하지만 연속적인 동작을 생성하기 어려워 보조 접근으로, 주어진 환경과 제어 작업에 맞춘 제한된 액션 공간에서 LLM을 활용하는 방식을 택한다. 예를 들어, SayTap은 보행 시 발과 지면 간 접촉 패턴만 생성하여 연속적인 자세 설정을 간접적으로 수행한다.
2. Indirect approach
서브 목표 또는 보상 함수 생성: 자연어 설명을 통해 서브 목표나 보상 함수를 생성한다. 예를 들어, ELLM은 목표 설명을 텍스트 임베딩 공간에 매핑하여 현재 관측과 비교해 보상을 산출한다. 보상 함수 생성 시 자연어 설명이 필요해 해석 단계가 추가로 필요하며, 최근 연구들은 인적 피드백을 통해 보상을 정밀하게 조정한다. Song et al.은 훈련 과정의 수렴도에 따라 보상 함수를 재설계하는 방법을 제안한다.
Prompt guideline
로봇 작업에 대한 프롬프트 설계 지침은 명확성, 예제 포함, 출력 형식 지정, 액션 제한 등을 포함하여 원하는 결과물을 생성하게 한다.
1. 대화형 프롬프트 (Interactive Grounding)
목적: 명령어의 모호성을 해결하기 위한 대화형 프롬프트로 ‘무언가 먹을 것을 가져다 줘’와 같은 명령에서 논리적 추론을 통해 대상을 특정한다.
구성 요소: 작업 설명(LLM의 역할과 응답 형식), 절차(추론 과정 단계), 맥락 정보(객체 명칭 리스트 또는 장면 그래프).
2. 지시형 프롬프트 (Scene-Graph Generation)
목적: 2D 이미지를 기반으로 장면 그래프를 생성, 객체를 노드로 하고 관계를 엣지로 표현한다.
구성 요소: 노드 생성과 엣지 생성 단계로 나뉘며, 작업 설명, 예제, 맥락 정보를 포함하여 노드 및 관계를 인식하도록 한다.
3. 계획 프롬프트 (Few-Shot Planning)
목적: 몇 가지 예시를 통해 제한된 범위 내에서 계획을 생성하는 데 도움한다.
구성 요소: 작업 설명, 예제(작업과 관련된 입력-출력 쌍), 맥락 정보, 추가 상호작용(계획 수행 후 새로운 계획을 생성할 수 있게 함).
4. 코드 생성 프롬프트 (Reward Design)
목적: MuJoCo Reacher 과제의 보상 함수를 생성, 목표 위치로 로봇 팔을 이동시키기 위한 코드를 작성한다.
구성 요소: 작업 설명, 사용 가능한 API, 목표 및 제한 조건, 생성 규칙. 이러한 요소를 통해 불필요한 변수 없이 명확하고 실행 가능한 코드가 생성되도록 유도한다.
Conclusion
이 survey paper는 LLM을 활용한 로봇 연구를 의사소통, 인식, 계획, 제어의 주요 구성 요소로 나눠 살펴보며 LLM의 도입이 각 분야에서 어떻게 기존 문제를 해결하고 있는지에 대해 종합적인 이해를 제공한다. 각 구성 요소별로 LLM의 활용을 극대화하는 방법과 응답 정확성을 높이기 위한 개선된 방법론을 분석했으며, 프롬프트 설계 가이드라인과 예시를 통해 실질적인 도움을 준다. 이 논문의 핵심 기여는 LLM의 로봇 공학 분야에서의 혁신적 영향을 강조하며, 미래 연구를 위한 방향성을 제시하는 데 있다.