본문 바로가기
728x90

Robotics & AI/Paper review29

[논문 리뷰] A Causal Approach to Tool Affordance Learning AbstractA Causal Approach to Tool Affordance LearningJake Brawer et al.IROS 2020기존의 머신러닝 기반 로봇 시스템은 다양한 환경에서 문제를 해결하는 데 있어서 인과적 지식(cause-and-effect knowledge)의 부재라는 중요한 한계에 직면해 왔다. 즉, 기존 방법들은 패턴 인식이나 통계적 연관성에 의존하기 때문에 "왜"와 "어떻게"에 대한 깊은 이해 없이 동작하는 경우가 많았다. 이는 로봇이 새로운 환경이나 도구에 직면했을 때 유연하고 적응력 있게 행동하기 어렵게 만드는 주요 원인이 된다.본 연구는 이러한 문제를 근본적으로 해결하고자 explicit causal model을 로봇이 스스로 학습할 수 있는 새로운 접근법을 제안한다... 2025. 5. 8.
[논문 리뷰] PLATO: Planning with LLMs and Affordances for Tool Manipulation AbstractPLATO: Planning with LLMs and Affordances for Tool ManipulationArvind et al.arxiv 2024PLATO는 기존 LLM 기반 로봇 시스템의 한계인 환경 사전 지식 필요성 long-horizon task 불가 문제를 해결하기 위해 역할 기반 modular LLM agents로 구성된 아키텍처를 제안한다. Zero-shot 환경 적응성과 affordance reasoning을 통해 도구 조작을 포함한 복잡한 task를 고수준 계획부터 저수준 실행 및 검증까지 통합 처리할 수 있으며 실제 동적 환경에서의 실험을 통해 강인함을 입증하였다. 이는 LLM과 로보틱스 통합의 새로운 design paradigm으로 평가될 수 있다.Introduc.. 2025. 5. 5.
[논문 리뷰] Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents AbstractDescribe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task AgentsWang, Zihao, et al.NeurIPS 2023이 논문은 오픈 월드 환경에서 multi-task embodied agent를 위한 task planning 문제를 다룬다. 오픈 월드에서는 장기적이고 복잡한 reasoning이 요구되며, vanilla planner는 sub-goal 순서를 설정할 때 agent의 현재 능력을 고려하지 않아 비효율적이라는 한계를 가진다. 이를 해결하기 위해 "Describe, Explain, Plan and Select (DEPS)"라는 L.. 2025. 4. 30.
[논문 리뷰] Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards AbstractLukas Brunke et al. RAL 2025인간 중심 환경에서 안전한 상호작용을 보장하기 위해서는 로봇이 사람이 상식으로 여기는 제약(예: 전자 기기 위로 물이 담긴 컵을 움직이지 않기)을 이해하고 준수해야 한다. 본 연구에서는 로봇 입력에 대해 의미적으로 정의된 제약(공간적 관계, 동작 방식, 자세)과 기하학적으로 정의된 제약(환경 충돌, 로봇 자체 충돌)을 함께 certificate하는 semantic safety filter를 제안한다. 시맨틱 맵을 구성하고 대형 언어 모델을 활용해 의미적으로 안전하지 않은 조건을 추론하며 이를 control barrier certification 기법을 통해 안전한 동작으로 연결한다. 이를 통해 단순한 충돌 회피를 넘어, 사람이 직관적으로 위.. 2025. 3. 4.
[논문 리뷰] VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models AbstractVoxPoser는 LMM과 VLM을 결합하여 복잡한 3D 환경에서 로봇이 다양한 조작 작업을 수행할 수 있도록 하는 새로운 계획 및 제어 프레임워크를 제시한다. 기존의 사전 정의된 움직임에 의존하지 않고 Free form 자연어 지시를 받아 즉각적이고 유연한 로봇 궤적을 합성할 수 있도록 하는 점이 핵심이다. 이를 통해 로봇이 동적이고 복잡한 환경에서도 효과적으로 작동할 수 있는 가능성을 보여준다.Intro언어는 인간이 세계에 대한 지식과 경험을 압축하여 전달하는 매개체다. LLM은 이러한 추상적 표현을 캡처하며 세계를 언어 공간으로 투영하여 일반화된 지식을 내재화한다. 그러나 모델이 내재한 지식을 실제 물리적 행동으로 전환하는 방법은 여전히 미해결 문제로 남아있다. 본 연구는 추상적인 언.. 2025. 2. 10.
[논문 리뷰] ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning AbstractICRA 2024 ConceptGraphs는 Open-Vocabulary 3D Scene Graph를 생성하는 시스템으로 다음 세 가지 주요 단계를 통해 구현되었다.1. 객체 기반 매핑 시스템 설계: Class-agnostic Instance Mask를 사용해 객체를 식별하고, 이를 3D 공간으로 결합한다.2. 언어 태그 해석 및 추출: 대규모 Vision-Language models을 활용해 각 객체에 대해 언어 태그를 할당한다.3. 객체 간 공간적 관계 그래프 생성: 대규모 언어 모델의 사전 지식을 활용해 객체 간 관계를 그래프 구조로 표현한다.IntroductionScene Representation은 로봇이 Mobility와 Manipulation 같은 다양한 작업을 계획하는 데 필.. 2025. 1. 9.
[논문 리뷰] Word2Vec original paper: Efficient Estimation of Word Representations in Vector Space IntroLLM을 활용한 robotics 분야에 대해서 연구를 진행하기 위해 NLP 기본 개념을 공부하는 중이니 빼놓을 수 없는 Word2Vec과 같은 초창기 기초 논문부터 공부를 하려한다.이 논문은 대규모 데이터에서 단어를 연속적인 벡터로 표현할 수 있는 두 가지 새로운 모델 구조를 제안한다. 해당 두 모델들은 논문이 나온 시점에서 단어 유사성 측정 작업에서 기존 신경망 기반 기법들보다 정확도가 높고 계산 비용이 적다. 예를 들어 16억 개 단어로 이루어진 데이터셋에서 하루 내에 고품질 단어 벡터를 학습할 수 있으며 벡터들은 문법적, 의미적 유사성을 측정하는 테스트에서도 최첨단 성능을 보였다. 결론적으로 Word2Vec이 효율성과 성능을 동시에 갖춘 단어 표현 기법임을 입증하였다.Previous wor.. 2024. 10. 31.
[논문 리뷰] A survey on integration of large language models with intelligent robots(Robotics LLM) IntroLLM을 통해 로봇이 사람과 비슷한 수준으로 소통하고, 이해하며, 추론할 수 있게 되면서 로봇 공학의 핵심 구성 요소인 통신, 인식, 계획 및 제어 분야에서 LLM이 활용되는 방식과 잠재적 기회를 분석한다. 이 논문은 GPT-3.5 이후 개발된 LLM을 중심으로, 주로 텍스트 기반 모델을 다루며 인식 및 제어를 위한 멀티모달 접근 방식도 포함하여 연구한다. 프롬프트 엔지니어링에 대한 가이드와 사례를 제공하여 연구자들이 초보자 수준에서도 쉽게 LLM 기반 로봇 솔루션을 접할 수 있도록 돕고 있다. 또한, 튜토리얼 형식의 예시와 구조화된 프롬프트를 통해 LLM의 기능을 로봇 응용 프로그램에 자연스럽게 통합하는 방법을 설명한다. 이 서베이는 LLM 주도의 로봇 공학 연구의 최신 동향을 탐색하는 연구자.. 2024. 10. 27.
[논문 리뷰] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksNeurIPS 2020. [Paper] [Page] [Github]Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe KielaFacebook AI Research | University College London | New York University22 May 2020Introduction사전 학습된 대규모 언어 모델은 매개.. 2024. 10. 11.
728x90