본문 바로가기
728x90

Drawing (AI)/Paper review24

[논문 리뷰] ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning AbstractICRA 2024 ConceptGraphs는 Open-Vocabulary 3D Scene Graph를 생성하는 시스템으로 다음 세 가지 주요 단계를 통해 구현되었다.1. 객체 기반 매핑 시스템 설계: Class-agnostic Instance Mask를 사용해 객체를 식별하고, 이를 3D 공간으로 결합한다.2. 언어 태그 해석 및 추출: 대규모 Vision-Language models을 활용해 각 객체에 대해 언어 태그를 할당한다.3. 객체 간 공간적 관계 그래프 생성: 대규모 언어 모델의 사전 지식을 활용해 객체 간 관계를 그래프 구조로 표현한다.IntroductionScene Representation은 로봇이 Mobility와 Manipulation 같은 다양한 작업을 계획하는 데 필.. 2025. 1. 9.
[논문 리뷰] Word2Vec original paper: Efficient Estimation of Word Representations in Vector Space IntroLLM을 활용한 robotics 분야에 대해서 연구를 진행하기 위해 NLP 기본 개념을 공부하는 중이니 빼놓을 수 없는 Word2Vec과 같은 초창기 기초 논문부터 공부를 하려한다.이 논문은 대규모 데이터에서 단어를 연속적인 벡터로 표현할 수 있는 두 가지 새로운 모델 구조를 제안한다. 해당 두 모델들은 논문이 나온 시점에서 단어 유사성 측정 작업에서 기존 신경망 기반 기법들보다 정확도가 높고 계산 비용이 적다. 예를 들어 16억 개 단어로 이루어진 데이터셋에서 하루 내에 고품질 단어 벡터를 학습할 수 있으며 벡터들은 문법적, 의미적 유사성을 측정하는 테스트에서도 최첨단 성능을 보였다. 결론적으로 Word2Vec이 효율성과 성능을 동시에 갖춘 단어 표현 기법임을 입증하였다.Previous wor.. 2024. 10. 31.
[논문 리뷰] A survey on integration of large language models with intelligent robots(Robotics LLM) IntroLLM을 통해 로봇이 사람과 비슷한 수준으로 소통하고, 이해하며, 추론할 수 있게 되면서 로봇 공학의 핵심 구성 요소인 통신, 인식, 계획 및 제어 분야에서 LLM이 활용되는 방식과 잠재적 기회를 분석한다. 이 논문은 GPT-3.5 이후 개발된 LLM을 중심으로, 주로 텍스트 기반 모델을 다루며 인식 및 제어를 위한 멀티모달 접근 방식도 포함하여 연구한다. 프롬프트 엔지니어링에 대한 가이드와 사례를 제공하여 연구자들이 초보자 수준에서도 쉽게 LLM 기반 로봇 솔루션을 접할 수 있도록 돕고 있다. 또한, 튜토리얼 형식의 예시와 구조화된 프롬프트를 통해 LLM의 기능을 로봇 응용 프로그램에 자연스럽게 통합하는 방법을 설명한다. 이 서베이는 LLM 주도의 로봇 공학 연구의 최신 동향을 탐색하는 연구자.. 2024. 10. 27.
[논문 리뷰] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksNeurIPS 2020. [Paper] [Page] [Github]Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe KielaFacebook AI Research | University College London | New York University22 May 2020Introduction사전 학습된 대규모 언어 모델은 매개.. 2024. 10. 11.
[논문 리뷰] Vision Transformers for Dense Prediction (DPT) AbstractRené Ranftl, Alexey Bochkovskiy, Vladlen KoltunIntel Labs24 Mar 2021 인텔에서 발표한 depth맵을 추출하는 논문이다. 핵심 내용이 되는 DPT는 Dense Prediction Transformer의 준말이다. 이는 기존의 컨볼루션 네트워크 대신 Vision Transformer를 백본으로 사용하여 이미지와 관련된 다양한 예측 작업을 수행하는  아키텍처이다. ViT를 이용한 Dense Prediction 아키텍처는 여러 단계의 Transformer에서 토큰을 조립해 다양한 해상도로 변환하고, 컨볼루션 디코더를 통해 이를 전체 해상도의 예측으로 점진적으로 결합한다. 단일 카메라 Dense Prediction에서 최신의 Convolution.. 2024. 8. 7.
[논문 리뷰] Dream the Impossible: Outlier Imagination with Diffusion Models AbstractNeurIPS 2023 Dream-OOD라고 불리는 해당 논문은 최근 딥러닝 모델의 성능 향상에 따라 Out-of-Distribution(OOD) 데이터에서 얼마나 신뢰성 있게 작동하는지가 중요한 연구 주제로 떠오르고 있다. 해당 논문은 이러한 OOD 탐지 문제를 효과적으로 해결하기 위해 VOS와 NPOS 논문의 outlier embedding을 synthesis하는 방법에 Diffusion model을 추가하여 pixel level의 OOD data를 만들어내는 방법을 제시한다.BackgroundVOS (Virtual Outlier Synthesis)text, image를 encoding하고 latent space에 올려서 gaussian distribution에서 벗어난 embeddin.. 2024. 7. 31.
[논문 리뷰] Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models Intro생성형 모델은 정확도로 평가하여 성능을 결정하는 것을 떠나서 인간이 보기에 자연스러운 것, 즉 alignment가 굉장히 중요하다. 인간의 의도와 생성형 모델의 결과물의 방향이 일치하는지를 따져야 한다는 것이다. 해당 논문은 Text-to-Image model의 alignment를 잘 평가할 수 있는 benchmark를 제시하고 잘 align된 모델을 만들 수 있는 reward model을 제시한다.BackgroundAlignmentText-Image Model의 Alignment는 intro에서 말했듯 모델이 생성하는 이미지가 사용자의 의도와 정확하게 일치하는지를 보는 것이다. 예를 들어 사과와 사슴을 generate하라고 했을때 좌측은 비교적 잘 align된 반면 우측 image는 그렇지 않.. 2024. 7. 15.
[논문 리뷰] Adding Conditional Control to Text-to-Image Diffusion Models(ControlNet) Introduction이 논문은 흔히 ControlNet이라고 불리고 제목 그대로 추가적인 input condition을 지원하여 large diffusion model를 제어하기 위한 모델이다. ControlNet은 end-to-end 방식으로 학습하며, 학습 데이터 세트가 적은(저자는 기존 large text-to-image 모델의 prompt에 대한 의존성과 특정 task에서 활용함에 있어서 발생할 수 있는 현실적인 문제를 언급했다. 이와 관련해서 세 가지 측면에서 검토하고 제안했다.  1. task-specific domain의 경우 일반적인 text-to-image 데이터 스케일만큼 크지 않으므로 large model을 특정 문제에 대해 학습시킬 때는 과적합을 방지하고 일반화 능력을 보존할 수 .. 2024. 5. 17.
[논문 리뷰] CLIP: Learning Transferable Visual Models From Natural Language Supervision Abstract기본적으로 해당 논문은 이미지와 텍스트 학습의 새로운 접근으로 이미지+텍스트 Multi-Modal분야의 입문 논문으로 많이들 얘기한다.컴퓨터 비전 기법은 사전에 정해진 일련의 객체 카테고리를 예측하도록 훈련된다. 이러한 제한적인 감독은 시스템의 일반성과 사용성을 제한하며, 다른 시각적 개념을 명시하려면 추가적인 레이블이 필요하다. 이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 훨씬 더 넓은 감독 소스를 활용하는 좋은 대안이다. 이 연구에서는 어떤 캡션과 어떤 이미지가 일치하는지 예측하는 간단한 사전 훈련 과제가 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터셋에서 처음부터 최신 이미지 표현을 학습하는 효율적이고 확장 가능한 방법임을 보여준다. 사전 학습 후, 자연어를 사용하.. 2024. 5. 15.
728x90