본문 바로가기
728x90

전체 글423

[논문 리뷰] RAG: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksNeurIPS 2020. [Paper] [Page] [Github]Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe KielaFacebook AI Research | University College London | New York University22 May 2020Introduction사전 학습된 대규모 언어 모델은 매개.. 2024. 10. 11.
3D geometry Intro실제 세계에서는 3차원의 움직임을 표현 할 수 있어야하기에 3D로 확장하여 살펴보고자 한다.3차원은 아래와 같이 3개의 axis로 표현한다.그리고 당연히 point의 좌표는 3차원 좌표계로 표현된다.벡터는 아래와 같이 표현된다. PosePose도 2D때와 완전히 똑같고 z축만 추가로 고려해주면 된다.composition을 통해 다른 좌표를 표현할 수 있는 것도 똑같다.Rotation3차원에서 새로운 축으로 구성된 좌표계 B는 A에 새로운 축을 곱해주는 식으로 표현할 수 있다. 회전은 3개의 축이 존재하니 아래의 세가지 회전으로 모두 표현할 수 있다. 이때 주의할 점은 3차원에서 rotation 과정은 순서에 따라 결과가 달라진다는 것이다. 예를들어 x축 중심으로 90도를 회전하고 y축 중심으로 .. 2024. 10. 2.
2D Geometry 2D Geomety in Robotics로보틱스에서 2D geometry는 로봇이 2차원 평면에서 자신의 위치와 방향을 정확히 이해하고 그에 맞춰 이동하거나 작업을 수행하기 위해 필수적인 도구이다. 로봇은 이동, 회전, 물체 탐지 등 다양한 동작을 수행하는데 이 과정에서 로봇은 자신의 pose를 인식하고 주변 환경과의 상호작용을 수학적으로 판단할 수 있어야 한다. 2D geometry는 이러한 위치 및 방향 정보를 표현하고 로봇이 주변 환경에서 효율적으로 경로를 계획하고 충돌을 피할 수 있도록 돕는다. 또한 상대적인 위치나 회전을 계산하여 자율적인 행동을 가능하게 함으로써 로봇이 주어진 task를 신속하고 정확하게 수행할 수 있게 해준다.Position and Pose in 2DPosition과 Pose.. 2024. 9. 30.
Building Distance Estimation Depth estimation건물과 같이 거리가 멀고 거대한 물체까지의 거리를 estimation하는 모델은 없기에 기존에 있는 Depth estimation기법에 조금 손을 봐서 결과를 내보고자 했다.우선 내가 사용한 Depth estimation모델은 intel에서 2021년쯤 발표한 Vision Transformers for Dense Prediction(DPT) 논문이 제시한 모델이다.도로 주행중 촬영된 이미지를 대신하기 위해 구글맵에서 제공하는 streetview를 이용했다.https://github.com/isl-org/DPT GitHub - isl-org/DPT: Dense Prediction TransformersDense Prediction Transformers. Contribute t.. 2024. 8. 14.
[논문 리뷰] Vision Transformers for Dense Prediction (DPT) AbstractRené Ranftl, Alexey Bochkovskiy, Vladlen KoltunIntel Labs24 Mar 2021 인텔에서 발표한 depth맵을 추출하는 논문이다. 핵심 내용이 되는 DPT는 Dense Prediction Transformer의 준말이다. 이는 기존의 컨볼루션 네트워크 대신 Vision Transformer를 백본으로 사용하여 이미지와 관련된 다양한 예측 작업을 수행하는  아키텍처이다. ViT를 이용한 Dense Prediction 아키텍처는 여러 단계의 Transformer에서 토큰을 조립해 다양한 해상도로 변환하고, 컨볼루션 디코더를 통해 이를 전체 해상도의 예측으로 점진적으로 결합한다. 단일 카메라 Dense Prediction에서 최신의 Convolution.. 2024. 8. 7.
프로그래머스 - 덧칠하기 문제어느 학교에 페인트가 칠해진 길이가 n미터인 벽이 있습니다. 벽에 동아리 · 학회 홍보나 회사 채용 공고 포스터 등을 게시하기 위해 테이프로 붙였다가 철거할 때 떼는 일이 많고 그 과정에서 페인트가 벗겨지곤 합니다. 페인트가 벗겨진 벽이 보기 흉해져 학교는 벽에 페인트를 덧칠하기로 했습니다. 넓은 벽 전체에 페인트를 새로 칠하는 대신, 구역을 나누어 일부만 페인트를 새로 칠 함으로써 예산을 아끼려 합니다. 이를 위해 벽을 1미터 길이의 구역 n개로 나누고, 각 구역에 왼쪽부터 순서대로 1번부터 n번까지 번호를 붙였습니다. 그리고 페인트를 다시 칠해야 할 구역들을 정했습니다. 벽에 페인트를 칠하는 롤러의 길이는 m미터이고, 롤러로 벽에 페인트를 한 번 칠하는 규칙은 다음과 같습니다.  -롤러가 벽에서 .. 2024. 8. 2.
프로그래머스 - 광물 캐기 문제마인은 곡괭이로 광산에서 광석을 캐려고 합니다. 마인은 다이아몬드 곡괭이, 철 곡괭이, 돌 곡괭이를 각각 0개에서 5개까지 가지고 있으며, 곡괭이로 광물을 캘 때는 피로도가 소모됩니다. 각 곡괭이로 광물을 캘 때의 피로도는 아래 표와 같습니다.예를 들어, 철 곡괭이는 다이아몬드를 캘 때 피로도 5가 소모되며, 철과 돌을 캘때는 피로도가 1씩 소모됩니다. 각 곡괭이는 종류에 상관없이 광물 5개를 캔 후에는 더 이상 사용할 수 없습니다. 마인은 다음과 같은 규칙을 지키면서 최소한의 피로도로 광물을 캐려고 합니다.  - 사용할 수 있는 곡괭이중 아무거나 하나를 선택해 광물을 캡니다.- 한 번 사용하기 시작한 곡괭이는 사용할 수 없을 때까지 사용합니다.- 광물은 주어진 순서대로만 캘 수 있습니다.- 광산에 .. 2024. 8. 2.
Exponential distribution / Poisson distribution Exponential distribution지수분포는 연속 확률 분포의 일종이다. 사건이 서로 독립적일때 다음 사건이 일어날 때까지의 대기 시간이 지수분포를 따른다.PDF는 아래와 같이 정의된다. CDF는 아래와 같이 정의 된다. 확률 변수 X가 빈도  λ를 모수로 갖는 지수분포를 따른다면, 기댓값은 아래와 같이 된다.이는 단위 시간당 사건이 λ회 발생한다면 사건 발생까지 평균적으로 1/λ 시간만큼 기다린다는 것이다. 분산은 아래와 같이 계산되는 것을 알 수 있다.Poisson Distribution포아송 분포는 단위 시간당 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다. 단위 시간당 사건이 발생하는 횟수의 평균이 λ라고 했을 때 그 사건이 k회 일어날 확률은 아래와 같다.해당 식을 이용하여.. 2024. 7. 31.
[논문 리뷰] Dream the Impossible: Outlier Imagination with Diffusion Models AbstractNeurIPS 2023 Dream-OOD라고 불리는 해당 논문은 최근 딥러닝 모델의 성능 향상에 따라 Out-of-Distribution(OOD) 데이터에서 얼마나 신뢰성 있게 작동하는지가 중요한 연구 주제로 떠오르고 있다. 해당 논문은 이러한 OOD 탐지 문제를 효과적으로 해결하기 위해 VOS와 NPOS 논문의 outlier embedding을 synthesis하는 방법에 Diffusion model을 추가하여 pixel level의 OOD data를 만들어내는 방법을 제시한다.BackgroundVOS (Virtual Outlier Synthesis)text, image를 encoding하고 latent space에 올려서 gaussian distribution에서 벗어난 embeddin.. 2024. 7. 31.
마할라노비스 거리 Mahalanobis Distance마할라노비스 거리는 통계와 Machine Learning에서 중요한 측정 방법으로, 서로 다른 데이터 포인트 간의 관계를 이해하는 데 필수적입니다. 이 거리 측정법은 인도의 통계학자 프라산타 찬드라 마할라노비스(Prasanta Chandra Mahalanobis)의 이름을 땄습니다. 마할라노비스 거리는 포인트 간의 거리가 아닌, 포인트와 분포 간의 거리를 측정하는 방법을 제공하며, 다양한 응용 분야에서 매우 유용합니다.마할라노비스 거리는 포인트와 분포 간의 거리를 측정하는 방법입니다. 유클리드 거리(Euclidean distance)가 공간 내 두 점 간의 직선 거리를 측정하는 반면, 마할라노비스 거리는 변수들 간의 상관관계를 고려합니다. 이는 각 변수의 분산과 공분산.. 2024. 7. 19.
[논문 리뷰] Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models Intro생성형 모델은 정확도로 평가하여 성능을 결정하는 것을 떠나서 인간이 보기에 자연스러운 것, 즉 alignment가 굉장히 중요하다. 인간의 의도와 생성형 모델의 결과물의 방향이 일치하는지를 따져야 한다는 것이다. 해당 논문은 Text-to-Image model의 alignment를 잘 평가할 수 있는 benchmark를 제시하고 잘 align된 모델을 만들 수 있는 reward model을 제시한다.BackgroundAlignmentText-Image Model의 Alignment는 intro에서 말했듯 모델이 생성하는 이미지가 사용자의 의도와 정확하게 일치하는지를 보는 것이다. 예를 들어 사과와 사슴을 generate하라고 했을때 좌측은 비교적 잘 align된 반면 우측 image는 그렇지 않.. 2024. 7. 15.
Building Detection - test result (7/3) 목표차량 입장에서 건물을 포착하여 어떤 건물인지 인식해내고 gps 정보와 함께 현재 위치를 찾아내기.INPUTFlorence-2 outputSAM outputResult원하는 결과가 나오지 않는다 각 빌딩을 확실하게 bounding box처리할 수 있도록 다양한 시도를 해봐야겠다. 2024. 7. 4.
728x90