본문 바로가기
Drawing (AI)/Paper review

[논문 리뷰] Vision Transformers for Dense Prediction (DPT)

by 생각하는 이상훈 2024. 8. 7.
728x90

Abstract

René Ranftl, Alexey Bochkovskiy, Vladlen Koltun
Intel Labs
24 Mar 2021

 

인텔에서 발표한 depth맵을 추출하는 논문이다. 핵심 내용이 되는 DPT는 Dense Prediction Transformer의 준말이다. 이는 기존의 컨볼루션 네트워크 대신 Vision Transformer를 백본으로 사용하여 이미지와 관련된 다양한 예측 작업을 수행하는  아키텍처이다. ViT를 이용한 Dense Prediction 아키텍처는 여러 단계의 Transformer에서 토큰을 조립해 다양한 해상도로 변환하고, 컨볼루션 디코더를 통해 이를 전체 해상도의 예측으로 점진적으로 결합한다. 단일 카메라 Dense Prediction에서 최신의 Convolution base network와 비교했을 때 최대 28%의 성능 향상을 보여주었다.


Architecture

모델 구조의 overview를 보면 아래와 같다.

좌측부 그림부터 보면 입력 이미지는 두 가지 방식으로 토큰(주황색)으로 변환된다. DPT-Base와 DPT-Large의 경우, 비중첩 패치를 추출한 후 flattened representation을 linear projection하여 변환하며, DPT-Hybrid의 경우 ResNet-50 feature extractor를 사용한다. Image embedding에는 Positional embedding이 추가되고, 패치와 독립적인 readout token(빨간색)이 더해진다. 이후, 이러한 토큰들은 여러 트랜스포머 단계를 거친다. 우리는 다양한 단계에서 토큰을 재조립하여 여러 해상도에서 이미지와 유사한 표현(초록색)으로 변환한다. Fusion module(보라색)은 이러한 표현을 점진적으로 결합하고 업샘플링하여 세밀한 예측을 생성한다. 중앙부 그림은 재조립 작업의 개요이다. 토큰은 입력 이미지의 공간 해상도의 1/s에서 피처 맵으로 조립된다. 오른쪽 그림은 Fusion block에 대한 내용이다. Fusion block은 residual convolutional unit을 사용하여 feature를 결합하고 feature map을 업샘플링한다.


Experiment

Monocular Depth Estimation

 

 

아래는 주행중 촬영된 빌딩 이미지에 직접 적용해본 결과이다.

나름 건물간의 거리 차이를 반영하는 것을 볼 수 있다.


728x90