본문 바로가기
728x90

Drawing (AI)/Paper review24

[논문 리뷰] YOLO-World: Real-Time Open-Vocabulary Object Detection 리뷰 Intro 우선 YOLO는 You Only Look Once의 약자이다. YOLO이전의 R-CNN은 이미지 안에서 bounding box를 생성하기 위해 sliding window를 사용하여 region proposal 방식으로 사진의 부분부분을 확인한다. bounding box에 classifier를 적용하여 분류한 뒤 bounding box를 조정하고, 중복된 검출을 제거하고, 객체에 따라 box의 점수를 재산정하기 위해 후처리를 한다. 반면 YOLO는 이미지 전체를 한눈에 보고 regression으로 multi task를 한번에 처리한다. 이렇게 간단히만 알아봐도 처리속도가 훨씬 빠르고 실시간 처리에 적합할 것이 쉽게 파악된다. Background Object Detection에는 두 가지 방식이 .. 2024. 4. 4.
[논문 리뷰]Asymmetric Student-Teacher Networks for Industrial Anomaly Detection(2) Problem 이제 본격적으로 방법론과 모델의 구조에 대해서 살펴볼텐데 그에 앞서서 이러한 새로운 방법론이 나온 이유를 살펴보자. 기존의 Image anomaly detection 방법론들은 크게 아래의 세가지 문제점이 있었다. 1. Teacher-Student 대칭적 구조로 인한 Undesired Generalization 2. OOD input not OOD output 3. Perfect density models cannot guarantee anomaly detection. 하나씩 살펴보자. Teacher-Student 대칭적 구조로 인한 Undesired Generalization Teacher-Student 구조의 Anomaly Detection은 Teacher와 Student 의 outpu.. 2024. 4. 1.
[논문 리뷰]Asymmetric Student-Teacher Networks for Industrial Anomaly Detection(1) Intro 다른 Knowledge distillation 기반의 Anomaly Detection과 마찬가지로 Teacher-Student 구조로 Anomaly Detection를 수행한다. Student의 undesired Generalization 문제를 해결하기 위해 Teacher-Student 간 비대칭 구조 제안한다. OOD input에 대해 민감하게 반응할 수 있도록 Teacher 모델로 Normalizing flow를 사용한다. 2D RGB 데이터 뿐만 아니라 3D data까지 Anomaly Detection을 확장할 수 있다. Background Image Anomaly Detection은 Input 이미지 내 이상치 포함 여부를 판단하는 Task로 크게 Image-level, Pixel-l.. 2024. 3. 31.
[논문리뷰] Deep Learning for Anomaly Detection: A Review Introduction Anomaly Detection을 위한 Deep Learning 알고리즘들에 대한 survey논문으로 anomaly detection에 대해서 전반적인 내용을 한번 다루기에 적합하다고 느꼈다. DBSA 연구실 세미나 영상을 참고하여 도움을 받으며 논문을 읽었다. 매번 어려운 논문을 쉽게 설명해줘서 유튜브 영상을 보고 논문을 함께 보면 이해가 훨씬 빨라져서 감사할 따름이다. 우선 이상치 탐지이란 Data중 정상과 불량을 구분하여 불량(이상)을 감지하고 식별하는 방법론이다. 이때 대다수의 데이터와 다른 특성을 가지는 데이터를 이상치라고 말한다. Anomaly detection은 아래와 같은 다양한 분야에서 쓰인다. Background 이상치 종류는 3가지 정도의 기준에 따라 분류될 수.. 2024. 3. 28.
[논문 리뷰] DDPM (Denoising Diffusion Probabilistic Models) Intro DDPM은 고품질 샘플을 생성할 수 있는 새로운 접근 방식으로 주목받는 생성 모델의 한획을 그은 논문이다. 순수한 노이즈에서 시작하여 점차적으로 구조를 추가하면서 신호를 점진적으로 제거하는 방식으로 작동한다. 이 과정은 일련의 노이즈 수준에 대한 학습된 분포에 의해 전개되기 때문에, 이 모델들은 샘플의 품질과 다양성에 영향을 받는다. 최근 VR기기와 XR시장이 커지면서 3D generative model도 굉장히 각광받는 시장일 것이라고 생각이 되어 이미지 생성형 모델의 시초가 되는 diffusion model에 대해서 공부해보고 싶었다. Background Knowledge - VAE VAE는 컴퓨터 비전 분야에 한 획을 그은 방법론이다. 특히 이미지 생성 분야에서는 그 임팩트가 엄청났다. .. 2024. 3. 12.
[논문 리뷰] Auto-Encoding Variational Bayes(VAE) Intro 연속적인 또는 이산적인 독립변수 x를 N개 가지고 있는 Dataset X를 정의하고 이때 data는 관찰되지 않은 랜덤한 연속변수 z에 의해서 생성된다고 하자. 그렇다면 해당 process는 2단계로 이루어질 수 있다. 1. 랜덤변수 z는 사전분포 P_θ(z)에 의해서 생성된다. 2. data x는 조건분포 P_θ(x|z)에 의해 생성된다. (추가적으로 해당 함수들은 미분가능하다) 위 문제를 기존의 방법으로는 다루기가 어렵다. 첫번째로 marginal likelihood의 수식을 보면 알 수 있다. 당연히 data X가 P_θ function으로부터 나와야 하지만, 해당 수식은 정의되지 않은 분포 z를 이용하기 때문에 추정하기 매우 어렵다. (그렇기 때문에 MAP(maximum a poster.. 2024. 3. 9.
[논문 리뷰] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Abstract 이 논문은 Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng이 공동으로 진행한 연구에 관한 논문으로, 신경 방사성 필드(Neural Radiance Fields, NeRF)를 사용하여 3D 장면을 표현하고, 이를 바탕으로 높은 품질의 뷰 합성(view synthesis)을 달성하는 새로운 방법을 제시한다. 복잡한 장면의 새로운 시점을 합성하기 위해, 소수의 입력 뷰를 사용하여 연속적인 볼륨 장면 함수를 최적화함으로써 최첨단 결과를 달성하는 방법을 제시한다. 이 알고리즘은 장면을 Fully Connected(비컨볼루셔널) 깊은 네트워크를 사용하여 표현하며, 이 네.. 2024. 3. 2.
BERT(3) BERT를 Fine-tuning 이번에는 사전 학습 된 BERT에 우리가 풀고자 하는 태스크의 데이터를 추가로 학습 시켜서 테스트하는 단계인 파인 튜닝 단계에 대해서 알아보자. 실질적으로 태스크에 BERT를 사용하는 단계에 해당된다고 볼 수 있다. 하나의 텍스트에 대한 텍스트 분류 유형(Single Text Classification) BERT를 사용하는 첫번째 유형은 하나의 문서에 대한 텍스트 분류 유형이다. 이 유형은 영화 리뷰 감성 분류, 로이터 뉴스 분류 등과 같이 입력된 문서에 대해서 분류를 하는 유형으로 문서의 시작에 [CLS] 라는 토큰을 입력하다. 앞서 사전 훈련 단계에서 다음 문장 예측을 설명할 때, [CLS] 토큰은 BERT가 분류 문제를 풀기위한 특별 토큰이다. 텍스트 분류 문제를 풀.. 2023. 8. 20.
BERT(2) Intro BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 구글이 공개한 사전 훈련된 모델이다. BERT는 2018년에 공개되어 등장과 동시에 수많은 NLP task에서 최고 성능을 보여주면서 NLP분야의 한 획을 그은 모델로 평가받고 있다. BERT의 구조에 대해 이해하고, 간단하게 실습해보려한다. BERT의 T가 transformer인 만큼 트랜스포머를 이용하여 구현되었다. 위키피디아의 25억개 단어, BooksCorpus의 8억개 단어와 레이블이 없는 텍스트 데이터로 pre-train이 되어있는 언어모델이다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고 Fine-t.. 2023. 8. 13.
728x90