본문 바로가기
728x90

Drawing (AI)/Paper review23

[논문 리뷰] Attention is all you need (2) Attention is all you need NIPS 2017 Google Decoder 이전 글에서 다뤘던 Encoder의 결과 텐서가 Decoder에서 이된다고 보면 된다. Decoder는 Encoder와 구조적으로 굉장히 유사하다. 코드로 차이를 살펴보면 아래와 같이 빨간 표시가된 부분에만 차이가 있다. self attention layer가 decoder에서는 두번 반복되고 두번째 layer는 input에서 차이가 있음을 볼 수 있다. 또한 마스크로 encoder에서는 source mask를 이용한 반면 decoder에서는 target mask를 이용한다. Masking 인코더에서는 아래와 같이 padding에 대해서 masking을 진행하기 때문 padding masking이라고도 불리지만 디.. 2023. 7. 25.
[논문 리뷰] Attention is all you need(1) Attention is all you need NIPS 2017 Google 기존에 SOTA를 달성하였던 Seq2Seq보다 뛰어난 성능으로 인공지능 학계를 뒤집은 Transformer가 데뷔한 논문이다. 현재는 vision분야에서도 ViT(Vision Transformer)라는 이름으로 이용되고 있다. 가장 최근에 얀르쿤이 공동저자로 참여하여 Meta에서 발표한 논문에서도 ViT를 이용하였다. Background Seq2Seq Sequence-to-Sequence는 아래와 같이인코더와 디코더라는 두 개의 모듈로 구성된다. 인코더는 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤에 마지막에 이 모든 단어 정보들을 압축해서 하나의 벡터로 만드는데, 이를 컨텍스트 벡터(context vector)라고 한다... 2023. 7. 19.
[논문 리뷰] AutoRec: Autoencoders Meet Collaborative Filtering AutoRec: Autoencoders Meet Collaborative Filtering Suvash Sedhain, Aditya Krishna Menon, Scott Sanner, Lexing Xie Abstract 이 논문에서는 collaborative filtering(CF)을 위한 새로운 autoencoder 프레임워크인 AutoRec를 제안한다. 실증적으로, AutoRec를 이용하여 적절하게 설계된 모델은 Movielens와 Netflix 데이터셋을 이용한 CF 기술에서 SOTA를 달성했다. Background Collaborative Filtering 협업 필터링(Collaborative Filtering)은 사용자와 아이템 간의 상호 관계(interaction)를 기반으로 사용자들에게 적절.. 2023. 7. 10.
[논문 리뷰] Long Short-Term Memory Long Short-Term Memory Article in Neural Computation · December 1997 Sepp Hochreiter 논문 원본 Introduction LSTM은 NLP와 같은 분야에서도 쓰이지만 time-series data 특히 stock price prediction과 같은 금융 분야에서도 쓰일 수 있는 굉장히 성능이 좋은 architecture라는 것을 알게되어 해당 논문을 읽어보기로 하였다. 논문을 통해 LSTM이 deep한 모델을 학습하는 다양한 방법론들에 대한 기본적인 방향성을 제시했음을 알게 되었고 그만큼 LSTM이 반드시 완벽히 이해하고 있어야하는 중요한 모델임을 느꼈다. Background Knowledge Time-Series Data란 일정 시간 동.. 2023. 3. 12.
[논문 리뷰] Deep Sparse Rectifier Neural Networks Deep Sparse Rectifier Neural Networks by Xavier Glorot et al. (2011) https://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf -요약- 이 논문은 깊은 희소 Rectifier 신경망 구조를 소개하고 검증한다. 그 결과, Sparse rectifier neural network는 기존의 깊은 신경망보다 더 높은 성능을 보여주고, 제안된 구조의 효과가 입증되었다는 것을 보여준다. 논문의 핵심은 Rectifier 활성화 함수와 희소 정규화를 결합함으로써, 기존의 Deep neural network보다 더 높은 성능과 이해하기 쉬운 구조를 제공하는 것이다. Sigmoid neuron이 hyperbolic tang.. 2023. 2. 5.
728x90