본문 바로가기
728x90

전체 글423

Udemy - 딥러닝의 모든 것(볼츠만 머신 구축하기) 영화 추천 시스템 볼츠만 머신을 이용하여 Movie Lens 데이터를 이용하여 영화를 추천하는 모델을 구축해보도록 하자. Movie Lens dataset은 주로 100K 데이터가 학습, 개발으로 쓰이고 20M데이터가 연구 벤치마크로 쓰인다고 한다. 100K데이터를 주로 다뤄보려한다. 위와 같이 유저에 따른 영화에 매긴 평점이 데이터로 존재한다. Movie Lens EDA 자료가 Kaggle에 있어 참고하보고자 한다. 처음 딥러닝 공부를 할때는 데이터 자체보다는 기술에 관심이 많았으나 다양한 과제와 대회에 참여하다보니 데이터의 특징을 파악하고 정제하고 다루는 것이 매우 중요함을 알게되어 데이터를 더 살펴보게 되는 습관이 생겼다. 참고: https://www.kaggle.com/code/salmaneunu.. 2024. 1. 8.
강화학습 - Intro Introduction 강화학습은 근본적으로 Trial and error learning을 기반으로 한다. 대표적으로 Skinner's experiment처럼 원하는 행동을 하면 보상을 주고 다른 행동을 하면 처벌을 하여 학습을 시키는 것이다. 강화학습(Reinforcement Learning)은 Machine Learning의 한 분야로, 어떤 환경에서 에이전트가 최적의 결정 또는 행동 순서를 학습하는 과정을 다룬다. 강화학습의 핵심은 에이전트가 시행착오를 통해 학습하며, 자신의 행동이 어떤 결과를 가져오는지를 이해하고, 최종적으로는 목표를 달성하거나 최대의 보상을 얻기 위해 최적의 행동 전략을 개발하는 것이다. 강화학습의 주요 구성 요소는 아래와 같다. 에이전트(Agent): 학습하는 주체로, 환경에.. 2024. 1. 7.
MOS Amplifier Common-Source Amplifier 기본적으로 MOSFET은 Gate, Drain, Source 세부분으로 구성이 되어있고 게이트에 전압을 가하면 channel이 형성되어 Drain과 Source 사이에 전류가 흐르게 되는 반도체 기술에서 가장 중요한 전자 회로중 하나이다. MOSFET으로 설계할 수 있는 CS Amp의 특징은 다음과 같은 것들이 있다. 구조: 입력 신호는 게이트에 가해지고, 출력 신호는 드레인에서 얻어지고 소스는 접지된다. 전압 증폭: 입력 신호에 비례하여 출력에서 더 큰 전압 변화가 발생한다. 위상 반전: 출력 신호는 입력 신호와 180도 위상 차이를 가진다. 위와 같이 MOS와 저항을 조합한 단순한 구조에서 시작한다. 여기서 Small Signal Analysis(소신호 분석.. 2024. 1. 7.
딥러닝 직접 구현하기 - (오차역전파법) 오차역전파법 오차역전파법(Backpropagation)은 신경망을 훈련시키기 위한 핵심적인 알고리즘 중 하나이다. 이 방법은 신경망에서 발생하는 오차를 각 뉴런의 가중치에 역으로 전파함으로써 가중치를 조정하는 과정을 포함한다. 오차역전파법은 주로 다음의 단계들로 구성된다. 전방향 전파(Forward Propagation): 입력 데이터가 신경망을 통해 앞으로 전파되며, 각 층의 뉴런은 활성화 함수를 통해 출력값을 생성한다. 이 과정은 입력층에서 시작해 출력층에서 끝난다. 손실 함수 계산: 신경망의 출력과 실제 목표값 사이의 차이를 측정하는 손실 함수(loss function)를 계산한다. 이 손실은 신경망이 얼마나 잘못된 예측을 하고 있는지를 나타내는 지표이다. 역방향 전파(Backward Propaga.. 2024. 1. 7.
Udemy - 딥러닝의 모든 것(볼츠만 머신) - (2) 대조발산 볼츠만 머신의 학습 방법 중 하나인 대조발산(Contrastive Divergence, CD)은 볼츠만 머신을 효율적으로 학습시키는 방법 중 하나이다. 볼츠만 머신은 에너지 기반 모델로, 시스템의 에너지를 최소화하는 방향으로 학습을 진행한다. 대조발산은 이러한 볼츠만 머신의 학습 과정을 단순화하고 가속화하기 위해 고안된 방법이다. 기본 원리를 보자면 대조발산은 데이터의 분포와 모델의 분포 사이의 차이를 최소화하는 방향으로 모델의 매개변수를 조정한다. 이 과정은 두 단계로 이루어진다. Positive phase: 실제 훈련 데이터를 사용하여 네트워크의 은닉 노드를 활성화시키고, 이를 기반으로 네트워크의 에너지를 계산한다. Negative phase: 네트워크가 생성한 샘플(모델 분포에 의해 생성된.. 2024. 1. 7.
Udemy - 딥러닝의 모든 것(볼츠만 머신) - (1) The Boltzmann Machines 이전까지 다룬 ANN, CNN, RNN, SOM등은 모두 방향성이 있는 모델이라는 점에서 공통점이 있다. 이때 볼츠만 머신은 아래와 같이 방향성이 없다는 점에서 궤를 달리한다. 모든 연결성이 양방향으로 전달될 수 있기에 화살표로 표시되어있지 않은 것을 볼 수 있다. 입력노드를 파란색, 은닉노드를 붉은색으로 나타내면 아래와 같다. 이때 출력층이 없다는 특징을 볼 수 있다. 인공신경망에서 결과를 내보내는 출력층이 없다는 것은 굉장히 특징적인 내용이다. 또한 모든 노드가 전부 연결되어있어 특정한 층이라는 것이 존재하지 않는다. 마지막으로 모든 연결이 양방향성을 갖는다. 위의 세가지 특징이 볼츠만 머신을 특별하게 만드는 요소이다. 볼츠만 머신은 입력을 통해 결과를 예측한.. 2024. 1. 5.
Udemy - 딥러닝의 모든 것(SOM)-(2) 간단한 예시 SOM의 개념에 대해서 공부한 글에서 살펴봤듯 자기 조직화 지도(SOM) 방식은 각 포인트들이 범위를 설정하여 주변 노드들을 끌어당겨 각각에 맞는 노드들을 갖게 되어 특정한 topology를 그려내는 것이다. weight를 어떻게 잡느냐에 따라 위와 같이 색별로 모여서 map을 완성하는 것을 볼 수 있다. Advanced SOM 아래 사진은 미국 국회의원들의 각 이슈에 대한 투표 결과를 통해 자기 조직화 지도를 그린 모습이다. 실제 정당별 의원은 세번째 사진에 나타나있다. 첫번째 'Clusters' 사진은 오직 두개의 부류만 있다고 했을때 어떻게 분류했는지 그 결과를 나타내는 것이다. 두번째 'Unified Distance Matrix'에서는 밝을 수록 unit끼리 가깝다는 뜻이므로 실제와 .. 2024. 1. 3.
DCC 수상 후기 수상 후기 정말 많은 내용을 공부하고 준비했지만 5분이라는 제한된 발표시간에 끝내야했기에 ppt의 내용은 너무나 부족한것이 아쉽다.. PPT 내용 일부를 공유해보고자한다. 똑같은 진흥원 원장상이니 크게 연연하지 않으려했지만 여전히 왜 우수상이었는지 의문과 아쉬움이 크다. 팀원끼리는 한두팀말고는 경쟁상대가 없다며 최소 최우수라고 생각했는데 단순히 연구성과나 디벨롭 정도만으로 결과가 나오는 것은 아니니 인정하고 이 분함을 품고 나아가려고 한다. 다음 대회에서는 기대와 일치하는 성적을 거두길바라며 아쉬움을 달래보게 되는 대회였다. 2023. 12. 11.
Big data Big data 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다. 빅데이터의 특징은 아래의 3Vs로 설명이 되었었다. - Volume: 데이터의 크기 - Velocity: 데이터의 생성/처리 속도 - Variety: 데이터의 다양성 (Structured, Semi-structured, Unstructured) 최근들어 5Vs까지 확장되.. 2023. 12. 6.
Wireless network Elements 아래와 같이 무선 네트워크가 존재할때 host는 access point 즉 AP라고 불린다. 이때 base station은 network와 직접 연결된 AP들에게 네트워크를 중계해주는 역할을 한다. 무선 네트워크는 유선 네트워크보다 불안정하기 때문에 back-bone network로 자주 쓰이진 않지만 가능은하다. 아래와 같이 거리와 data rate별로 네트워크가 존재한다. 802.11은 Wi-Fi의 네트워크이고 802.15는 WPAN의 네트워크이다. 802.11a처럼 Wi-Fi 안테나로 건물 옥상끼리 연결하여 중장거리 네트워크를 구성할 수도 있다. Infrastructure mode에서는 base station을 기준으로 한 AP가 다른 network range로 이동하고 있다. ha.. 2023. 12. 1.
ARP MAC address and ARP 32비트 IP 주소는 인터페이스의 네트워크 레이어 주소를 의미하고 네트워크 레이어 포워딩에 사용된다. 이에 반해 MAC, LAN, physical 또는 Ehthernet 주소등 다양한 이름으로 불리는 이 주소는 로컬에서 사용되며, 하나의 인터페이스로부터 물리적으로 연결된 다른 인터페이스( IP 주소 체계에서 같은 네트워크)로 프레임을 전송하는 데 사용된다. 대부분의 LAN에서 사용되는 MAC 주소는 48비트이며, NIC(Network Interface Controller)의 ROM(Read-Only Memory)에 기록되어 있으며, 때때로 소프트웨어로 설정이 가능하다. 예시로 1A-2F-BB-76-09-AD와 같은 주소가 나타내며, 이는 16진수(기수 16) 표기법을 .. 2023. 11. 29.
NoSQL NoSQL NoSQL은 Not only SQL이라고 불리는 비관계형 데이터베이스 유형이다. 전통적인 RDBMS는 관계형 데이터 모델이고 ERD를 이용하고 쿼리문을 통해 명령어를 입력한다. 그 외에도 스키마, 정규화, 데이터 무결성, 트랜잭션, ACID, Concurrency control, 2PLP, MVCC등의 다양한 특징이 있다. 그러나 전통적 DBMS에는 몇몇 문제가 존재한다. - Scalability: 오라클을 10,000대에 설치/관리할 수 있나?? - Performance: 오라클에서 초당 만건 이상의 변경을 처리할 수 있나? - Schema: 정형화된 스키마가 없으면? - Reliability는 필요 없으니 더 빠를 수는 없나? - Persistent는 필요 없으니 더 쉬울 수는 없나? - .. 2023. 11. 28.
728x90