728x90 Robotics & AI/MachineLearning27 Udemy - 머신러닝의 모든 것 (Decision Tree) CART CART는 Classification Trees와 Regression Trees를 모두 포함한 개념이다. 회귀를 공부하고 있었던 만큼 이번에는 Regression Tree에 집중해서 공부해보고자 한다. 위와 같이 데이터들을 어떤 기준에 따라 나누어 가다가 정보 엔트로피라는 복잡한 수학적 개념에 따라 알고리즘이 split을 멈춰야할 때를 파악하고 정보추가를 멈춘다. 이 잎(위와 같은 데이터를 leaf라고 부름)들을 가르는 기준선의 수에 따라 알고리즘에 정보를 더 넣을 수도 있고 넣는 걸 멈출 수도 있다. 4가지 split을 통해 구성된 알고리즘이다. x1 < 20이 기준인 split1 이후에 20보다 큰 값들을 x2 < 170이 기준인 split2로 또 나누고 20보다 작은 값들은 x3 < 200.. 2023. 3. 17. Udemy - 머신러닝의 모든 것 (SVR) Support Vector Regression 기존의 최소 제곱법은 회귀선을 그리고 점과 회귀선 사이의 거리의 제곱의 합을 최소화하는 방법을 통해 적절한 회귀선을 찾았다면 SVR에서는 ε-Insensitive Tube를 이용한다. 이 튜브는 이름 그대로 튜브 내부의 점들의 오차는 무시한다. 튜브의 세로 길이가 중요하다. 이는 중심선에 수직이 아니라 x1축에 수직으로 측정한다. 모형에 일정 수준의 오차 허용 범위를 제공하는 것이다. 중요한 것은 튜브 외부의 점들이다. 해당 점들의 오차는 튜브중심이 아닌 튜브 그 자체까지의 거리를 통해 연산한다. Support Vector Regression이란 이름도 vector로 표현되는 오차점들이 튜브의 구조를 형성한다고 해서 붙혀진 이름이다. 계산 식은 다음과 같다... 2023. 3. 12. Udemy - 머신러닝의 모든 것 (Polynomial Linear Regression) 다항식 회귀 아래와 같이 polynomial linear regression은 multiple linear regression과 유사하다. 그러나 polynomial linear regression은 다양한 x1, x2, ... xn 변수들이 존재하는 multiple linear regression과는 달리 같은 x1변수에 대해 n제곱 꼴로 이루어져 있음을 알 수 있다. 아래와 같은 방식으로 데이터가 분포해 있을 경우 단순 선형 회귀 방식으로는 적절한 모델을 만들 수 없다. 데이터의 분포의 경향성이 곡선에 가깝기 때문이다. Why Linear? Polynomial Linear Regression은 polynomial함에도 linear이라는 이름이 붙어있다. 이는 굉장히 이상하게 느껴질 수 있다. 여기서 .. 2023. 3. 11. Udemy - 머신러닝의 모든 것 (Multiple Linear Regression-2) 스타트업 투자 프로그램 위와 같은 데이터 셋을 이용하여 투자해야할 스타트업을 선정하는 프로그램을 만들어본다. Data preprocessing 기본적으로 데이터 전처리 과정이 필요하다. state 항목이 수치형 데이터가 아니라 항목형 데이터이므로 encoding과정을 통해 수치형 데이터로 변환을 해준다. 이때 one-hot encoding 방식, 즉 3개의 범주이므로 3개의 항목을 만들어주어 해당하는 항목에만 1이들어가고 나머지는 전부 0으로 맞춰주는 방식을 이용하여 수치형 데이터로 만들고자 한다. Training from sklearn.linear_model import LinearRegression sklearn(사이킷런) 라이브러리에서 linear_model 모듈의 LinearRegression 클.. 2023. 2. 28. AI스터디자료-1주차 1주차 PPT 자료 딱 정해진 포함관계는 아니지만 흔히 위와 같이 분류하곤한다. 딥러닝의 가장 큰 특징은 인공신경망을 이용하여 방대한 데이터를 다룬다는 것이다. Machine은 가중치 즉,Parameter와 변수로 구성된 y=ax1+bx2+c와 같이 함수로 독립변수(Feature)와 종속변수(Label)의 관계를 표현하는 Model인 것이다. 이때 가중치(Parameter)를 결정하도록 하는 과정을 우리는 Model을 Training시킨다고 하고 해당 Model로 문제를 예측하는 과정을 추론이라고 한다. 강화학습은 ML, DL과는 조금 결이다른 내용으로 각 state에서 최선의 reward를 찾아가도록 하는 Model을 만드는 과정이라고 볼 수 있다. 가장 좋은 예시로 알파고가 있다. 한수(state)마.. 2023. 2. 11. Udemy - 머신러닝의 모든 것 (Multiple Linear Regression-1) Multiple Linear Regression 이전 강의에서 가장 단순한 형태의 회귀인 단순 선형 회귀를 배웠다면 조금은 성능과 복잡성이 높은 다중 선형 회귀에 대하여 공부를 했다. 선형 회귀를 이용하기 위한 조건 선형성 (Linearity): 회귀분석에서 선형적 관계를 갖는 것을 의미한다. 예를 들어, 종속 변수와 한 개 이상의 독립 변수 간에 선형 관계가 존재한다면, 그것은 선형성을 만족한다고 할 수 있다. 동분산성 (Homoscedasticity): 회귀분석에서 표준 편차가 일정한 것을 의미한다. 즉, 모든 관측치에 대해 오차 편차가 같다면, 그것은 동분산성을 만족한다고 할 수 있다. 다변수 정규성 (Multivariate normality): 회귀분석에서 모든 변수가 정규 분포를 따른다는 것을 .. 2023. 2. 3. Udemy - 머신러닝의 모든 것 (Simple Linear Regression) Simple Linear Regression Regression의 이론적인 부분은 이전에 몇번 다뤄봤기에 간단하게 넘어가고 python을 통해 직접 다루는 것에 초점을 맞추고자 한다. 위와 같이 1차방정식 형태로 설명된다. Simple Linear Regressin model Experience vs Salary #Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd #Importing the dataset dataset = pd.read_csv('Salary_Data.csv') #데이터 이름인 첫줄 제외 X = dataset.iloc[:, :-1].values y = dataset.ilo.. 2023. 1. 28. Udemy - 머신러닝의 모든 것 (Intro+Data Preprocessing) Machine Learning 머신 러닝은 딥러닝을 포함하는 큰 개념이다. 딥 러닝 강의를 듣는데 막히지는 부분이 있지는 않았지만 머신 러닝 강의를 듣고 오는것이 보다 수월하게 이해하는데 도움이 될 것 같고 순서를 맞춰서 듣는게 효율이 좋을 것 같아서 Machine Learning강의를 먼저 듣고자 한다. Why ML is the future 인간은 data에 둘러쌓여서 살고 있다. 2005년까지 인간이 생성한 data는 130exabyte 이다. 그리고 2010년까지 인간이 생성한 data는 1200exabyte 이고 2015년에는 7900exabyte이고 2020년에는 40900exabyte이다. 인간을 둘러싼 data는 기하급수적으로 증가함을 볼 수 있다. ML을 통해서 직접 다룰 수 없는 data.. 2023. 1. 15. TensorFlow 2.0 (Operations) 기본 연산 tensor = tf.constant([[1, 2], [3, 4]]) tensor #출력 기본 연산에 앞서서 2by2 행렬의 tensor array를 만든다. 덧셈 tensor + 2 #결과 스칼라 곱 tensor * 5 #결과 Numpy function # Getting the squares of all numbers in a TensorFlow tensor object np.square(tensor) #결과 array([[ 1, 4], [ 9, 16]], dtype=int32) # Getting the square root of all numbers in a tensorflow tensor object np.sqrt(tensor) #결과 array([[1. , 1.41421356], [1... 2023. 1. 14. 이전 1 2 3 다음 728x90