머신러닝 알고리즘
지도 학습
비지도 학습: 타겟이 없음
classification
분류 레이블은 이산적임
y가 범주형
regression
y가 연속형
데이터 전처리 –> 모델학습 –> 모델평가 –> 신규데이터 예측
데이터전처리
1.
결측값, 이상치 확인
2.
변수선택, 차원 축소 (PCA, 주성분 분석)
3.
Sampling –> 부트스트랩
4.
Training Set, Test Set 나누기
-보통 6:4 비율
모델 학습, 모델 평가
1.
Model Selection
-의사결정트리
-SVM
-Logistic Regression
–> 여러가지 사용해보고 가장 우수한 모델 사용
2.
Cross Validation (교차 검증)
-training, test set을 여러번 만들어서 그 모형들의 평균값을 도출해낸다.
SVM
SVM은 Decision Boundary (hyperplane)를 사용함.
2차원 좌표에서 hyperplane은 1차원 선
3차원에서는 hyperplane은 2차원 면
n-1 차원의 subspace를 갖는다.
결정경계는 다양하게 존재할 수 있지만 최적의 결정경계 찾는 게 중요하다.
decision boundary 기준으로 가장 가까운 점들을 suppor vector라 한다.
minus plane과 plus plane의 차이를 margin이라 한다.
SVM은 margin을 최대화하는 decision boundary를 찾음으로써 Data를 분류하는 알고리즘
margin이 작은 decision boundary를 사용하면 분류 오차가 커지게 된다.
서포트벡터 제외한 점들은 모델에 영향을 주지 않음
Kernal SVM
선형 외에도 다른 모습의 결정경계를 그릴 수 있음.
3차원 상에 투영시킴.
soft margin SVM