[2018/07/23] SVM

머신러닝 알고리즘 지도 학습 비지도 학습: 타겟이 없음 classification 분류 레이블은 이산적임 y가 범주형 regression y가 연속형 데이터 전처리 –> 모델학습 –> 모델평가 –> 신규데이터 예측 데이터전처리 1. 결측값, 이상치 확인 2. 변수선택, 차원 축소 (PCA, 주성분 분석) 3. Sampling […]

[2018/07/20] 머신러닝 3. 앙상블

Boosting: 이전 트리의 오차를 보완하는 방식으로 순차적으로 트리를 개선시키는 방식 오차에 대해 계속 가중치를 줘서 바꿔나간다. 가장 유명한 방식이 XG부스트 일단 한번 수행하고 그 결과를 바탕으로 다시 수행하는 것이기 때문에 동시에 여러번 할 수 없다. 좀 더 느리다. 랜덤포레스트 과적합 […]

[2018/07/20] 연관규칙 및 빈발항목집합 분석

데이터베이스 쪽에서 나온 기술들 복잡한 수학이나 통계 이론 없이 DB 기술로! 빈발패턴을 먼저 구해야 연관규칙이 구해진다. 빈발항목집합 탐사 장바구니 분석: 여러 항목들이 동시에 또는 근접한 시점에 발생하는 데이터에 대해 적용 가능 빈발패턴 transaction: 한번에 같이 구매한 제품들 i.e. {빵, 버터} […]

[2018/07/19] 결정트리와 교차검증

100개를 분류한다고 해보자 A: 50, B: 50 특정 노드에 특정 샘플(A 30개 B 0개)만 있으면 불순도 0 불순도가 적은 방향으로 트리를 확대시켜 나가자 가장 기본적인 알고리즘이 CART와 ID3 ID3 조건을 선택하는 게 아니라 컬럼을 선택한다. 예를 들어 x2라는 특성을 범위를 […]

[2018/07/19] 머신러닝 2. 딥러닝 프레임워크, 텐서플로우, DNN 이해

다양한 종류 1. Tensorflow -스칼라나 Go는 인공지능에서 많이 쓰일 것이다. 2. Theano 3. Keras -tensorflow나 Theano는 저레벨 -인공신경망 구축 위한 절차들을 하나하나 코딩해줘야 한다. 4. Caffe 5. Torch -PyTorch라는 파이썬 기반 프레임워크로 만들어짐. -쉽게 접목 가능 6. Deeplearning4j -JVM만 설치돼있으면 […]

[2018/07/18] 머신러닝 1. 머신러닝 개요

인공지능 컴퓨터를 사람처럼 만들고자 하는 기술의 총칭 머신러닝 데이터를 주면 데이터를 기반으로 학습해서 로직을 자동으로 만들어내는 기술 다양한 알고리즘이 있음 딥러닝 인공신경망 방식으로 컴퓨터 스스로 해결하는 방법 신경망을 컴퓨터적으로 구현한 것. 나온 지 오래된 기술임. 머신러닝 중에서도 결정트리만 담당 인공지능 […]

[2018/07/16] 정규표현식

\d – 숫자 \w – 영문자 (, 숫자) 모든 문자 [a-z] 영문자 {} 연속된 패턴 \d{3} 연속된 숫자 3개 \d{1,3} 숫자가 1이나 2이나 3개 연속으로 나오는 패턴 + 한개 이상이 연속패턴 == {1,무한대} * 0개 이상의 연속 . 모든 음절 […]