[2018/07/26] 머신러닝 6. CNN
iris의 경우 CNN을 사용하면 오히려 더 떨어짐 CNN의 경우 영상 처리에 많이 쓰인다 일반적인 마케팅이나 금융 데이터 분류 및 예측에는 맞지 않는다. 컨볼루션 신경망 1. 이미지에 적용되는 필터는 랜덤하게 선택된다. 이미지 하나가 네 개의 퍼셉트론으로 변환된다. 필터(W)를 거치고 활성화 함수 […]
iris의 경우 CNN을 사용하면 오히려 더 떨어짐 CNN의 경우 영상 처리에 많이 쓰인다 일반적인 마케팅이나 금융 데이터 분류 및 예측에는 맞지 않는다. 컨볼루션 신경망 1. 이미지에 적용되는 필터는 랜덤하게 선택된다. 이미지 하나가 네 개의 퍼셉트론으로 변환된다. 필터(W)를 거치고 활성화 함수 […]
다중공선성의 문제 (multicollinearity) -독립변수들 간 강한 상관관계가 나타나는 상태 -다중공선성을 확인하는 방법: 분산팽창계수 VIF = (1-R^2)^-1 -VIF는 점점 커질수록 안 좋다. -다중공선성의 해결방안: 주성분회귀분석, 릿지 회귀분석 -주성분회귀분석: 독립변수들 사이에서 새로운 변수를 만들어서 얘네들을 바탕으로 회귀분석을 하기. 이 새로운 변수들은 서로 […]
값이 어떤 분포를 가지냐에 따라 다른 활성화함수를 사용해야 한다. 첫번째 은닉계층의 W, b 여기서 360은 두번째 은닉계층에 입력되어야 할 값을 360개의 클래스로 하자는 의미. 다음 은닉계층의 뉴런의 수를 360개로 한 것. 출력 10개의 클래스 은닉층에서는 W, b에 0 대신 다른 […]
관측치 (observation) 독립변수 종속변수 데이터의 종류 이산형 (범주형) 자료 -명목형 자료 -순위형 자료: 순서가 있다 연속형 자료 -구간형 자료 -비율형 자료 독립 변수 범주형 연속형 종속 변수 범주형 분할표 분석 로지스틱 연속형 분산 분석 선형회귀 회귀분석 단순회귀분석 -한개의 독립변수, 종속변수 […]
머신러닝 알고리즘 지도 학습 비지도 학습: 타겟이 없음 classification 분류 레이블은 이산적임 y가 범주형 regression y가 연속형 데이터 전처리 –> 모델학습 –> 모델평가 –> 신규데이터 예측 데이터전처리 1. 결측값, 이상치 확인 2. 변수선택, 차원 축소 (PCA, 주성분 분석) 3. Sampling […]
Input Hidden Output 활성화함수(ReLu) 활성화함수(Softmax) softmax의 경우 Output 값들을 다 더할 경우 1이 된다. 이때 가장 큰 출력값만 1로 하고 나머지를 다 0으로 해보자. 이렇게 할 경우 레이블 이미지가 5일 경우 마찬가지 포맷으로 하기 위해 1차월 배열 형식으로 저장해야 하 […]
Boosting: 이전 트리의 오차를 보완하는 방식으로 순차적으로 트리를 개선시키는 방식 오차에 대해 계속 가중치를 줘서 바꿔나간다. 가장 유명한 방식이 XG부스트 일단 한번 수행하고 그 결과를 바탕으로 다시 수행하는 것이기 때문에 동시에 여러번 할 수 없다. 좀 더 느리다. 랜덤포레스트 과적합 […]
데이터베이스 쪽에서 나온 기술들 복잡한 수학이나 통계 이론 없이 DB 기술로! 빈발패턴을 먼저 구해야 연관규칙이 구해진다. 빈발항목집합 탐사 장바구니 분석: 여러 항목들이 동시에 또는 근접한 시점에 발생하는 데이터에 대해 적용 가능 빈발패턴 transaction: 한번에 같이 구매한 제품들 i.e. {빵, 버터} […]
100개를 분류한다고 해보자 A: 50, B: 50 특정 노드에 특정 샘플(A 30개 B 0개)만 있으면 불순도 0 불순도가 적은 방향으로 트리를 확대시켜 나가자 가장 기본적인 알고리즘이 CART와 ID3 ID3 조건을 선택하는 게 아니라 컬럼을 선택한다. 예를 들어 x2라는 특성을 범위를 […]
다양한 종류 1. Tensorflow -스칼라나 Go는 인공지능에서 많이 쓰일 것이다. 2. Theano 3. Keras -tensorflow나 Theano는 저레벨 -인공신경망 구축 위한 절차들을 하나하나 코딩해줘야 한다. 4. Caffe 5. Torch -PyTorch라는 파이썬 기반 프레임워크로 만들어짐. -쉽게 접목 가능 6. Deeplearning4j -JVM만 설치돼있으면 […]