[2019/06/20] Word Embedding
블로그 바로가기 Word Embedding과 관련하여 한글로 정리된 글 중 가장 퀄리티가 높다 생각된다.
블로그 바로가기 Word Embedding과 관련하여 한글로 정리된 글 중 가장 퀄리티가 높다 생각된다.
딥 러닝 Q 러닝 시험 준비를 위해 머신러닝 및 딥러닝에 관한 내용을 찾던 중 발견했다. 내용이 잘 정리되어 있어 위에 첨부한다.
데이터 마이닝 분석 방법 -그 중 하나가 군집 분석 -같은 그룹 내의 객체들은 유사한 객체들로, 서로 다른 그룹의 객체와는 다른 특성을 가지도록 객체들의 그룹을 찾는 방법 -비지도적 학습적 분류기법 대부분의 방법은 지도적 학습 –>투표 결과를 바탕으로 나누는 것. 답을 알고있는 […]
iris의 경우 CNN을 사용하면 오히려 더 떨어짐 CNN의 경우 영상 처리에 많이 쓰인다 일반적인 마케팅이나 금융 데이터 분류 및 예측에는 맞지 않는다. 컨볼루션 신경망 1. 이미지에 적용되는 필터는 랜덤하게 선택된다. 이미지 하나가 네 개의 퍼셉트론으로 변환된다. 필터(W)를 거치고 활성화 함수 […]
다중공선성의 문제 (multicollinearity) -독립변수들 간 강한 상관관계가 나타나는 상태 -다중공선성을 확인하는 방법: 분산팽창계수 VIF = (1-R^2)^-1 -VIF는 점점 커질수록 안 좋다. -다중공선성의 해결방안: 주성분회귀분석, 릿지 회귀분석 -주성분회귀분석: 독립변수들 사이에서 새로운 변수를 만들어서 얘네들을 바탕으로 회귀분석을 하기. 이 새로운 변수들은 서로 […]
값이 어떤 분포를 가지냐에 따라 다른 활성화함수를 사용해야 한다. 첫번째 은닉계층의 W, b 여기서 360은 두번째 은닉계층에 입력되어야 할 값을 360개의 클래스로 하자는 의미. 다음 은닉계층의 뉴런의 수를 360개로 한 것. 출력 10개의 클래스 은닉층에서는 W, b에 0 대신 다른 […]
관측치 (observation) 독립변수 종속변수 데이터의 종류 이산형 (범주형) 자료 -명목형 자료 -순위형 자료: 순서가 있다 연속형 자료 -구간형 자료 -비율형 자료 독립 변수 범주형 연속형 종속 변수 범주형 분할표 분석 로지스틱 연속형 분산 분석 선형회귀 회귀분석 단순회귀분석 -한개의 독립변수, 종속변수 […]
머신러닝 알고리즘 지도 학습 비지도 학습: 타겟이 없음 classification 분류 레이블은 이산적임 y가 범주형 regression y가 연속형 데이터 전처리 –> 모델학습 –> 모델평가 –> 신규데이터 예측 데이터전처리 1. 결측값, 이상치 확인 2. 변수선택, 차원 축소 (PCA, 주성분 분석) 3. Sampling […]
Input Hidden Output 활성화함수(ReLu) 활성화함수(Softmax) softmax의 경우 Output 값들을 다 더할 경우 1이 된다. 이때 가장 큰 출력값만 1로 하고 나머지를 다 0으로 해보자. 이렇게 할 경우 레이블 이미지가 5일 경우 마찬가지 포맷으로 하기 위해 1차월 배열 형식으로 저장해야 하 […]
Boosting: 이전 트리의 오차를 보완하는 방식으로 순차적으로 트리를 개선시키는 방식 오차에 대해 계속 가중치를 줘서 바꿔나간다. 가장 유명한 방식이 XG부스트 일단 한번 수행하고 그 결과를 바탕으로 다시 수행하는 것이기 때문에 동시에 여러번 할 수 없다. 좀 더 느리다. 랜덤포레스트 과적합 […]