[2018/07/25] 다중 회귀분석 & 로지스틱 회귀분석

다중공선성의 문제 (multicollinearity)
-독립변수들 간 강한 상관관계가 나타나는 상태
-다중공선성을 확인하는 방법: 분산팽창계수 VIF = (1-R^2)^-1
-VIF는 점점 커질수록 안 좋다.
-다중공선성의 해결방안: 주성분회귀분석, 릿지 회귀분석
-주성분회귀분석: 독립변수들 사이에서 새로운 변수를 만들어서 얘네들을 바탕으로 회귀분석을 하기.
이 새로운 변수들은 서로 독립이다.

차원의 저주: 차원 = 변수의 개수
빅데이터 시대에 분석데이터는 변수의 개수가 많을 수밖에 없음
차원이 증가하면 그에 따른 데이터의 양이 기하급수적으로 증가하는데 차원의 증가에 따라 데이터의 양이 증가하지 않는다면 오버피팅의 문제를 일으킬 수 있음.

차원 축소
변수 선택법
-전진 선택법
-후진 제거법
-단계적 선택법
-회귀분석에서 사용하는 방법
특징 추출 : 개별 부분부분
-PCA
-Autoencoder
-CNN

회귀계수에 대한 검정
H0: Bj = 0, j = 1,2,3,….,n
H1: Bj != 0, j = 1,2,3,….,n –> 회귀계수가 유의하다

P-value > 0.05: H1 기각, H0 채택 –> 해당 xj 가 유의하지 않다.
< 0.05 : H0 기각, H1 채택 --> 유의하다

로지스틱 회귀분석
종속변수 y가 범주형일 때 연속형 독립변수와의 관계에 대한 분석

파이(x) = X의 값이 x일 때 Y가 성공할 확률
odds = 파이 / (1-파이)
로지스틱 회귀모형은 파이의 로짓(odds의 log)에 대해 선형식을 가정함