[2018/07/17] 데이터전처리 4. 데이터 축소

데이터 축소

-데이터를 압축하는 효과
A, B, C
group by A, B, C, AB, BC, CA, ABC 이렇게 7가지 + NULL 까지 8가지로 추상화 가능

select sum(A) from tab1 (group by NULL)
널로 하면 결과값 1개 나온다.
최상위 추상화임 –> 정점 큐보이드

low level 바로 위가 ABC임. (추상화가 가장 낮다) –> 기본 큐보이드

n개 속성의 추상화 레벨 수는 2^n 개이다.

DW(Data Warehouse)
-R-OLAP (Relational)
-M-OLAP (Multi Dimensional): 데이터큐브
-OLTP에 비해 발전됨.
-주기적으로 OLTP에 생긴 데이터가 DW에 싣게 된다. 이 과정을 ETL
-추상화 레벨에 따라서 축소함.
-OLAP를 바탕으로 데이터 분석처리 가능

속성 부분집합 선택
2^n 개를 다 탐색하는 것은 비현실적
greedy함.

의사결정트리

2010년에 의사결정트리를 nps의 crm 부서 프로젝트에 활용됨.
가입 확률이 높은 사람들을 뽑아낸다.
scroing으로 결과가 나온다.
score 높은 사람 순서대로 연락을 취해서 텔레마케팅 한다.
주제: 마케팅 전략
목적: 재가입률을 높이기 위함 (해지한 사람들을 대상으로 하여)

차원 축소
1.
웨이블릿 분석
2.
주성분 분석은 확실하게 차원 축소이다.

5개의 속성을 조합해서 합성 속성을 만드는 것!
원래의 속성 수보다 적게 만든다.

수량 축소
데이터의 양을 줄이는 것.
비슷한 놈들은 같은 그룹에 넣고 나머지 값들을 구간 경계값을 넣는 등의 형식