[2018/07/11] 데이터전처리 1. 데이터전처리 개요

데이터분석에서 가장 많이 쓰는 툴 – R, 파이썬, SQL
데이터전처리가 필요한 이유:
실무에서는 input data의 모양이 예쁘게 존재하지 않는다.
input data를 만들기까지 많은 노력이 필요하다.
실무 데이터는 또한 오류가 많고 비어있는 값들이 많다.
정제된 값이 많지 않다.
Garbage in Garbage out임
원천 데이터가 확보된 상태에서 전처리 –> 분석알고리즘 적용 –> 해석 = 50:20:30 정도
실제로는 한 70 정도 됨.
분석 자체는 툴이 다 제공한다. 웬만한 알고리즘 다 함수화 시켜서 갖고있다.
분석 알고리즘: 필드에서 데이터를 정제하고 만들고 싶다. 이럴 경우 알고리즘 연구가 필요없다. 그들의 몫이 아니다.
나와있는 툴들을 잘 활용해서 결과를 내면 된다.
해석: 이거는 조금 생각해볼 필요가 있다. 함수의 결과가 나와도 일반 사람들이 보면 ‘그래서 뭔데’라는 말이 나옴.
쉽게 해석할 수 있도록 visualization 해줘야 한다. 시각화가 그래서 중요하다.
어떻게 해석해야 직관적으로 쉽게 해석할 수 있을까. (후처리)
즉, 데이터 전처리와 후처리가 90% 정도 차지한다고 생각하면 된다.
데이터 정제
데이터 통합
데이터 축소
데이터 변환
이 책의 내용만으로 모든 걸 알 수 있는가? : 아니다. 훨씬 더 광범위하다.
실무에서는 어떤 일이 일어난리 모른다 –> 자동화시키기 힘들다.
인력에 대한 수요가 항상 있다.
SI (System Integration)
DA (Data Architect)
-DB 설계
-가장 파워풀한 툴은 SQL
i.e. 웹로그 분석
맥주 & 기저귀
설문조사로 하면 예측에 빗나가는 경우가 있다.
웹 로그는 개별적인 정보일 뿐
이를 바탕으로 트랜잭션의 개념도 알아서 잡아줘야 함.
관련없는 정보 없애버리고, 로그 파싱을 통해서 누가 언제 무엇을 조회했는지 분석한다.
같은 아이피에서 들어온 로그간의 시간차를 분석
이를 바탕으로 파이썬 등에서 만들어진 함수 이용해서 계산하면 된다!
프로젝트: 주제와 분석의 목적을 정확히 하자

파이썬은 SQL을 적용하지 않는다.
(select 등이 안 먹음)
표준 SQL을 사용하려면 기존 DB를 연결해야 한다.
R은 SQL을 먹는다.