[2018/07/11] 데이터전처리 2. 데이터 정제

결측값
파이썬에서는 NaN이라고 나옴
원측데이터와 가장 닮아있는 데이터를 넣을 수 있도록 한다.
5번이 4번보다 조금 더 고급적인 전처리 방법
값의 추정치를 넣을 수도 있다.
2.1. 결측값의 처리
전역상수를 사용하는 방법: 미리 정해진 수를     집어넣은 것
동일 너비 방식: 0 ~ 5, 5 ~ 10 등등
–> 평균값, 중앙값, 경계값
아웃라이어들이 붙게 된다.
동일 높이 방식:  구간개수를 4로 가정
회귀
군집화
※ DB에서 커서의 개념
DB의 수학적 배경은 집합
sql 구문의 결과는 집합
그 결과를 한꺼번에 뿌리는 건 불가능
결과집합을 서버에 그대로 가지고 있고 커서만 준다!
DDL (definition)
-create
-alter: 구조변경
-drop: 객체 자체를 지워버리기
DML (manipulation)
-insert: 삽입
-update: 수정
-delete: 삭제 (튜플)
-select: 검색
truncate는 구조는 남기되 그 안의 데이터를 다 지워버리기
-(빈 껍데기만 남기기)
-delete from table이랑 똑같은 명령: 다 지워진다
그런데 결과는 차이가 없지만 다른 게 있다. delete은 undo(roll-back)가 있다. commit만 안 하면 된다.
trancate는 roll back이 안 된다.
빠르기는 truncate이 훨씬 빠르다.
roll back이 있다는 건 어디엔가 메모리를 남겨놓고 있다는 뜻