[2018/07/12] 랜덤포레스트 1
Decision Tree가 많아져서 random forest Decision Tree node, edge, tips easy to interpret 강력함. entropy high entropy –> mixed 어떤 데이터는 잘 섞여있을 것이다. 이를 우리가 decision tree를 이용해서 섞이지 않은 분리된 상태로 만든다. 노드 하나씩 거쳐갔을 때마다 entropy가 낮아진다. […]
Decision Tree가 많아져서 random forest Decision Tree node, edge, tips easy to interpret 강력함. entropy high entropy –> mixed 어떤 데이터는 잘 섞여있을 것이다. 이를 우리가 decision tree를 이용해서 섞이지 않은 분리된 상태로 만든다. 노드 하나씩 거쳐갔을 때마다 entropy가 낮아진다. […]
select * from employee; select deptname, empname, title, salary from employee e, department d where e.dno = d.deptno order by deptname, salary desc; select e.empname as manager, m.empname as employee from employee e, employee m where e.manager = m.empno; select […]
결측값 파이썬에서는 NaN이라고 나옴 원측데이터와 가장 닮아있는 데이터를 넣을 수 있도록 한다. 5번이 4번보다 조금 더 고급적인 전처리 방법 값의 추정치를 넣을 수도 있다. 2.1. 결측값의 처리 전역상수를 사용하는 방법: 미리 정해진 수를 집어넣은 것 동일 너비 방식: 0 […]
데이터분석에서 가장 많이 쓰는 툴 – R, 파이썬, SQL 데이터전처리가 필요한 이유: 실무에서는 input data의 모양이 예쁘게 존재하지 않는다. input data를 만들기까지 많은 노력이 필요하다. 실무 데이터는 또한 오류가 많고 비어있는 값들이 많다. 정제된 값이 많지 않다. Garbage in Garbage […]
오라클 -객체 관계 DBMS -대형 규모의 DB는 모두 다 오라클이다 대부분 SQL 표준은 비슷비슷하다 선언적 언어: what만 명시하면 how는 명시할 필요가 없음 데이터 정의어와 무결성 제약조건 테이블은 실제로 만든 것 만들다 쓰다보니 유출 안 돼야 할 것들도 있을 경우 뷰라는 […]
데이터: 의미를 갖는 사실 데이터베이스: 연관된 데이터의 모임 정형 데이터 –> 관계형 데이터베이스 mini-world: 각 데이터베이스만의 형식과 내용을 갖고있다 비정형 데이터 -책의 한 페이지 -연관된 데이턴데 형식이 없다 반정형 데이터 데이터와 데이터베이스 – 데이터 데이터 == 물 DBMS: 데이터베이스를 운용하는 […]
List 졸라 깡패임 리스트 요소 리스트 내 인덱스는 0부터 시작 player_list[1] del num_str_list num_list [1:4] = [ ] 시작:종료 –> 포함, 미포함 player_list[::2] 슬라이스 한다고 하여 원래 리스트가 변경되지는 않는다 o_list는 player_list를 slice해서 새로 […]
5 정수 5.0 실수 연사자의 속성으로 인해 이렇게 됨 /로 하면 결과를 실수로 반환한다 int float 컴퓨터에는 무한대가 없다 예를 들어 32bit라면 2^32-1이 정수 한계 이보다 큰수나 작은 수를 표현할 수 없음 실수로 계산할 때는 오차가 발생할 수 있음 문자열끼리의 […]
컴퓨터 제일 처음 만든 사람은 계산기 대신에 만들었을 것. 계산이 조올라 빠름 컴퓨터 SW HW 구분하는 기준은 실제로 존재하느냐 SW: 하드웨어에게 명령들의 모임 SW도 시스템 소프트웨어와 응용 소프트웨어 시스템 소프트웨어: 하드웨어를 잘 이용하기 위해 사용하는 SW 응용 소프트웨어: 특적 목적을 […]