[2018/07/18] 머신러닝 1. 머신러닝 개요
인공지능 컴퓨터를 사람처럼 만들고자 하는 기술의 총칭 머신러닝 데이터를 주면 데이터를 기반으로 학습해서 로직을 자동으로 만들어내는 기술 다양한 알고리즘이 있음 딥러닝 인공신경망 방식으로 컴퓨터 스스로 해결하는 방법 신경망을 컴퓨터적으로 구현한 것. 나온 지 오래된 기술임. 머신러닝 중에서도 결정트리만 담당 인공지능 […]
인공지능 컴퓨터를 사람처럼 만들고자 하는 기술의 총칭 머신러닝 데이터를 주면 데이터를 기반으로 학습해서 로직을 자동으로 만들어내는 기술 다양한 알고리즘이 있음 딥러닝 인공신경망 방식으로 컴퓨터 스스로 해결하는 방법 신경망을 컴퓨터적으로 구현한 것. 나온 지 오래된 기술임. 머신러닝 중에서도 결정트리만 담당 인공지능 […]
데이터 축소 -데이터를 압축하는 효과 A, B, C group by A, B, C, AB, BC, CA, ABC 이렇게 7가지 + NULL 까지 8가지로 추상화 가능 select sum(A) from tab1 (group by NULL) 널로 하면 결과값 1개 나온다. 최상위 추상화임 –> […]
\d – 숫자 \w – 영문자 (, 숫자) 모든 문자 [a-z] 영문자 {} 연속된 패턴 \d{3} 연속된 숫자 3개 \d{1,3} 숫자가 1이나 2이나 3개 연속으로 나오는 패턴 + 한개 이상이 연속패턴 == {1,무한대} * 0개 이상의 연속 . 모든 음절 […]
개체의 식별 메타데이터 이용해서 속성의 동일성 여부를 판단한다. 하나의 데이터를 두 개로 쪼갤 때 보는 게 함수적 종속 관계 -명제 이야기 – x = {x1, x2} y = {y1, y2} x1 = x2 –> y1 = y2를 보장한다면 (어떤 상황에도 […]
Decision Tree가 많아져서 random forest Decision Tree node, edge, tips easy to interpret 강력함. entropy high entropy –> mixed 어떤 데이터는 잘 섞여있을 것이다. 이를 우리가 decision tree를 이용해서 섞이지 않은 분리된 상태로 만든다. 노드 하나씩 거쳐갔을 때마다 entropy가 낮아진다. […]
select * from employee; select deptname, empname, title, salary from employee e, department d where e.dno = d.deptno order by deptname, salary desc; select e.empname as manager, m.empname as employee from employee e, employee m where e.manager = m.empno; select […]
결측값 파이썬에서는 NaN이라고 나옴 원측데이터와 가장 닮아있는 데이터를 넣을 수 있도록 한다. 5번이 4번보다 조금 더 고급적인 전처리 방법 값의 추정치를 넣을 수도 있다. 2.1. 결측값의 처리 전역상수를 사용하는 방법: 미리 정해진 수를 집어넣은 것 동일 너비 방식: 0 […]
데이터분석에서 가장 많이 쓰는 툴 – R, 파이썬, SQL 데이터전처리가 필요한 이유: 실무에서는 input data의 모양이 예쁘게 존재하지 않는다. input data를 만들기까지 많은 노력이 필요하다. 실무 데이터는 또한 오류가 많고 비어있는 값들이 많다. 정제된 값이 많지 않다. Garbage in Garbage […]
오라클 -객체 관계 DBMS -대형 규모의 DB는 모두 다 오라클이다 대부분 SQL 표준은 비슷비슷하다 선언적 언어: what만 명시하면 how는 명시할 필요가 없음 데이터 정의어와 무결성 제약조건 테이블은 실제로 만든 것 만들다 쓰다보니 유출 안 돼야 할 것들도 있을 경우 뷰라는 […]
데이터: 의미를 갖는 사실 데이터베이스: 연관된 데이터의 모임 정형 데이터 –> 관계형 데이터베이스 mini-world: 각 데이터베이스만의 형식과 내용을 갖고있다 비정형 데이터 -책의 한 페이지 -연관된 데이턴데 형식이 없다 반정형 데이터 데이터와 데이터베이스 – 데이터 데이터 == 물 DBMS: 데이터베이스를 운용하는 […]