데이터베이스 쪽에서 나온 기술들
복잡한 수학이나 통계 이론 없이 DB 기술로!
빈발패턴을 먼저 구해야 연관규칙이 구해진다.
빈발항목집합 탐사
장바구니 분석: 여러 항목들이 동시에 또는 근접한 시점에 발생하는 데이터에 대해 적용 가능
빈발패턴
transaction: 한번에 같이 구매한 제품들 i.e. {빵, 버터}
항목집합 정의
항목: 네이버에 들어온 검색어 하나
전체 항목 집합
항목 집합: 전체 항목 집합의 부분 집합
트랜젝션: 실제로 동시에 발생한 항목집합. 얘 역시 항목집합
트랜젝션 데이터베이스: 트랜젝션들의 모임 i.e. 영수증의 모임
지지도 빈도
항목집합이 나타나는 트랜잭션의 수
이중 Bread의 지지도 빈도는 4임
지지도
Bread의 지지도는 4/5 = 0.8
빈발항목집합: 분석가가 정한 최소지지도 임계치 Smin 이상인 항목집합들
–> 결국 기준은 상대적이다
상품이 총 5개가 있다고 하면
빈도를 분석하기 위해 2^5 항목집합 가능
–> 개념적으로는 쉬웠으나 이걸 다 계산해보려면…
빈발항목집합 탐사 알고리즘
그렇다면 수치 데이터는 어떻게 할 것인가?
수치형 속성 변환
이산화 & 1D 클러스터링 해야함
클러스터링은 수치 데이터만을 대상으로 한다.
데이터탐험
만약 트랜젝션에 금액까지 포함돼있다 해보자
1.
이산화 방법: 예를 들어 1000원 단위로 자르자
2.
1D 클러스터링: 그냥 클러스터링 ID를 넣어버리자 범주형 데이터로
1D니까 가격만 따진다.
최저지지도 임계값 잘 찾자