오늘 공부한 내용
04 _ 연관분석
__1. 연관분석의 개요 및 측도
__2. 연관분석의 알고리즘과 특징
__핵심문제
__기출유형문제
__예상문제
공부한 내용 정리
1. 연관분석의 개요 및 측도
(1) 연관분석의 개요
- 장바구니 분석
- 탐색적 기법의 일종
- 비지도 학습
- 사용이 편리하고 계산이 간편
- 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가
(2) 연관분석의 측도
- 지지도
- 전체 거래 중 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율로, 지지도가 높다는 것은 그 두개의 아이템이 같이 잘 팔린다는 것을 의미
- 신뢰도
- 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률로, 조건부 확률
- A가 구매되었을 때 B가 구매될 확률인 신뢰도(A→B)와, B가 구매되었을 때 A가 구매될 확률(B→A)의 신뢰도는 다르다.
- 향상도
- 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸 값이다.
- 신뢰도와 달리 향상도(A→B)와 (B→A)는 같다.
2. 연관분석의 알고리즘과 특징
(1) 연관분석의 알고리즘
- apriori 알고리즘
- 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소시키는 알고리즘
- apriori 알고리즘 절차
- 최소 지지도를 설정
- 최소 지지도보다 큰 지지도를 갖는 단일 품목을 선별
- 위 과정에 찾은 단일 품목으로 2가지 품목으로 생성되는 연관규칙 중 최소 지지도 이상의 연관규칙을 찾는다.
- 위 과정을 반복적으로 수행, 3가지 이상의 품목에 대한 연관규칙을 생성하면서 의미 있는 결과를 찾는다.
- FP-Growth 알고리즘
- 데이터셋이 큰 경우 모든 아이템셋을 하나씩 검사하는 것이 비효율적이라는 문제점에서 탄생.
- 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 차츰 올라가면서
- 빈도 수가 높은 아이템 집합을 생성하는 상향식 알고리즘.
- apriori 알고리즘보다 속도가 빠르며, 연산비용이 저렴하다.
(2) 연관분석의 특징
장점 | 단점 |
결과가 단순하고 분명하다. 분석을 위한 계산이 간단하다. 목적변수가 없으므로 데이터 탐색을 위해 사용 가능하다. |
품목 세분화에 어려움이 있다. 품목 수의 증가는 기하급수적인 계산량의 증가를 초래한다. 거래가 발생하지 않은 품목에 대해서는 분석이 불가능하다. |
순차패턴: 연관분석+시간
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.